Home Nieuws Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor inferentie kunt optimaliseren

Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor inferentie kunt optimaliseren

1
0
Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor inferentie kunt optimaliseren

De standaardrichtlijnen voor het bouwen van grote taalmodellen (LLM’s) optimaliseren alleen de trainingskosten en negeren de gevolgtrekkingskosten. Dit vormt een uitdaging voor toepassingen in de echte wereld die tijdschalingstechnieken gebruiken om de nauwkeurigheid van modelreacties te vergroten, zoals het trekken van meerdere redeneringsmonsters uit een model bij de implementatie.

Om deze kloof te overbruggen hebben onderzoekers van de Universiteit van Wisconsin-Madison en Stanford University geïntroduceerd Trein-naar-test (T2) schaalwetten, een raamwerk dat gezamenlijk de parametergrootte van een model, het trainingsdatavolume en het aantal testtijdbeëindigingsmonsters optimaliseert.

In de praktijk bewijst hun aanpak dat het computationeel optimaal is om aanzienlijk kleinere modellen te trainen op veel meer gegevens dan traditionele regels voorschrijven, en vervolgens de bespaarde computationele overhead te gebruiken om meer herhaalde steekproeven te genereren door gevolgtrekking.

Voor ontwikkelaars van zakelijke AI-applicaties die hun eigen modellen trainen, biedt dit onderzoek een bewezen blauwdruk voor het maximaliseren van het rendement op investeringen. Het laat zien dat AI-redeneringen niet noodzakelijkerwijs vereisen dat er enorme hoeveelheden geld aan grensmodellen worden uitgegeven. In plaats daarvan kunnen kleinere modellen betere prestaties leveren bij complexe taken, terwijl de kosten per eenheid worden verlaagd. vraag beheersbaar gehouden binnen de reële uitvoeringsbudgetten.

Conflicterende schaalwetten

Schaalwetten vormen een belangrijk onderdeel van de ontwikkeling van grote taalmodellen. Schaalwetten vóór training bepalen de beste manier om berekeningen toe te wijzen tijdens het maken van modellen wetten voor het schalen van testtijd begeleiden hoe u berekeningen tijdens de implementatie kunt toewijzen, zoals het model “langer laten nadenken” of meer redeneervoorbeelden genereren om complexe problemen op te lossen.

Het probleem is dat deze schaalwetten volledig onafhankelijk van elkaar zijn ontwikkeld, ondanks het feit dat ze fundamenteel met elkaar verweven zijn.

De parametergrootte en trainingsduur van een model bepalen rechtstreeks zowel de kwaliteit als de kosten per aanvraag van de afsluitende tests. Momenteel de gouden standaard in de sector voor pre-training Chinchilla-regelwat een computationeel optimale verhouding suggereert van ongeveer 20 trainingstokens voor elke modelparameter.

Makers van moderne AI-modelfamilies zoals Llama, Gemma en Qwen overtreden deze regel echter regelmatig door hun kleinere modellen opzettelijk te overtrainen op enorme hoeveelheden data.

Zoals Nicholas Roberts, co-auteur van het artikel, aan VentureBeat vertelde, hapert de traditionele aanpak bij het bouwen van complexe agentische workflows: “Naar mijn mening valt de inferentiestapel uiteen wanneer elke inferentieoproep duur is. Dit is het geval wanneer de modellen groot zijn en je veel herhaalde steekproeven moet doen.” In plaats van te vertrouwen op enorme modellen, kunnen ontwikkelaars overtrainde compacte modellen gebruiken om deze herhaalde bemonstering uit te voeren tegen een fractie van de kosten.

Omdat de wetten voor het schalen van training en testtijd echter afzonderlijk worden bestudeerd, bestaat er geen rigoureus raamwerk om te berekenen in hoeverre een model overtraind moet worden op basis van het aantal redeneringsmonsters dat het tijdens de implementatie zou moeten genereren.

Daarom bestond er voorheen geen formule die gezamenlijk de modelgrootte, het trainingsdatavolume en de budgetten voor het einde van de test optimaliseert.

De reden dat dit raamwerk moeilijk te formuleren is, is dat voortraining en testtijdschaling twee verschillende wiskundige talen spreken. Tijdens de voortraining worden de prestaties van een model gemeten met behulp van ‘verlies’, een soepele, continue metriek die voorspellingsfouten bijhoudt terwijl het model leert.

Tijdens de testfase gebruiken ontwikkelaars downstream-real-world-metrieken om het redeneervermogen van een model te evalueren, zoals pass@k, dat de waarschijnlijkheid meet dat een model ten minste één juist antwoord zal opleveren in k onafhankelijke, herhaalde pogingen.

Schaalwetten voor het trainen naar testen

Om de kloof tussen training en implementatie op te lossen, introduceren de onderzoekers Train-to-Test (T2) schaalwetten. Op een hoog niveau voorspelt dit raamwerk de redeneerprestaties van een model door drie variabelen als één enkele vergelijking te behandelen: de grootte van het model (N), de hoeveelheid trainingstokens waarvan het leert (D), en het aantal redeneermonsters dat het genereert tijdens gevolgtrekking (k).

“Train-to-test” combineert de wetten van pre-training en testtijdschaling in een uniform raamwerk (bron: arXiv)

T2 combineert pretraining- en inferentiebudgetten in één optimalisatieformule die rekening houdt met zowel de basiskosten voor het trainen van het model (6ND) als de samengestelde kosten om het herhaaldelijk te bevragen voor inferentie (2Nk). De onderzoekers probeerden verschillende modelleringsbenaderingen: of het verlies vóór de training of de prestatie tijdens de test (pass@k) moesten worden gemodelleerd als functies van N, D en k.

De eerste benadering neemt de bekende wiskundige vergelijking die wordt gebruikt voor Chinchilla-schaling (die de voorspellingsfout of het verlies van een model berekent) en wijzigt deze rechtstreeks door een nieuwe variabele toe te voegen die rekening houdt met het aantal herhaalde testtijdmonsters (k). Hierdoor kunnen ontwikkelaars zien hoe toenemende gevolgtrekkingsberekeningen het algehele foutenpercentage van het model verlagen.

De tweede benadering modelleert rechtstreeks de stroomafwaartse pass@k-nauwkeurigheid. Het vertelt ontwikkelaars hoe waarschijnlijk het is dat hun applicatie een probleem zal oplossen, gegeven een specifiek rekenbudget.

Maar moeten bedrijven dit raamwerk voor elke toepassing gebruiken? Roberts verduidelijkt dat deze aanpak zeer gespecialiseerd is. “Ik kan me voorstellen dat je niet zo’n groot voordeel zou zien voor kennisintensieve toepassingen, zoals chatmodellen”, zei hij. In plaats daarvan: “T2 is op maat gemaakt voor toepassingen die zwaar redeneren, zoals coderen, waarbij u normaal gesproken herhaalde steekproeven gebruikt als testtijdschalingsmethode.”

Wat het betekent voor ontwikkelaars

Om T te valideren2 Om de schaalwetten te kunnen aanpassen, bouwden de onderzoekers een uitgebreid testbed met meer dan 100 taalmodellen, variërend van 5 miljoen tot 901 miljoen parameters. Ze trainden 21 nieuwe, zwaar overtrainde controlepunten helemaal opnieuw om te testen of hun wiskundige voorspellingen klopten. Vervolgens hebben ze de modellen vergeleken met acht verschillende taken, waaronder datasets uit de echte wereld, zoals SciQ en OpenBookQA, samen met synthetische taken die zijn ontworpen om rekenkunde, ruimtelijk redeneren en kennisherinnering te testen.

Hun beide wiskundige modellen bewezen dat de computationeel optimale grens drastisch verschuift van de standaard Chinchilla-schaling. Om de prestaties onder een vast budget te maximaliseren, is de optimale keuze een model dat aanzienlijk kleiner is en op veel meer gegevens is getraind dan de traditionele regel van 20 tokens per parameter voorschrijft.

trein-tot-test-prestaties

De boom-naar-test schaalwetten laten zien dat kleine, overtrainde modellen beter presteren dan voor Chinchilla geoptimaliseerde modellen op het gebied van redeneertaken (bron: arXiv)

In hun experimenten presteerden de sterk overtrainde kleine modellen consistent beter dan de grotere, Chinchilla-optimale modellen bij alle acht evaluatietaken, wanneer rekening werd gehouden met de kosten van bemonstering tijdens het testen.

Voor ontwikkelaars die deze bevindingen willen implementeren, is de technische barrière verrassend laag.

“Er is niets speciaals voor nodig om testtijdschaling uit te voeren met onze huidige modellen,” zei Roberts. “Bij de implementatie kunnen ontwikkelaars absoluut infrastructuur integreren die het samplingproces efficiënter maakt (bijvoorbeeld KV-cache als je een transformator gebruikt).”

KV-caching helpt door eerder verwerkte context op te slaan, zodat het model de initiële prompt voor elk nieuw redeneervoorbeeld niet opnieuw hoeft te lezen.

Extreme overtraining brengt echter praktische nadelen met zich mee. Hoewel overtrainde modellen notoir koppig en moeilijker te verfijnen kunnen zijn, merkt Roberts op dat wanneer ze onder toezicht verfijnde afstemming gebruikten, “terwijl dit effect aanwezig was, het niet sterk genoeg was om het optimale model terug te brengen naar Chinchilla.” De computationeel optimale strategie blijft beslist gericht op compacte modellen.

Toch moeten teams die dit tot het uiterste drijven op hun hoede zijn voor het bereiken van fysieke datalimieten. “Een andere invalshoek is dat als je onze aanbevelingen voor overtraining tot het uiterste doorvoert, je feitelijk zonder trainingsgegevens kunt komen te zitten”, zei Roberts, verwijzend naar de dreigende “datamuur” waar hoogwaardige internetgegevens uitgeput raken.

Deze experimenten bevestigen dat als een applicatie afhankelijk is van het genereren van meerdere test-time redeneermonsters, het agressief overtrainen van een compact model praktisch en wiskundig gezien de meest efficiënte manier is om een ​​end-to-end computationeel budget te gebruiken.

Om ontwikkelaars op weg te helpen, is het onderzoeksteam van plan binnenkort hun controlepunten en code te openen, zodat bedrijven hun eigen gegevens kunnen aansluiten en het schaalgedrag meteen kunnen testen. Uiteindelijk dient dit raamwerk als een balancerende kracht in de AI-industrie.

Dit is vooral van cruciaal belang omdat de hoge kosten van grensmodellen een barrière kunnen vormen bij het opschalen van agenttoepassingen die afhankelijk zijn van redeneermodellen.

“T2 Er verandert fundamenteel wie sterke redeneermodellen mag bouwen”, besluit Roberts. “Je hebt misschien geen enorme computerbudgetten nodig om state-of-the-art redeneringen te krijgen. In plaats daarvan heb je goede data en een slimme verdeling van je opleidings- en afsluitbudget nodig.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in