Wetenschappers weten het Google Cloud En UCLA hebben een nieuw raamwerk voor versterkend leren voorgesteld dat het vermogen van taalmodellen om zeer uitdagende redeneertaken in meerdere stappen te leren aanzienlijk verbetert. Begeleiden van versterkend leren (SRL) herformuleert het oplossen van problemen als een opeenvolging van logische ‘acties’ die rijke leersignalen bieden tijdens het trainingsproces.
Deze aanpak maakt het mogelijk dat kleinere modellen complexe problemen kunnen leren die voorheen buiten het bereik van andere gangbare trainingstechnieken lagen. Experimenten tonen aan dat SRL niet alleen uitblinkt op het gebied van wiskundig redeneren, maar ook effectief generaliseert naar agentische software-engineeringtaken.
SRL is een veelzijdig trainingsframework dat kleinere en goedkopere modellen naar een hoger niveau kan tillen.
De grenzen van de huidige LLM-redeneertraining
De recente vooruitgang bij het trainen van grote taalmodellen (LLM’s) voor redeneren is grotendeels te danken aan versterkend leren met verifieerbare beloningen (RLVR), een methode waarbij een model wordt beloond op basis van de juistheid van het uiteindelijke antwoord. Door herhaaldelijk te proberen problemen op te lossen en feedback te krijgen over het eindresultaat, leert het model geleidelijk effectieve probleemoplossende strategieën.
Het succes van deze resultaatgerichte aanpak hangt echter af van het vermogen van het model om binnen een beperkt aantal pogingen of “runs” een correcte oplossing te vinden. Omdat elke uitrol rekentechnisch duur is, kunnen modellen het niet oneindig proberen. Deze methode stuit op een muur als de problemen zo moeilijk zijn dat het model zelden of nooit het juiste antwoord vindt binnen zijn budget.
Dit creëert een kritisch leerknelpunt. Bij veel meerstapsredeneringsproblemen kan een model verschillende stappen correct oplossen, maar ontsporen door een enkele fout, wat tot een onjuist antwoord leidt. Met RLVR krijgt deze hele inspanning een negatieve beloning, en het model leert niets van zijn gedeeltelijk correcte werk. Het is een alles-of-niets-aanpak die geen gedetailleerde feedback geeft en slechts spaarzame beloningen oplevert.
Een alternatieve methode is supervisie fine-tuning (SFT), waarbij het model leert van voorbeelden die het volledige redeneerproces bevatten, opgesteld door experts. Hoewel SFT redeneervaardigheden kan bijbrengen, leidt het vaak tot overfitting (het model leert eenvoudigweg de trajecten in de trainingsgegevens na te bootsen in plaats van te leren generaliseren naar problemen die verder gaan dan de voorbeelden die het heeft gezien). Dit probleem wordt verergerd door het feit dat door mensen gegenereerde trainingsgegevens van hoge kwaliteit zowel schaars als duur zijn om te produceren.
Zoals het artikel opmerkt, laten deze beperkingen “een kritieke leemte achter voor het trainen van kleine open source-modellen om op efficiënte wijze moeilijke problemen te leren.”
Hoe begeleid versterkend leren werkt
SRL introduceert een raamwerk dat het oplossen van problemen herformuleert als een ‘opeenvolgend besluitvormingsproces’ dat een evenwicht vindt tussen pure resultaatgerichte RL en puur imitatief leren. In plaats van alleen te optimaliseren voor het uiteindelijke antwoord of het model te dwingen het hele denkproces van een expert na te bootsen, leert SRL het model een reeks sleutelacties te reproduceren die de ruggengraat vormen van de redenering van de experts. Hierdoor kan het model leren acties uit te voeren die vergelijkbaar zijn met die van een expert, terwijl het zijn eigen interne redeneerstijl ontwikkelt.
In het SRL-raamwerk worden demonstraties van deskundigen onderverdeeld in een reeks tussenliggende concrete acties, die elk een betekenisvolle stap vertegenwoordigen. Voor een wiskundig probleem kan een actie een algebraïsche manipulatie zijn. Voor een software-engineeringagent kan het een opdracht zijn die wordt uitgevoerd in een codeopslagplaats. Om trainingsdata te genereren gebruikt SRL een krachtig lerarenmodel om oplossingstrajecten te creëren, die vervolgens worden gebruikt om een kleiner model te trainen.
Volgens I-Hung Hsu, onderzoeker bij Google en co-auteur van het artikel, is deze tussenliggende benadering de sleutel tot de effectiviteit ervan in reële scenario’s. “SRL zit in het midden: het weerspiegelt de gestructureerde flexibiliteit van het oplossen van problemen in de echte wereld, waarbij er meerdere geldige strategieën zijn, maar ook duidelijke ideeën over hoe ‘goed redeneren’ er bij elke stap uitziet”, vertelde Hsu aan VentureBeat. “Dit maakt SRL zeer geschikt voor domeinen als data science-automatisering of, waarschijnlijk, supply chain-optimalisatie – taken die gezonde tussenredenen belonen in plaats van alleen maar definitieve antwoorden.”
Tijdens de training genereert het model eerst een ‘innerlijke monoloog’ (het interne redeneringsproces, vervat in
SRL in actie
Uit de experimenten van de onderzoekers blijkt dat SRL aanzienlijk beter presteert dan sterke basislijnen in zowel uitdagende wiskundige redeneringen als benchmarks voor agentische software-engineering. Ze merkten ook op dat SRL flexibelere en geavanceerdere redeneerpatronen in modellen aanmoedigt, zoals interleaved planning en zelfverificatie, die de kwaliteit van de oplossing verbeteren zonder de output simpelweg langer te maken.
Voor bedrijfsmanagers zijn prestatiewinsten alleen waardevol als ze geen verzonken kosten met zich meebrengen. Hsu verduidelijkt dat door SRL getrainde modellen efficiënter redeneren. “De winst komt voort uit een betere redeneerkwaliteit en -structuur, niet uit de formulering”, zei hij. “In termen van efficiëntie zijn door SRL getrainde modellen ongeveer op één lijn met het basismodel wat betreft tokengebruik… hoewel SRL niet is ontworpen om de inferentiekosten te verlagen, bereikt het sterkere redeneerprestaties zonder deze te verhogen.”
Voor de wiskundetoetsen heeft het team zich verfijnd Qwen2.5-7B instructie op een dataset van 1000 moeilijke wiskundevragen. Ze vergeleken de prestaties ervan met modellen die waren getraind met SFT en RLVR (met behulp van het GRPO-algoritme dat gebruikelijk is in modellen zoals DeepSeek-R1) op vier wiskundebenchmarks op competitief niveau. Het door SRL getrainde model behaalde een aanzienlijke gemiddelde prestatieverbetering van 3,0% ten opzichte van andere methoden.
Het team breidde SRL uit naar de ontwikkeling van agentsoftware, een domein dat cruciaal is voor bedrijfsautomatisering. Ze hebben een op coderen gespecialiseerd model getraind, Qwen2.5-Coder-7B-Instrueerop 5.000 experttrajecten van agenten die interactie hebben met een codeeromgeving. Het SRL-getrainde model werd vergeleken met het oorspronkelijke basismodel en SWE-Gym-7B, een sterke basislijn verfijnd met SFT. SRL behaalde een probleemoplossingspercentage van 14,8%, wat een relatieve verbetering van 74% vertegenwoordigt ten opzichte van het op SFT gebaseerde model. Dit demonstreert het vermogen van SRL om competentere AI-agenten te trainen voor complexe programmeertaken in de echte wereld.
Een nieuwe standaard voor AI met hoge inzet?
De sterkste resultaten van het artikel kwamen voort uit het combineren van methoden: eerst SRL gebruiken om basisredeneren aan te leren, en vervolgens RLVR gebruiken om die vaardigheid te verfijnen. In hun experimenten, toen de onderzoekers SRL gebruikten als pre-training en RLVR toepasten tijdens de post-training, constateerden ze een gemiddelde stijging van 3,7%, wat een krachtige leerstrategie voor het curriculum aantoont.
Dit roept de vraag op of dit een nieuwe blauwdruk zou kunnen worden voor het bouwen van gespecialiseerde AI.
“We zien SRL als een sterke basis”, zei Hsu. “In zekere zin biedt SRL een curriculum – leermodellen voor denken en handelen stap voor stap – voordat we dat gedrag verfijnen met resultaatgericht versterkend leren. Deze SRL-eerste benadering stabiliseert niet alleen de latere RL-fase, maar maakt redeneren ook beter interpreteerbaar en generaliseerbaar, wat van cruciaal belang is voor toepassingen met hoge inzet.”
Vooruitkijkend erkent Hsu dat het opschalen van deze pijplijn nog steeds voor uitdagingen staat, met name de hoge kosten en complexiteit van end-to-end RLVR voor agenttaken. Hij is echter optimistisch over de weg vooruit. “Hoewel deskundige processen van hoge kwaliteit belangrijk blijven,” concludeerde hij, “geloven wij dat de volgende grote stap zal komen uit het automatiseren van het genereren en filteren ervan – door gebruik te maken van sterke lerarenmodellen of zelfs zelfverbeterende leerlingmodellen om nieuwe gegevens op te bouwen.”


