Onderzoekers van de Universiteit voor Wetenschap en Technologie in China hebben een nieuw ontwikkeld versterkend leren (RL) raamwerk dat helpt bij het trainen van grote taalmodellen (LLM’s) voor complexe agenttaken die verder gaan dan goed gedefinieerde problemen zoals wiskunde en coderen.
Hun kozijnen, Agent R1is compatibel met populaire RL-algoritmen en vertoont een aanzienlijke verbetering bij redeneertaken waarvoor meerdere ophaalstappen en multi-turn-interacties met tools nodig zijn.
Het raamwerk is gebouwd op een herdefinitie van het RL-paradigma, waarbij rekening wordt gehouden met de dynamische aard van agenttoepassingen die interactie vereisen met evoluerende omgevingen en imperfecte informatie. Dit raamwerk lijkt veel meer op toepassingen in de echte wereld en kan belangrijke toepassingen hebben voor agenttaken in bedrijfsomgevingen.
Heroverweging van versterkend leren voor agenten
RL is een hoeksteen geworden bij het trainen van LLM’s voor goed gedefinieerde redeneertaken. Op gebieden als wiskunde en coderen krijgt het model een duidelijk signaal: het antwoord is goed of fout. Dit maakt het relatief eenvoudig om zijn gedrag te belonen of te bestraffen.
Maar deze aanpak kampt met agentische taken waarvoor modellen nodig zijn om in interactieve omgevingen te werken, dynamische herinneringen aan gesprekken te ontwikkelen, in meerdere stappen te redeneren en te reageren op onvoorspelbare feedback. Het trainen van agenten met RL voor deze scenario’s brengt unieke uitdagingen met zich mee, vooral bij interacties met meerdere beurten waarbij het ontwerp van effectieve beloningen complex is en de getrainde agent er vaak niet in slaagt te generaliseren naar de rommelige, onvoorspelbare aard van echte omgevingen.
Om deze uitdagingen aan te pakken, hebben onderzoekers van de Universiteit voor Wetenschap en Technologie het basisraamwerk voor RL herzien, bekend als Markov-beslissingsproces (MDP). Een MDP modelleert de besluitvorming met behulp van vier belangrijke componenten: een toestandsruimte (de reeks mogelijke toestanden waarin een agent zich kan bevinden); een actieruimte (wat de agent kan doen); een waarschijnlijkheid van een toestandsovergang (de toestand waartoe een actie waarschijnlijk zal leiden); en een beloningsfunctie (of het resultaat goed of slecht is). Het artikel stelt voor om dit raamwerk uit te breiden zodat het beter geschikt is voor LLM-agenten.
In de nieuwe formulering wordt de toestandsruimte uitgebreid en omvat niet alleen de huidige toestand (de huidige reeks tokens gegenereerd door het model), maar de hele geschiedenis van interacties en omgevingsfeedback. Acties gaan nog steeds fundamenteel over het genereren van tekst, maar specifieke reeksen tekst kunnen nu externe tools activeren, zoals een API-aanroep. Toestandsovergangen worden onvoorspelbaar of ‘stochastisch’ omdat de uitkomst niet alleen afhangt van de tokens die het model voorspelt, maar ook van de reactie van de omgeving, die afhankelijk is van externe factoren. Ten slotte wordt het beloningssysteem gedetailleerder en omvat het tussentijdse ‘procesbeloningen’ voor het succesvol voltooien van stappen onderweg, in plaats van slechts een enkele beloning helemaal aan het einde. Dit zorgt voor frequentere en nauwkeurigere begeleiding van de agent tijdens de training.
Dit laatste stukje is vooral belangrijk en behandelt het probleem van de “schaarse beloning” waarmee de meeste RL-frameworks worden geconfronteerd. Wanneer de agent een enkel beloningssignaal ontvangt op basis van de uiteindelijke uitkomst, leert hij niet van de goede en verkeerde tussenstappen die hij onderweg heeft gezet. Procesbeloningen lossen dit probleem op door bij deze tussenstappen feedbacksignalen te geven, waardoor het leerproces veel efficiënter wordt.
“Deze uitbreidingen zijn essentieel om algoritmen voor versterkend leren mogelijk te maken om geavanceerde agenten te trainen die in staat zijn tot complex meerstaps redeneren en interactie in dynamische omgevingen”, schrijven de onderzoekers in hun paper.
Het Agent R1-framework
Op basis van de uitgebreide MDP-definitie ontwikkelden de onderzoekers Agent R1een flexibel en gebruiksvriendelijk trainingsplatform voor op RL gebaseerde LLM-agenten. Het breidt traditionele single-turn RL-frameworks uit om het multi-turn, interactieve karakter van agenttaken aan te kunnen, waardoor naadloze integratie met diverse omgevingen mogelijk wordt.
Het belangrijkste verschil ligt in de fase van de “implementatie”, waarin de agent reacties genereert. Bij single-turn RL genereert het model één keer een reactie. Bij multi-turn RL omvat het proces een reeks complexe heen-en-weer-interacties.
Agent-R1 realiseert deze flexibele multi-turn-implementatie met twee kernmodules: Tool en ToolEnv. De hulpprogrammamodule fungeert als uitvoering van specifieke acties, zoals het aanroepen van een API of het benaderen van een database. Wanneer een tool wordt aangeroepen, voert hij zijn actie uit en retourneert het directe, ruwe resultaat. De ToolEnv-module is daarentegen de orkestrator en tolk. Het neemt de uitvoer van de tool en bepaalt hoe die uitvoer de status van de agent en de algemene taakvoortgang beïnvloedt. ToolEnv beheert statusovergangen, berekent beloningssignalen op basis van toolresultaten en verpakt de nieuwe statusinformatie voor de agent.
Kortom, wanneer een actie is voltooid, rapporteert de tool ‘wat er is gebeurd’, terwijl ToolEnv dicteert ‘wat dit resultaat betekent voor de agent en de taak’.
Agent R1 in actie
De onderzoekers testten Agent-R1 op de uitdagende taak van het beantwoorden van multi-hop-vragen, waarvoor complexe redeneringen, het ophalen van informatie over meerdere documenten en besluitvorming in meerdere stappen nodig zijn. Ze trainden Qwen2.5-3B-Instruct op QA-datasets en evalueerden de prestaties ervan Hete pot En 2WikiMultihopQA gegevensset. Ze testten het ook op de Musique-dataset, die buiten het domein van de taken lag waarvoor de agent was getraind.
Ze vergeleken verschillende RL-algoritmen die met Agent-R1 waren getraind met twee basislijnen: Naive RAG, een single-pass ophaalmethode waarbij een LLM antwoordt op basis van één set opgehaalde documenten, en Base Tool Call, die gebruikmaakt van de native feature calling-mogelijkheden van het model zonder gespecialiseerde RL-training.
Uit de resultaten bleek dat alle RL-getrainde agenten aanzienlijk beter presteerden dan de uitgangswaarden. GRPO, een RL-algoritme dat wordt gebruikt in geavanceerde redeneermodellen zoals DeepSeek-R1de beste algehele prestatie geleverd.
“Deze resultaten valideren effectief de effectiviteit van Agent-R1 bij het trainen van krachtige LLM-agents via end-to-end RL, en laten consistente, significante winsten zien ten opzichte van de basislijnen voor verschillende datasets en RL-algoritmen”, schrijven de onderzoekers.
Deze bevindingen kunnen van groot belang zijn voor ondernemingen, waar er een sterke drang is om RL en redeneren buiten welomschreven domeinen toe te passen. Een raamwerk dat is ontworpen om rommelige, multi-turn interacties met gebruikers en dynamische omgevingen aan te kunnen, kan de weg vrijmaken voor nieuwe agenten die in staat zijn complexe problemen uit de echte wereld op te lossen.
“We hopen dat Agent-R1 een basis biedt voor toekomstig werk aan schaalbare en uniforme RL-training voor agentic LLM’s”, concluderen de onderzoekers.


