Onderzoekers van het Tongyi Lab van Alibaba hebben een nieuw raamwerk ontwikkeld voor zelfontwikkelende agenten die hun eigen trainingsgegevens creëren door hun applicatieomgevingen te verkennen. het kader, AgentEvolvermaakt gebruik van kennis en redenering in grote taalmodellen voor autonoom leren, waarbij de hoge kosten en handmatige inspanningen worden aangepakt die doorgaans nodig zijn om taakspecifieke datasets te verzamelen.
Experimenten tonen aan dat AgentEvolver, vergeleken met traditionele, op leergebaseerde raamwerken, efficiënter is in het verkennen van zijn omgeving, beter gebruik maakt van gegevens en zich sneller aanpast aan applicatie-omgevingen. Voor ondernemingen is dit belangrijk omdat het de drempel verlaagt voor het opleiden van agenten voor aangepaste toepassingen, waardoor krachtige, aanpasbare AI-assistenten toegankelijker worden voor een breder scala aan organisaties.
De hoge kosten voor het trainen van AI-agenten
Versterkend leren is een belangrijk paradigma geworden voor het trainen van LLM’s om op te treden als agenten die kunnen communiceren met digitale omgevingen en kunnen leren van feedback. Maar het ontwikkelen van agenten met RL staat voor fundamentele uitdagingen. Ten eerste is het verzamelen van de noodzakelijke trainingsdatasets vaak onbetaalbaar, waardoor er veel handmatig werk nodig is om voorbeeldtaken te creëren, vooral in nieuwe of propriëtaire softwareomgevingen waar kant-en-klare datasets niet beschikbaar zijn.
Ten tweede vereisen de RL-technieken die gewoonlijk voor LLM’s worden gebruikt dat het model een groot aantal vallen en opstaan-proeven moet ondergaan om effectief te kunnen leren. Dit proces is computationeel duur en inefficiënt. Als gevolg hiervan blijft het trainen van capabele LLM-agenten via RL omslachtig en duur, waardoor de inzet ervan in aangepaste bedrijfsomgevingen wordt beperkt.
Dit is hoe AgentEvolver werkt
Het belangrijkste idee achter AgentEvolver is om modellen meer autonomie te geven in hun eigen leerproces. De onderzoekers omschrijven het als een ‘zichzelf ontwikkelend agentsysteem’, ontworpen om ‘autonome en effectieve capaciteitsontwikkeling te bereiken door middel van interactie met de omgeving’. Het maakt gebruik van de redenering van een LLM om een zelftrainingslus te creëren waarmee de agent voortdurend kan verbeteren door directe interactie met zijn doelomgeving, zonder de noodzaak van vooraf gedefinieerde taken of beloningsfuncties.
“We stellen ons een agentsysteem voor waarin LLM actief de verkenning, het genereren van taken en het verfijnen van prestaties begeleidt”, schreven de onderzoekers in hun papier.
Het zelfevolutieproces wordt aangedreven door drie samenwerkende kernmechanismen.
De eerste is zichzelf in vraag stellenwaarbij de agent zijn omgeving verkent om de grenzen van zijn functies te ontdekken en nuttige toestanden te identificeren. Het is alsof een nieuwe gebruiker door een applicatie klikt om te zien wat er mogelijk is. Op basis van deze verkenning genereert de agent zijn eigen diverse reeks taken die aansluiten bij de algemene voorkeuren van een gebruiker. Dit vermindert de behoefte aan handgemaakte datasets en zorgt ervoor dat de agent en zijn taken samen kunnen evolueren, waardoor hij geleidelijk aan complexere uitdagingen aankan.
Volgens Yunpeng Zhai, een onderzoeker bij Alibaba en co-auteur van het artikel, die met VentureBeat sprak, verandert het zelfondervragingsmechanisme het model effectief van een ‘dataconsument in een dataproducent’, waardoor de tijd en kosten die nodig zijn om een agent in een eigen omgeving in te zetten dramatisch worden verminderd.
Het tweede mechanisme is zelfnavigerendwat de exploratie-efficiëntie verbetert door het hergebruiken en generaliseren van ervaringen uit het verleden. AgentEvolver haalt inzichten uit zowel succesvolle als mislukte onderzoeken en gebruikt deze om toekomstige acties te begeleiden. Als een agent bijvoorbeeld een API-functie probeert te gebruiken die niet in een applicatie bestaat, registreert hij dit als een ervaring en leert hij het bestaan van functies te verifiëren voordat hij deze in de toekomst probeert te gebruiken.
Het derde mechanisme, zelf toeschrijvendverbetert de leerefficiëntie door meer gedetailleerde feedback te geven. In plaats van slechts een definitief succes- of mislukkingssignaal (een gebruikelijke praktijk in RL die kan resulteren in schaarse beloningen), gebruikt dit mechanisme een LLM om de bijdrage van elke individuele actie in een uit meerdere stappen bestaande taak te beoordelen. Het bepaalt achteraf of elke stap positief of negatief heeft bijgedragen aan het uiteindelijke resultaat, waardoor de agent fijnmazige feedback krijgt die het leren versnelt.
Dit is van cruciaal belang voor gereguleerde sectoren, waar de manier waarop een agent een probleem oplost net zo belangrijk is als de uitkomst. “In plaats van een leerling alleen te belonen voor het uiteindelijke antwoord, evalueren we ook de duidelijkheid en juistheid van elke stap van zijn redenering”, legt Zhai uit. Dit verbetert de transparantie en moedigt de agent aan om robuustere en beheersbare probleemoplossingspatronen aan te nemen.
“Door het trainingsinitiatief te verschuiven van door mensen gemaakte pijpleidingen naar LLM-geleide zelfverbetering, vestigt AgentEvolver een nieuw paradigma dat de weg vrijmaakt voor schaalbare, kosteneffectieve en voortdurend verbeterende intelligente systemen”, aldus de onderzoekers.
Het team heeft ook een praktisch, end-to-end trainingsframework ontwikkeld dat deze drie mechanismen integreert. Een centraal onderdeel van deze stichting is Contextmanagereen component die het geheugen en de interactiegeschiedenis van de agent beheert. Terwijl de huidige benchmarks een beperkt aantal tools testen, kunnen echte bedrijfsomgevingen duizenden API’s bevatten.
Zhai erkent dat dit een kernuitdaging is voor het veld, maar merkt op dat AgentEvolver is ontworpen om uitbreidbaar te zijn. “Het ophalen over extreem grote actieruimtes zal altijd computationele uitdagingen met zich meebrengen, maar de architectuur van AgentEvolver biedt een duidelijk pad naar schaalbare tool-redenering in bedrijfsomgevingen”, zei hij.
Een efficiënter pad naar agenttraining
Om de effectiviteit van hun raamwerk te meten, testten de onderzoekers het AppWereld En BFCLv3twee benchmarks waarbij agenten lange, uit meerdere stappen bestaande taken moeten voltooien met behulp van externe tools. Ze gebruikten modellen van Alibaba Qwen2.5-familie (7B- en 14B-parameters) en vergeleken hun prestaties met een basismodel dat was getraind met GRPO, een populaire RL-techniek die wordt gebruikt om redeneermodellen te ontwikkelen zoals DeepSeek-R1.
De resultaten toonden aan dat de integratie van alle drie de mechanismen in AgentEvolver tot aanzienlijke prestatieverbeteringen leidde. Voor het 7B-model verbeterde de gemiddelde score met 29,4%, en voor het 14B-model steeg deze met 27,8% ten opzichte van de basislijn. Het raamwerk verbeterde op consistente wijze de redeneer- en taakuitvoeringsmogelijkheden van de modellen in beide benchmarks. De belangrijkste verbetering kwam van de module voor zelfonderzoek, die onafhankelijk verschillende trainingstaken genereert en het probleem van dataschaarste direct aanpakt.
Uit de experimenten bleek ook dat AgentEvolver effectief een grote hoeveelheid hoogwaardige trainingsgegevens kan synthetiseren. De door de zelfbevragingsmodule gegenereerde taken bleken divers genoeg om zelfs met een kleine hoeveelheid gegevens een goede trainingsefficiëntie te bereiken.
Voor ondernemingen biedt dit de mogelijkheid om agenten te creëren voor op maat gemaakte applicaties en interne workflows, terwijl de noodzaak voor handmatige gegevensannotatie wordt geminimaliseerd. Door doelen op hoog niveau te bieden en de agent zijn eigen trainingservaringen te laten genereren, kunnen organisaties eenvoudiger en kosteneffectiever aangepaste AI-assistenten ontwikkelen.
“Deze combinatie van algoritmisch ontwerp en technische pragmatiek positioneert AgentEvolver als zowel een onderzoekstool als een herbruikbare basis voor het bouwen van adaptieve, met tools uitgeruste agenten”, concluderen de onderzoekers.
Vooruitkijkend is het einddoel veel groter. “Een echt ‘uniek model’ dat in elke softwareomgeving kan worden geïnstalleerd en er van de ene op de andere dag meester van kan worden, is zeker de heilige graal van agent AI”, aldus Zhai. “Wij zien AgentEvolver als een noodzakelijke stap in die richting.” Hoewel die toekomst nog steeds doorbraken in modelredenering en infrastructuur vereist, effenen zelfontwikkelende benaderingen de weg.



