Een grote uitdaging bij het implementeren van autonome agenten is het bouwen van systemen die zich kunnen aanpassen aan veranderingen in hun omgeving zonder de noodzaak om de onderliggende grote taalmodellen (LLM’s) opnieuw te trainen.
Herinneringsvaardighedeneen nieuw raamwerk ontwikkeld door onderzoekers van verschillende universiteiten lost dit knelpunt op door agenten in staat te stellen hun vaardigheden zelf te ontwikkelen. “Het voegt zijn continu leren capaciteit aan het bestaande aanbod in de huidige markt, zoals OpenClaw en Claude Code”, vertelde Jun Wang, co-auteur van het artikel, aan VentureBeat.
Memento-Skills fungeren als een evoluerend extern geheugen waarmee het systeem zijn mogelijkheden geleidelijk kan verbeteren zonder het onderliggende model te veranderen. Het raamwerk biedt een reeks vaardigheden die kunnen worden bijgewerkt en uitgebreid naarmate de agent feedback ontvangt van zijn omgeving.
Voor bedrijfsteams die agenten in productie draaien, is dit belangrijk. Het alternatief – het verfijnen van de modelgewichten of het handmatig opbouwen van vaardigheden – brengt aanzienlijke operationele kosten en gegevensvereisten met zich mee. Memento-Skills omzeilen beide.
De uitdagingen van het bouwen van zelfontwikkelende agenten
Zelfontwikkelende agenten zijn essentieel omdat ze de beperkingen van bevroren taalmodellen overwinnen. Zodra een model is geïmplementeerd, blijven de parameters ervan vast, waardoor het wordt beperkt tot de kennis die tijdens de training is gecodeerd en wat in het onmiddellijke contextvenster past.
Door het model een extern geheugenplatform te geven, kan het worden verbeterd zonder het dure en langzame proces van herscholing. De huidige benaderingen van het aanpassen van agenten zijn echter sterk afhankelijk van handmatig ontworpen vaardigheden om nieuwe taken uit te voeren. Hoewel er enkele automatische methoden voor het leren van vaardigheden bestaan, produceren deze meestal tutorials met alleen tekst die overeenkomen met snelle optimalisatie. Andere benaderingen registreren eenvoudigweg trajecten van één taak die niet over verschillende taken worden overgedragen.
Bovendien vertrouwen deze agenten, wanneer ze relevante kennis voor een nieuwe taak proberen op te halen, doorgaans op semantische gelijkheidsrouters, zoals standaard dichte inbedding; een hoge semantische overlap garandeert geen gedragsnut. Een agent die vertrouwt op standaard RAG kan een script voor het opnieuw instellen van het wachtwoord ophalen om een vraag over het verwerken van terugbetalingen op te lossen, simpelweg omdat de documenten bedrijfsterminologie delen.
“De meeste Retrieval-Augmented Generation (RAG)-systemen zijn afhankelijk van op gelijkenis gebaseerd ophalen. Maar wanneer vaardigheden worden weergegeven als uitvoerbare artefacten zoals markdown-documenten of codefragmenten, kan gelijkenis alleen niet de meest effectieve vaardigheid selecteren, ” zei Wang.
Hoe Memento-Skills vaardigheden opslaat en bijwerkt
Om de beperkingen van de huidige agentsystemen aan te pakken, hebben de onderzoekers Memento-Skills gebouwd. Het artikel beschrijft het systeem als “een generalistisch, continu leerbaar LLM-agentsysteem dat fungeert als een agent-ontwerpagent.” In plaats van een passief logboek bij te houden van gesprekken uit het verleden, creëert Memento-Skills een reeks vaardigheden die fungeren als een aanhoudend, evoluerend extern geheugen.
Deze vaardigheden worden opgeslagen als gestructureerde prijsverlagingsbestanden en dienen als de evoluerende kennisbasis van de agent. Elk herbruikbaar vaardigheidsartefact bestaat uit drie kernelementen. Het bevat declaratieve specificaties die beschrijven wat de vaardigheid is en hoe deze te gebruiken. Het bevat gespecialiseerde instructies en aanwijzingen die de redenering van het taalmodel bepalen. En het bevat de uitvoerbare code en helperscripts die de agent uitvoert om de taak daadwerkelijk te voltooien.
Memento-Skills bereikt continu leren via het ‘Read-Write Reflective Learning’-mechanisme, dat geheugenupdates beschouwt als actieve beleidsiteratie in plaats van passieve datalogging. Wanneer de agent met een nieuwe taak wordt geconfronteerd, ondervraagt de agent een gespecialiseerde vaardigheidsrouter om de meest gedragsrelevante vaardigheid op te halen (niet alleen de semantisch meest vergelijkbare) en voert deze uit.
Nadat de agent de vaardigheid heeft uitgevoerd en feedback heeft ontvangen, reflecteert het systeem op het resultaat om de leerlus te sluiten. In plaats van eenvoudigweg een logboek toe te voegen van wat er is gebeurd, muteert het systeem actief zijn geheugen. Als de uitvoering mislukt, evalueert een Orchestrator de tracering en herschrijft de vaardigheidsartefacten. Dit betekent dat het de code direct bijwerkt of vraagt om de specifieke foutconditie op te lossen. Indien nodig creëert het een geheel nieuwe vaardigheid.
Memento-Skills werkt ook de vaardighedenrouter bij via een offline leerproces in één stap dat leert van uitvoeringsfeedback in plaats van alleen maar tekstoverlay. “De echte waarde van een vaardigheid ligt in de manier waarop deze bijdraagt aan de algehele workflow van agenten en de uitvoering verderop in de keten”, aldus Wang. “Daarom biedt versterkend leren een geschikter raamwerk, omdat het de agent in staat stelt vaardigheden te evalueren en te selecteren op basis van nut op de lange termijn.”
Om achteruitgang in een productieomgeving te voorkomen, worden de geautomatiseerde vaardigheidsmutaties beschermd door een automatische unit-testpoort. Het systeem genereert een synthetische testcase, doorloopt deze door de bijgewerkte vaardigheid en controleert de resultaten voordat de wijzigingen in de globale bibliotheek worden opgeslagen.
Door de eigen uitvoerbare tools voortdurend te herschrijven en te verfijnen, maakt Memento-Skills een bevroren taalmodel mogelijk om een robuust spiergeheugen op te bouwen en de mogelijkheden ervan geleidelijk van begin tot eind uit te breiden.
De zelfontwikkelende agent op de proef stellen
De onderzoekers evalueerden Memento-Skills op basis van twee strenge benchmarks. De eerste is Algemene AI-assistenten (GAIA), waarvoor complex redeneren in meerdere stappen, multimodaliteitsbeheer, surfen op het web en het gebruik van tools vereist zijn. De tweede is Het eindexamen van de mensheidof HLE, een benchmark op expertniveau die acht verschillende academische onderwerpen omvat, zoals wiskunde en biologie. Het hele systeem werd aangedreven door Gemini 3.1 Flitser fungeert als het onderliggende bevroren taalmodel.
Het systeem werd vergeleken met een Read-Write-basislijn die vaardigheden verwerft en feedback verzamelt, maar geen functies voor zelfontwikkeling heeft. De onderzoekers testten hun aangepaste vaardigheidsrouter ook met standaard semantische ophaalbasislijnen, waaronder BM25 en Qwen3-insluitingen.
De resultaten toonden aan dat een actief zelfontwikkelend geheugen duidelijk beter presteert dan een statische vaardighedenbibliotheek. Op de zeer diverse GAIA-benchmark verbeterde Memento-Skills de nauwkeurigheid van de testsets met 13,7 procentpunten ten opzichte van de statische basislijn, waardoor 66,0% werd bereikt vergeleken met 52,3%. Op de HLE-benchmark, waar de domeinstructuur massaal hergebruik van vaardigheden voor verschillende taken mogelijk maakte, verdubbelde het systeem de basisprestaties meer dan, van 17,9% naar 38,7%.
Bovendien vermijdt de gespecialiseerde vaardighedenrouter in Memento-Skills de klassieke terughaalval waarbij een irrelevante vaardigheid wordt geselecteerd simpelweg vanwege semantische gelijkenis. Experimenten tonen aan dat Memento-Skills het succespercentage van end-to-end taken verhogen tot 80%, vergeleken met slechts 50% voor standaard BM25-herstel.
De onderzoekers merkten op dat Memento-Skills deze prestaties aanstuurt via een zeer organische, gestructureerde groei van vaardigheden. Beide benchmarkexperimenten begonnen met slechts vijf atomaire zaadvaardigheden, zoals basissurfen op het web en terminalbewerkingen. Op de GAIA-benchmark heeft de agent deze zaadgroep autonoom uitgebreid tot een compacte bibliotheek van 41 vaardigheden om de verschillende taken uit te voeren. Op de HLE-benchmark op expertniveau schaalde het systeem zijn bibliotheek dynamisch op naar 235 verschillende vaardigheden.
Het vinden van de ‘sweet spot’ van het bedrijf
De onderzoekers hebben de code voor gepubliceerd Memento-vaardigheden op GitHuben het is direct beschikbaar voor gebruik.
Voor enterprise-architecten hangt de effectiviteit van dit systeem af van de afstemming van domeinen. In plaats van alleen naar benchmarkscores te kijken, ligt de kern van de zakelijke afweging in de vraag of uw agenten geïsoleerde taken of gestructureerde workflows uitvoeren.
“De overdracht van vaardigheden hangt af van de mate van gelijkenis tussen de taken”, zei Wang. “Ten eerste, wanneer taken geïsoleerd zijn of zwak gerelateerd zijn, kan de agent niet vertrouwen op ervaringen uit het verleden en moet hij leren door middel van interactie.” In dergelijke verspreide omgevingen is de overdracht tussen taken beperkt. “Ten tweede, wanneer taken een aanzienlijke structuur delen, kunnen eerder verworven vaardigheden direct worden hergebruikt. Hier wordt het leren efficiënter omdat kennis wordt overgedragen tussen taken, waardoor de agent goed kan presteren op nieuwe problemen met weinig of geen extra interactie.”
Omdat het systeem terugkerende taakpatronen vereist om kennis te consolideren, moeten bedrijfsleiders precies weten waar ze dit vandaag moeten implementeren en waar ze moeten wachten.
“Workflows zijn waarschijnlijk de meest geschikte setting voor deze aanpak, omdat ze een gestructureerde omgeving bieden waarin vaardigheden kunnen worden verzameld, geëvalueerd en verbeterd”, aldus Wang.
Hij waarschuwde echter voor overmatige inzet in gebieden die nog niet geschikt zijn voor het kader. “Fysieke agenten blijven in deze context grotendeels onontgonnen en vereisen verder onderzoek. Bovendien kunnen taken met een langere horizon geavanceerdere benaderingen vereisen, zoals multi-agent LLM-systemen, om coördinatie, planning en duurzame uitvoering over langere reeksen beslissingen mogelijk te maken.”
Terwijl de industrie steeds meer in de richting gaat van agenten die autonoom hun eigen productiecode herschrijven, blijven bestuur en veiligheid voorop staan. Hoewel Memento-Skills basisbeveiligingsrails gebruikt als geautomatiseerde unit-testgateways, zal er waarschijnlijk een breder raamwerk nodig zijn voor adoptie door bedrijven.
“Om betrouwbare zelfverbetering mogelijk te maken, hebben we een goed ontworpen evaluatie- of beoordelingssysteem nodig dat de prestaties kan beoordelen en consistente begeleiding kan bieden”, aldus Wang. “In plaats van onbeperkte zelfmodificatie toe te staan, zou het proces moeten worden gestructureerd als een begeleide vorm van zelfontwikkeling, waarbij feedback de agent naar een beter ontwerp stuurt.”


