Home Nieuws MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

7
0
MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

Een nieuwe techniek, ontwikkeld door onderzoekers van de Shanghai Jiao Tong Universiteit en andere instellingen, stelt grote taalmodelagenten in staat nieuwe vaardigheden te leren zonder de noodzaak van dure verfijning.

De onderzoekers suggereren MemRLeen raamwerk dat agenten de mogelijkheid geeft om episodisch geheugen te ontwikkelen, het vermogen om ervaringen uit het verleden op te halen om oplossingen te creëren voor onzichtbare taken. Met MemRL kunnen agenten omgevingsfeedback gebruiken om hun probleemoplossende strategieën voortdurend te verfijnen.

MemRL maakt deel uit van een bredere impuls in de onderzoeksgemeenschap om te evolueren continu leren functies voor AI-toepassingen. In experimenten met belangrijke industriële benchmarks presteerde het raamwerk beter dan andere basislijnen zoals RAG en andere geheugenorganisatietechnieken, vooral in complexe omgevingen die onderzoek en experimenten vereisen. Dit suggereert dat MemRL een cruciaal onderdeel kan worden voor het bouwen van AI-applicaties die moeten werken in dynamische, realistische omgevingen waar vereisten en taken voortdurend veranderen.

Het stabiliteits-plasticiteitsdilemma

Een van de centrale uitdagingen bij het implementeren van agenttoepassingen is het aanpassen van het onderliggende model aan nieuwe kennis en taken na de initiële trainingsfase. De huidige benaderingen vallen over het algemeen in twee categorieën: parametrische benaderingen, zoals fijnafstemmingen niet-parametrische benaderingen, zoals RAG. Maar beide brengen aanzienlijke compromissen met zich mee.

Hoewel het nauwkeurig afstemmen effectief is bij het verwerken van nieuwe informatie, is het rekentechnisch duur en traag. Wat nog belangrijker is, het leidt vaak tot catastrofale vergetelheideen fenomeen waarbij nieuw verworven kennis eerder geleerde gegevens overschrijft, waardoor de algehele prestaties van het model verslechteren.

Omgekeerd zijn niet-parametrische methoden zoals RAG fundamenteel passief; ze halen informatie op die uitsluitend is gebaseerd op semantische gelijkenis, zoals vectorinbedding, zonder het daadwerkelijke nut van de informatie voor de invoerquery te evalueren. Deze benadering gaat ervan uit dat “soortgelijk nuttig impliceert”, wat vaak ontbreekt bij complexe redeneringstaken.

De onderzoekers beweren dat de menselijke intelligentie dit probleem oplost door “het delicate evenwicht tussen de stabiliteit van cognitief redeneren en de plasticiteit van het episodisch geheugen” te behouden. In het menselijk brein is stabiel redeneren (geassocieerd met de cortex) losgekoppeld van het dynamische episodisch geheugen. Hierdoor kunnen mensen zich aanpassen aan nieuwe taken zonder ‘neurale circuits opnieuw te bedraden’ (het geschatte antwoord op modelverfijning).

Binnen het MemRL-framework

Geïnspireerd door het gebruik van episodisch geheugen en cognitief redeneren door mensen, is MemRL ontworpen om een ​​agent in staat te stellen zijn prestaties na implementatie voortdurend te verbeteren zonder de stabiliteit van zijn backbone LLM in gevaar te brengen. In plaats van de parameters van het model te veranderen, verplaatst het raamwerk het aanpassingsmechanisme naar een externe, zichzelf ontwikkelende geheugenstructuur.

In deze architectuur blijven de parameters van de LLM volledig bevroren. Het model fungeert effectief als de ‘cortex’ die verantwoordelijk is voor algemene redenering, logica en codegeneratie, maar is niet verantwoordelijk voor het opslaan van specifieke successen of mislukkingen die zich na de implementatie voordoen. Deze structuur zorgt voor stabiel cognitief redeneren en voorkomt catastrofaal vergeten.

MemRL-framework (bron: arXiv)

Om de aanpassing aan te kunnen, onderhoudt MemRL een dynamische episodische geheugencomponent. In plaats van platte tekstdocumenten en statische inbeddingswaarden op te slaan, zoals gebruikelijk is in RAG, organiseert MemRL het geheugen in “intent-ervaring-utility”-tripletten. Deze bevatten de vraag van de gebruiker (de intentie), het specifieke oplossingspad of de ondernomen actie (de ervaring) en een score, bekend als de Q-waarde, die aangeeft hoe succesvol deze specifieke ervaring in het verleden was (het hulpprogramma).

Cruciaal voor enterprise-architecten is dat deze nieuwe datastructuur niet vereist dat de bestaande infrastructuur wordt weggenomen. “MemRL is ontworpen als drop-in vervanging voor de ophaallaag in bestaande technologiestapels en is compatibel met verschillende vectordatabases”, vertelde Muning Wen, co-auteur van het artikel en promovendus aan de Shanghai Jiao Tong University, aan VentureBeat. “Het bestaan ​​en de update van ‘Q-Value’ is uitsluitend bedoeld voor een betere evaluatie en beheer van dynamische gegevens… en is onafhankelijk van het opslagformaat.”

Deze nutsscore is de belangrijkste onderscheidende factor ten opzichte van klassieke RAG-systemen. Op het moment van inferentie gebruiken MemRL-agenten een “tweefasig ophaalmechanisme”. Ten eerste identificeert het systeem herinneringen die semantisch dicht bij de vraag liggen om de relevantie te garanderen. Vervolgens worden deze kandidaten opnieuw gerangschikt op basis van hun Q-waarde, waarbij effectief prioriteit wordt gegeven aan bewezen strategieën.

Het raamwerk integreert versterkend leren rechtstreeks in het geheugenherstelproces. Wanneer een agent een oplossing probeert en omgevingsfeedback ontvangt (dwz succes of mislukking), werkt hij de Q-waarde van het opgehaalde geheugen bij. Hierdoor ontstaat een gesloten feedbacklus: na verloop van tijd leert de agent afleidende herinneringen te negeren en prioriteit te geven aan hoogwaardige strategieën zonder ooit de onderliggende LLM opnieuw te hoeven trainen.

Hoewel het toevoegen van een versterkende leerstap klinkt alsof het een aanzienlijke latentie toevoegt, merkte Wen op dat de rekenkundige overhead minimaal is. “Onze Q-waardeberekening gebeurt volledig op de CPU”, zei hij.

MemRL beschikt ook over runtime-continue leermogelijkheden. Wanneer de agent een nieuw scenario tegenkomt, gebruikt het systeem de bevroren LLM om het nieuwe traject samen te vatten en voegt het als een nieuw triplet toe aan de geheugenbank. Hierdoor kan de agent zijn kennisbasis dynamisch uitbreiden terwijl hij met de wereld communiceert.

Het is vermeldenswaard dat de automatisering van de waardetoekenning gepaard gaat met een risico: als het systeem een ​​slechte interactie ten onrechte valideert, kan de agent de verkeerde les leren. Wen erkent dit risico van een ‘vergiftigd geheugen’, maar merkt op dat MemRL, in tegenstelling tot neurale black-box-netwerken, transparant en controleerbaar blijft. “Als een slechte interactie ten onrechte als een positief voorbeeld wordt geclassificeerd… kan deze zich breder verspreiden”, zei Wen. “Maar… we kunnen dit eenvoudig oplossen door de vervuilde gegevens uit de geheugenbank te verwijderen of hun Q-waarden opnieuw in te stellen.”

MemRL in actie

De onderzoekers evalueerden MemRL aan de hand van meerdere basislijnen op vier verschillende industriebenchmarks: BigCodeBench (codegeneratie), ALFWorld (ingebedde navigatie), Lifelong Agent Bench (OS en database-interactie) en Humanity’s Last Exam (complex interdisciplinair redeneren).

De resultaten toonden aan dat MemRL consistent beter presteerde dan de basislijnen in zowel runtime leren (verbetering tijdens de sessie) als transferleren (generalisatie naar onzichtbare taken).

MemRL-prestaties

MemRL-prestaties op belangrijke benchmarks in de sector (bron: arXiv)

De voordelen van dit waardebewuste ophaalmechanisme waren het meest uitgesproken in omgevingen waarin veel onderzoek wordt gedaan, zoals ALFWorld. In deze benchmark, waarbij agenten moeten navigeren en interacteren met een gesimuleerde huishoudelijke omgeving, behaalde MemRL een relatieve verbetering van ongeveer. 56% vergeleken met MemPeen ander agentgeheugenframe. De onderzoekers ontdekten dat de versterkende leercomponent de agent effectief aanmoedigde om oplossingen voor complexe taken te verkennen en te ontdekken die op gelijkenis gebaseerde ophaalmethoden vaak niet konden oplossen.

Toen de geheugenbank werd bevroren en getest op aanhoudende sets om de generalisatie te meten, behaalde MemRL de hoogste nauwkeurigheid in alle benchmarks. Op de Lifelong Agent Bench is het bijvoorbeeld aanzienlijk verbeterd ten opzichte van de standaard RAG-basislijn voor OS-taken. Dit geeft aan dat het systeem niet alleen trainingsgegevens onthoudt, maar effectief herinneringen van lage waarde filtert om ervaringen met een hoog nut te behouden die generaliseren naar nieuwe situaties.

Het bredere plaatje voor zelfontwikkelende agenten

MemRL past in een groeiend aantal onderzoeken dat zich richt op Memory-Based Markov Decision Processes (M-MDP), een formulering die het ophalen van herinneringen beschouwt als een actieve beslissingsstap in plaats van als een passieve zoekfunctie. Door het ophalen te behandelen als een actie die kan worden geoptimaliseerd via versterkend leren, kunnen raamwerken zoals MemRL en vergelijkbare benaderingen zoals Aandenken De weg vrijmaken voor meer autonome systemen.

Voor zakelijke AI is deze verschuiving aanzienlijk. Het suggereert een toekomst waarin agenten kunnen worden ingezet met een algemene LLM en zich vervolgens snel kunnen aanpassen aan specifieke bedrijfsworkflows, eigen databases en unieke probleemsets, alleen al door interactie. De belangrijkste verschuiving die we zien zijn raamwerken die applicaties behandelen als dynamische omgevingen waarvan ze kunnen leren.

Deze nieuwe mogelijkheden zullen organisaties in staat stellen om consistente, goed presterende agenten te behouden die meegroeien met hun zakelijke behoeften, waardoor het probleem van verouderde modellen wordt opgelost zonder de onbetaalbare kosten van voortdurende herscholing.

Het markeert een transitie in de manier waarop we data waarderen. “In een toekomst waarin statische gegevens uitgeput raken, zal de interactie-ervaring die elke intelligente agent tijdens zijn leven genereert de nieuwe brandstof worden”, aldus Wen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in