Ondanks al hun bovenmenselijke kracht lijden de huidige AI-modellen aan een verrassend menselijke fout: ze vergeten. Geef een AI-assistent een langdradige conversatie, een taak die uit meerdere stappen bestaat, of een project dat dagen beslaat, en uiteindelijk raakt het de draad kwijt. Ingenieurs noemen dit fenomeen ‘contextthread’ en het is stilletjes een van de belangrijkste obstakels geworden voor het bouwen van AI-agenten die betrouwbaar kunnen werken in de echte wereld.
Een onderzoeksteam uit China en Hong Kong denkt een oplossing te hebben gevonden voor contextadvies. Hun nieuwe artikel introduceert algemeen agentgeheugen (GAM)een systeem dat is gebouwd om informatie over de lange horizon te behouden zonder het model te overweldigen. Het uitgangspunt is simpel: verdeel het geheugen in twee gespecialiseerde rollen, één die alles vastlegt, en een andere die precies de juiste dingen op het juiste moment ophaalt.
De eerste resultaten zijn bemoedigend en kunnen niet beter getimed worden. Nu de industrie verder gaat dan prompt engineering en de bredere discipline van context engineering omarmt, lijkt GAM precies op het juiste keerpunt te staan.
Wanneer grotere contextvensters nog steeds niet voldoende zijn
De kern van elk groot taalmodel (LLM) ligt een rigide beperking: een vast “werkgeheugen”, beter bekend als het contextvenster. Wanneer gesprekken lang worden, wordt oudere informatie ingekort, samengevat of verloren. Deze beperking wordt al lang erkend door AI-onderzoekers, en sinds begin 2023 werken ontwikkelaars aan het uitbreiden van contextvensters, waardoor de hoeveelheid informatie die een model in één keer kan verwerken snel toeneemt.
Mistral’s Mixtral 8x7B debuteerde met een tokenvenster van 32K, wat ongeveer 24 tot 25 woorden of ongeveer 128 tekens in het Engels is; in wezen een kleine hoeveelheid tekst, zoals een enkele zin. Dit werd gevolgd door de MPT-7B-StoryWriter-65k+ van MozaïekML, die die capaciteit meer dan verdubbelde; daarna kwamen Google’s Gemini 1.5 Pro en Anthropic’s Claude 3, die enorme 128K- en 200K-vensters boden, beide uitbreidbaar tot een ongekend miljoen tokens. Zelfs Microsoft sloot zich aan bij de push en ging van de 2K-tokenlimiet van de vorige Phi-modellen naar het 128K-contextvenster in de Phi-3.
Het vergroten van contextvensters klinkt misschien als de voor de hand liggende oplossing, maar dat is het niet. Zelfs modellen met uitgestrekte vensters van 100.000 tokens, genoeg voor honderden pagina’s tekst, hebben nog steeds moeite om details te onthouden die aan het begin van een lang gesprek verborgen liggen. Het schalen van context brengt zijn eigen reeks problemen met zich mee. Naarmate prompts langer worden, worden de modellen minder betrouwbaar bij het lokaliseren en interpreteren van informatie, omdat de aandacht voor tokens op afstand verzwakt en de nauwkeurigheid geleidelijk aan erodeert.
Langere invoer verdunt ook de signaal-ruisverhouding, omdat het opnemen van alle mogelijke details de reacties zelfs slechter kan maken dan het gebruik van een gerichte prompt. Lange prompts vertragen de modellen ook; meer invoertokens leiden tot een merkbaar hogere latentie van uitvoertokens, waardoor een praktische limiet ontstaat voor hoeveel context kan worden gebruikt voordat de prestaties eronder lijden.
Herinneringen zijn van onschatbare waarde
Voor de meeste organisaties hebben grote contextvensters een duidelijk nadeel: ze zijn duur. Het versturen van enorme verzoeken via een API is nooit goedkoop, en omdat prijzen rechtstreeks schalen met invoertokens, kan zelfs een enkel opgeblazen verzoek de kosten verhogen. Snel caching helpt, maar niet genoeg om de gewoonte te compenseren om modellen routinematig te overbelasten met onnodige context. En dat is de spanning die de kern van het probleem vormt: geheugen is van cruciaal belang om AI krachtiger te maken.
Wanneer contextvensters zich uitstrekken tot honderdduizenden of miljoenen tokens, neemt de financiële overhead net zo sterk toe. Het opschalen van de context is zowel een technische als een financiële uitdaging, en vertrouwen op steeds grotere vensters wordt al snel een onhoudbare strategie voor het langetermijngeheugen.
Correcties zoals samenvatting en retrieval-augmented generatie (RAG) zijn ook geen wondermiddeltjes. Samenvattingen verwijderen onvermijdelijk subtiele maar belangrijke details, en traditionele RAG’s, hoewel sterk in statische documenten, hebben de neiging kapot te gaan wanneer informatie meerdere sessies omvat of in de loop van de tijd evolueert. Zelfs nieuwere varianten, zoals agentic RAG en RAG 2.0 (die het ophaalproces beter beheren), erven nog steeds dezelfde fundamentele fout door het ophalen als de oplossing te behandelen in plaats van het geheugen zelf als het kernprobleem te behandelen.
Compilers hebben dit probleem tientallen jaren geleden opgelost
Als geheugen het echte knelpunt is en het ophalen dit niet kan verhelpen, dan heeft het gat een andere oplossing nodig. Dat is de inspanning achter GAM. In plaats van te doen alsof ophalen geheugen is, houdt GAM een volledige, verliesvrije registratie bij en voegt daar een slimme, on-demand terugroepactie aan toe, waardoor de exacte details worden weergegeven die een agent nodig heeft, zelfs als gesprekken zich ontwikkelen. Een nuttige manier om GAM te begrijpen is via een bekend idee uit de software-engineering: Just-in-time (JIT)-compilatie. In plaats van een rigide, sterk gecomprimeerd geheugen vooraf te berekenen, houdt GAM de zaken licht en compact door een minimale set signalen op te slaan, samen met een volledig, ongerept archief van rauwe geschiedenis. Wanneer er vervolgens een verzoek binnenkomt, “compileert” het direct een aangepaste context.
Deze JIT-aanpak is ingebouwd in de dubbele architectuur van GAM, waardoor AI context kan doorgeven aan lange gesprekken zonder te veel te comprimeren of voortijdig te raden wat belangrijk is. Het resultaat is de juiste informatie, op het juiste moment geleverd.
Inside GAM: een systeem met twee agenten, gebouwd voor langdurig geheugen
GAM draait om het simpele idee om de handeling van het herinneren te scheiden van het herinneren, waarbij terecht twee componenten betrokken zijn: de ‘Herinnerer’ en de ‘Onderzoeker’.
De herinnering: totale terugroepactie zonder overbelasting
De memotool legt elke uitwisseling volledig vast en zet elke interactie stilletjes om in een beknopte notitie, terwijl de volledige, versierde sessie in een doorzoekbare zijopslag wordt bewaard. Het comprimeert niet agressief en raadt niet wat belangrijk is. In plaats daarvan organiseert het interacties in gestructureerde pagina’s, voegt het metagegevens toe voor efficiënt ophalen en genereert het optionele lichtgewicht samenvattingen voor snel scannen. Cruciaal is dat elk detail behouden blijft en niets wordt weggegooid.
De onderzoeker: een diepe retrieval-engine
Wanneer de agent actie moet ondernemen, neemt de onderzoeker het roer over om een zoekstrategie te plannen die insluitingen combineert met trefwoordmethoden zoals BM25, door pagina-ID’s navigeert en de stukken aan elkaar hecht. Het voert gelaagde zoekopdrachten uit in de paginaopslag en shuffles vector downloadentrefwoordmatching en direct posten. Het evalueert de resultaten, identificeert lacunes en gaat door met zoeken totdat het voldoende bewijsmateriaal heeft om een betrouwbaar antwoord te geven, net zoals een menselijke analist oude aantekeningen en primaire documenten doorzoekt. Het itereert, zoekt, integreert en reflecteert totdat het een duidelijke, taakspecifieke briefing opbouwt.

De kracht van GAM komt voort uit deze JIT-geheugenpijplijn, die op verzoek rijke, taakspecifieke context verzamelt in plaats van te vertrouwen op heldere, vooraf berekende samenvattingen. De kerninnovatie is eenvoudig maar krachtig, omdat alle informatie intact blijft en alle details herstelbaar zijn.
Ablatiestudies ondersteunen deze aanpak: traditioneel geheugen alleen faalt, en naïef ophalen is niet voldoende. Het is de combinatie van een compleet archief met een actieve, iteratieve onderzoeksengine die GAM in staat stelt details te tonen die andere systemen achterlaten.
Meer dan RAG en lange contextmodellen
Om GAM te testen, hebben de onderzoekers het vergeleken met standaard RAG-pijpleidingen en modellen met vergrote contextvensters zoals GPT-4o-mini en Qwen2.5-14B. Ze evalueerden GAM met behulp van vier grote lange-context- en geheugenintensieve benchmarks, elk gekozen om een ander aspect van de mogelijkheden van het systeem te testen:
-
LoCoMo meet het vermogen van een agent om informatie vast te houden en terug te roepen tijdens lange gesprekken van meerdere sessies, die single-hop, multi-hop, temporeel redeneren en open-domeintaken omvatten.
-
Hete poteen veelgebruikte multi-hop QA-benchmark opgebouwd op basis van Wikipedia, werd aangepast met behulp van de geheugenstresstestversie van MemAgent, die relevante documenten combineert met afleiders om contexten te creëren met 56K-, 224K- en 448K-tokens – ideaal om te testen hoe goed GAM omgaat met luidruchtige, verspreide invoer.
-
LINIAAL evalueert de nauwkeurigheid van het ophalen, het volgen van multi-hop-statussen, aggregatie over lange reeksen en QA-prestaties onder een context van 128K-token om de redenering over de lange horizon verder te onderzoeken.
-
NarratieveQA is een benchmark waarbij elke vraag beantwoord moet worden aan de hand van de volledige tekst van een boek of filmscript; de onderzoekers hebben 300 voorbeelden onderzocht met een gemiddelde contextgrootte van 87.000 tokens.
Samen stelden deze datasets en benchmarks het team in staat om zowel het vermogen van GAM om gedetailleerde historische informatie te bewaren als de effectiviteit ervan bij het ondersteunen van complexe stroomafwaartse redeneringstaken te beoordelen.


GAM kwam als beste uit de bus in alle benchmarks. De grootste overwinning was op RULER, een benchmark voor het volgen van staten over lange afstanden. Speciaal:
-
GAM overtrof de nauwkeurigheid van 90%.
-
RAG stortte in omdat belangrijke details verloren gingen in samenvattingen.
-
Lange-contextmodellen haperden omdat oudere informatie effectief ‘vervaagde’, zelfs als deze technisch aanwezig was.
Het is duidelijk dat grotere contextvensters niet de oplossing zijn. GAM werkt omdat het met precisie tokens ophaalt in plaats van tokens op te halen.
GAM, context engineering en concurrerende benaderingen
Een slecht gestructureerde context, en niet de beperkingen van het model, is vaak de werkelijke oorzaak AI-agenten falen. GAM pakt dit aan door ervoor te zorgen dat niets permanent verloren gaat en dat de juiste informatie altijd kan worden teruggevonden, zelfs tot ver stroomafwaarts. De opkomst van de techniek valt samen met de huidige, bredere verschuiving in AI naar context-engineering, of de praktijk van het vormgeven van alles wat een AI-model ziet: de instructies, geschiedenis, opgehaalde documenten, tools, voorkeuren en uitvoerformaten.
Context-engineering heeft het belang van prompt-engineering snel overtroffen, hoewel andere onderzoeksgroepen het geheugenprobleem vanuit verschillende invalshoeken benaderen. Anthropic onderzoekt samengestelde, evoluerende contexttoestanden. DeepSeek experimenteert met het opslaan van geheugen als afbeeldingen. Een andere groep Chinese onderzoekers heeft ‘semantische besturingssystemen’ voorgesteld die zijn gebouwd rond levenslang adaptief geheugen.
De filosofie van GAM is echter verschillend: verlies vermijden en met intelligentie terughalen. In plaats van te raden wat iets later zal betekenen, bewaart het alles en gebruikt het een speciale onderzoeksengine om de relevante stukjes meteen te vinden. Voor agenten die meerdaagse projecten, doorlopende workflows of langdurige relaties afhandelen, kan deze betrouwbaarheid van cruciaal belang blijken.
Waarom GAM op de lange termijn belangrijk is
Net zoals het toevoegen van meer rekenkracht niet automatisch betere algoritmen oplevert, zal het uitbreiden van contextvensters alleen de langetermijngeheugenproblemen van AI niet oplossen. Zinvolle vooruitgang vereist een heroverweging van het onderliggende systeem, en GAM hanteert die aanpak. In plaats van te vertrouwen op steeds grotere modellen, enorme contextvensters of eindeloos verfijnde aanwijzingen, beschouwt het geheugen als een technische uitdaging – een uitdaging die baat heeft bij structuur boven brute kracht.
Terwijl AI-agenten overstappen van gelikte demo’s naar missiekritische tools, wordt hun vermogen om lange geschiedenissen te onthouden van cruciaal belang voor het ontwikkelen van betrouwbare, intelligente systemen. Bedrijven hebben AI-agenten nodig die veranderende taken kunnen volgen, de continuïteit kunnen handhaven en eerdere interacties met precisie en nauwkeurigheid kunnen oproepen. GAM biedt een praktisch pad naar die toekomst en geeft aan wat de volgende grote grens in AI zou kunnen zijn: geen grotere modellen, maar slimmere geheugensystemen en de contextarchitecturen die deze mogelijk maken.



