RAG is niet altijd snel genoeg of intelligent genoeg voor moderne agentische AI-workflows. Naarmate teams overstappen van kortstondige chatbots naar langlevende, gereedschapsintensieve agenten ingebed in productiesystemen, worden deze beperkingen steeds moeilijker om te omzeilen.
Als reactie hierop experimenteren teams met alternatieve geheugenarchitecturen, soms ook wel geheugenarchitecturen genoemd contextueel geheugen of agentisch geheugen – dat prioriteit geeft aan persistentie en stabiliteit boven dynamisch ophalen.
Een van de nieuwere implementaties van deze aanpak is ‘observationeel geheugen’. een open source-technologie ontwikkeld door Mastra, opgericht door de ingenieurs die eerder bouwden en verkochten Gatsby-framework voor Netlify.
In tegenstelling tot RAG-systemen die context dynamisch ophalen, gebruikt het observatiegeheugen twee achtergrondagenten (Observer en Reflector) om de gespreksgeschiedenis te comprimeren in een gedateerd observatielogboek. De gecomprimeerde observaties blijven in hun context en elimineren volledig het terughalen ervan. Voor tekstinhoud bereikt het systeem een compressie van 3-6x. Voor werklasten van agenten die veel gereedschap vereisen en grote output genereren, liggen de compressieverhoudingen tussen de 5 en 40x.
De wisselwerking is dat het observationele geheugen prioriteit geeft aan wat de agent al heeft gezien en besloten boven het doorzoeken van een breder extern corpus, waardoor het minder geschikt wordt voor het ontdekken van kennis met een open einde of voor gevallen van terugroeping met veel naleving.
Het systeem scoorde 94,87% op LongMemEval met behulp van GPT-5-mini, terwijl het een volledig stabiel, cachebaar contextvenster handhaafde. Op het standaard GPT-4o-model scoorde het observationele geheugen 84,23%, vergeleken met Mastra’s eigen RAG-implementatie van 80,05%.
“Het heeft de geweldige kwaliteit dat het zowel eenvoudiger als krachtiger is, en ook beter scoort op benchmarks”, vertelde Sam Bhagwat, medeoprichter en CEO van Mastra, aan VentureBeat.
Hoe het werkt: Twee agenten condenseren het verhaal tot observaties
De architectuur is eenvoudiger dan traditionele geheugensystemen, maar levert betere resultaten op.
Het observatiegeheugen verdeelt het contextvenster in twee blokken. De eerste bevat observaties: gecomprimeerde, gedateerde aantekeningen uit eerdere gesprekken. De tweede bevat de onbewerkte berichtgeschiedenis van de huidige sessie.
Twee achtergrondagenten regelen het compressieproces. Wanneer niet-geobserveerde berichten 30.000 tokens bereiken (configureerbaar), comprimeert de Observer-agent ze tot nieuwe observaties en voegt ze toe aan het eerste blok. De originele berichten worden verwijderd. Wanneer observaties 40.000 tokens bereiken (ook configureerbaar), herstructureert en condenseert de Reflector-agent het observatielogboek, waarbij gerelateerde items worden gecombineerd en verouderde informatie wordt verwijderd.
“De manier waarop je deze berichten in de loop van de tijd comprimeert, is dat je eigenlijk alleen maar berichten ontvangt en dan een agent zegt: ‘Oké, wat zijn de belangrijkste dingen die je moet onthouden uit deze reeks berichten?'” zei Bhagwat. “Je comprimeert het een beetje, en dan krijg je nog eens 30.000 tokens, en dat comprimeer je.”
Het formaat is op tekst gebaseerd en niet op gestructureerde objecten. Geen vector- of grafiekdatabases vereist.
Stabiele contextvensters verlagen de tokenkosten tot 10x
De economie van observationeel geheugen komt voort uit snelle caching. Anthropic, OpenAI en andere providers verlagen de tokenkosten met 4-10x voor in de cache opgeslagen prompts in vergelijking met niet in de cache opgeslagen prompts. De meeste in-memory-systemen kunnen hiervan niet profiteren, omdat ze de prompt elke keer wijzigen door dynamisch opgehaalde context te injecteren, waardoor de cache ongeldig wordt. Voor productieteams vertaalt deze instabiliteit zich rechtstreeks in onvoorspelbare kostencurves en werklasten van agenten die moeilijker te budgetteren zijn.
Observationeel geheugen houdt de context stabiel. Het observatieblok wordt alleen gekoppeld totdat de reflectie wordt uitgevoerd, wat betekent dat de systeemprompt en bestaande observaties een consistent voorvoegsel vormen dat over vele beurten in de cache kan worden opgeslagen. Berichten worden toegevoegd aan het onbewerkte geschiedenisblok totdat de drempel van 30.000 tokens is bereikt. Elke beurt daarvoor is een volledige cachetreffer.
Wanneer observaties worden uitgevoerd, worden berichten vervangen door nieuwe observaties die aan het bestaande observatieblok worden toegevoegd. Het observatievoorvoegsel blijft consistent, zodat het systeem nog steeds een gedeeltelijke cachetreffer krijgt. Alleen tijdens reflectie (wat zelden voorkomt) wordt de volledige cache ongeldig gemaakt.
De gemiddelde contextvenstergrootte voor Mastra’s LongMemEval-benchmarkrun bedroeg ongeveer 30.000 tokens, veel minder dan de volledige gespreksgeschiedenis zou vereisen.
Waarom dit verschilt van traditionele compressie
De meeste encoders gebruiken compressie om lange contexten te beheren. Door compressie wordt het contextvenster helemaal gevuld en wordt het hele verhaal vervolgens gecomprimeerd tot een samenvatting wanneer het op het punt staat te overlopen. De agent gaat verder, het venster wordt opnieuw gevuld en het proces herhaalt zich.
Compressie biedt samenvattingen in documentatiestijl. Het legt de essentie vast van wat er is gebeurd, maar verliest specifieke gebeurtenissen, beslissingen en details. De compressie wordt in grote batches uitgevoerd, waardoor elke doorgang rekentechnisch duur wordt. Het werkt voor de menselijke leesbaarheid, maar het elimineert vaak de specifieke beslissingen en toolinteracties waar agenten in de loop van de tijd consistent op moeten reageren.
Observer daarentegen wordt vaker uitgevoerd en verwerkt kleinere stukjes. In plaats van het gesprek samen te vatten, produceert het een op gebeurtenissen gebaseerd beslissingslogboek: een gestructureerde lijst van gedateerde, geprioriteerde observaties over wat er specifiek is gebeurd. Elke observatiecyclus verwerkt minder context en comprimeert deze efficiënter.
Het logboek wordt nooit samengevat in een blob. Zelfs tijdens reflectie reorganiseert en condenseert de reflector de waarnemingen om verbanden te vinden en overbodige gegevens te verwijderen. Maar de op gebeurtenissen gebaseerde structuur blijft bestaan. Het resultaat leest als een logboek van beslissingen en acties, en niet als documentatie.
Enterprise-gebruiksscenario’s: langdurige gesprekken met agenten
De klanten van Mastra omvatten verschillende categorieën. Sommigen bouwen in-app-chatbots voor CMS-platforms zoals Sanity of Contentful. Anderen creëren AI SRE-systemen waarmee technische teams waarschuwingen kunnen beoordelen. Documentverwerkende agenten verzorgen het papierwerk voor traditionele bedrijven die op weg zijn naar automatisering.
Wat deze use cases gemeen hebben, is de behoefte aan langlopende gesprekken die de context gedurende weken of maanden behouden. Een agent ingebed in een contentmanagementsysteem moet onthouden dat de gebruiker drie weken geleden om een specifiek rapportformaat vroeg. Een SRE-agent moet bijhouden welke alerts zijn onderzocht en welke besluiten zijn genomen.
“Een van de grote doelen voor 2025 en 2026 is het bouwen van een agent in hun webapp”, zegt Bhagwat over B2B SaaS-bedrijven. “Deze agent moet zich kunnen herinneren dat je mij drie weken geleden hierover hebt gevraagd, of dat je zei dat je een rapport wilde over dit soort inhoudstype of vertoningen, gesegmenteerd op basis van deze statistiek.”
In deze scenario’s is geheugen niet langer een optimalisatie, maar wordt het een productvereiste. Gebruikers merken het onmiddellijk wanneer agenten eerdere beslissingen of voorkeuren vergeten.
Observatiegeheugen houdt maanden aan gespreksgeschiedenis aanwezig en toegankelijk. De agent kan reageren terwijl hij de volledige context onthoudt, zonder dat de gebruiker voorkeuren of eerdere beslissingen opnieuw hoeft uit te leggen.
Het systeem is geleverd als onderdeel van Mastra 1.0 en is nu beschikbaar. Het team heeft deze week plug-ins uitgebracht voor LangChain, Vercel’s AI SDK en andere frameworks waarmee ontwikkelaars observationeel geheugen buiten het Mastra-ecosysteem kunnen gebruiken.
Wat dit betekent voor productie-AI-systemen
Observationeel geheugen biedt een andere architecturale benadering dan de vectordatabase en RAG-pijplijnen die de huidige implementaties domineren. De eenvoudigere architectuur (op tekst gebaseerd, geen gespecialiseerde databases) maakt het eenvoudiger om fouten op te sporen en te onderhouden. Het stabiele contextvenster maakt agressieve caching mogelijk die de overhead vermindert. De benchmarkprestaties suggereren dat de aanpak op schaal kan werken.
Voor bedrijfsteams die in-memory-benaderingen evalueren, zijn de belangrijkste vragen:
-
Hoeveel context moeten uw agenten tijdens sessies behouden?
-
Wat is uw tolerantie voor compressie met verlies versus zoeken in volledig corpus?
-
Heeft u de dynamische retrieval nodig die RAG biedt, of zou een stabiele context beter werken?
-
Hebben uw agenten veel gereedschap nodig en genereren ze grote hoeveelheden uitvoer die moeten worden gecomprimeerd?
De antwoorden bepalen of observationeel geheugen bij uw gebruiksscenario past. Bhagwat beschouwt geheugen als een van de belangrijkste primitieven die nodig zijn voor krachtige agenten, samen met gereedschapsgebruik, workfloworkestratie, waarneembaarheid en vangrails. Voor bedrijfsagenten die in producten zijn ingebed, is het vergeten van de context tussen sessies onaanvaardbaar. Gebruikers verwachten dat agenten hun voorkeuren, eerdere beslissingen en onderhanden werk onthouden.
“Het moeilijkste voor teambouwers is de productie, die tijd kan kosten”, zei Bhagwat. “Het geheugen is er een heel belangrijk onderdeel van, omdat het gewoon schokkend is als je een agent-tool gebruikt en je iets vertelt en dan vergat het een beetje.”
Naarmate agenten overstappen van experimenten naar ingebedde registratiesystemen, kan de manier waarop teams het geheugen ontwerpen net zo belangrijk zijn als welk model ze kiezen.


