De afgelopen twee jaar was de fundamentele eenheid van generatieve AI-ontwikkeling het ‘einde’.
U stuurt een sms-prompt naar een model, het stuurt een tekst terug en de transactie eindigt. Om het gesprek voort te zetten, stuurt u de gehele geschiedenis opnieuw naar het model. Deze ‘staatloze’ architectuur – belichaamd door het erfgoed van Google generateContent eindpunt – was perfect voor eenvoudige chatbots. Maar nu ontwikkelaars steeds meer richting autonome agenten gaan die tools gebruiken, complexe toestanden in stand houden en over een lange horizon ‘denken’, is het staatloze model een duidelijk knelpunt geworden.
Vorige week heeft Google DeepMind eindelijk deze infrastructuurkloof aangepakt publieke bèta-lancering van de Interactions API (/interactions).
Terwijl OpenAI begon deze verschuiving in maart 2025 met zijn Responses APIDe inzending van Google duidt op zijn eigen inspanningen om het nieuwste te promoten. De Interactions API is niet alleen een hulpmiddel voor statusbeheer; het is een uniforme interface die is ontworpen om LLM’s minder als tekstgeneratoren en meer als externe besturingssystemen te behandelen.
Het ‘Remote Compute’-model
De kerninnovatie in de Interactions API is de introductie van de server-side modus als standaardgedrag.
Voorheen moest een ontwikkelaar die een complexe agent bouwde handmatig een groeiende JSON-lijst van elke “gebruiker”- en “model”-tour beheren, waarbij bij elk verzoek megabytes aan geschiedenis heen en weer werden gestuurd. Met de nieuwe API kunnen ontwikkelaars er slechts één doorgeven previous_interaction_id. De infrastructuur van Google bewaart de gespreksgeschiedenis, de tooluitvoer en de ‘denkprocessen’ aan hun kant.
“Modellen worden systemen en kunnen uiteindelijk zelfs zelf agenten worden”, schreven Ali Çevik en Philipp Schmid van DeepMind in een officieel bedrijf. blogpost op het nieuwe paradigma. “Proberen deze mogelijkheden binnen te dringen generateContent zou hebben geresulteerd in een te complexe en kwetsbare API.”
Deze verschuiving maakt Achtergronduitvoering mogelijk, een cruciaal kenmerk van het agententijdperk. Complexe workflows, zoals een uur surfen op internet om een rapport samen te stellen, veroorzaken vaak HTTP-time-outs in standaard API’s. Met de Interactions API kunnen ontwikkelaars een agent activeren background=true, verbreek de verbinding en vraag later naar het resultaat. Het verandert de API effectief in een taakwachtrij voor intelligentie.
Native “Deep Research” en MCP-ondersteuning
Google gebruikt deze nieuwe infrastructuur om zijn eerste ingebouwde agent te leveren: Gemini Deep Research.
Verkrijgbaar via zelfde /interactions eindpunt is deze agent in staat tot ‘onderzoekstaken op lange termijn’. In tegenstelling tot een standaardmodel dat het volgende token voorspelt op basis van uw prompt, voert de Deep Research-agent een lus van zoekopdrachten, lezen en synthese uit.
Cruciaal is dat Google ook het open ecosysteem omarmt door native ondersteuning toe te voegen voor het Model Context Protocol (MCP). Hierdoor kunnen Gemini-modellen rechtstreeks externe tools aanroepen die op externe servers worden gehost, zoals een weerdienst of een database, zonder dat de ontwikkelaar aangepaste lijmcode hoeft te schrijven om de toolaanroepen te parseren.
Het landschap: Google sluit zich aan bij OpenAI in het ‘stateful’-tijdperk
Google speelt ongetwijfeld een inhaalslag, maar met een duidelijke filosofische twist. OpenAI stapte negen maanden geleden uit de staatloosheid met lancering van de Responses API in maart 2025.
Hoewel beide giganten het probleem van context-bloat oplossen, lopen hun oplossingen uiteen in termen van transparantie:
OpenAI (compressiemethode): OpenAI’s Responses API introduceerde Compaction – een functie die de gespreksgeschiedenis verkort door de uitvoer van tools en redeneerketens te vervangen door ondoorzichtige ‘gecodeerde compactie-elementen’. Dit geeft prioriteit aan token-efficiëntie, maar creëert een ‘black box’ waarin de eerdere redenering van het model voor de ontwikkelaar verborgen blijft.
Google (de gehoste aanpak): De Interactions API van Google houdt de volledige geschiedenis beschikbaar en samen te stellen. Met het datamodel kunnen ontwikkelaars “interleaved berichten debuggen, manipuleren, streamen en redeneren”. Het geeft prioriteit aan inspecteerbaarheid boven compressie.
Ondersteunde modellen en beschikbaarheid
De Interactions API bevindt zich momenteel in de publieke bètafase (documentatie hier) en is direct beschikbaar via Google AI Studio. Het ondersteunt het volledige scala aan Google-modellen van de nieuwste generatie, zodat ontwikkelaars de juiste modelgrootte kunnen afstemmen op hun specifieke agenttaak:
-
Tweeling 3.0: Gemini 3 Pro-voorbeeld.
-
Tweeling 2.5: Flash, Flash-lite en Pro.
-
Agenten: Preview van diepgaand onderzoek (
deep-research-pro-preview-12-2025).
Commercieel gezien kan de API worden geïntegreerd in de bestaande prijsstructuur van Google: u betaalt standaardprijzen voor invoer- en uitvoertokens op basis van het model dat u kiest. De waardepropositie verandert echter met het nieuwe beleid voor het bewaren van gegevens. Omdat deze API stateful is, moet Google uw interactiegeschiedenis opslaan om functies zoals impliciete caching en het ophalen van context mogelijk te maken.
De toegang tot deze opslagruimte wordt bepaald door uw niveau. Ontwikkelaars op de Free Tier zijn beperkt tot een bewaarbeleid van één dag, geschikt voor vluchtige tests, maar onvoldoende voor agentgeheugen op de lange termijn.
Ontwikkelaars op het betaalde niveau ontgrendelen een retentiebeleid van 55 dagen. Deze uitgebreide opslag is niet alleen bedoeld voor auditing; het verlaagt effectief uw totale eigendomskosten door het maximaliseren van cachehits. Door de geschiedenis bijna twee maanden ‘hot’ op de server te houden, vermijdt u dat u moet betalen voor het opnieuw verwerken van enorme contextvensters voor terugkerende gebruikers, waardoor de betaalde laag aanzienlijk efficiënter wordt voor productieagenten.
Opmerking: aangezien dit een bètaversie is, heeft Google aangegeven dat functies en schema’s kunnen worden gewijzigd.
‘Je communiceert met een systeem’
Sam Witteveen, Google Developer Expert in Machine Learning en CEO van Red Dragon AI, ziet deze release als een noodzakelijke evolutie van de ontwikkelaarsstack.
“Als we teruggaan in de geschiedenis… was het hele idee simpel: tekst-in, tekst-uit”, merkte Witteveen op in een technische afdeling van de publicatie op YouTube. “Maar nu… heb je interactie met een systeem. Een systeem dat meerdere modellen kan gebruiken, meerdere oproeplussen kan maken, tools kan gebruiken en code kan uitvoeren op de backend.”
Witteveen benadrukte het onmiddellijke economische voordeel van deze architectuur: impliciete caching. Omdat de gespreksgeschiedenis op de servers van Google staat, hoeven ontwikkelaars niet te betalen voor het herhaaldelijk opnieuw uploaden van dezelfde context. “Je hoeft niet zoveel te betalen voor de tokens die je belt”, legde hij uit.
De release is echter niet wrijvingsloos. Witteveen had kritiek op de huidige implementatie van het Deep Research-citatiesysteem voor agenten. Hoewel de agent bronnen levert, worden de geretourneerde URL’s vaak verpakt in interne Google/Vertex AI-omleidingslinks in plaats van onbewerkte, bruikbare URL’s.
“Mijn grootste klacht is dat… deze URL’s, als ik ze opsla en ze in een andere sessie probeer te gebruiken, ze niet zullen werken”, waarschuwde Witteveen. “Als ik een rapport wil maken voor iemand met citaties, wil ik dat hij of zij op de URL’s uit een pdf-bestand kan klikken… Iets als medium.com als citatie (zonder de directe link) is niet erg goed.”
Wat het betekent voor jouw team
Voor Lead AI Engineers die zich richten op snelle implementatie en verfijning van modellen, biedt deze release een directe architectonische oplossing voor het aanhoudende ‘time-out’-probleem: uitvoering op de achtergrond.
In plaats van complexe asynchrone handlers te bouwen of afzonderlijke taakwachtrijen te beheren voor langlopende redeneringstaken, kunt u deze complexiteit nu rechtstreeks naar Google overbrengen. Maar dit gemak introduceert een strategische afweging.
Hoewel de nieuwe Deep Research-agent een snelle inzet van geavanceerde onderzoeksmogelijkheden mogelijk maakt, fungeert deze als een “black box” vergeleken met op maat gemaakte LangChain- of LangGraph-stromen. Ingenieurs zouden een prototype van een “langzaam denken”-functie moeten maken background=true parameter om te evalueren of de snelheid van implementatie opweegt tegen het verlies van fijnmazige controle over de onderzoekscyclus.
Senior ingenieurs die de AI-orkestratie en het budget beheren, zullen merken dat de overstap naar de server-side-modus via previous_interaction_id ontgrendelt impliciete caching, een grote winst voor zowel de kosten als de latentie.
Door te verwijzen naar de geschiedenis die is opgeslagen op de servers van Google, vermijdt u automatisch de tokenkosten die gepaard gaan met het opnieuw uploaden van enorme contextvensters, waardoor budgetbeperkingen direct worden aangepakt terwijl de hoge prestaties behouden blijven.
De uitdaging ligt hier in de supply chain; Dankzij de integratie van Remote Model Context Protocol (MCP) kunnen uw agenten rechtstreeks verbinding maken met externe tools, waardoor u zorgvuldig moet valideren dat deze externe services veilig en geverifieerd zijn. Het is tijd om uw huidige tokenverbruik bij het opnieuw verzenden van de gespreksgeschiedenis te bekijken. Als dit hoog is, kan het geven van prioriteit aan een migratie naar de stateful Interactions API aanzienlijke besparingen opleveren.
Voor senior data-ingenieurs biedt de Interactions API een robuuster datamodel dan ruwe tekstlogboeken. Dankzij het gestructureerde schema kunnen complexe verhalen worden opgespoord en beredeneerd, waardoor de algehele gegevensintegriteit in uw pijplijnen wordt verbeterd. Je moet echter waakzaam blijven over de datakwaliteit, met name de kwestie die expert Sam Witteveen aanstipt met betrekking tot citaties.
De Deep Research-agent retourneert momenteel ‘verpakte’ URL’s die kunnen verlopen of kapot gaan, in plaats van onbewerkte bronlinks. Als uw pijplijnen afhankelijk zijn van het verzamelen of archiveren van deze bronnen, moet u mogelijk een schone stap bouwen om de bruikbare URL’s te extraheren. Test ook de gestructureerde uitvoerfuncties (response_format) om te zien of ze de kwetsbare regex-parsering in uw huidige ETL-pijplijnen kunnen vervangen.
Ten slotte is het verplaatsen van de status naar de gecentraliseerde servers van Google een paradox voor IT-beveiligingsdirecteuren. Het kan de beveiliging verbeteren door API-sleutels en gespreksgeschiedenis uit de buurt van clientapparaten te houden, maar het introduceert een nieuw risico op gegevenslocatie. De kritische controle hier is het beleid voor het bewaren van gegevens van Google: terwijl de Free Tier gegevens slechts één dag opslaat, slaat de betaalde laag de interactiegeschiedenis 55 dagen op.
Dit staat in contrast met OpenAI’s “Zero Data Retention” (ZDR) bedrijfsmogelijkheden. U moet ervoor zorgen dat de opslag van gevoelige gespreksgeschiedenis gedurende bijna twee maanden in overeenstemming is met uw interne beheer. Als dit in strijd is met uw beleid, kunt u bellen met store=falsehoewel dat de stateful functies (en de kostenvoordelen) die deze nieuwe API waardevol maken, zal uitschakelen.



