De AI de industrie heeft een stil afhankelijkheidsprobleem: het hangt af van tokens.
Elke nieuwe generatie agent-AI lijkt te veronderstellen dat het antwoord op de complexiteit is om meer context naar het model te gooien, langere verhalen te bewaren, meer oproepen te genereren, meer tools door te lussen en de tokenmeter de vrije loop te laten.
De opkomst van agentsystemen, en nu projecten zoals Open Klauwmaakt die verleiding nog sterker. Zodra je modellen meer autonomie geeft, gebruiken ze niet alleen tokens om vragen te beantwoorden. Ze gebruiken ze om te plannen, na te denken, opnieuw te proberen, samen te vatten, tools aan te roepen, de output te inspecteren en zichzelf op koers te houden. OpenClaw zelf beschrijft het product als een ‘agent-native’ gateway met sessies, geheugen, toolgebruik en multi-agent routing over berichtenplatforms – die je precies vertelt waar het naartoe gaat: meer autonomie, meer orkestratie en, tenzij iemand tussenbeide komt, veel meer tokenburn.
Dat traject bevalt vrijwel iedereen die de infrastructuur verkoopt. Als de facturering is gebaseerd op tokens, lijkt een groter tokenverbruik op groei. Als je de computer achter deze tokens verkoopt, ziet het er nog beter uit. Google zei in zijn Winstverwachting voor oktober 2025 dat het meer dan 1,3 biljard maandelijkse tokens over zijn oppervlakken verwerkte, of meer dan 20 keer het volume van een jaar eerder. Nvidia heeft op zijn beurt zwaar geleund op de economie van inferentie en agent AIDat benadrukt zowel de toename van de vraag als de mogelijkheid om er steeds meer infrastructuur aan te verkopen.
Maar bedrijven die kunstmatige intelligentie kopen, zouden hier heel anders naar moeten kijken. Vanuit het perspectief van de klant is een explosieve tokengroei niet noodzakelijkerwijs een teken van intelligentie. In veel gevallen is het een teken van inefficiëntie.
Meer tokens betekenen niet meer intelligentie
Het huidige industrieverhaal behandelt symbolische consumptie vaak alsof het een maatstaf voor vooruitgang is. Grotere contextvensters, meer redeneringssporen, meer agentloops, meer geheugen, meer ophaalmogelijkheden, meer interacties. Het klinkt allemaal indrukwekkend.
Maar een systeem dat elke keer enorme hoeveelheden context moet verbruiken en regenereren, is niet noodzakelijkerwijs slimmer. Het kan gewoon slecht ontworpen zijn.
De eigen technische begeleiding van Anthropic doet dit met ongebruikelijke duidelijkheid. Het team stelt dat context moet worden behandeld als een eindige hulpbron, en dat goede context-engineering betekent dat je “de kleinst mogelijke set tokens met een hoog signaal” moet vinden voor de uit te voeren taak. Het is geen marginale optimalisatie. Het is een fundamenteel andere filosofie. Het zegt dat de toekomst niet aan systemen toebehoort die de meeste context kunnen opslokken, maar aan systemen die weten welke context er werkelijk toe doet.
Dat onderscheid wordt belangrijker naarmate agentische workflows zich verspreiden. Zodra een AI-systeem herhaaldelijk mag handelen, tools mag gebruiken, plannen opnieuw mag bekijken en de sessiestatus kan behouden, kan het tokenverbruik snel verslechteren. Wat er van buitenaf uitziet als één taak, kan veel verborgen aanwijzingen, subquery’s, samenvattingen en nieuwe pogingen bevatten. Deloitte beschrijft tokens nu als de nieuwe valuta van de AI-economiejuist omdat de structuur van agentsystemen de kostendynamiek zo dramatisch verandert.
En toch doen veel bedrijven nog steeds alsof schaal alleen het probleem oplost.
Dat zal niet gebeuren.
Lange context is geen gratis lunch
Een van de meest hardnekkige mythes op het gebied van zakelijke AI is dat als de context goed is, meer context ook beter moet zijn. Die veronderstelling was altijd te simplistisch, en het bewijs ertegen wordt steeds sterker.
de krant “Verloren in het middentoonde aan dat taalmodellen vaak moeite hebben om relevante informatie te gebruiken wanneer deze verborgen is in lange contexten, en dat ze het het beste doen wanneer belangrijke informatie aan het begin of einde verschijnt. Chroma’s contextevaluatie op lange termijn voor 18 modellen ontdekte dat de prestaties van het model steeds onbetrouwbaarder worden naarmate de invoerlengte groter wordt. Met andere woorden, er is een punt waarop meerdere tokens niet langer extra intelligentie zijn, maar extra ruis beginnen te worden.
Dit is waar het brute-force-model minder op technologische onvermijdelijkheid begint te lijken en meer op luie architectuur. Als uw reactie op elke nieuwe vereiste is om meer materiaal in de prompt te stoppen, elke beurt voor altijd te behouden en alle tussenliggende artefacten in het actieve contextvenster te bewaren, bouwt u geen beter AI-systeem. Je bouwt een duurdere, en mogelijk een slechtere.
De echte limiet is context-engineering
De interessantere toekomst is niet groter en hongeriger. Dat is het selectiever, meer gestructureerdEn bewuster. Dit is de reden waarom het belangrijkste nieuwe concept in de toegepaste kunstmatige intelligentie misschien niet prompt engineering is, maar… contexttechniek.
Anthropic omschrijft context-engineering expliciet als de volgende stap na snelle engineering. OpenAI-aanbiedingen ophalen En snel cachen om te voorkomen dat u herhaaldelijk dezelfde grote hoeveelheden informatie verzendt. Google-aanbiedingen contextcaching voor herhaald gebruik van belangrijke inleidende context. Microsoft-richtlijnen voor het ophalen van augmented generatie (RAG) En klontjes is net zo eenvoudig: het verzenden van hele documenten of grote stukken is duur, kan de tokenlimieten overschrijden en presteert vaak slechter dan goed voorbereide ophaalpijplijnen.
Dit zijn geen randtechnieken. Het zijn signalen uit de sector zelf dat het brute-force-tijdperk grenzen kent.
Het patroon is duidelijk. De toekomstige enterprise-stack zal er niet op vertrouwen dat bij elke interactie blindelings alles wat een bedrijf weet naar een model wordt gestuurd. Het zal afhankelijk zijn van een betere architectuur: ophaallaag, toegangscontrole, selectief geheugen, hiërarchische samenvattingen, contextcompressie, caching, routing en krachtige queryplanning.
Met andere woorden, het zal afhankelijk zijn van technologie.
Waarom de huidige economie bedrieglijk is
Dit is waar de prikkels verstoord raken.
Modelverkopers kunnen heel gelukkig leven in een wereld waarin klanten geloven dat tokengroei natuurlijk, onvermijdelijk en zelfs wenselijk is. Hoe meer oproepen, hoe meer context, hoe meer lussen, hoe meer inkomsten. Fabrikanten van Graphics Processing Units (GPU’s) bevinden zich ook in een goede positie nu de vraag naar inferentie blijft stijgen.
En natuurlijk is een deel van die vraag legitiem. Er zijn echte gebruiksscenario’s die meer context, meer modaliteiten en meer geavanceerde gevolgtrekkingen nodig hebben. Maar het zou een vergissing zijn om ‘er bestaat vraag’ te verwarren met ‘er bestaat geen afval’.
zegt OpenAI prompt caching kan de latentie met maximaal 80% verminderen en de invoertokenkosten met maximaal 90% voor herhaalde inhoud. zegt Google contextcaching is vooral handig wanneer er herhaaldelijk naar een belangrijke initiële context wordt verwezen. zegt Microsoft goede chunking verwijdert irrelevante informatie en verbetert zowel de kosten als de kwaliteit. Geen van deze opties zou er toe doen als de brute-force-aanpak al effectief was. Hun bestaan alleen al is het bewijs dat slimmere architectuur willekeurige symbolische overstromingen verslaat.
Daarom moeten bedrijven heel voorzichtig zijn bij het overnemen van de woordenschat van de leveranciers die hen de computer verkopen. ‘Beter capabel’ en ‘duurder in gebruik’ zijn geen synoniemen.
De AI-industrie verdient geld aan token-inflatie. Slimme bedrijven zullen zich hieruit ontwikkelen.
Het zakelijke voordeel komt voort uit het kennen van uw eigen context
Dit is waar dit artikel meer wordt dan een klacht over de kosten. Omdat de echte kans niet simpelweg ligt in het verlagen van de symbolische rekeningen. Het bouwt betere systemen.
Een bedrijf dat zijn eigen kennisstructuur, interne machtigingen, workflows, terminologie en beslissingslogica begrijpt, zou niet elke interactie met een AI-systeem moeten benaderen alsof het vanaf het begin met een vreemde praat. Het moet op intelligente wijze context kunnen opbouwen: de juiste informatie op het juiste moment ophalen, behouden wat belangrijk is, weggooien wat niet belangrijk is, en de output baseren op zijn eigen interne logica.
Dat is geen kleine verbetering. Het verandert radicaal de economie van enterprise AI.
Als het platform van het bedrijf goed is gebouwd, hoeft het model niet voortdurend de hele wereld in het actieve geheugen te dragen. Het zou moeten werken met een samengestelde, dynamische subset van relevante informatie met een hoog signaal. De agentische ophaalarchitectuur van Microsoft wijst precies in deze richting: gerichte subquery’s, gestructureerde antwoorden, citaten, beveiligingsaanpassingen en kennisbronbewuste basis in plaats van willekeurige contextvulling.
Dit is ook de reden dat ik eerder in een artikel betoogde dat “AI zal de strategie niet vervangen: het zal deze onthullen.” Hetzelfde geldt hier. AI zal niet alleen onthullen of je het nieuwste model hebt overgenomen. Het zal onthullen of uw bedrijf daadwerkelijk zijn eigen informatiearchitectuur begrijpt, of dat het in een mist van losgekoppelde documenten, machtigingen en processen heeft geleefd.
Wat de volgende fase van AI daadwerkelijk zal belonen
De bedrijven die winnen in de volgende fase van kunstmatige intelligentie zullen niet degenen zijn die zich de grootste symbolische rekeningen kunnen veroorloven. Zij zullen degenen zijn die systemen bouwen die ze niet nodig hebben.
Ze zullen tokens behandelen zoals goede ingenieurs omgaan met bandbreedte, levensduur van de batterij of latentie: niet als oneindige bronnen die theatraal moeten worden geconsumeerd, maar als beperkingen die intelligent ontwerp belonen. Ze zullen het grootste deel van de context opslaan wereld modellen. Ze zullen grote modellen gebruiken wanneer grote modellen gerechtvaardigd zijn. Ze zullen gebruik maken van afhalen wanneer ophalen voldoende is. Ze zullen herhaalde context in de cache opslaan. Ze zullen eenvoudiger werk naar goedkopere modellen sturen. Ze willen de herinnering beheersen in plaats van deze te romantiseren. Ze maken onderscheid tussen context die beschikbaar is en context die daadwerkelijk nuttig is.
En, cruciaal, ze zullen stoppen met het verwarren van brute kracht met verfijning. Dit is het deel van het huidige AI-verhaal dat serieuze correctie verdient. De industrie blijft ons aanmoedigen om ons een toekomst voor te stellen waarin de steeds groeiende symbolische consumptie eenvoudigweg de prijs van vooruitgang is.
Waarschijnlijk niet. Dit is op zijn minst gedeeltelijk de prijs van onvolwassen architectuur. En volwassen architectuur heeft een manier om slechte bedrijfsmodellen te vernietigen.
De toekomst van AI zal niet toebehoren aan de bedrijven die de meeste tokens consumeren. Het zal toebehoren aan degenen die weten hoe ze er minder moeten gebruiken.



