Jarenlang, AI bedrijven gaven gebruikers onbelemmerde toegang tot de snoepwinkel en moedigden hen aan om tokens, stukjes tekst die AI leest en schrijft, als feitelijk oneindig te beschouwen.
Tokens werden samengevoegd in abonnementen, verborgen achter royale limieten, of zo laag geprijsd dat mensen ze niet meer tellen. Maar nu de kosten van operationele modellen de inkomsten aantasten, en chiptekorten, heliumstoringen en knelpunten in datacentra de hoeveelheid computergebruik beperken die online kan komen, beginnen de grote modelmakers de toegang agressiever te rantsoeneren. All-you-can-eat AI verdwijnt. Nu zijn bedrijven in een competitie verwikkeld om te zien wie het langst de vraag kan blijven subsidiëren en of degene die het laatst met zijn ogen knippert de markt zal domineren.
Deze week Meta offline gehaald zijn ‘Claudenomics’-leaderboard, dat werknemers volgde productiviteit met behulp van een ruwe maatstaf van hoeveel AI-tokens ze de afgelopen maand hebben uitgegeven. Werknemers hebben in één maand meer dan 60 biljoen tokens uitgegeven, wat overeenkomt met ongeveer 80 miljoen exemplaren Oorlog en vredeof de inhoud van 10.000 volledige bibliotheken.
“Eerste grensmodelbouwers zullen te maken krijgen met afwegingen in de manier waarop ze hun computerbronnen gebruiken”, legt Sam Manning uit, senior onderzoeker bij GovAI, een gemeenschap van onderzoekers die bestuderen hoe AI wordt gebruikt en geïmplementeerd. “Het is een zeer consequente beslissing die deze bedrijven moeten nemen.”
Het wereldwijde tekort aan AI-chips, dat waarschijnlijk nog zal worden verergerd door de impact van de oorlog in het Midden-Oosten op helium, een belangrijk onderdeel van de GPU-productie, samen met een achterstand bij het bouwen van datacenters, betekent dat er slechts een beperkte hoeveelheid hardware is om AI-modellen te trainen en uit te voeren. Als u op het trainingsbudget bezuinigt, loopt u het risico achterop te raken bij de concurrentie bij het uitbrengen van geavanceerde modellen. Verminder gevolgtrekkingen, de snelheid en de schaal waarop u aan de vraag van klanten voldoet, en u frustreert gebruikers.
Verschillende bedrijven hebben verschillende benaderingen. Eerder deze maand maakte OpenAI dit bekend wilde van gebruiker wisselen op zijn Codex-app naar op tokens gebaseerde prijzen, in plaats van per bericht, ongeacht de querygrootte. Dat zou ten goede kunnen komen aan degenen die kleinere taken uitvoeren, maar het zou ook de tokenlimiet van een gebruiker snel kunnen opbranden. Het bedrijf beëindigde begin april ook een maandenlang bod om de Codex-limieten te verdubbelen.
Rond dezelfde tijd, Antropisch blokkeerde gebruikers van het gebruik van Claude-abonnementen om OpenClaw-agent AI-tools aan te drijven en ze in plaats daarvan richting API-toegang te duwen. De waarschijnlijke reden was simpel: de vraag. “We hebben hard gewerkt om aan de toenemende vraag naar Claude te voldoen, en onze abonnementen zijn niet gebouwd op de gebruikspatronen van deze tools van derden”, zegt Boris Cherny, directeur van Claude Code, die de overstap aankondigt. “Capaciteit is een hulpbron die we zorgvuldig beheren, en we geven prioriteit aan onze klanten die onze producten en API gebruiken.”
De financiële druk is duidelijk. De kosten voor het exploiteren van AI-modellen zijn goed voor meer dan de helft van de totale kosten De inkomsten van OpenAI en Anthropicvolgens interne gegevens verkregen door De Wall Street Journal. “Er is gewoon een enorm consumentensurplus geweest”, zegt Manning. “Een groot deel van de oorspronkelijke motivatie voor prijsstelling was het vergroten van marktaandeel en het krijgen van gebruikers op hun platforms. Misschien zien we daar een scharnierpunt.”
De afweging tussen prijs en prestatie beperkt zich niet tot Amerikaanse bedrijven. Het is ook een prioriteit voor de Chinese AI-bedrijven. Zhipu AI, die de GLM-modellen maakt, heeft de prijzen van zijn open-platform API-tokens begin 2026 met 83% zien stijgen, zo kondigt hij deze week aan nog eens 8% stijging voor zijn nieuwste modellen.
De prijsstijgingen weerspiegelen de toenemende vraag, zo blijkt uit onderzoek van JP Morgan. Gebruikers lijken bereid hogere kosten op zich te nemen voor waardevollere werklasten, vooral bij codeer- en agentgerelateerde gebruiksscenario’s. Stijgende prijzen en aanhoudende vraag veranderen de apparaateconomie van de Chinese AI-giganten nu al, waarbij de API-brutomarges van Zhipu AI toenemen van 3% in 2024 naar 19% in 2025.
Toch slaat Alibaba een andere weg in. Het bedrijf heeft zijn Qwen-3.6-model gratis beschikbaar gesteld voor gebruikers via OpenRouter, een coderingsondersteuningssysteem. Gebruikers brandden snel door bijna 1,5 biljoen tokens op één dag.
Dat besluit valt op, maar de logica is duidelijk. Alibaba probeert ontwikkelaars, workloads en langdurige cloudklanten voor zich te winnen. Terwijl OpenAI en Anthropic de toegang verscherpen om de schaarse capaciteit te beschermen en de apparaateconomie te verbeteren, speelt Alibaba een langer spel en absorbeert de kosten in de hoop gebruikers binnen te halen die later misschien moeilijker te winnen zijn.
Alibaba kan ook profiteren van het feit dat de meeste bedrijven op een gegeven moment geen compromissen kunnen sluiten op het gebied van de prijs. Prijsdruk blijft onvermijdelijk als computers nog steeds schaars zijn, aldus Manning van GovAI. “We mogen verwachten dat er in de nabije toekomst sprake zal zijn van dit soort rekenschaarste”, zegt hij.



