Home Nieuws Doorbreek de geheugenmuur van AI met tokenopslag

Doorbreek de geheugenmuur van AI met tokenopslag

7
0
Doorbreek de geheugenmuur van AI met tokenopslag

Terwijl agent-AI zich verplaatst van experimenten naar echte productieworkloads, komt een stil maar serieus infrastructuurprobleem in beeld: geheugen. Bereken niet. Geen modellen. Geheugen.

Onder de motorkap hebben de huidige GPU’s simpelweg niet genoeg ruimte om de Key-Value (KV) caches op te slaan waar moderne, langlopende AI-agents op vertrouwen om de context te behouden. Het resultaat is een hoop onzichtbare verspilling: GPU’s doen het werk dat ze al hebben gedaan opnieuw, de cloudkosten stijgen en de prestaties gaan achteruit. Het is een probleem dat al opduikt in productieomgevingen, ook al hebben de meeste mensen het nog niet benoemd.

Tijdens een recente stop bij de VentureBeat AI Impact Series voegde WEKA CTO Shimon Ben-David zich bij VentureBeat CEO Matt Marshall om de nieuwe ‘geheugenmuur’ van de industrie uit te pakken en waarom dit een van de grootste wegversperringen aan het worden is voor het opschalen van echt stateful agent AI – systemen die zich in de loop van de tijd de context kunnen herinneren en daarop kunnen voortbouwen. Het gesprek stelde niet alleen het probleem vast; het creëerde een nieuwe manier van denken over geheugen, volledig via een aanpak die WEKA token warehousing noemt.

Het GPU-geheugenprobleem

“Als we naar de infrastructuur kijken voor gevolgtrekking, is het geen GPU-cyclusuitdaging. Het is vooral een GPU-geheugenprobleem”, zei Ben-David.

De oorzaak van het probleem komt neer op de manier waarop transformatormodellen werken. Om reacties te genereren, vertrouwen ze op KV-caches die contextuele informatie opslaan voor elk token in een gesprek. Hoe langer het contextvenster, hoe meer geheugen deze caches gebruiken, en dit loopt snel op. Een enkele reeks van 100.000 tokens kan ongeveer 40 GB GPU-geheugen vereisen, merkte Ben-David op.

Het zou geen probleem zijn als GPU’s onbeperkt geheugen hadden. Maar dat doen ze niet. Zelfs de meest geavanceerde GPU’s beschikken over ongeveer 288 GB geheugen met hoge bandbreedte (HBM), en die ruimte moet ook ruimte bieden aan het model zelf.

In echte multi-tenantomgevingen wordt dit al snel pijnlijk. Workloads zoals codeontwikkeling of belastingaangifteverwerking zijn voor context sterk afhankelijk van KV-cache.

“Als ik drie of vier PDF’s van 100.000 token in een model laad, is dat het dan. Ik heb de KV-cachecapaciteit van de HBM uitgeput”, zei Ben-David. Dit is wat bekend staat als de geheugenmuur. “Plotseling wordt de gevolgtrekkingsomgeving gedwongen om gegevens te laten vallen”, voegde hij eraan toe.

Dit betekent dat GPU’s voortdurend context weggooien die ze binnenkort weer nodig zullen hebben, waardoor agenten niet stateful kunnen zijn en gesprekken en context in de loop van de tijd in stand kunnen worden gehouden

De verborgen slotschat

“We zien voortdurend dat GPU’s in inferentieomgevingen dingen opnieuw berekenen die ze al hebben gedaan”, zegt Ben-David. Systemen vullen de KV-cache vooraf in, beginnen met het decoderen, hebben dan geen ruimte meer en gooien eerdere gegevens weg. Wanneer die context opnieuw nodig is, wordt het hele proces herhaald: vooraf invullen, decoderen, opnieuw vooraf invullen. Op grote schaal is dat een enorme hoeveelheid verspild werk. Het betekent ook verspilling van energie, extra latentie en verminderde gebruikerservaring, terwijl de marges onder druk komen te staan.

Dat GPU-herberekeningsverlies verschijnt direct op de balans. Organisaties lijden bijna 40% overhead alleen al door overtollige prefill-cycli. Dit creëert rimpeleffecten op de eindmarkt.

“Als je kijkt naar de prijzen van grote modelaanbieders zoals Anthropic en OpenAI, leren ze gebruikers feitelijk om hun prompts zo te structureren dat de kans groter wordt dat ze dezelfde GPU raken waarin hun KV-cache is opgeslagen”, aldus Ben-David. “Als je die GPU raakt, kan het systeem de prefill-fase overslaan en meteen beginnen met decoderen, waardoor ze op efficiënte wijze meer tokens kunnen genereren.”

Maar dit lost nog steeds niet het onderliggende infrastructuurprobleem van de extreem beperkte GPU-geheugencapaciteit op.

Oplossing voor stateful AI

“Hoe klim je over die geheugenmuur? Hoe overwin je die? Dat is de sleutel tot moderne, kosteneffectieve gevolgtrekkingen”, zei Ben-David. “We zien dat steeds meer bedrijven het op verschillende manieren proberen op te lossen.”

Sommige organisaties implementeren nieuwe lineaire modellen die proberen kleinere KV-caches te creëren. Anderen zijn gericht op het aanpakken van cache-efficiëntie.

“Om efficiënter te zijn, gebruiken bedrijven omgevingen die de KV-cache op één GPU berekenen en deze vervolgens uit het GPU-geheugen proberen te kopiëren of er een lokale omgeving voor gebruiken”, legt Ben-David uit. “Maar hoe doe je dat op schaal, op een kosteneffectieve manier die je geheugen en je netwerk niet belast? Dat is iets waar WEKA onze klanten mee helpt.”

Door eenvoudigweg meer GPU’s naar het probleem te gooien, wordt de AI-geheugenbarrière niet opgelost. “Er zijn een aantal problemen waar je niet genoeg geld aan kunt besteden om ze op te lossen”, zei Ben-David.

Uitgebreid geheugen en tokenopslag uitgelegd

WEKA’s antwoord is wat het augmented memory en token warehousing noemt – een manier om opnieuw na te denken over waar en hoe KV-cachegegevens leven. In plaats van te forceren dat alles in het GPU-geheugen past, breidt WEKA’s Augmented Memory Grid de KV-cache uit naar een snelle, gedeelde “opslag” binnen de NeuralMesh-architectuur.

In de praktijk verandert geheugen hierdoor van een harde beperking in een schaalbare hulpbron, zonder dat er sprake is van beëindigingslatentie. WEKA zegt dat klanten de KV-cachehitrates zien stijgen naar 96-99% voor de werklast van agenten, samen met efficiëntiewinsten van maximaal 4,2x meer tokens geproduceerd per GPU.

Ben-David zei het eenvoudig: “Stel je voor dat je 100 GPU’s hebt die een bepaald aantal tokens produceren. Stel je nu voor dat die honderd GPU’s zich gedragen alsof het 420 GPU’s zijn.”

Voor grote inferentieleveranciers is het resultaat niet alleen betere prestaties, maar vertaalt het zich ook direct in echte financiële impact.

“Alleen al door de versnelde KV-cachelaag toe te voegen, kijken we naar enkele gebruiksscenario’s waarbij de besparing miljoenen dollars per dag zou bedragen”, aldus Ben-David.

Deze efficiëntievermenigvuldiger opent ook nieuwe strategische kansen voor bedrijven. Platformteams kunnen stateful agents ontwerpen zonder zich zorgen te hoeven maken over het opblazen van geheugenbudgetten. Serviceproviders kunnen prijsniveaus aanbieden op basis van persistente context, waarbij in de cache opgeslagen gevolgtrekkingen tegen aanzienlijk lagere kosten worden geleverd.

Wat komt er daarna

NVIDIA voorspelt een honderdvoudige toename van de vraag naar gevolgtrekkingen naarmate AI van agenten de dominante werklast wordt. Die druk sijpelt al door van hyperscalers naar alledaagse bedrijfsimplementaties – dit is niet alleen meer een ‘big tech’-probleem.

Naarmate bedrijven overstappen van proofs of concept naar echte productiesystemen, wordt geheugenpersistentie een kernprobleem van de infrastructuur. Organisaties die dit als een architecturale prioriteit beschouwen en niet als een bijzaak, zullen een duidelijk voordeel behalen, zowel qua kosten als qua prestaties.

De geheugenmuur is niet iets waar organisaties zomaar mee overweg kunnen. Naarmate AI van agenten schaalt, is het een van de eerste grenzen van de AI-infrastructuur die een diepere heroverweging afdwingt, en zoals het inzicht van Ben-David duidelijk maakte, zou het geheugen ook de plek kunnen zijn waar de volgende golf van concurrentiedifferentiatie begint.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in