Home Nieuws De nieuwe compressie van Google vermindert het AI-geheugengebruik drastisch en versnelt stilletjes...

De nieuwe compressie van Google vermindert het AI-geheugengebruik drastisch en versnelt stilletjes de prestaties bij veeleisende workloads en moderne hardwareomgevingen

Door

maart 29, 2026

Google TurboQuant vermindert de geheugenbelasting terwijl de nauwkeurigheid bij veeleisende workloads behouden blijft
Vectorcompressie bereikt nieuwe efficiëntieniveaus zonder aanvullende trainingsvereisten
Knelpunten in de sleutelwaardecache blijven centraal staan in de prestatielimieten van AI-systemen

Grote taalmodellen (LLM’s) zijn sterk afhankelijk van interne geheugenstructuren die tussentijdse gegevens opslaan voor snel hergebruik tijdens de verwerking.

Een van de meest kritische componenten is de sleutelwaardecache, beschreven als een “supersnel digitaal spiekbriefje” dat herhaalde berekeningen vermijdt.

Dit mechanisme verbetert de responsiviteit, maar creëert ook een groot knelpunt omdat hoogdimensionale vectoren aanzienlijke geheugenbronnen gebruiken.

Het artikel gaat hieronder verder

Geheugenknelpunten en schaaldruk

Naarmate modellen groter worden, wordt deze geheugenvraag steeds moeilijker te beheren zonder de snelheid of beschikbaarheid in moderne LLM-implementaties in gevaar te brengen.

Traditionele benaderingen proberen deze last te verminderen door middel van kwantisering, een methode die de numerieke precisie comprimeert.

Deze technieken brengen echter vaak compromissen met zich mee, met name een verminderde uitvoerkwaliteit of extra geheugenoverhead als gevolg van opgeslagen constanten.

Deze spanning tussen efficiëntie en nauwkeurigheid blijft onopgelost in veel bestaande systemen die afhankelijk zijn van AI-tools voor grootschalige verwerking.

Google’s TurboQuant introduceert een proces in twee stappen dat bedoeld is om deze al lang bestaande beperkingen aan te pakken.

De eerste fase is gebaseerd op PolarQuant, dat vectoren transformeert van standaard cartesiaanse coördinaten naar polaire representaties.

In plaats van meerdere richtingscomponenten op te slaan, condenseert het systeem informatie in straal- en hoekwaarden, waardoor een compacte afkorting ontstaat, waardoor de noodzaak voor herhaalde normalisatiestappen wordt verminderd en de overhead wordt beperkt die doorgaans gepaard gaat met conventionele kwantiseringsmethoden.

In de tweede fase wordt Quantized Johnson-Lindenstrauss of QJL gebruikt, die als corrigerende laag fungeert.

Hoewel PolarQuant het grootste deel van de compressie afhandelt, kan het kleine restfouten achterlaten omdat QJL elk vectorelement reduceert tot een enkele bit, positief of negatief, terwijl significante relaties tussen datapunten behouden blijven.

Deze extra stap verfijnt de aandachtsscores, die bepalen hoe modellen prioriteit geven aan informatie tijdens de verwerking.

Volgens gerapporteerde tests behaalt TurboQuant efficiëntiewinsten in verschillende lange-contextbenchmarks met behulp van open modellen.

Het systeem vermindert naar verluidt het gebruik van het cachegeheugen met een factor zes, terwijl consistente downstream-resultaten behouden blijven.

Het maakt ook kwantisering tot slechts drie bits mogelijk zonder dat herscholing nodig is, wat compatibiliteit met bestaande modelarchitecturen suggereert.

De gerapporteerde resultaten omvatten ook winst in verwerkingssnelheid, waarbij aandachtsberekeningen tot acht keer sneller verlopen dan standaard 32-bits bewerkingen op geavanceerde hardware.

Deze resultaten geven aan dat compressie de prestaties onder gecontroleerde omstandigheden niet noodzakelijkerwijs verslechtert, hoewel dergelijke resultaten afhankelijk zijn van het benchmarkontwerp en de reikwijdte van de evaluatie.

Dit systeem kan ook de bedrijfskosten verlagen door de geheugenvereisten te verminderen, terwijl het gemakkelijker wordt om modellen te implementeren op beperkte apparaten waar de verwerkingsbronnen beperkt blijven.

Tegelijkertijd kunnen vrijgekomen middelen in plaats daarvan worden gebruikt om complexere modellen uit te voeren in plaats van de infrastructuurvereisten te verminderen.

Hoewel de gerapporteerde resultaten consistent lijken te zijn in meerdere tests, blijven ze gebonden aan specifieke experimentele omstandigheden.

De bredere impact zal afhangen van de implementatie in de echte wereld, waar variaties in werklasten en architecturen verschillende resultaten kunnen opleveren.

Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om ons deskundig nieuws, recensies en meningen in uw feeds te krijgen. Klik dan zeker op de knop Volgen!

En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, video-unboxings en ontvang regelmatig updates van ons WhatsAppen Ook.

Nieuwsbron

De nieuwe compressie van Google vermindert het AI-geheugengebruik drastisch en versnelt stilletjes de prestaties bij veeleisende workloads en moderne hardwareomgevingen

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Ontsnap uit de simulatie met de nieuwe op videogames geïnspireerde advertentie van Isle of...

Anthropic biedt Claude gedeelde context in Microsoft Excel en PowerPoint, waardoor herbruikbare workflows voor...

The Night Manager seizoen 2 is terug en beter dan ooit na 10 jaar...

Garanti haalt $1 miljard op en breidt uit naar Robotaxis met Uber