Home Nieuws Nvidia heeft zojuist toegegeven dat het algemene GPU-tijdperk ten einde loopt

Nvidia heeft zojuist toegegeven dat het algemene GPU-tijdperk ten einde loopt

23
0
Nvidia heeft zojuist toegegeven dat het algemene GPU-tijdperk ten einde loopt

Nvidia’s strategische licentieovereenkomst ter waarde van 20 miljard dollar met Groq vertegenwoordigt een van de eerste duidelijke stappen in een strijd op vier fronten om de toekomstige AI-stack. In 2026 wordt die strijd duidelijk voor bedrijfsbouwers.

Voor de technische besluitvormers waarmee we elke dag praten – de mensen die de AI-applicaties bouwen en de datapijplijnen die deze aansturen – luidt deze deal het einde in van het tijdperk van de one-size-fits-all GPU als de standaard AI-oplossing.

We gaan een tijdperk in van gedesaggregeerde inferentiearchitectuurwaarbij het silicium zelf in twee verschillende typen wordt gesplitst om tegemoet te komen aan een wereld die zowel een enorme context als onmiddellijke redenering vereist.

Waarom gevolgtrekking de GPU-architectuur doormidden breekt

Om te begrijpen waarom Nvidia-CEO Jensen Huang een derde van zijn geld liet vallen rapporteerde een geldstapel van $60 miljard over een licentieovereenkomst, kijk naar de existentiële bedreigingen die samenkomen met de gerapporteerde zaken van zijn bedrijf 92% marktaandeel.

De industrie bereikte eind 2025 een omslagpunt: voor het eerst zijn gevolgtrekkingen – het stadium waarin getrainde modellen daadwerkelijk worden uitgevoerd – geslaagd voor een training in de vorm van het totale datacenterinkomenaldus Deloitte. In deze nieuwe “Inference Flip” zijn de statistieken veranderd. Hoewel nauwkeurigheid het uitgangspunt blijft, wordt de strijd nu gevoerd over de latentie en het vermogen om de ‘staat’ van autonome agenten te behouden.

Er zijn vier fronten in deze strijd, en elk front wijst op dezelfde conclusie: de werkbelasting van gevolgtrekkingen fragmenteert sneller dan GPU’s kunnen generaliseren.

1. Breek de GPU in twee: vooraf invullen versus decoderen

Gavin Baker, een investeerder in Groq (en daarom bevooroordeeld, maar ook buitengewoon vloeiend in de architectuur), samengevat de belangrijkste drijfveer van de Groq-deal: “Inferentie wordt opgesplitst in vooraf invullen en decoderen.”

Voorvullen En decoderen zijn twee verschillende fasen:

  • De voorvulfase: Beschouw dit als de ‘prompt’-fase van de gebruiker. Het model moet enorme hoeveelheden gegevens verwerken (of het nu gaat om een ​​codebase van 100.000 regels of een uur aan video) en een contextueel begrip berekenen. Dit is ‘computergebonden’ en vereist enorme matrixvermenigvuldiging, waar de GPU’s van Nvidia historisch gezien in uitblinken.

  • De generatie- (decoderings-) fase: Dit is de werkelijke token-voor-token ‘generatie’. Zodra de prompt is opgenomen, genereert het model één woord (of token) tegelijk, waarbij elk woord terug in het systeem wordt ingevoerd om het volgende te voorspellen. Dit is ‘geheugenbandbreedte gebonden’. Als de gegevens niet snel genoeg van het geheugen naar de processor kunnen worden verplaatst, stottert het model, hoe krachtig de GPU ook is. (Dit is waar Nvidia zwak was, en waar de speciale taalverwerkingseenheid (LPU) van de Groq en het bijbehorende SRAM-geheugen schitteren. Daarover later meer.)

Nvidia heeft kondigde een aanstaande aan Vera Rubin familie van chips dat het architectonisch specifiek is om met deze scheiding om te gaan. De Robijn CPX Een onderdeel van deze familie is het aangewezen “prefill”-werkpaard, geoptimaliseerd voor enorme contextvensters van 1 miljoen tokens of meer. Om dit gewicht tegen een betaalbare prijs aan te kunnen, wijkt het af van de opvallende kosten geheugen met hoge bandbreedte (HBM) – Nvidia’s huidige gouden standaardgeheugen dat vlak naast de GPU-chip zit – en in plaats daarvan 128 GB aan nieuw soort geheugen gebruikt, GDDR7. Hoewel HBM extreme snelheid levert (hoewel niet zo snel als Groq’s statische willekeurig toegankelijke geheugen (SRAM)), is het aanbod aan GPU’s beperkt en vormen de kosten een belemmering voor schaalvergroting; GDDR7 biedt een kosteneffectievere manier om enorme datasets op te nemen.

Ondertussen zal het silicium met ‘Groq-smaak’ dat Nvidia integreert in zijn routekaart voor gevolgtrekkingen dienen als de snelle ‘decodeer’-engine. Dit gaat over het neutraliseren van een dreiging van alternatieve architecturen zoals de TPU’s van Google en het behouden van de dominantie daarvan CUDA, Het software-ecosysteem van Nvidia dat al meer dan tien jaar als belangrijkste gracht fungeert.

Dit alles was genoeg voor Baker, de Groq-investeerder, om te voorspellen dat de stap van Nvidia om Groq in licentie te geven ertoe zal leiden dat alle andere gespecialiseerde AI-chips zullen worden geannuleerd, dat wil zeggen, buiten Google’s TPU, Tesla’s AI5 en AWS’s Trainium.

2. De gedifferentieerde kracht van SRAM

De kern van de technologie van Groq is SRAM. In tegenstelling tot DRAM in uw pc of HBM op een Nvidia H100 GPU, wordt SRAM rechtstreeks in de logica van de processor geëtst.

Michael Stewart, managing partner van het durffonds van Microsoft, M12, beschrijft SRAM als het beste voor het verplaatsen van gegevens over korte afstanden met minimale energie. “De energie om een ​​klein beetje te bewegen in SRAM is ongeveer 0,1 picojoule of minder”, zei Stewart. “Het verplaatsen tussen de DRAM en de processor is twintig tot honderd keer erger.”

In de wereld van 2026, waar agenten in realtime moeten redeneren, fungeert SRAM als het ultieme ‘kladblok’: een snelle werkruimte waar het model symbolische bewerkingen en complexe redeneerprocessen kan manipuleren zonder de ‘verspilde cycli’ van het pendelen van extern geheugen.

SRAM heeft echter een groot nadeel: het is fysiek omvangrijk en duur om te produceren, waardoor de capaciteit beperkt is in vergelijking met DRAM. Dit is waar Val Bercovici, Chief AI Officer bij Weka, een ander bedrijf dat geheugen voor GPU’s aanbiedt, de marktsegmentatie ziet.

Groq-vriendelijke AI-workloads – waarbij SRAM het voordeel heeft – zijn degenen die kleine modellen van 8 miljard parameters en lager gebruiken, zei Bercovici. Dit is echter geen kleine markt. “Het is gewoon een gigantisch marktsegment dat niet door Nvidia werd bediend, namelijk edge, lage latentie, robotica, spraak en IoT-apparaten – dingen die we op onze telefoons willen draaien zonder de cloud voor gemak, prestaties of privacy”, zei hij.

Deze 8B ‘sweet spot’ is belangrijk omdat er in 2025 een explosie plaatsvond modeldistillatiehoeveel bedrijven zijn er? het verkleinen van massieve modellen tot zeer efficiënte kleinere versies. Hoewel SRAM niet praktisch is voor ‘frontier’-modellen met biljoenen parameters, is het perfect voor deze kleinere, snelle modellen.

3. De antropogene dreiging: de opkomst van de ‘draagbare stapel’

Misschien wel de meest onderschatte drijfveer van deze deal is het succes van Anthropic bij het draagbaar maken van zijn stack over accelerators.

Het bedrijf heeft baanbrekend op het gebied van draagbare techniek voor training en gevolgtrekking – in feite een softwarelaag waarmee de Claude-modellen over meerdere AI-acceleratorfamilies kunnen draaien – inclusief Nvidia’s GPU’s en Ironwood TPU’s van Google. Tot voor kort werd de dominantie van Nvidia beschermd omdat het draaien van krachtige modellen buiten de Nvidia-stack een technische nachtmerrie was. “Het is antropisch”, vertelde Wekas ​​Bercovici me. “Het feit dat Anthropic erin slaagde een softwarestack te bouwen die zowel op TPU’s als op GPU’s kon werken, wordt volgens mij niet genoeg gewaardeerd in de markt.”

(Openbaarmaking: Weka heeft VentureBeat-evenementen gesponsord.)

Anthropic heeft onlangs toegezegd toegang te krijgen tot 1 miljoen TPU’s van Google, wat neerkomt op ruim één gigawatt aan rekencapaciteit. Deze multi-platform aanpak zorgt ervoor dat het bedrijf niet gegijzeld wordt door Nvidia’s prijs- of aanbodbeperkingen. Dus voor Nvidia is de Groq-deal net zo goed een defensieve zet. Door de ultrasnelle inferentie-IP van Groq te integreren, zorgt Nvidia ervoor dat de meest prestatiegevoelige workloads, zoals die met kleine modellen of als onderdeel van real-time agents, kunnen worden ondergebracht in Nvidia’s CUDA-ecosysteem, zelfs als concurrenten proberen over te stappen op Google’s Ironwood TPU’s. CUDA is de speciale software die Nvidia aan ontwikkelaars levert om GPU’s te integreren.

4. De agentische ‘staatsoorlog’: Manus en de KV-cache

De timing van deze Groq-deal valt samen met Meta’s overname van de agentenpionier Script nog maar twee dagen geleden. Het belang van Manus was deels zijn obsessie ermee statigheid.

Als een agent zich niet meer kan herinneren wat hij tien stappen geleden heeft gedaan, is het nutteloos voor echte taken zoals marktonderzoek of softwareontwikkeling. KV-cache (sleutelwaardecache) is het “kortetermijngeheugen” dat een LLM opbouwt tijdens de prefill-fase.

Script gemeld dat voor fondsen voor productiekwaliteit, de verhouding tussen invoertokens en uitvoertokens kan 100:1 bereiken. Dit betekent dat voor elk woord dat een agent zegt, hij 100 anderen ‘denkt’ en ‘onthoudt’. In deze omgeving is het aantal KV Cache-hits de belangrijkste maatstaf voor een productieagent, zei Manus. Als de cache uit het geheugen wordt “verwijderd”, verliest de agent zijn gedachtegang en moet het model enorme energie verbranden om de prompt opnieuw te berekenen.

Groq’s SRAM kan een “kladblok” zijn voor deze agenten – hoewel wederom vooral voor kleinere modellen – omdat het deze status vrijwel onmiddellijk kan ophalen. Gecombineerd met Nvidia’s Dynamo kaders en KVBM bouwt Nvidia een “inferentiebesturingssysteem” dat deze modus kan clusteren over SRAM, DRAM, HBM en andere op flash gebaseerde aanbiedingen zoals dat van Bercovici’s Weka.

Thomas Jorgensen, senior director technology enablement bij Supermicro, gespecialiseerd in het bouwen van clusters van GPU’s voor grote ondernemingen, vertelde me in september dat computergebruik niet langer het voornaamste knelpunt is voor high-end clusters. Het invoeren van gegevens naar GPU’s was het knelpunt, en om dat knelpunt te doorbreken is geheugen nodig.

“Het hele cluster is nu de computer”, zegt Jørgensen. “Netwerken worden een intern onderdeel van het beest… het voeden van het beest met data wordt steeds moeilijker omdat de bandbreedte tussen GPU’s sneller groeit dan wat dan ook.”

Dit is de reden waarom Nvidia tot gedesaggregeerde gevolgtrekkingen overgaat. Door de werklasten te scheiden, kunnen bedrijfsapplicaties gespecialiseerde opslaglagen gebruiken om gegevens te voeden met prestaties van geheugenklasse, terwijl het gespecialiseerde “Groq-inside” silicium de snelle tokengeneratie verzorgt.

Het oordeel voor 2026

We betreden een tijdperk van extreme specialisatie. Tientallen jaren lang konden de gevestigde exploitanten winnen door een dominante architectuur voor algemeen gebruik op de markt te brengen – en hun blinde vlek was vaak wat ze aan de randen negeerden. Intels langdurige verwaarlozing van een laag stroomverbruik is het klassieke voorbeeld, zegt Michael Stewart, managing partner van Microsoft’s durffonds M12. Nvidia geeft aan die fout niet te zullen herhalen. “Als zelfs de leider, zelfs de leeuw van de jungle talent wil verwerven, technologie wil verwerven, is dat een teken dat de hele markt gewoon meer opties wil”, zei Stewart.

Voor technisch managers is dat de boodschap stop met het opbouwen van je stapel alsof het een statief, een versneller, een antwoord is. In 2026 gaat het voordeel naar de teams die de werkdruk expliciet aanvoelen – en deze naar het juiste niveau sturen:

  • prefill-zwaar versus decode-zwaar

  • lange context versus kaartcontext

  • interactief versus batch

  • klein model versus groot model

  • randbeperkingen versus datacenteraannames

Uw architectuur zal deze labels volgen. Tegen 2026 zal de ‘GPU-strategie’ niet langer een aankoopbeslissing zijn, maar een routeringsbeslissing. De winnaars zullen niet vragen welke chip ze hebben gekocht; ze zullen vragen waar elk token naartoe is gegaan en waarom.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in