Van kilometers ver door de woestijn ziet de Grote Piramide eruit als een perfecte, vloeiende geometrie: een slanke driehoek die naar de sterren wijst. Ga onderaan staan en de illusie van gladheid verdwijnt. Je ziet enorme grillige blokken kalksteen. Het is geen helling; het is een trap.
Onthoud dit de volgende keer dat u futuristen hoort praten over exponentiële groei.
Mede-oprichter van Intel, Gordon Moore (de wet van Moore), heeft naar verluidt in 1965 gezegd dat het aantal transistors op een microchip elk jaar zou verdubbelen. Een andere Intel-topman, David House, herzag deze verklaring later in “een verdubbeling van de rekenkracht elke 18 maanden”. Een tijdlang waren de CPU’s van Intel het uithangbord van deze wet. Dat wil zeggen, totdat de groei van de CPU-prestaties afvlakte als een blok kalksteen.
Als je echter uitzoomt, was het volgende kalksteenblok er al: de groei in de computerwereld verschoof eenvoudigweg van CPU’s naar de wereld van GPU’s. Jensen Huang, de CEO van Nvidia, speelde een lange wedstrijd en kwam als sterke winnaar uit de bus. Eerst bouwde hij zijn eigen stapstenen met gaming, daarna computer vision en, meer recentelijk, generatieve AI.
De illusie van gestage groei
De technologische groei zit vol sprints en plateaus, en generatie AI is niet immuun. De huidige golf wordt aangedreven door transformatorarchitectuur. Om Anthropic-president en mede-oprichter Dario Amodi te citeren: “Het exponentiële gaat door totdat het niet meer gebeurt. En elk jaar zeiden we: ‘Nou, het kan onmogelijk zijn dat de dingen exponentieel zullen doorgaan’ – en elk jaar is dat zo.”
Maar net toen de CPU enorm groeide en GPU’s het voortouw namen, zien we tekenen dat de LLM-groei de paradigma’s opnieuw verschuift. Eind 2024 verraste DeepSeek bijvoorbeeld de wereld door een model van wereldklasse te trainen met een onmogelijk klein budget, gedeeltelijk met behulp van de MoE-techniek.
Weet je nog waar je deze techniek onlangs hebt genoemd? Nvidia’s Rubin-persbericht: De technologie omvat “… de nieuwste generaties Nvidia NVLink-interconnecttechnologie… om agent AI, geavanceerd redeneren en grootschalige MoE-modelinferentie te versnellen tegen tot 10x lagere kosten per token.”
Jensen weet dat het bereiken van de gewilde exponentiële groei in computers niet langer voortkomt uit puur brute kracht. Soms moet je de architectuur helemaal verplaatsen om de volgende stapsteen te plaatsen.
De latentiecrisis: waar Groq in past
Deze lange introductie brengt ons bij Groq.
De grootste winst op het gebied van AI-redeneervermogen in 2025 kwam voort uit ‘inference time computing’ – of in lekentermen: ‘het model langer laten nadenken’. Maar tijd is geld. Consumenten en bedrijven houden niet van wachten.
Groq komt hier in het spel met zijn razendsnelle einde. Als je de architectonische efficiëntie van modellen als DeepSeek en de hoge verwerkingscapaciteit van Groq samenbrengt, heb je grensintelligentie binnen handbereik. Door sneller gevolgtrekkingen uit te voeren, kunt u concurrerende modellen ‘verkennen’ en klanten zonder vertraging een ‘slimmer’ systeem aanbieden.
Van universele chip tot eindoptimalisatie
De afgelopen tien jaar was de GPU de universele hamer voor alle AI-spijkers. Je gebruikt H100s om het model te trainen; u gebruikt H100s (of getrimde versies) om het model uit te voeren. Maar naarmate modellen verschuiven naar het ‘Systeem 2’-denken – waarbij de AI redeneert, zichzelf corrigeert en itereert voordat ze reageert – verandert de rekenwerklast.
Training vereist enorme parallelle brute kracht. Inferentie, vooral voor redeneermodellen, vereist een snellere sequentiële verwerking. Het zou onmiddellijk tokens moeten genereren om complexe gedachteketens te vergemakkelijken zonder dat de gebruiker minuten op een antwoord hoeft te wachten. De LPU-architectuur (Language Processing Unit) van Groq elimineert het knelpunt in de geheugenbandbreedte waar GPU’s last van hebben tijdens kleine batch-inferentie, waardoor bliksemsnelle inferentie ontstaat.
De motor voor de volgende groeigolf
Voor de C-Suite lost deze potentiële convergentie de ‘denktijd’-latentiecrisis op. Houd rekening met de verwachtingen van AI-agenten: we willen dat ze autonoom vluchten boeken, hele apps coderen en juridische precedenten onderzoeken. Om dit betrouwbaar te kunnen doen, moet een model mogelijk 10.000 interne “gedachte-tokens” genereren om zijn eigen werk te verifiëren voordat het ook maar één woord naar de gebruiker stuurt.
-
,Op een standaard GPU: 10.000 geloofde tokens kunnen 20 tot 40 seconden duren. De gebruiker verveelt zich en vertrekt.
-
,Over Groq: Dezelfde gedachtegang gebeurt in minder dan 2 seconden.
Als Nvidia de technologie van Groq integreert, lossen ze het probleem op van ‘wachten tot de robot denkt’. Ze behouden de magie van AI. Net zoals ze van het renderen van pixels (gaming) naar het renderen van intelligentie (gen AI) gingen, zouden ze nu naar rendering gaan redenering in realtime.
Bovendien creëert dit een formidabele softwaregracht. Groqs grootste hindernis is altijd de softwarestack geweest; Nvidia’s grootste troef is CUDA. Als Nvidia zijn ecosysteem rond de hardware van Groq wikkelt, graven ze in feite een gracht die zo breed is dat concurrenten er niet overheen kunnen. Ze zouden het universele platform bieden: de beste omgeving om te trainen en de meest efficiënte omgeving om te runnen (Groq/LPU).
Bedenk eens wat er gebeurt als je die ruwe inferentiekracht koppelt aan een open source-model van de volgende generatie (zoals de geruchten over DeepSeek 4): je krijgt een aanbod dat qua kosten, prestaties en snelheid kan wedijveren met de hedendaagse grensmodellen. Dat opent mogelijkheden voor Nvidia, van het rechtstreeks betreden van de inferentie-activiteiten met zijn eigen cloudaanbod tot het blijven bedienen van een groeiend aantal exponentieel groeiende klanten.
De volgende stap op de piramide
Terugkerend naar onze oorspronkelijke metafoor: de ‘exponentiële’ groei van AI is geen vloeiende lijn van ruwe FLOP’s; het is een trap van knelpunten die worden weggenomen.
-
,Blok 1: We konden niet snel genoeg rekenen. Oplossing: de GPU.
-
,Blok 2: We konden niet diep genoeg trainen. Oplossing: Transformeer architectuur.
-
,Blok 3: We kunnen niet snel genoeg ‘denken’. Oplossing: Groq’s LPU.
Jensen Huang is nooit bang geweest om zijn eigen productlijnen te kannibaliseren om de toekomst te bezitten. Door Groq te valideren kocht Nvidia niet alleen een snellere chip; ze zouden de intelligentie van de volgende generatie naar de massa brengen.
Andrew Filev, oprichter en CEO van Zencoder
Welkom bij de VentureBeat-community!
In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, onbevooroordeelde diepgaande inzichten in AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.
Lees meer uit ons gastpostprogramma – en bekijk ons richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!


