Het grote nieuws deze week van Nvidia, dat in alle media in het nieuws verscheen, was de aankondiging van het bedrijf van zijn Vera Rubin GPU.
Deze week gebruikte Nvidia-CEO Jensen Huang zijn CES-keynote om de prestatiestatistieken voor de nieuwe chip te benadrukken. Volgens Huang is de Rubin GPU in staat tot 50 PFLOP’s aan NVFP4-inferentie en 35 PFLOP’s aan NVFP4-trainingsprestaties, wat neerkomt op 5x en 3,5x de prestaties van de Blackwell.
Maar het zal pas in de tweede helft van 2026 beschikbaar zijn. Wat moeten bedrijven nu doen?
Blackwell wordt steeds beter
De huidige Nvidia GPU-architectuur is Blackwell, wat dat ook was aangekondigd in 2024 als opvolger van Hopper. Naast deze release benadrukte Nvidia dat haar productontwikkelingstraject ook inhield dat ze zoveel mogelijk prestaties uit de vorige Grace Hopper-architectuur moesten halen.
Het is een richting die ook zal gelden voor Blackwell, waar Vera Rubin later dit jaar zal aantreden.
“We blijven onze inferentie- en trainingsstacks voor de Blackwell-architectuur optimaliseren”, vertelde Dave Salvator, directeur van Accelerated Computing Products bij Nvidia, aan VentureBeat.
In dezelfde week dat Vera Rubin door de CEO van Nvidia werd aangeprezen als de krachtigste GPU ooit, bracht het bedrijf nieuwe onderzoek toont verbeterde Blackwell-prestaties.
Hoe de prestaties van Blackwell de inferentie met 2,8x hebben verbeterd
Nvidia is erin geslaagd de Blackwell GPU-prestaties met maximaal 2,8x per GPU te verbeteren gedurende een periode van slechts drie korte maanden.
De prestatiewinst is te danken aan een aantal innovaties die zijn toegevoegd aan de Nvidia TensorRT-LLM-inferentie-engine. Deze optimalisaties zijn van toepassing op bestaande hardware, waardoor de huidige Blackwell-implementaties een hogere doorvoer kunnen realiseren zonder hardwarewijzigingen.
De prestatiewinst wordt gemeten op DeepSeek-R1, een mix-of-expert (MoE)-model met 671 miljard parameters dat 37 miljard parameters per token activeert.
Onder de technische innovaties die voor een prestatieverbetering zorgen:
-
Programmatische afhankelijke lancering (PDL): Uitgebreide implementatie vermindert vertragingen bij het starten van de kernel, waardoor de doorvoer toeneemt.
-
Alles voor iedereen communicatie: Nieuwe implementatie van communicatieprimitieven elimineert een tussenbuffer, waardoor de geheugenoverhead wordt verminderd.
-
Multi-token voorspelling (MTP): Genereert meer tokens per voorwaartse passage in plaats van één tegelijk, waardoor de doorvoer over verschillende reekslengtes toeneemt.
-
NVFP4-formaat: Een 4-bit floating-point-indeling met hardwareversnelling in Blackwell die de vereisten voor geheugenbandbreedte vermindert terwijl de modelnauwkeurigheid behouden blijft.
De optimalisaties verlagen de kosten per miljoen tokens en zorgen ervoor dat de bestaande infrastructuur hogere aanvraagvolumes met een lagere latentie kan verwerken. Cloudproviders en ondernemingen kunnen hun AI-diensten schalen zonder onmiddellijke hardware-upgrades.
Blackwell heeft ook verbeteringen in de trainingsprestaties bereikt
Blackwell wordt ook veel gebruikt als basishardwarecomponent voor het trainen van de grootste grote taalmodellen.
In dat opzicht heeft Nvidia ook aanzienlijke winsten voor Blackwell gemeld bij gebruik voor AI-training.
Sinds de eerste lancering heeft het GB200 NVL72-systeem tot 1,4x hogere trainingsprestaties geleverd op dezelfde hardware – een boost van 40% die in slechts vijf maanden werd bereikt zonder hardware-upgrades.
De trainingsboost kwam van een aantal updates, waaronder:
-
Geoptimaliseerde trainingsrecepten. Nvidia-ingenieurs hebben geavanceerde trainingsrecepten ontwikkeld die effectief gebruik maken van NVFP4-precisie. Bij de eerste Blackwell-inzendingen werd gebruik gemaakt van FP8-precisie, maar de overstap naar NVFP4-geoptimaliseerde recepten zorgde voor aanzienlijke extra prestaties van het bestaande silicium.
-
Algoritmische aanpassingen. Door voortdurende verbeteringen in de softwarestack en algoritmische verbeteringen kon het platform meer prestaties uit dezelfde hardware halen, wat blijk geeft van voortdurende innovatie die verder gaat dan de initiële implementatie.
Verdubbel Blackwell of wacht op Vera Rubin?
Salvator merkte op dat het ultramoderne Blackwell Ultra een toonaangevend platform is dat speciaal is gebouwd om de modernste AI-modellen en -applicaties uit te voeren.
Hij voegde eraan toe dat het Nvidia Rubin-platform het marktleiderschap van het bedrijf zal uitbreiden en de volgende generatie MoE’s in staat zal stellen een nieuwe klasse toepassingen aan te sturen om AI-innovatie nog verder te brengen.
Salvator legde uit dat Vera Rubin is gebouwd om te voldoen aan de groeiende vraag naar computers, die ontstaat door de aanhoudende groei in modelomvang en het genereren van redeneringstokens uit toonaangevende modellen zoals MoE.
“Blackwell en Rubin bedienen misschien dezelfde modellen, maar het verschil zit hem in de prestaties, efficiëntie en symbolische kosten”, zei hij.
Volgens de eerste testresultaten van Nvidia kan Rubin, vergeleken met Blackwell, grote MoE-modellen trainen op een kwart van het aantal GPU’s, het genereren van inferentietokens met 10x meer doorvoer per watt en inferentie tegen 1/10 van de prijs per token.
“Betere prestaties en efficiëntie van de tokendoorvoer betekent dat nieuwere modellen kunnen worden gebouwd met meer redenering en snellere agent-tot-agent-interactie, waardoor betere intelligentie ontstaat tegen lagere kosten”, aldus Salvator.
Wat het allemaal betekent voor zakelijke AI-bouwers
Voor bedrijven die vandaag de dag AI-infrastructuur inzetten, blijven de huidige investeringen in Blackwell gezond, ondanks de komst van Vera Rubin later dit jaar.
Organisaties met bestaande Blackwell-implementaties kunnen de 2,8x inferentieverbetering en 1,4x trainingsboost onmiddellijk benutten door te updaten naar de nieuwste TensorRT-LLM-versies – wat echte kostenbesparingen oplevert zonder kapitaaluitgaven. Voor degenen die nieuwe implementaties plannen in de eerste helft van 2026 is het logisch om door te gaan met Blackwell. Zes maanden wachten betekent dat AI-initiatieven worden uitgesteld en mogelijk achterop raakt bij concurrenten die vandaag al aan de slag zijn.
Bedrijven die grootschalige uitbreiding van de infrastructuur plannen voor eind 2026 en daarna moeten Vera Rubin echter in hun routekaarten opnemen. 10x de verbetering van de doorvoer per watt en 1/10 van de kosten per token vertegenwoordigt transformationele economie voor AI-operaties op schaal.
De slimme aanpak is stapsgewijze implementatie: gebruik Blackwell voor onmiddellijke behoeften en ontwerp tegelijkertijd systemen waarin Vera Rubin kan worden geïntegreerd, indien beschikbaar. Het continue optimalisatiemodel van Nvidia betekent dat dit geen binaire keuze is; bedrijven kunnen de waarde van de huidige implementaties maximaliseren zonder dat dit ten koste gaat van het concurrentievermogen op de lange termijn.



