Het verlagen van de kosten van inferentie is doorgaans een combinatie van hardware en software. Een nieuwe analyse die donderdag door Nvidia is vrijgegeven, geeft aan hoe vier toonaangevende inferentieproviders 4x tot 10x lagere kosten per token rapporteren.
De dramatische kostenbesparingen werden bereikt met behulp van Nvidia’s Blackwell-platform met open source-modellen. Gegevens over de productie-implementatie van Baseten, DeepInfra, Fireworks AI en Together AI laten aanzienlijke kostenverbeteringen zien in de gezondheidszorg, gaming, chat met agenten en klantenservice, nu bedrijven AI opschalen van pilots naar miljoenen gebruikers.
De 4x tot 10x kostenbesparingen gerapporteerd door leveranciers van inferentie vereisten het combineren van Blackwell-hardware met twee andere elementen: geoptimaliseerde softwarestacks en de verschuiving van propriëtaire naar open source-modellen die nu overeenkomen met grensoverschrijdende intelligentie. Hardwareverbeteringen alleen al leverden volgens de analyse in sommige implementaties een dubbele winst op. Om grotere kostenbesparingen te realiseren, was het nodig om formaten met lage precisie, zoals NVFP4, te gebruiken en af te stappen van closed-source API’s die premiumprijzen in rekening brengen.
De economie blijkt contra-intuïtief te zijn. Het verlagen van de terminatiekosten vereist investeringen in infrastructuur met hogere prestaties, omdat capaciteitsverbeteringen zich rechtstreeks vertalen in lagere kosten per token.
“Prestaties zijn wat de kosten van eindpunten omlaag brengt”, vertelde Dion Harris, senior director van HPC en AI hyperscaler-oplossingen bij Nvidia, aan VentureBeat in een exclusief interview. “Wat we uiteindelijk zien is dat de doorvoer zich letterlijk vertaalt in echte dollarwaarde en de kosten verlaagt.”
Productie-implementaties laten 4x tot 10x kostenbesparingen zien
Nvidia heeft in een blogpost vier klantimplementaties gedetailleerd beschreven, waarin wordt getoond hoe de combinatie van Blackwell-infrastructuur, geoptimaliseerde softwarestacks en open source-modellen kostenbesparingen opleveren voor verschillende industriële werklasten. De casestudy’s omvatten toepassingen met een hoog volume waarbij inferentie-economie rechtstreeks de levensvatbaarheid van een bedrijf bepaalt.
Volgens Nvidia verlaagde Sully.ai de kosten voor AI-afleiding in de gezondheidszorg met 90% (een 10x reductie) en verbeterde de responstijden met 65% door over te schakelen van propriëtaire modellen naar open source-modellen die draaien op het Blackwell-platform van Baseten. Het bedrijf gaf artsen meer dan 30 miljoen minuten terug door medische codering en notitietaken te automatiseren waarvoor voorheen handmatige gegevensinvoer nodig was.
Nvidia meldde ook dat Latitude de kosten voor het renderen van games voor zijn AI Dungeon-platform verviervoudigde door grote mix-of-expert (MoE)-modellen uit te voeren op DeepInfra’s Blackwell-implementatie. De kosten per miljoen tokens daalden van 20 cent op Nvidia’s vorige Hopper-platform naar 10 cent op Blackwell en vervolgens naar 5 cent na het adopteren van Blackwell’s eigen NVFP4-formaat met lage precisie. Hardware alleen al leverde een verbetering van twee keer op, maar voor het bereiken van vier keer was een nauwkeurige formaatwijziging nodig.
Sentient Foundation behaalde volgens Nvidia een 25% tot 50% betere kostenefficiëntie voor zijn agentic chatplatform met behulp van Fireworks AI’s Blackwell-geoptimaliseerde inferentiestapel. Het platform orkestreert complexe multi-agentworkflows en verwerkte 5,6 miljoen vragen in één week tijdens de virale lancering, terwijl de latentie laag bleef.
Nvidia zei dat Decagon een kostenbesparing van zes keer per vraag zag voor AI-aangedreven spraakklantenondersteuning door zijn multi-modellenstack op Together AI’s Blackwell-infrastructuur te draaien. De responstijden bleven onder de 400 milliseconden, zelfs bij het verwerken van duizenden tokens per zoekopdracht, wat van cruciaal belang is voor spraakinteracties waarbij vertragingen ervoor zorgen dat gebruikers ophangen of hun vertrouwen verliezen.
Technische factoren die 4x versus 10x verbeteringen aandrijven
Het bereik van 4x tot 10x kostenbesparingen bij implementaties weerspiegelt verschillende combinaties van technische optimalisaties in plaats van alleen maar hardwareverschillen. Drie factoren komen naar voren als primaire drijfveren: adoptie van precisieformaten, keuze van modelarchitectuur en integratie van softwarestacks.
Precisieformaten laten het duidelijkste effect zien. Het geval van Latitude laat dit direct zien. De overstap van Hopper naar Blackwell zorgde voor een tweevoudige kostenbesparing dankzij hardwareverbeteringen. Door NVFP4, het oorspronkelijke lage-precisieformaat van Blackwell, te gebruiken, werd deze verbetering verdubbeld tot een totaal van vier keer. NVFP4 vermindert het aantal bits dat nodig is om modelgewichten en activeringen weer te geven, waardoor meer berekeningen per GPU-cyclus mogelijk zijn terwijl de nauwkeurigheid behouden blijft. Het formaat werkt bijzonder goed voor MoE-modellen waarbij voor elk inferentieverzoek slechts een subset van het model wordt geactiveerd.
Modelarchitectuur is belangrijk. MoE-modellen, die verschillende gespecialiseerde submodellen activeren op basis van input, profiteren van Blackwell’s NVLink-fabric, waardoor snelle communicatie tussen experts mogelijk is. “Als deze experts via dat NVLink-weefsel communiceren, kun je heel snel redeneren”, zei Harris. Dichte modellen die alle parameters voor elke gevolgtrekking activeren, maken niet zo efficiënt gebruik van deze architectuur.
Integratie van softwarestacks creëert extra prestatiedelta’s. Harris zei dat de co-designaanpak van Nvidia – waarbij Blackwell-hardware, NVL72-scale-up-architectuur en software zoals Dynamo en TensorRT-LLM samen worden geoptimaliseerd – ook een verschil maakt. Baseten’s implementatie voor Sully.ai maakte gebruik van deze geïntegreerde stack, waarbij NVFP4, TensorRT-LLM en Dynamo werden gecombineerd om de kostenbesparing van 10x te realiseren. Providers die alternatieve raamwerken zoals vLLM gebruiken, kunnen mogelijk lagere winsten boeken.
Kenmerken van de werklast zijn van belang. Redeneringsmodellen vertonen bijzondere voordelen op Blackwell omdat ze aanzienlijk meer tokens genereren om tot betere antwoorden te komen. Het vermogen van het platform om deze uitgebreide tokenreeksen efficiënt te verwerken via een gedesaggregeerde weergave, waarbij het vooraf invullen van de context en het genereren van tokens afzonderlijk worden afgehandeld, maakt redeneringswerklasten kosteneffectief.
Teams die potentiële kostenbesparingen evalueren, moeten hun werklastprofielen aan deze factoren toetsen. Hoge werklasten voor het genereren van tokens met behulp van mix-of-expert-modellen met de geïntegreerde Blackwell-softwarestack zullen het bereik van 10x benaderen. Lagere tokenvolumes die gebruik maken van nauwe modellen op alternatieve raamwerken zullen dichter bij 4x komen.
Welke teams moeten testen vóór de migratie
Hoewel deze casestudies zich richten op Nvidia Blackwell-implementaties, hebben bedrijven verschillende mogelijkheden om de end-to-end-kosten te verlagen. AMD’s MI300-serie, Google TPU’s en gespecialiseerde inferentieversnellers van Groq en Cerebras bieden alternatieve architecturen. Cloudproviders blijven ook hun inferentiediensten optimaliseren. De vraag is niet of Blackwell de enige optie is, maar of de specifieke combinatie van hardware, software en modellen aansluit bij bepaalde werklasteisen.
Bedrijven die op Blackwell gebaseerde inferentie overwegen, moeten beginnen met te berekenen of hun werklast veranderingen in de infrastructuur rechtvaardigt.
“Bedrijven moeten terugwerken aan hun werklast en gebruiksscenario’s en kostenbeperkingen”, zegt Shruti Koparkar, AI-productmarketing bij Nvidia, tegen VentureBeat.
De implementaties die zes tot tien keer verbeteringen opleverden, hadden allemaal betrekking op latentiegevoelige applicaties met een hoog volume die elke maand miljoenen verzoeken verwerkten. Teams die kleinere volumes of applicaties draaien met een wachtbudget van meer dan één seconde moeten software-optimalisatie of modelwisseling onderzoeken voordat ze infrastructuurupgrades overwegen.
Testen betekent meer dan specificaties van leveranciers. Koparkar benadrukt dat providers gegevens publiceren over doorvoer en latentie, maar dit zijn ideale omstandigheden.
“Als het een zeer latentiegevoelige werklast is, willen ze misschien een paar providers testen en zien wie aan het minimum voldoet dat ze nodig hebben, terwijl ze de kosten laag houden”, zei ze. Teams moeten daadwerkelijke productieworkloads uitvoeren bij meerdere Blackwell-providers om de echte prestaties te meten onder hun specifieke gebruikspatronen en verkeerspieken, in plaats van te vertrouwen op gepubliceerde benchmarks.
De gebruikte stapsgewijze methode Latitude biedt een model voor evaluatie. Het bedrijf stapte eerst over op Blackwell-hardware en mat een tweevoudige verbetering, en adopteerde vervolgens het NVFP4-formaat om een totale reductie van vier maal te bereiken. Teams die zich momenteel op Hopper of een andere infrastructuur bevinden, kunnen testen of nauwkeurige formaatwijzigingen en software-optimalisatie op bestaande hardware zinvolle besparingen opleveren voordat ze zich ertoe verbinden de volledige infrastructuur te migreren. Het draaien van open source-modellen op de huidige infrastructuur kan de helft van de potentiële kostenbesparing opleveren zonder nieuwe hardware-investeringen.
Het kiezen van een provider vereist inzicht in de verschillen in de softwarestack. Hoewel verschillende providers Blackwell-infrastructuur aanbieden, variëren hun software-implementaties. Sommigen gebruiken de geïntegreerde stack van Nvidia met Dynamo en TensorRT-LLM, terwijl anderen frameworks zoals vLLM gebruiken. Harris erkent dat er prestatiedelta’s bestaan tussen deze configuraties. Teams moeten evalueren wat elke provider daadwerkelijk gebruikt en hoe dit aansluit bij hun werklastvereisten, in plaats van aan te nemen dat alle Blackwell-implementaties identiek werken.
De financiële vergelijking gaat verder dan de kosten per token. Gespecialiseerde inferentieproviders zoals Baseten, DeepInfra, Fireworks en Together bieden geoptimaliseerde implementaties, maar vereisen het beheer van aanvullende leveranciersrelaties. Beheerde services van AWS, Azure of Google Cloud kunnen hogere kosten per token hebben, maar een lagere operationele complexiteit. Teams moeten de totale kosten berekenen, inclusief de bedrijfskosten, en niet alleen de slotkoersen, om te bepalen welke aanpak voor hun specifieke situatie betere economische resultaten oplevert.



