Home Nieuws Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om...

Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Door

maart 12, 2026

Multi-agentsystemen, ontworpen om langetermijntaken uit te voeren, zoals softwareontwikkeling of cybersecurity-triaging, kunnen tot vijftien keer het symbolische volume van standaardchats genereren, wat hun kosteneffectiviteit bij het afhandelen van bedrijfstaken in gevaar brengt.

Maar vandaag probeerde Nvidia dit probleem te helpen oplossen met de release van Nemotron 3 Supereen hybride model met 120 miljard parameters, met gewichten erop Knuffel gezicht.

Door uiteenlopende architecturale filosofieën – state-space-modellen, transformatoren en een nieuw ‘latent’ ontwerp door een mix van experts – samen te brengen, probeert Nvidia de gespecialiseerde diepgang te bieden die nodig is voor agentische workflows zonder de opgeblazenheid die kenmerkend is voor modellen voor compact redeneren, allemaal beschikbaar voor commercieel gebruik onder overwegend open schalen.

Drievoudige hybride architectuur

De kern van de Nemotron 3 Super wordt gevormd door een verfijnde architectonische triade die geheugenefficiëntie en precisie combineert. Het model maakt gebruik van een Hybride Mamba-Transformer-ruggengraatdie Mamba-2-lagen verweeft met strategische Transformer-aandachtslagen.

Om de implicaties voor de bedrijfsproductie te begrijpen, moeten we het probleem van de ‘naald in een hooiberg’ eens bekijken. De Mamba-2-laag fungeert als een “snel reizend” snelwegsysteem dat het overgrote deel van de lineaire-tijdcomplexiteitssequentieverwerking afhandelt. Hierdoor kan het model een enorm contextvenster van 1 miljoen tokens behouden zonder de geheugenvoetafdruk van de KV-cache te vergroten. Pure toestandsruimtemodellen worstelen echter vaak met associatieve herinnering.

Om dit te verhelpen zet Nvidia op strategische wijze Transformer-aandachtslagen in als ‘globale ankers’, waardoor wordt verzekerd dat het model nauwkeurig specifieke feiten kan ophalen die diep in een codebase of een stapel financiële rapporten zijn verborgen.

Naast de ruggengraat introduceert het model Latente mix van experts (LatentMoE). Traditionele Mixture-of-Experts (MoE) ontwerpt routetokens voor experts in hun volledig verborgen dimensie, waardoor een computationeel knelpunt ontstaat wanneer modellen worden geschaald. LatentMoE lost dit op door tokens in een gecomprimeerde ruimte te projecteren voordat ze naar specialisten worden doorgestuurd.

Dankzij deze “expertcompressie” kan het model vier keer zoveel specialisten raadplegen voor exact dezelfde rekenkosten. Deze granulariteit is van cruciaal belang voor agenten die binnen één keer moeten schakelen tussen Python-syntaxis, SQL-logica en conversatieredeneringen.

Een verdere versnelling van het model is Multi-Token Prediction (MTP). Terwijl standaardmodellen één volgend token voorspellen, voorspelt MTP meerdere toekomstige tokens tegelijkertijd. Dit fungeert als een “ingebouwd conceptmodel” dat native speculatieve decodering mogelijk maakt en tot 3x snellere kloksnelheden kan opleveren voor gestructureerde generatietaken zoals code- of tooloproepen.

Het Blackwell-voordeel

Voor bedrijven is de belangrijkste technische sprong in de Nemotron 3 Super de optimalisatie voor het Nvidia Blackwell GPU-platform. Door vooraf ingebouwd NVFP4 (4-bit floating point) te trainen, heeft Nvidia een doorbraak in productie-efficiëntie bereikt.

Op Blackwell levert het model vier keer snellere gevolgtrekkingen dan 8-bits modellen die op de vorige Hopper-architectuur draaien, zonder verlies aan nauwkeurigheid.

In praktische uitvoering is Nemotoron 3 Super een gespecialiseerd hulpmiddel voor agentisch redeneren.

Het bekleedt momenteel de nummer 1-positie op de DeepResearch Bench, een benchmark die het vermogen van een AI meet om grondig, meerstaps onderzoek uit te voeren over grote documentensets.

Benchmark	Nemotron 3 Super	Qwen3.5-122B-A10B	GPT-OSS-120B
Algemene kennis
MMLU-Pro	83,73	86,70	81.00 uur
Redenering
AIME25 (geen gereedschap)	90.21	90.36	92,50
HMMT 25 februari (geen gereedschap)	93,67	91.40	90.00 uur
HMMT 25 februari (met gereedschap)	94,73	89,55	—
GPQA (geen tools)	79.23	86.60	80.10
GPQA (met gereedschap)	82,70	—	80.09
LiveCodeBench (v5 2024-07↔2024-12)	81.19	78,93	88.00 uur
SciCode (subtaak)	42.05	42.00 uur	39.00 uur
HLE (geen gereedschap)	18.26	25.30 uur	14.90
HLE (met gereedschap)	22.82	—	19.0
Tussenpersoon
Klemmenbank (harde subset)	25.78	26.80	24.00 uur
Terminalbank Core 2.0	31.00 uur	37.50	18.70
SWE Bank (OpenHands)	60.47	66.40	41,9
SWE-Bench (OpenCode)	59.20	67.40	—
SWE bank (Codex)	53,73	61.20	—
SWE-Bench Meertalig (OpenHands)	45,78	—	30.80
TauBench V2
Luchtvaartmaatschappij	56.25	66,0	49.2
Detailhandel	62,83	62,6	67,80
Telecom	64.36	95.00 uur	66.00 uur
Gemiddeld	61.15	74.53	61,0
Blader door Comp met zoeken	31.28	—	33.89
VOGEL Bank	41.80	—	38.25
Chat en instructies volgen
IFBench (prompt)	72,56	73,77	68.32
Schaal AI Multi-uitdaging	55.23	61,50	58,29
Arena-Hard-V2	73,88	75.15	90.26
Lange context
AA-LCR	58.31	66,90	51.00 uur
HEERSER @ 256k	96.30	96,74	52.30 uur
HEERSER @ 512k	95,67	95,95	46.70
HEERSER @ 1M	91,75	91.33	22.30 uur
Meertalig
MMLU-ProX (gemiddelde lengte)	79.36	85.06	76,59
WMT24++ (da→xx)	86,67	87,84	88,89

Het laat ook aanzienlijke doorvoervoordelen zien, waarbij een tot 2,2x hogere doorvoer wordt bereikt dan gpt-oss-120B en 7,5x hoger dan Qwen3.5-122B bij instellingen voor hoge volumes.

Nvidia Nemotron 3 Super belangrijke benchmarkgrafiek. Nvidia

Aangepaste ‘open’ licentie — commercieel gebruik, maar met belangrijke kanttekeningen

De release van Nemotron 3 Super onder Nvidia Open Model-licentieovereenkomst (bijgewerkt in oktober 2025) biedt een tolerant raamwerk voor adoptie door bedrijven, hoewel het verschillende “beveiligingsclausules” bevat die het onderscheiden van pure open source-licenties zoals MIT of Apache 2.0.

Belangrijkste bepalingen voor zakelijke gebruikers:

Commerciële toepasbaarheid: In de licentie wordt uitdrukkelijk vermeld dat de modellen “commercieel bruikbaar” zijn en wordt een eeuwigdurende, wereldwijde, royaltyvrije licentie verleend voor het verkopen en distribueren van producten die op het model zijn gebouwd.
Eigendom van de output: Nvidia doet geen uitspraken over de output die door het model wordt gegenereerd; De verantwoordelijkheid voor deze resultaten – en het eigendom ervan – ligt uitsluitend bij de gebruiker.
Afgeleide werken: Het staat bedrijven vrij om “afgeleide modellen” (aangepaste versies) te creëren en te bezitten, op voorwaarde dat ze de vereiste toeschrijvingskennisgeving bevatten: “Gelicentieerd door Nvidia Corporation onder de Nvidia Open Model License.”

De “rode lijnen”:

De licentie omvat twee cruciale beëindigingstriggers die productieteams moeten monitoren:

Bewakers: De licentie wordt automatisch beëindigd als een gebruiker de “Guardrails” (technische beperkingen of hyperparameters van de beveiliging) van het Model omzeilt of omzeilt zonder een “substantieel vergelijkbare” vervanging te implementeren die past bij de gebruikssituatie.
Trigger voor rechtszaken: Als een gebruiker een auteursrecht- of patentproces start tegen Nvidia en beweert dat het Model inbreuk maakt op zijn/haar IE, wordt zijn licentie om het Model te gebruiken onmiddellijk beëindigd.

Deze structuur stelt Nvidia in staat een commercieel ecosysteem te koesteren terwijl het zichzelf beschermt tegen “IP-trollen” en ervoor zorgt dat het model niet wordt ontdaan van zijn beveiligingsfuncties voor kwaadwillig gebruik.

‘Het team heeft echt gekookt’

De release heeft voor veel buzz gezorgd in de ontwikkelaarsgemeenschap. Chris Alexiuk, een senior productonderzoeksingenieur bij Nvidia, luidde de lancering van X onder zijn leiding in @llm_wizard als een “SUPER DAY” die de snelheid en transparantie van het model benadrukt. “Het model is: SNEL. Het model is: SLIM. Het model is: HET MEEST OPEN MODEL DAT WE NOG HEBBEN GEMAAKT,” Chris schreef een bericht waarin hij niet alleen de release van weegschalen benadrukte, maar ook 10 biljoen tokens aan trainingsgegevens en recepten.

De adoptie door de industrie weerspiegelt dit enthousiasme:

Cloud en hardware: Het model wordt geïmplementeerd als een Nvidia NIM-microservicezodat er ter plaatse via gereden kan worden Dell AI-fabriek of HPEevenals binnen Google Cloud, Oracle en binnenkort AWS en Azure.
Productieagenten: Bedrijven vinden het leuk CodeKonijn (softwareontwikkeling) en Worstelen integreert het model om grootschalige codebase-analyse uit te voeren, terwijl industriële managers dat leuk vinden Siemens En Palantir zet het in om complexe productie- en cyberbeveiligingsworkflows te automatiseren.

Zoals Kari Briski, Nvidia VP van AI Software, opmerkte: “Terwijl bedrijven verder gaan dan chatbots en overgaan op multi-agent-applicaties, worden ze geconfronteerd met een contextexplosie.”

Nemotron 3 Super is Nvidia’s antwoord op die explosie – een model dat de “brain power” van een 120B parametersysteem biedt met de operationele efficiëntie van een veel kleinere specialist. Voor het bedrijf is de boodschap duidelijk: de ‘denkbelasting’ gaat eindelijk omlaag.

Nieuwsbron

Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Drievoudige hybride architectuur

Het Blackwell-voordeel

Aangepaste ‘open’ licentie — commercieel gebruik, maar met belangrijke kanttekeningen

‘Het team heeft echt gekookt’

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Waarom een all-food-fit benadering van voeding beter is dan diëten, aldus een diëtist

Asus ROG Raikiri II recensie

Winterverzorgingstips om de droge, geïrriteerde huid te verlichten

Matthew Lillard speelde bijna de grootste slechterik van The Walking Dead en ik heb...