Home Nieuws Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om...

Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

1
0
Nvidia’s nieuwe open schaal Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Multi-agentsystemen, ontworpen om langetermijntaken uit te voeren, zoals softwareontwikkeling of cybersecurity-triaging, kunnen tot vijftien keer het symbolische volume van standaardchats genereren, wat hun kosteneffectiviteit bij het afhandelen van bedrijfstaken in gevaar brengt.

Maar vandaag probeerde Nvidia dit probleem te helpen oplossen met de release van Nemotron 3 Supereen hybride model met 120 miljard parameters, met gewichten erop Knuffel gezicht.

Door uiteenlopende architecturale filosofieën – state-space-modellen, transformatoren en een nieuw ‘latent’ ontwerp door een mix van experts – samen te brengen, probeert Nvidia de gespecialiseerde diepgang te bieden die nodig is voor agentische workflows zonder de opgeblazenheid die kenmerkend is voor modellen voor compact redeneren, allemaal beschikbaar voor commercieel gebruik onder overwegend open schalen.

Drievoudige hybride architectuur

De kern van de Nemotron 3 Super wordt gevormd door een verfijnde architectonische triade die geheugenefficiëntie en precisie combineert. Het model maakt gebruik van een Hybride Mamba-Transformer-ruggengraatdie Mamba-2-lagen verweeft met strategische Transformer-aandachtslagen.

Om de implicaties voor de bedrijfsproductie te begrijpen, moeten we het probleem van de ‘naald in een hooiberg’ eens bekijken. De Mamba-2-laag fungeert als een “snel reizend” snelwegsysteem dat het overgrote deel van de lineaire-tijdcomplexiteitssequentieverwerking afhandelt. Hierdoor kan het model een enorm contextvenster van 1 miljoen tokens behouden zonder de geheugenvoetafdruk van de KV-cache te vergroten. Pure toestandsruimtemodellen worstelen echter vaak met associatieve herinnering.

Om dit te verhelpen zet Nvidia op strategische wijze Transformer-aandachtslagen in als ‘globale ankers’, waardoor wordt verzekerd dat het model nauwkeurig specifieke feiten kan ophalen die diep in een codebase of een stapel financiële rapporten zijn verborgen.

Naast de ruggengraat introduceert het model Latente mix van experts (LatentMoE). Traditionele Mixture-of-Experts (MoE) ontwerpt routetokens voor experts in hun volledig verborgen dimensie, waardoor een computationeel knelpunt ontstaat wanneer modellen worden geschaald. LatentMoE lost dit op door tokens in een gecomprimeerde ruimte te projecteren voordat ze naar specialisten worden doorgestuurd.

Dankzij deze “expertcompressie” kan het model vier keer zoveel specialisten raadplegen voor exact dezelfde rekenkosten. Deze granulariteit is van cruciaal belang voor agenten die binnen één keer moeten schakelen tussen Python-syntaxis, SQL-logica en conversatieredeneringen.

Een verdere versnelling van het model is Multi-Token Prediction (MTP). Terwijl standaardmodellen één volgend token voorspellen, voorspelt MTP meerdere toekomstige tokens tegelijkertijd. Dit fungeert als een “ingebouwd conceptmodel” dat native speculatieve decodering mogelijk maakt en tot 3x snellere kloksnelheden kan opleveren voor gestructureerde generatietaken zoals code- of tooloproepen.

Het Blackwell-voordeel

Voor bedrijven is de belangrijkste technische sprong in de Nemotron 3 Super de optimalisatie voor het Nvidia Blackwell GPU-platform. Door vooraf ingebouwd NVFP4 (4-bit floating point) te trainen, heeft Nvidia een doorbraak in productie-efficiëntie bereikt.

Op Blackwell levert het model vier keer snellere gevolgtrekkingen dan 8-bits modellen die op de vorige Hopper-architectuur draaien, zonder verlies aan nauwkeurigheid.

In praktische uitvoering is Nemotoron 3 Super een gespecialiseerd hulpmiddel voor agentisch redeneren.

Het bekleedt momenteel de nummer 1-positie op de DeepResearch Bench, een benchmark die het vermogen van een AI meet om grondig, meerstaps onderzoek uit te voeren over grote documentensets.

Benchmark

Nemotron 3 Super

Qwen3.5-122B-A10B

GPT-OSS-120B

Algemene kennis

MMLU-Pro

83,73

86,70

81.00 uur

Redenering

AIME25 (geen gereedschap)

90.21

90.36

92,50

HMMT 25 februari (geen gereedschap)

93,67

91.40

90.00 uur

HMMT 25 februari (met gereedschap)

94,73

89,55

GPQA (geen tools)

79.23

86.60

80.10

GPQA (met gereedschap)

82,70

80.09

LiveCodeBench (v5 2024-07↔2024-12)

81.19

78,93

88.00 uur

SciCode (subtaak)

42.05

42.00 uur

39.00 uur

HLE (geen gereedschap)

18.26

25.30 uur

14.90

HLE (met gereedschap)

22.82

19.0

Tussenpersoon

Klemmenbank (harde subset)

25.78

26.80

24.00 uur

Terminalbank Core 2.0

31.00 uur

37.50

18.70

SWE Bank (OpenHands)

60.47

66.40

41,9

SWE-Bench (OpenCode)

59.20

67.40

SWE bank (Codex)

53,73

61.20

SWE-Bench Meertalig (OpenHands)

45,78

30.80

TauBench V2

Luchtvaartmaatschappij

56.25

66,0

49.2

Detailhandel

62,83

62,6

67,80

Telecom

64.36

95.00 uur

66.00 uur

Gemiddeld

61.15

74.53

61,0

Blader door Comp met zoeken

31.28

33.89

VOGEL Bank

41.80

38.25

Chat en instructies volgen

IFBench (prompt)

72,56

73,77

68.32

Schaal AI Multi-uitdaging

55.23

61,50

58,29

Arena-Hard-V2

73,88

75.15

90.26

Lange context

AA-LCR

58.31

66,90

51.00 uur

HEERSER @ 256k

96.30

96,74

52.30 uur

HEERSER @ 512k

95,67

95,95

46.70

HEERSER @ 1M

91,75

91.33

22.30 uur

Meertalig

MMLU-ProX (gemiddelde lengte)

79.36

85.06

76,59

WMT24++ (da→xx)

86,67

87,84

88,89

Het laat ook aanzienlijke doorvoervoordelen zien, waarbij een tot 2,2x hogere doorvoer wordt bereikt dan gpt-oss-120B en 7,5x hoger dan Qwen3.5-122B bij instellingen voor hoge volumes.

Nvidia Nemotron 3 Super belangrijke benchmarkgrafiek. Nvidia

Aangepaste ‘open’ licentie — commercieel gebruik, maar met belangrijke kanttekeningen

De release van Nemotron 3 Super onder Nvidia Open Model-licentieovereenkomst (bijgewerkt in oktober 2025) biedt een tolerant raamwerk voor adoptie door bedrijven, hoewel het verschillende “beveiligingsclausules” bevat die het onderscheiden van pure open source-licenties zoals MIT of Apache 2.0.

Belangrijkste bepalingen voor zakelijke gebruikers:

  • Commerciële toepasbaarheid: In de licentie wordt uitdrukkelijk vermeld dat de modellen “commercieel bruikbaar” zijn en wordt een eeuwigdurende, wereldwijde, royaltyvrije licentie verleend voor het verkopen en distribueren van producten die op het model zijn gebouwd.

  • Eigendom van de output: Nvidia doet geen uitspraken over de output die door het model wordt gegenereerd; De verantwoordelijkheid voor deze resultaten – en het eigendom ervan – ligt uitsluitend bij de gebruiker.

  • Afgeleide werken: Het staat bedrijven vrij om “afgeleide modellen” (aangepaste versies) te creëren en te bezitten, op voorwaarde dat ze de vereiste toeschrijvingskennisgeving bevatten: “Gelicentieerd door Nvidia Corporation onder de Nvidia Open Model License.”

De “rode lijnen”:

De licentie omvat twee cruciale beëindigingstriggers die productieteams moeten monitoren:

  1. Bewakers: De licentie wordt automatisch beëindigd als een gebruiker de “Guardrails” (technische beperkingen of hyperparameters van de beveiliging) van het Model omzeilt of omzeilt zonder een “substantieel vergelijkbare” vervanging te implementeren die past bij de gebruikssituatie.

  2. Trigger voor rechtszaken: Als een gebruiker een auteursrecht- of patentproces start tegen Nvidia en beweert dat het Model inbreuk maakt op zijn/haar IE, wordt zijn licentie om het Model te gebruiken onmiddellijk beëindigd.

Deze structuur stelt Nvidia in staat een commercieel ecosysteem te koesteren terwijl het zichzelf beschermt tegen “IP-trollen” en ervoor zorgt dat het model niet wordt ontdaan van zijn beveiligingsfuncties voor kwaadwillig gebruik.

‘Het team heeft echt gekookt’

De release heeft voor veel buzz gezorgd in de ontwikkelaarsgemeenschap. Chris Alexiuk, een senior productonderzoeksingenieur bij Nvidia, luidde de lancering van X onder zijn leiding in @llm_wizard als een “SUPER DAY” die de snelheid en transparantie van het model benadrukt. “Het model is: SNEL. Het model is: SLIM. Het model is: HET MEEST OPEN MODEL DAT WE NOG HEBBEN GEMAAKT,” Chris schreef een bericht waarin hij niet alleen de release van weegschalen benadrukte, maar ook 10 biljoen tokens aan trainingsgegevens en recepten.

De adoptie door de industrie weerspiegelt dit enthousiasme:

  • Cloud en hardware: Het model wordt geïmplementeerd als een Nvidia NIM-microservicezodat er ter plaatse via gereden kan worden Dell AI-fabriek of HPEevenals binnen Google Cloud, Oracle en binnenkort AWS en Azure.

  • Productieagenten: Bedrijven vinden het leuk CodeKonijn (softwareontwikkeling) en Worstelen integreert het model om grootschalige codebase-analyse uit te voeren, terwijl industriële managers dat leuk vinden Siemens En Palantir zet het in om complexe productie- en cyberbeveiligingsworkflows te automatiseren.

Zoals Kari Briski, Nvidia VP van AI Software, opmerkte: “Terwijl bedrijven verder gaan dan chatbots en overgaan op multi-agent-applicaties, worden ze geconfronteerd met een contextexplosie.”

Nemotron 3 Super is Nvidia’s antwoord op die explosie – een model dat de “brain power” van een 120B parametersysteem biedt met de operationele efficiëntie van een veel kleinere specialist. Voor het bedrijf is de boodschap duidelijk: de ‘denkbelasting’ gaat eindelijk omlaag.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in