Nvidia-CEO Jensen Huang zei vorig jaar dat we nu het tijdperk van fysieke AI ingaan. Terwijl het bedrijf LLM’s voor softwareapplicaties blijft aanbieden, is Nvidia dat wel positioneert zich steeds meer als leverancier van AI-modellen voor volledig AI-aangedreven systemen – inclusief agent AI in de fysieke wereld.
Op CES 2026 kondigde Nvidia een reeks nieuwe modellen aan die zijn ontworpen om AI-agenten voorbij chatinterfaces en naar fysieke omgevingen te duwen.
Nvidia gelanceerd Kosmos Reden 2de nieuwste versie van zijn visietaalmodel, ontworpen voor belichaamd redeneren. Kosmos Reden 1, vorig jaar gepubliceerdintroduceerde een tweedimensionale ontologie voor belichaamd redeneren en pt De fysieke redenering van leider Hugging Face voor het videoklassement.
Cosmos Reason 2 bouwt voort op dezelfde ontologie en geeft bedrijven meer flexibiliteit om applicaties aan te passen en fysieke agenten in staat te stellen hun volgende acties te plannen, op dezelfde manier waarop softwaregebaseerde agenten door digitale workflows redeneren.
Nvidia heeft ook een nieuwe versie van Cosmos Transfer uitgebracht, een model waarmee ontwikkelaars dat kunnen trainingssimulaties voor robots genereren.
Andere visie-taalmodellen, zoals die van Google PaliGemma En Pixtral Large van Mistralkan visuele invoer verwerken, maar niet alle in de handel verkrijgbare VLM’s ondersteunen de redenering.
“Robotica bevindt zich op een keerpunt. We evolueren van gespecialiseerde robots die beperkt zijn tot enkele taken naar generalistische gespecialiseerde systemen”, zegt Kari Briski, Nvidia’s vice-president van generatieve AI-software, in een briefing met verslaggevers. Ze doelde op robots die brede fundamentele kennis combineren met diepgaande taakspecifieke vaardigheden. “Deze nieuwe robots combineren brede fundamentele kennis met diepgaande vaardigheden en complexe taken.”
Ze voegde eraan toe dat Cosmos Reason 2 “de redeneervaardigheden verbetert die robots nodig hebben om door de onvoorspelbare fysieke wereld te navigeren.”
Overstappen op fysieke agenten
Briski merkte op dat de routekaart van Nvidia “hetzelfde patroon van activa volgt voor al onze open modellen.”
“Het bouwen van gespecialiseerde AI-agenten, een digitaal personeelsbestand of de fysieke belichaming van AI in robots en autonome voertuigen vereist meer dan alleen het model”, aldus Briski. “Ten eerste heeft de AI de computerbronnen nodig om de wereld eromheen te trainen en te simuleren. Data zijn de brandstof voor AI om te leren en te verbeteren, en we dragen bij aan ’s werelds grootste verzameling open en diverse datasets die verder gaan dan alleen het openen van de gewichten van de modellen. De open bibliotheken en trainingsscripts geven ontwikkelaars tools om AI op maat te bouwen voor hun toepassingen, en we publiceren om AI-modellen te helpen implementeren.”
Het bedrijf heeft nu open modellen specifiek voor fysieke AI in Cosmos, robotica, met het open-redenerende vision-taal-actie (VLA) model Gr00t en zijn Nemotron-modellen voor agent AI.
Nvidia beweert dat open modellen in verschillende takken van AI een gedeeld bedrijfsecosysteem vormen dat gegevens, training en redenering biedt aan agenten in zowel de digitale als de fysieke wereld.
Toevoegingen aan de Nemotron-familie
Briski zei dat Nvidia van plan is zijn open modellen, inclusief de Nemotron-familie, verder uit te breiden en te overwegen een nieuwe RAG en een inbeddingsmodel op te nemen om informatie gemakkelijker toegankelijk te maken voor agenten. Het bedrijf Nemotron 3 gepubliceerdde nieuwste versie van zijn agentische redeneermodellen, in december.
Nvidia heeft drie nieuwe toevoegingen aan de Nemotron-familie aangekondigd: Nemotron Speech, Nemotron RAG en Nemotron Safety.
In een blogpost zegt Nvidia dat Nemotoron Speech “real-time spraakherkenning met lage latentie biedt voor live ondertiteling en spraak-AI-toepassingen” en 10 keer sneller is dan andere spraakmodellen.
Nemotron RAG bestaat technisch gezien uit twee modellen: een inbeddingsmodel en een relocatiemodel, die beide afbeeldingen kunnen begrijpen om meer multimodale inzichten te bieden die data-agenten zullen gebruiken.
“Nemotron RAG staat bovenaan wat wij de MMTab noemen, of Massive Multilingual Text Embedding Benchmark, met sterke meertalige prestaties en gebruikt minder rekenkrachtgeheugen, dus ze zijn zeer geschikt voor systemen die veel verzoeken zeer snel en met lage latentie moeten afhandelen”, aldus Briski.
Nemotron Safety registreert gevoelige gegevens zodat AI-agenten niet per ongeluk persoonlijk identificeerbare gegevens vrijgeven.



