Home Nieuws Drie manieren waarop AI de fysieke wereld leert begrijpen

Drie manieren waarop AI de fysieke wereld leert begrijpen

3
0
Drie manieren waarop AI de fysieke wereld leert begrijpen

Grote taalmodellen lopen tegen grenzen aan in domeinen die inzicht in de fysieke wereld vereisen – van robotica tot autonoom rijden en productie. Die beperking drijft investeerders ernaartoe wereld modellenmet AMI Labs haalt een zaadronde van $1,03 miljard op kort daarna World Labs heeft $1 miljard binnengehaald.

Grote taalmodellen (LLM’s) blinken uit in het verwerken van abstracte kennis door het voorspellen van het volgende token, maar het ontbreekt hen fundamenteel aan fysieke causaliteit. Ze kunnen de fysieke gevolgen van acties in de echte wereld niet op betrouwbare wijze voorspellen.

AI-onderzoekers en opinieleiders spreken steeds vaker over deze beperkingen, nu de industrie AI uit webbrowsers naar fysieke ruimtes probeert te duwen. In een interview met podcasts Dwarkesh PatelTuring Award-ontvanger Richard Sutton waarschuwde dat LLM’s alleen maar nabootsen wat mensen zeggen in plaats van de wereld te modelleren, waardoor hun vermogen om van ervaringen te leren en zich aan te passen aan veranderingen in de wereld wordt beperkt.

Dit is de reden waarom modellen gebaseerd op LLM’s, inclusief visie-taalmodellen (VLM’s), kunnen gek gedrag vertonen en breken met zeer kleine veranderingen in hun inbreng.

CEO van Google DeepMind Demis Hassabis herhaalde dit sentiment in een ander interview en wees erop dat de huidige AI-modellen lijden aan ‘grillige intelligentie’. Ze kunnen complexe wiskundeolympiaden oplossen, maar slagen niet in de basisfysica omdat ze kritische vaardigheden missen met betrekking tot de dynamiek in de echte wereld.

Om dit probleem op te lossen verleggen onderzoekers hun focus naar het bouwen van wereldmodellen die fungeren als interne simulatoren, waardoor AI-systemen veilig hypothesen kunnen testen voordat ze fysieke actie ondernemen. Maar ‘wereldmodellen’ is een overkoepelende term die verschillende architecturale benaderingen omvat.

Het heeft drie verschillende architectonische benaderingen opgeleverd, elk met verschillende afwegingen.

JEPA: gebouwd voor realtime

De eerste hoofdbenadering richt zich op het leren van latente representaties in plaats van te proberen de dynamiek van de wereld op pixelniveau te voorspellen. Deze methode, goedgekeurd door AMI Labs, is er sterk op gebaseerd Gezamenlijke inbedding van voorspellende architectuur (JEPA).

JEPA-modellen proberen na te bootsen hoe mensen de wereld begrijpen. Wanneer we de wereld observeren, herinneren we ons niet elke afzonderlijke pixel of irrelevante detail in een scène. Als u bijvoorbeeld een auto door een straat ziet rijden, volgt u zijn traject en snelheid; je berekent niet de exacte reflectie van het licht op elk blad van de bomen op de achtergrond.

V-JEPA-architectuur (bron: Meta FAIR)

JEPA-modellen reproduceren deze menselijke cognitieve snelkoppeling. In plaats van het neurale netwerk te dwingen precies te voorspellen hoe het volgende frame in een video eruit zal zien, leert het model een kleinere reeks abstracte of ‘latente’ kenmerken. Het negeert de irrelevante details en concentreert zich volledig op de centrale regels van hoe elementen in de scène op elkaar inwerken. Dit maakt het model robuust tegen achtergrondruis en kleine veranderingen die andere modellen kapot maken.

Deze architectuur is uiterst computationeel en geheugenefficiënt. Door irrelevante details te negeren, zijn er veel minder trainingsvoorbeelden nodig en werkt het met een aanzienlijk lagere latentie. Deze kenmerken maken het geschikt voor toepassingen waarbij efficiëntie en realtime nauwkeurigheid niet onderhandelbaar zijn, zoals robotica, zelfrijdende auto’s en bedrijfsworkflows.

AMI werkt bijvoorbeeld samen met gezondheidszorgbedrijf Nabla om deze architectuur te gebruiken om de operationele complexiteit te simuleren en de cognitieve belasting in snelle gezondheidszorgomgevingen te verminderen.

Yann LeCun, een pionier op het gebied van de JEPA-architectuur en medeoprichter van AMI, legde dat uit wereldmodellen gebaseerd op JEPA zijn ontworpen om “beheersbaar te zijn in de zin dat je ze doelen kunt geven en door de constructie ervan kunnen ze alleen maar die doelen bereiken” in een interview met Newsweek.

Gaussiaanse lijnen: gebouwd voor de ruimte

Een andere benadering is gebaseerd op generatieve modellen om complete ruimtelijke omgevingen vanaf het begin op te bouwen. Geadopteerd door bedrijven zoals Wereldlaboratoriadeze methode neemt een initiële prompt (het kan een afbeelding of een tekstbeschrijving zijn) en gebruikt een generatief model om een ​​3D Gaussiaanse splat te creëren. Een Gaussiaanse splat is een techniek voor het weergeven van 3D-scènes met behulp van miljoenen kleine, wiskundige deeltjes die de geometrie en verlichting definiëren. In tegenstelling tot het genereren van platte video’s kunnen deze 3D-representaties rechtstreeks worden geïmporteerd in standaardfysica en 3D-engines, zoals Unreal Engine, waar gebruikers en andere AI-agenten vrijelijk kunnen navigeren en ermee kunnen communiceren vanuit elke hoek.

Het belangrijkste voordeel hier is een drastische vermindering van de tijd en eenmalige productiekosten die nodig zijn om complexe interactieve 3D-omgevingen te creëren. Het behandelt het exacte probleem dat werd geschetst door de oprichter van World Labs, Fei-Fei Li, die opmerkte dat LLM’s uiteindelijk zoiets zijn als “woordsmeden in het donker,” bezitten een bloemrijke taal, maar missen ruimtelijke intelligentie en fysieke ervaring. Het Marble-model van World Labs geeft AI het ontbrekende ruimtelijke bewustzijn.

Hoewel deze aanpak niet is ontworpen voor real-time uitvoering in een fractie van een seconde, heeft deze een enorm potentieel voor ruimtelijk computergebruik, interactief entertainment, industrieel ontwerp en het bouwen van statische trainingsomgevingen voor robotica. De ondernemingswaarde is duidelijk zichtbaar bij Autodesk geweldige ondersteuning van World Labs om deze modellen te integreren in hun industriële ontwerptoepassingen.

End-to-end generatie: gebouwd op schaal

De derde benadering maakt gebruik van een end-to-end generatief model om aanwijzingen en gebruikersacties te verwerken die continu de scène, fysieke dynamiek en reacties on-the-fly genereren. In plaats van een statisch 3D-bestand naar een externe fysica-engine te exporteren, fungeert het model zelf als de engine. Er is een eerste prompt voor nodig, samen met een continue stroom van gebruikersacties, en het genereert de daaropvolgende frames van de omgeving in realtime, waarbij de natuurkunde, verlichting en objectreacties native worden berekend.

Die van DeepMind Genie 3 en die van Nvidia Kosmos valt onder deze categorie. Deze modellen bieden een zeer eenvoudige interface om eindeloze interactieve ervaringen en enorme hoeveelheden synthetische gegevens te genereren. DeepMind demonstreerde dit native met Genie 3laat zien hoe het model een strikte objectduurzaamheid en uniforme fysica handhaaft met 24 frames per seconde zonder afhankelijk te zijn van een afzonderlijke geheugenmodule.

Deze aanpak vertaalt zich direct in krachtige synthetische datafabrieken. Nvidia Cosmos gebruikt deze architectuur om synthetische data en fysieke AI-redeneringen te schalen, waardoor ontwikkelaars van autonome voertuigen en robotica zeldzame, gevaarlijke edge-case-omstandigheden kunnen synthetiseren zonder de kosten of het risico van fysieke tests. Waymo (nog een dochteronderneming van Alphabet) bouwde zijn wereldmodel bovenop Genie 3 en paste het aan om zijn zelfrijdende auto’s te trainen.

Het nadeel van deze end-to-end generatieve methode zijn de hoge rekenkosten die nodig zijn om fysica en pixels continu tegelijkertijd weer te geven. Toch zijn de investeringen nodig om de visie van Hassabis te verwezenlijken, die stelt dat een diep, intern begrip van de fysieke causaliteit nodig is omdat de huidige AI de kritische capaciteiten ontbeert om veilig in de echte wereld te kunnen opereren.

Wat daarna komt: hybride architecturen

LLM’s zullen blijven fungeren als de interface voor redeneren en communiceren, maar wereldmodellen positioneren zichzelf als basisinfrastructuur voor fysieke en ruimtelijke datapijplijnen. Naarmate de onderliggende modellen volwassener worden, zien we de opkomst van hybride architecturen die voortbouwen op de sterke punten van elke aanpak.

Cybersecurity-startup DeepTempo heeft bijvoorbeeld onlangs een ontwikkeling doorgemaakt LogLMeen model dat elementen van LLM’s en JEPA integreert om afwijkingen en cyberdreigingen uit beveiligings- en netwerklogboeken te detecteren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in