Home Nieuws Dit AI-model kan begrijpen hoe de fysieke wereld werkt

Dit AI-model kan begrijpen hoe de fysieke wereld werkt

26
0
Dit AI-model kan begrijpen hoe de fysieke wereld werkt

De originele versie van dit verhaal verscheen erin Quanta-tijdschrift.

Hier is een test voor baby’s: laat ze een glas water zien op een bureau. Verberg het achter een houten plank. Verplaats nu het bord naar het glas. Als het bestuur langs het glas blijft lopen alsof het er niet is, zullen ze dan verrast zijn? Veel kinderen van zes maanden hebben, en tegen de tijd dat ze een jaar oud zijn, bijna alle kinderen een intuïtief idee van de duur van een object, geleerd door observatie. Sommige modellen van kunstmatige intelligentie doen dat nu ook.

Onderzoekers hebben een AI-systeem ontwikkeld dat via video’s over de wereld leert en een gevoel van “verrassing” demonstreert wanneer het informatie krijgt aangeboden die indruist tegen de kennis die het heeft verzameld.

Het model, gemaakt door Meta en genaamd Video Joint Embedding Predictive Architecture (V-JEPA), doet geen aannames over de fysica van de wereld in de video’s. Niettemin kan het inzicht krijgen in hoe de wereld werkt.

“Hun beweringen zijn a priori zeer plausibel en de resultaten zijn superinteressant”, zegt Micha Heilbroneen cognitief wetenschapper aan de Universiteit van Amsterdam die onderzoekt hoe hersenen en kunstmatige systemen de wereld begrijpen.

Hogere abstracties

Zoals de ingenieurs die zelfrijdende auto’s bouwen weten, kan het moeilijk zijn om een ​​AI-systeem op betrouwbare wijze te laten begrijpen wat het ziet. De meeste systemen die zijn ontworpen om video’s te ‘begrijpen’ om de inhoud ervan te classificeren (bijvoorbeeld ‘een persoon die tennis speelt’) of om de contouren van een object te identificeren (bijvoorbeeld een auto ervoor) werken in wat ‘pixelruimte’ wordt genoemd. Het model beschouwt in wezen elke pixel in een video als even belangrijk.

Maar deze pixelruimtemodellen hebben beperkingen. Stel je voor dat je een straat in een buitenwijk probeert te begrijpen. Als de scène auto’s, verkeerslichten en bomen bevat, kan het model zich te veel concentreren op irrelevante details zoals de beweging van de bladeren. Het kan de kleur van de verkeerslichten of de locatie van auto’s in de buurt missen. “Als je naar afbeeldingen of video gaat, wil je niet in (pixel)ruimte werken, omdat er te veel details zijn die je niet wilt modelleren”, zegt Randall Balestrieroeen computerwetenschapper aan de Brown University.

Yann LeCun, een computerwetenschapper aan de New York University en directeur van AI-onderzoek bij Meta, creëerde in 2022 JEPA, een voorloper van V-JEPA die met stilstaande beelden werkt.

Foto: École Polytechnique Universiteit Parijs-Saclay

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in