Home Nieuws Allen Institute for AI concurreert met Google, Meta en OpenAI met een...

Allen Institute for AI concurreert met Google, Meta en OpenAI met een open source AI-visiemodel

19
0
Allen Institute for AI concurreert met Google, Meta en OpenAI met een open source AI-visiemodel

Een demovideo van Ai2 laat zien dat Molmo een bepaalde bal in deze kattenvideo volgt, zelfs als deze buiten beeld raakt. (Allen Instituut voor AI Video)

Hoeveel pinguïns zijn er in deze natuurvideo? Kun jij de oranje bal in de kattenvideo volgen? Welke teams spelen en wie scoorde? Mij ​​stap-voor-stap instructies geven uit deze kookvideo?

Dit zijn voorbeelden van vragen die kunnen worden ingevuld door Mond 2een nieuwe familie van open-source AI-visiemodellen van het Allen Institute for AI (Ai2) die vragen over video’s kunnen zien, volgen, analyseren en beantwoorden: beschrijven wat er gebeurt en specificeren waar en wanneer.

Ai2 haalt benchmarktests aan die aantonen dat Molmo 2 open-sourcemodellen verslaat op het gebied van korte videoanalyse en tracking, en beter presteert dan gesloten systemen zoals Google’s Gemini 3 voor videotracking, terwijl ze hun prestaties op andere beeld- en videotaken benaderen.

In een reeks demo’s voor journalisten onlangs op het Ai2-kantoor in Seattle lieten onderzoekers zien hoe Molmo 2 een reeks korte videoclips op verschillende manieren kon analyseren.

  • In een voetbalfragment vroegen onderzoekers welke verdedigingsfout tot een doelpunt leidde. Het model analyseerde de volgorde en wees op een fout bij het effectief hanteren van de bal.
  • In een honkbalclip identificeerde de AI de teams (Angels en Sailors), de speler die scoorde (#55), en legde uit hoe zij de thuisploeg kenden door uniformen en stadionbranding te lezen.
  • Met een kookvideo gaf het model een gestructureerd recept terug met ingrediënten en stapsgewijze instructies, inclusief timing uit tekst op het scherm.
  • Toen hem werd gevraagd te tellen hoeveel beurten een danseres uitvoerde, zei het model niet alleen ‘vijf’, maar gaf het ook tijdstempels en pixelcoördinaten terug voor elke beurt.
  • In een trackingdemo volgde het model vier pinguïns terwijl ze zich door het frame bewogen, waarbij voor elke vogel een consistente ID werd behouden, zelfs als ze elkaar overlapten.
  • Toen het model werd gevraagd om “de auto te volgen die aan het einde auto nr. 13 passeert”, bekeek het model eerst een volledig racefragment, begreep de vraag en ging vervolgens terug om het juiste voertuig te identificeren. Het volgde auto’s die het frame binnenkwamen en verlieten.

Groot jaar voor Ai2

Molmo 2 werd dinsdagochtend aangekondigd en sluit een jaar vol belangrijke mijlpalen af ​​voor de in Seattle gevestigde non-profitorganisatie, die een loyale aanhang in het bedrijfsleven en de wetenschap heeft opgebouwd door volledig open AI-systemen te bouwen. De aanpak staat in schril contrast met de gesloten of gedeeltelijk open benaderingen van industriegiganten als OpenAI, Google, Microsoft en Meta.

Opgericht in 2014 door wijlen Microsoft-medeoprichter Paul Allen, Ai2 dit jaar $ 152 miljoen binnengehaald van NSF en Nvidia, hebben hun krachten gebundeld AI-kankeronderzoeksinitiatiefonder leiding van Fred Hutch uit Seattle, en vrijgelaten Iep 3een tekstmodel dat concurreert met Meta, DeepSeek en anderen.

Ai2 heeft dit jaar meer dan 21 miljoen downloads van zijn modellen en bijna 3 miljard zoekopdrachten op zijn systemen gezien, zei Ali FarhadiDe uitvoerend directeur van Ai2, tijdens de mediabriefing vorige week op het nieuwe hoofdkantoor van het instituut aan de noordkust van Lake Union in Seattle.

AI2-CEO Ali Farhadi. (Geekwire-bestandsfoto / Todd Bishop)

Als non-profitorganisatie probeert Ai2 niet commercieel te concurreren met de technologiegiganten – het heeft tot doel de nieuwste ontwikkelingen te promoten en deze ontwikkelingen vrij beschikbaar te maken.

Het Instituut heeft open modellen uitgebracht voor tekst (OLMo), afbeeldingen (de originele Molmo) en nu video – en bouwt voort op wat hij omschreef als een uniform model dat over alle modaliteiten heen redeneert.

“We bouwen basismodellen die concurreren met de beste dingen die er zijn”, zei Farhadi, maar op een volledig open manier, voor een verscheidenheid aan media en situaties.

Naast Molmo 2 is maandag ook Ai2 uitgebracht Bolmoeen experimenteel tekstmodel dat taal verwerkt op tekenniveau in plaats van in woordfragmenten – een technische verschuiving die de verwerking van spelling, zeldzame woorden en meertalige tekst verbetert.

Breidt zich uit tot videoanalyse

Met de nieuw uitgebrachte Molmo 2 ligt de focus op video. Voor alle duidelijkheid: het model analyseert video, het genereert geen video – denk erover na om beeldmateriaal te begrijpen in plaats van het te maken.

De originele Molmo, die afgelopen september werd uitgebracht, kon statische beelden analyseren met een precisie die vergelijkbaar is met die van closed-sourceconcurrenten. Het introduceerde een “punt” -functie waarmee het specifieke objecten binnen een frame kon identificeren. Molmo 2 biedt dezelfde benadering van het begrijpen van video en meerdere afbeeldingen.

Het concept is niet nieuw. Google’s Gemini, OpenAI’s GPT-4o en Meta’s Perception LM kunnen allemaal video verwerken. Maar in overeenstemming met de bredere missie van Ai2 als non-profitinstituut, is Molmo 2 volledig open, waarbij modelgewichten, trainingscode en trainingsgegevens allemaal openbaar worden gemaakt.

Dat is anders dan ‘open schaal’-modellen die het eindproduct vrijgeven, maar niet het originele recept, en een scherp contrast vormen met gesloten systemen van Google, OpenAI en anderen.

Het onderscheid is niet alleen een academisch principe. De aanpak van Ai2 betekent dat ontwikkelaars het gedrag van een model kunnen herleiden tot de trainingsgegevens, het kunnen aanpassen aan specifieke toepassingen en kunnen voorkomen dat ze vastzitten in het ecosysteem van een leverancier.

Ai2 legt ook de nadruk op efficiëntie. Meta’s Perception LM werd bijvoorbeeld getraind op 72,5 miljoen video’s. Molmo 2 gebruikte er ongeveer 9 miljoen, gebaseerd op menselijke annotaties van hoge kwaliteit.

Het resultaat, zo beweert Ai2, is een kleiner, efficiënter model dat beter presteert dan hun eigen, veel grotere model van vorig jaar en dicht in de buurt komt van commerciële systemen van Google en OpenAI, terwijl het eenvoudig genoeg is om op één machine te draaien.

Toen de originele Molmo vorig jaar zijn aanwijsfunctie introduceerde – waardoor het model specifieke objecten in een afbeelding kon identificeren – namen concurrerende modellen deze functie snel over.

“We weten dat ze onze gegevens hebben overgenomen omdat ze precies zo goed presteren als wij”, zei hij Ranjay Krishnadie leiding geeft aan het computervisieteam van Ai2. Krishna is ook assistent-professor aan de Universiteit van Washington, en verschillende van zijn afgestudeerde studenten werken ook aan het project.

Farhadi neemt de concurrentiedynamiek anders waar dan de meeste mensen in de sector.

“Als je echt open source doet, zou ik het woord eigenlijk veranderen concurrentie naar samenwerking“, zei hij. “Omdat er geen noodzaak is om te concurreren. Alles is daarbuiten. Er is geen reverse-engineering nodig. Je hoeft het niet opnieuw op te bouwen. Pak het gewoon, bouw er bovenop en doe het volgende. En we vinden het geweldig als mensen dat doen.”

Een werk in uitvoering

Tegelijkertijd heeft Molmo 2 enkele duidelijke beperkingen. Het trackingvermogen – het volgen van objecten over frames heen – piekt momenteel rond de 10 objecten. Vraag hem om een ​​menigte of een drukke snelweg te volgen en het model kan het niet bijhouden.

“Dit is een heel, heel nieuwe mogelijkheid, en het is er een die zo experimenteel is dat we heel klein beginnen”, zei Krishna. “Hier zit geen technologische limiet aan, het vereist alleen meer data, meer voorbeelden van echt drukke scènes.”

Lange video’s zijn ook nog steeds een uitdaging. Het model presteert goed bij korte clips, maar het analyseren van langere beelden vereist berekeningen die Ai2 nog niet wil gebruiken. In de speeltuin, die samen met Molmo 2 wordt gelanceerd, zijn geüploade video’s beperkt tot 15 seconden.

En in tegenstelling tot sommige commerciële systemen verwerkt Molmo 2 geen live videostreams. Het analyseert beelden achteraf. Krishna zei dat het team streamingmogelijkheden onderzoekt voor toepassingen zoals robotica, waarbij een model in realtime op waarnemingen moet reageren, maar dat werk nog in de kinderschoenen staat.

“Er zijn methoden die mensen hebben bedacht op het gebied van het verwerken van video’s in de loop van de tijd, het streamen van video’s”, zei Krishna. “Dit zijn richtingen waar we nader naar kijken.”

Molmo 2 is vanaf vandaag verkrijgbaar op Hugging Face en De speeltuin van Ai2.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in