Home Nieuws Exclusief: deze nieuwe benchmark kan de grootste zwakte van AI aan het...

Exclusief: deze nieuwe benchmark kan de grootste zwakte van AI aan het licht brengen

4
0
Exclusief: deze nieuwe benchmark kan de grootste zwakte van AI aan het licht brengen

De invloedrijke AI Onderzoeker François Chollet heeft lang betoogd dat het veld intelligentie verkeerd meet, dat populaire benchmarks het vermogen van een model belonen om grote hoeveelheden gegevens te onthouden in plaats van om door nieuwe situaties te navigeren en nieuwe vaardigheden te leren. Pas onlangs, met de komst van autonome AI-agenten, zijn bedrijven deze kritiek serieus gaan nemen. Dinsdag heeft de ARC-prijzenfondsdat Chollet samen met Zapier-mede-oprichter Mike Knoop oprichtte, een nieuwe en moeilijkere versie van zijn benchmark heeft uitgebracht. De test, genaamd ARC-AGI-3, kan de duidelijkste meting tot nu toe opleveren van hoe dicht de huidige AI-agenten zijn bij intelligentie op menselijk niveau.

Het bestaat uit meer dan duizend eenvoudige, videogame-achtige scenario’s die zijn ontworpen om de redenering tijdens de vlucht te meten in plaats van het geheugen uit het hoofd. “Je kunt altijd vaardigheden opdoen door te onthouden door simpelweg een opzoektabel bij te houden van alles wat je moet doen”, zegt Chollet. “Intelligentie is de efficiëntie waarmee je nieuwe dingen begrijpt, nieuwe taken die je nog nooit eerder hebt gezien.”

Zonder instructies moet een agent inzicht krijgen in de spelomgeving en de regels ervan en deze kennis vervolgens toepassen om een ​​strategie te vormen die in meerdere fasen naar een uiteindelijk doel leidt. Agenten die deze doelen bereiken met minder, efficiëntere stappen verdienen hogere scores, en hun makers komen in aanmerking voor een prijs van $ 1 miljoen, geheel of gedeeltelijk. Net als in eerdere ARC-benchmarks kunnen mensen relatief gemakkelijk door de taken navigeren, terwijl veel AI-systemen het moeilijk hebben.

Een hoge score op de ARC-AGI-3 zou ook kunnen dienen als bewijs van kunstmatige algemene intelligentie (AGI). Om het “economisch meest waardevolle werk” te doen, gedaan door mensen, als één geheel gemeenschappelijke definitie van de AGI-vereisten zullen AI-agenten door onbekende situaties in onbekende omgevingen moeten redeneren. Ze zullen abstracties moeten vormen van ervaringen uit het verleden en deze moeten generaliseren naar nieuwe problemen waarvoor ze niet expliciet zijn opgeleid om ze op te lossen.

François Chollet (Foto: ARC-prijs)

“Ik vind het geweldig dat deze benchmark feitelijk de kern vormt van de kloof die bestaat tussen daadwerkelijke metingen voor AGI en de standaardset benchmarksuites die de grote laboratoria en vrijwel iedereen lijken te gebruiken in de ratrace om een ​​week lang een verbetering van 0,5% te krijgen ten opzichte van elk ander state-of-the-art model”, zegt Andy Konwinski, wiens deel van het instituut $ 25, ARC00, heeft gedoneerd. Slingerschoten initiatief.

Oorsprong

Toen de eerste ARC-test in 2019 werd uitgebracht, was de transformatorarchitectuur achter de huidige AI-chatbots nog maar twee jaar oud en begonnen de modellen nog maar net samenhangende reacties op prompts te genereren. Omdat ze nog niet in realtime konden redeneren, hebben ze vrijwel niets van de ARC-1 opgelost raadselswaardoor de adoptie van de benchmark werd beperkt.

(Animatie: ARC-prijs)

Chollet zag een fundamenteel probleem met de manier waarop de industrie de vooruitgang beoordeelde. Systemen die taken konden uitvoeren die werden beschreven als intelligentie op doctoraatsniveau faalden bij eenvoudige puzzels. “Als de meest geavanceerde kunstmatige-intelligentiesystemen worden gehinderd, maar een kind kan het wel, is dat een groot rood knipperlicht dat je vertelt dat we iets missen, dat er iets heel belangrijks niet klopt”, zegt hij.

De vroege ARC-AGI-1-resultaten wezen ook op een dieper liggend probleem industrie strategie om zijn AI te verbeteren: “Ik denk eigenlijk dat ARC letterlijk de belangrijkste ongeslagen benchmark ter wereld is, omdat dit het enige echt duidelijke bewijs is dat het schaalverhaal tegenspreekt dat zo dogmatisch was in de Bay Area in 2023 en 2024”, zegt Knoop. Destijds waren de AI-laboratoria ervan overtuigd dat de voortdurende overdimensionering van hun modellen, trainingsgegevens en rekenkracht zou blijven leiden tot intelligentiewinst en uiteindelijk tot AGI zou leiden. Maar deze systemen bleven statisch op het moment van de gevolgtrekking (tijdens de interactie met een gebruiker) en vertrouwden alleen op de vooraf getrainde modelgewichten om antwoorden te genereren.

Schalen om te redeneren

Dat begon te veranderen in 2024, toen AI-laboratoria zich begonnen te concentreren op autonome agenten en het echte werk dat ze konden doen. “Deep learning-modellen bereikten het punt waarop ze zoveel kennis hadden verzameld dat je er een redeneerlaag bovenop kon bouwen”, zegt Chollet. Er was een verschuiving gaande. Nieuwe redeneermodellen, zoals OpenAI’s o1, die in september 2024 als onderzoeksvoorbeeld werd uitgebracht, zouden complexe taken in kleinere delen kunnen opsplitsen en meerdere paden naar een oplossing kunnen evalueren.

“Het probeerde uiteindelijk het probleem van de vloeibare intelligentie op te lossen dat ontbrak in het deep learning-paradigma”, zegt Chollet. Onderzoekers begonnen meer aandacht te besteden aan ARC omdat het was ontworpen om dit vermogen vast te leggen. “(ARC) werd dit zeer hoge signaalreferentiepunt”, zegt hij. Het O1-model verbeterde ten opzichte van eerdere resultaten en scoorde 21% op ARC-AGI-1, vergeleken met 9% voor GPT-4o, zijn voorganger.

Pas toen het OpenAI o3-model in januari 2025 werd uitgebracht, had een nieuwe redenering een aanzienlijke invloed op de ARC-score. Het model scoorde tussen de 75% en 87%, afhankelijk van de hoeveelheid gebruikte computer, en benaderde prestaties op menselijk niveau.

Deze winsten suggereerden dat de ARC-benchmark binnenkort oververzadigd zou kunnen raken. Naarmate meer modellen hoog gingen scoren, rezen er vragen of deze resultaten de ware redenering of optimalisatie voor de benchmark zelf weerspiegelden. AI-labs gebruikten al technische oplossingen en gespecialiseerde systemen om de prestaties te verbeteren. In mei 2025 introduceerde de ARC Prize Foundation ARC-AGI-2 om de test beter bestand te maken tegen deze tactieken.

Het O3-model, dat ongeveer 87% scoorde op ARC-AGI-1, daalde aanvankelijk naar slechts 3-4% op ARC-AGI-2.

Verbetering of “benchmaxxing”?

Labs bleven manieren vinden om hun ARC-scores te verbeteren. Ze begonnen gespecialiseerde software-harnassen te creëren die herhaalde redeneerpogingen orkestreerden, deze vervolgens evalueerden en iteratief verbeterden. Onderzoekers debatteerden erover of de softwareharnassen het soort vloeiende redenering weerspiegelen dat de ARC moet meten.

Chollet gelooft dat OpenAI in 2025 “tientallen miljoenen” heeft uitgegeven aan gegevensverwerking om modellen specifiek voor ARC-AGI-2 te trainen, waarbij gebruik wordt gemaakt van openbaar beschikbare ARC-puzzelvoorbeelden om aanvullende trainingsgegevens te genereren. “Wat dit neerkomt is preventief brute forceren… door elke mogelijke taak van tevoren te raden”, zegt hij.

De tactiek werkte in ieder geval: de topscores stegen naar 40-50% in december 2025, zegt Knoop.

“Ik verwacht dat hetzelfde zal gebeuren met ARC-3, maar met ARC-3 zal het moeilijker zijn”, zegt Chollet. “Het zal duurder zijn.”

ARC-AGI-3 komt op een cruciaal moment waarop bedrijven en investeerders biljoenen inzetten dat AI-agenten grote delen van het kenniswerk zullen overnemen. Modellen worden snel beter, maar het ontbreekt ze misschien nog steeds aan de intuïtie die nodig is om met de complexiteit en onzekerheid van taken in de echte wereld om te gaan. Alles wat minder is, loopt het risico tekort te schieten in de richting van echte autonomie.

OpenAI herkent dit. “Het tempo van de vooruitgang op het gebied van AI is ongelooflijk geweest, maar er zijn nog steeds belangrijke manieren waarop AI achterblijft bij de menselijke intelligentie”, zegt OpenAI-onderzoeker Noam Brown in een verklaring. Snel bedrijf. “Een van de meest voor de hand liggende is het vermogen om zich effectief aan te passen in nieuwe omgevingen, waarvoor ARC-AGI-3 is ontworpen om te testen. Benchmarks als deze laten zien of AI-modellen algemener worden of alleen maar beter worden in domeinen waarin ze al uitblinken.”

Agenten zullen waarschijnlijk een uitstelperiode krijgen waarin menselijke werkers hen trainen en corrigeren. Vervolgens zullen ze vertrouwen moeten opbouwen en hun verantwoordelijkheden moeten uitbreiden. Als ze falen, kunnen bedrijven aarzelen om ze op grotere schaal toe te passen.

Zijn de agenten van vandaag goed genoeg om dat vertrouwen te verdienen? Zo niet, hoe weten we wanneer dat wel het geval is? ARC-AGI-3 zou deze vragen kunnen helpen beantwoorden.

Het is een goed teken dat de AI-labs goed opletten. “Ik heb veel meer aantrekkingskracht gevoeld van de grenslaboratoria en opwinding over versie drie (ARC-AGI-3) dan ik ooit heb gevoeld over één en twee”, zegt Knoop. De AI-labs zullen eraan werken om hun modellen in 2026 naar hogere scores op de nieuwe benchmark te brengen, en kunnen zich daarbij nog meer gaan richten op het opbouwen van de kwaliteiten en mogelijkheden die agenten nodig hebben om werk in de echte wereld te doen. “Ik denk dat dit slechts een erkenning is van veel grenslaboratoria dat we nieuwe ideeën nodig hebben”, zegt Knoop. “We hebben het nog niet allemaal door.”

Dit verhaal is bijgewerkt met opmerkingen van OpenAI.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in