De wapenwedloop om slimmere AI-modellen te bouwen heeft een meetprobleem: de tests die worden gebruikt om ze te rangschikken, raken bijna net zo snel achterhaald als de modellen verbeteren. Op maandag, Kunstmatige analyseeen onafhankelijke AI-benchmarkorganisatie waarvan de ranglijst nauwlettend in de gaten wordt gehouden door ontwikkelaars en zakelijke kopers, heeft een grote herziening van haar publicatie uitgebracht Intelligentie-index wat een fundamentele verandering teweegbrengt in de manier waarop de industrie de voortgang van AI meet.
De nieuwe Intelligentie-index v4.0 omvat 10 evaluaties over agenten, codering, wetenschappelijk redeneren en algemene kennis. Maar de veranderingen gaan veel dieper dan het mixen van testnamen. De organisatie heeft drie vaste benchmarks verwijderd: MMLU-Pro, AIME 2025En LiveCodeBench – dat al lang door AI-bedrijven wordt aangehaald in hun marketingmateriaal. In plaats daarvan introduceert de nieuwe index evaluaties die zijn ontworpen om te meten of AI-systemen het soort werk kunnen doen waarvoor mensen daadwerkelijk worden betaald.
“Deze indexverschuiving weerspiegelt een bredere transitie: intelligentie wordt minder gemeten aan de hand van herinneringen en meer aan de hand van economisch nuttige actie”, aldus de woordvoerder Aravind Sundareen onderzoeker die reageerde op de aankondiging op X (voorheen Twitter).
Waarom AI-benchmarks breken: het probleem met tests die topmodellen al onder de knie hebben
De herziening van de benchmark pakt een groeiende crisis in AI-evaluatie aan: de leidende modellen zijn zo bekwaam geworden dat traditionele tests niet langer een betekenisvol onderscheid tussen hen kunnen maken. De nieuwe index maakt het beklimmen van de curve opzettelijk moeilijker. Volgens Kunstmatige analysetopmodellen scoren nu 50 of lager op de nieuwe v4.0-schaal, vergeleken met 73 op de vorige versie – een herkalibratie die is ontworpen om de bodemvrijheid te herstellen voor toekomstige verbetering.
Dit verzadigingsprobleem heeft de sector al maanden geplaagd. Wanneer elk grensmodel op een bepaalde test in het 90e percentiel scoort, verliest de test zijn bruikbaarheid als besluitvormingsinstrument voor bedrijven die proberen te kiezen welk AI-systeem ze willen implementeren. De nieuwe methode probeert dit op te lossen door vier categorieën gelijk te wegen: agenten, codering, wetenschappelijk redeneren en algemeen l, terwijl evaluaties worden geïntroduceerd waar zelfs de meest geavanceerde systemen het nog steeds moeilijk mee hebben.
De resultaten onder het nieuwe raamwerk tonen OpenAI’s GPT-5.2 met uitgebreide redeneringsinspanningen die de eerste plaats claimden, op de voet gevolgd door die van Anthropic Werk afsluiten 4.5 en die van Google Tweeling 3 Pro. OpenAI beschrijft de GPT-5.2 als “de meest capabele modelserie tot nu toe voor professioneel kenniswerk”, terwijl Claude Opus 4.5 van Anthropic hoger scoort dan de GPT-5.2 op SWE-Bench geverifieerdeen testset die softwarecodeervaardigheden evalueert.
GDPval-AA: De nieuwe benchmark die test of AI jouw werk kan doen
De belangrijkste toevoeging aan de nieuwe index is GDPval-AAeen evaluatie op basis van die van OpenAI GDPval-gegevensset dat AI-modellen test op economisch waardevolle taken in de echte wereld in 44 beroepen en 9 grote industrieën. In tegenstelling tot traditionele benchmarks die modellen vragen om abstracte wiskundige problemen op te lossen of meerkeuzevragen te beantwoorden, meet GDPval-AA of AI de resultaten kan produceren die professionals daadwerkelijk creëren: documenten, dia’s, grafieken, spreadsheets en multimedia-inhoud.
Modellen krijgen shell-toegang en mogelijkheden om op het web te surfen via wat kunstmatige analyse ‘Stirrup’ noemt, het harnas van de referentieagent. Scores zijn afgeleid van blinde paarsgewijze vergelijkingen, waarbij de ELO-ratings op het moment van evaluatie bevroren zijn om indexstabiliteit te garanderen.
Onder dit raamwerk leidt OpenAI’s GPT-5.2 met uitgebreide redenering met een ELO-score van 1442, terwijl Anthropic’s Claude Opus 4.5 niet-denkende variant volgt op 1403. Claude Sonnet 4.5 volgt op 1259.
Volgens OpenAI versloeg GPT-5.2 bij de eerste GDPval-evaluatie de beste professionals uit de industrie met 70,9% van de goed gespecificeerde taken. Het bedrijf beweringen GPT-5.2 “is professionals uit de industrie te slim af met goed gespecificeerde kenniswerktaken die 44 beroepen bestrijken”, waarbij bedrijven als Notion, Box, Shopify, Harvey en Zoom “state-of-the-art lange-horizon-redeneringen en tool call-prestaties” observeren.
De nadruk op financieel meetbare output is een filosofische verschuiving in de manier waarop de industrie denkt over AI-mogelijkheden. In plaats van te vragen of een model kan slagen voor een barexamen of competitieve wiskundeproblemen kan oplossen – prestaties die de krantenkoppen genereren maar zich niet noodzakelijkerwijs vertalen in productiviteit op de werkplek – vragen de nieuwe benchmarks zich af of AI daadwerkelijk taken kan uitvoeren.
Natuurkundige problemen op universitair niveau onthullen de grenzen van de meest geavanceerde AI-modellen van vandaag
Terwijl GDPval-AA meet de praktische productiviteit, een andere nieuwe evaluatie wordt genoemd CritPT laat zien hoe ver AI-systemen verwijderd zijn van echte wetenschappelijke redenering. De benchmark test taalmodellen op niet-gepubliceerde redeneertaken op onderzoeksniveau in de moderne natuurkunde, inclusief gecondenseerde materie, kwantumfysica en astrofysica.
CritPT is ontwikkeld door meer dan 50 actieve natuurkundig onderzoekers van meer dan 30 toonaangevende instellingen. De 71 samengestelde onderzoeksuitdagingen simuleren grootschalige onderzoeksprojecten op instapniveau, vergelijkbaar met de opwarmingsoefeningen die een praktijkgerichte hoofdonderzoeker zou kunnen toewijzen aan junior studenten. Elk probleem wordt met de hand samengesteld om een gisbestendig, machinaal verifieerbaar antwoord te produceren.
De resultaten zijn ontnuchterend. De huidige state-of-the-art modellen zijn nog steeds verre van een betrouwbare oplossing voor grootschalige onderzoeksuitdagingen. GPT-5.2 met uitgebreide redenering leidt tot CritPT-klassement met een score van slechts 11,5%, gevolgd door Google’s Gemini 3 Pro Preview en Anthropic’s Claude 4.5 Opus Thinking-variant. Deze bevindingen suggereren dat AI-systemen, ondanks opmerkelijke vooruitgang op het gebied van consumentengerichte taken, nog steeds worstelen met het soort diepgaande redenering dat nodig is voor wetenschappelijke ontdekkingen.
AI-hallucinatiepercentages: waarom de meest nauwkeurige modellen niet altijd de meest geloofwaardige zijn
Misschien wel het meest onthullend is de nieuwe evaluatie AA-Algemene Wetenschappendie de feitelijke herinnering en hallucinatie meet over 6.000 vragen over 42 economisch relevante onderwerpen in zes domeinen: bedrijfskunde, gezondheid, recht, software-engineering, geesteswetenschappen en sociale wetenschappen, en natuurwetenschappen/techniek/wiskunde.
De evaluatie levert een Alwetende index dat nauwkeurige kennis beloont en gehallucineerde reacties bestraft – geeft inzicht in de vraag of een model onderscheid kan maken tussen wat het weet en wat het niet weet. De resultaten onthullen een ongemakkelijke waarheid: hoge nauwkeurigheid garandeert geen lage hallucinatie. Modellen met de hoogste nauwkeurigheid slagen er vaak niet in om voorop te lopen op de Omniscience Index, omdat ze de neiging hebben om te raden in plaats van zich te onthouden als ze onzeker zijn.
Die van Google Gemini 3 Pro-voorbeeld leidt de Omniscience Index met een score van 13, gevolgd door Claude Opus 4.5 Thinking en Gemini 3 Flash Reasoning, beide met 10. De verdeling tussen nauwkeurigheid en hallucinatiepercentages onthult echter een complexer beeld.
In termen van ruwe nauwkeurigheid leiden de twee modellen van Google met scores van respectievelijk 54% en 51%, gevolgd door Claude 4.5 Opusdenken van 43 procent. Maar de modellen van Google laten ook hogere hallucinatiepercentages zien dan vergelijkbare modellen, met scores van 88% en 85%. Anthropic’s Claude 4.5 Sonnet Thinking en Claude Opus 4.5 Thinking laten hallucinatiepercentages zien van respectievelijk 48% en 58%, terwijl de hoge redeneerinspanning GPT-5.1 51% bereikt – het op één na laagste geteste hallucinatiepercentage.
Zowel de alwetendheidsnauwkeurigheid als het hallucinatiepercentage dragen elk voor 6,25% bij aan de algemene intelligentie-index v4.
Binnen de AI-wapenwedloop: hoe OpenAI, Google en Anthropic het doen onder nieuwe tests
De herschikking van de benchmarks komt op een bijzonder turbulent moment in de AI-industrie. Alle drie de toonaangevende ontwikkelaars van grensmodellen hebben binnen slechts een paar weken grote nieuwe modellen gelanceerd Tweeling 3 staat nog steeds op de eerste plaats op veel ranglijsten LMAeen veel geciteerde benchmarkingtool die wordt gebruikt om LLM’s te vergelijken.
Google’s release van Gemini 3 in november werd aangevraagd OpenAI kondigt een “code rood”-inspanning aan om ChatGPT te verbeteren. OpenAI rekent op zijn GPT-modellenfamilie om dit te rechtvaardigen Waardering van $500 miljard en voorbij $ 1,4 biljoen aan geplande uitgaven. “We hebben deze code rood aangekondigd om het bedrijf duidelijk te maken dat we middelen op een bepaald gebied willen bundelen”, zegt Fidji Simo, CEO van Applications bij OpenAI. Altman vertelde CNBC hij verwachtte dat OpenAI in januari de code rood zou verlaten.
Anthropic reageerde op 24 november met Claude Opus 4.5 en behaalde een SWE-Bench geverifieerd nauwkeurigheidsscore van 80,9% – claimt de codeerkroon van beide GPT-5.1-Codex-Max En Tweeling 3. De lancering markeerde de derde grote modelrelease van Anthropic in twee maanden. Microsoft en Nvidia hebben sindsdien investeringen van meerdere miljarden dollars in Anthropic aangekondigd, waardoor de waardering is gestegen tot ongeveer 350 miljard dollar.
Hoe kunstmatige intelligentie AI-modellen test: een blik op het onafhankelijke benchmarkingproces
Kunstmatige analyse benadrukt dat alle evaluaties onafhankelijk van een gestandaardiseerde methode worden uitgevoerd. De organisatie stelt dat haar “methode de nadruk legt op eerlijkheid en toepasbaarheid in de echte wereld”, en schat een betrouwbaarheidsinterval van 95% voor de Intelligence Index van minder dan ±1% op basis van experimenten met meer dan tien replicaties van bepaalde modellen.
De organisatie is gepubliceerd methode definieert de belangrijkste termen die zakelijke kopers moeten begrijpen. Volgens de methodedocumentatie beschouwt kunstmatige intelligentie een ‘eindpunt’ als een gehost exemplaar van een model dat toegankelijk is via een API – wat betekent dat een enkel model meerdere eindpunten kan hebben bij verschillende providers. Een ‘provider’ is een entiteit die een of meer modeleindpunten of -systemen host en toegang biedt. Cruciaal is dat Artificial Analysis onderscheid maakt tussen modellen met ‘open gewichten’, waarvan de gewichten publiekelijk zijn vrijgegeven, en echte open source-modellen, waarbij wordt opgemerkt dat veel open LLM’s zijn uitgebracht met licenties die niet voldoen aan de volledige definitie van open source-software.
De methodologie maakt ook duidelijk hoe de organisatie de tokenmeting standaardiseert: het gebruikt OpenAI-tokens gemeten met OpenAI’s tiktoken-pakket als een standaardeenheid bij alle providers om eerlijke vergelijkingen mogelijk te maken.
Wat de nieuwe AI Intelligence Index betekent voor beslissingen op het gebied van bedrijfstechnologie in 2026
Voor technische besluitvormers die AI-systemen evalueren Intelligentie-index v4.0 biedt een genuanceerder beeld van de capaciteit dan eerdere benchmark-builds. De gelijke weging van agenten, codering, wetenschappelijk redeneren en algemene kennis betekent dat bedrijven met specifieke gebruiksscenario’s categoriespecifieke scores willen onderzoeken in plaats van uitsluitend op de geaggregeerde index te vertrouwen.
De introductie van het meten van hallucinaties als een afzonderlijke, gewogen factor pakt een van de meest hardnekkige problemen bij de adoptie van AI in ondernemingen aan. Een model dat zeer accuraat lijkt, maar vaak hallucineert wanneer de onzekerheid aanzienlijke risico’s met zich meebrengt in gereguleerde sectoren zoals de gezondheidszorg, de financiële sector en de wetgeving.
De Artificial Analysis Intelligence Index wordt beschreven als “een op tekst gebaseerd, Engelstalig evaluatiepakket”. De organisatie vergelijkt modellen voor beeldinvoer, spraakinvoer en meertalige prestaties afzonderlijk.
De reacties op de aankondiging zijn overwegend positief. “Het is geweldig om te zien dat de index evolueert om de verzadiging te verminderen en zich meer te concentreren op de prestaties van agenten”, schreef een commentator in een X.com-bericht. “Het opnemen van taken uit de echte wereld, zoals GDPval-AA, maakt de resultaten veel relevanter voor praktisch gebruik.”
Anderen sloegen een ambitieuzere toon aan. ‘De nieuwe golf modellen die net binnenkomt, zal ze allemaal achter zich laten’, voorspelde een waarnemer. “Tegen het einde van het jaar zal de singulariteit onmiskenbaar zijn.”
Maar of deze voorspelling nu profetisch of voorbarig blijkt te zijn, één ding is al duidelijk: het tijdperk van het beoordelen van AI op basis van hoe goed het testvragen beantwoordt, loopt ten einde. De nieuwe standaard is eenvoudiger en heeft veel meer consequenties: kan deze de klus klaren?



