Er is geen tekort aan generatieve AI-benchmarks die zijn ontworpen om de prestaties en nauwkeurigheid van een bepaald model te meten bij het uitvoeren van verschillende nuttige zakelijke taken – van codering naar de volgende instructie naar surfen op het web van de agent En gebruik van gereedschap. Maar veel van deze benchmarks hebben een grote tekortkoming: ze meten het vermogen van de AI om specifieke problemen en verzoeken te voltooien, niet hoe feitelijk het model zit in zijn output – hoe goed het objectief correcte informatie genereert die is gekoppeld aan gegevens uit de echte wereld – vooral als het gaat om informatie in afbeeldingen of grafische afbeeldingen.
Voor industrieën waar nauwkeurigheid van het grootste belang is – juridisch, financieel en medisch – is er het ontbreken van een gestandaardiseerde manier om te meten feitelijkheid is een kritische blinde vlek geweest.
Dat verandert vandaag: het FACTS-team van Google en zijn data science-eenheid Kaggle heeft de FACTS Benchmark Suite uitgebracht, een uitgebreid evaluatiekader ontworpen om deze kloof te dichten.
De bijbehorende onderzoekspapier onthult een meer genuanceerde definitie van het probleem, waarbij “factualiteit” wordt verdeeld in twee verschillende operationele scenario’s: “contextuele feitelijkheid” (basisantwoorden in de verstrekte gegevens) en “feitelijkheid van wereldkennis” (informatie ophalen uit het geheugen of het web).
Terwijl het voorpaginanieuws de toppositie van Gemini 3 Pro is, is het diepere verhaal voor bouwers de industriebrede ‘feitelijkheidsmuur’.
Volgens de eerste resultaten is geen enkel model – inclusief de Gemini 3 Pro, GPT-5 of Claude 4.5 Opus – erin geslaagd een nauwkeurigheidsscore van 70% te behalen voor de reeks problemen. Voor technische leiders is dit een signaal: het tijdperk van ‘vertrouwen maar verifiëren’ is nog lang niet voorbij.
Deconstructie van de benchmark
Het FACT-pakket gaat verder dan eenvoudige vragen en antwoorden. Het bestaat uit vier afzonderlijke tests, die elk een andere reële foutconditie simuleren die ontwikkelaars tegenkomen tijdens de productie:
-
Parametrische benchmark (interne kennis): Kan het model trivia-achtige vragen nauwkeurig beantwoorden met alleen de trainingsgegevens?
-
Zoekbenchmark (met behulp van tool): Kan het model effectief een webzoekhulpmiddel gebruiken om live informatie op te halen en te synthetiseren?
-
Multimodale benchmark (visie): Kan het model diagrammen, grafieken en afbeeldingen nauwkeurig interpreteren zonder te hallucineren?
-
Grounding Benchmark v2 (context): Kan het model nauw aansluiten bij de opgegeven brontekst?
Google heeft 3.513 voorbeelden vrijgegeven aan het publiek, terwijl Kaggle een privéset heeft om te voorkomen dat ontwikkelaars trainen op de testgegevens – een veel voorkomend probleem dat bekend staat als “besmetting”.
Leaderboard: een spel van centimeters
Bij de eerste run van de benchmark staat Gemini 3 Pro aan de leiding met een uitgebreide FACT-score van 68,8%, gevolgd door Gemini 2.5 Pro (62,1%) en OpenAI’s GPT-5 (61,8%). Als we de gegevens nader bekijken, blijkt echter waar de echte strijdtonelen voor technische teams liggen.
|
Model |
FACT-score (gem.) |
Zoeken (RAG-capaciteit) |
Multimodaal (Visie) |
|
Tweeling 3 Pro |
68,8 |
83,8 |
46.1 |
|
Tweeling 2.5 Pro |
62.1 |
63,9 |
46,9 |
|
GPT-5 |
61,8 |
77,7 |
44.1 |
|
Grok 4 |
53,6 |
75,3 |
25.7 |
|
Sluit 4.5 Werk |
51.3 |
73,2 |
39.2 |
Gegevens afkomstig uit de releaseopmerkingen van het FACTS-team.
Voor bouwers: de kloof “Zoeken” versus “Parametrisch”.
Voor ontwikkelaars die Retrieval-Augmented Generation (RAG)-systemen bouwen, is Search Benchmark de meest kritische maatstaf.
De gegevens laten een enorme discrepantie zien tussen het vermogen van een model om dingen te ‘weten’ (Parametrisch) en zijn vermogen om dingen te ‘vinden’ (Search). Zo scoort de Gemini 3 Pro een hoge 83,8% op zoektaken, maar slechts 76,4% op parametrische taken.
Dit valideert de huidige standaard voor bedrijfsarchitectuur: vertrouw niet op het interne geheugen van een model voor kritische feiten.
Als u een interne kennisbot bouwt, suggereren de FACTS-resultaten dat het aansluiten van uw model op een zoekhulpmiddel of vectordatabase niet optioneel is; het is de enige manier om de nauwkeurigheid naar aanvaardbare productieniveaus te brengen.
De multimodale waarschuwing
Het meest alarmerende datapunt voor productmanagers zijn de prestaties bij multimodale taken. De score is hier over het algemeen laag. Zelfs de leider in de categorie, de Gemini 2.5 Pro, behaalde slechts een nauwkeurigheid van 46,9%.
De benchmarktaken omvatten het lezen van diagrammen, het interpreteren van diagrammen en het identificeren van objecten in de natuur. Met een nauwkeurigheid van minder dan 50% over de hele linie suggereert dit dat multimodale AI nog niet klaar is voor gegevensextractie zonder toezicht.
Kort gezegd: Als uw productroadmap een AI omvat die automatisch gegevens uit facturen haalt of financiële grafieken interpreteert zonder menselijke beoordeling, u zult waarschijnlijk aanzienlijke foutenpercentages introduceren in uw pijplijn.
Waarom dit belangrijk is voor uw stapel
De FACTS-benchmark zal waarschijnlijk een standaardreferentiepunt voor aanbestedingen worden. Bij het evalueren van modellen voor zakelijk gebruik moeten technische leiders verder kijken dan de samengestelde score en zich verdiepen in de specifieke subbenchmark die past bij hun gebruiksscenario:
-
Een klantenondersteuningsbot bouwen? Kijk naar de Grounding-score om er zeker van te zijn dat de bot zich aan uw beleidsdocumenten houdt. (Gemini 2.5 Pro presteerde hier zelfs beter dan Gemini 3 Pro, 74,2 versus 69,0).
-
Een onderzoeksassistent bouwen? Geef prioriteit aan zoekresultaten.
-
Een beeldanalysetool bouwen? Ga uiterst voorzichtig te werk.
Zoals het FACTS-team in hun persbericht opmerkte: “Alle geëvalueerde modellen behaalden een algehele nauwkeurigheid van minder dan 70%, waardoor er aanzienlijke ruimte overblijft voor toekomstige vooruitgang.” Tot nu toe is de boodschap aan de industrie duidelijk: de modellen worden slimmer, maar ze zijn nog niet onfeilbaar. Ontwerp uw systemen in de veronderstelling dat het onbewerkte model in ongeveer een derde van de gevallen misschien wel verkeerd is.



