Blijf op de hoogte met gratis updates
U hoeft zich alleen maar te registreren Kunstmatige intelligentie myFT Digest – rechtstreeks in uw inbox afgeleverd.
AI-modellen van Google, OpenAI en Anthropic verloren geld door te wedden op voetbalwedstrijden in de loop van een Premier League-seizoen, in een nieuwe studie die suggereert dat zelfs de meest geavanceerde systemen moeite hebben om de echte wereld over lange perioden te analyseren.
De “KellyBench”-rapport Deze week gepubliceerd door AI-startup General Reasoning benadrukt de kloof tussen de snel voortschrijdende capaciteiten van AI bij bepaalde taken, zoals het schrijven van software, en de tekortkomingen ervan bij andere soorten menselijke problemen.
Het in Londen gevestigde General Reasoning testte er acht top AI systemen in een virtuele recreatie van het Premier League-seizoen 2023-2024, waardoor ze gedetailleerde historische gegevens en statistieken krijgen over elk team en eerdere wedstrijden. De AI’s kregen de opdracht om modellen te bouwen die het rendement zouden maximaliseren en de risico’s zouden beheersen.
De AI-“agenten” plaatsten vervolgens weddenschappen op de resultaten van de wedstrijden en het aantal gescoorde doelpunten om te testen hoe ze zich konden aanpassen aan nieuwe gebeurtenissen en bijgewerkte spelersgegevens naarmate het seizoen vorderde.
De AI kon geen toegang krijgen tot internet om resultaten op te halen en kreeg ieder drie pogingen om geld te verdienen.
Claude Opus 4.6 van Anthropic deed het het beste, met een gemiddeld verlies van 11 procent en bijna gelijk bij één enkele poging.
xAI’s Grok 4.20 faalde één keer en slaagde er niet in de andere twee pogingen te voltooien. Google’s Gemini 3.1 Pro wist een keer 34 procent te verdienen, maar ging een andere keer failliet.
“Elk grensmodel dat we hebben beoordeeld, heeft in de loop van het seizoen geld verloren en velen hebben een ondergang ervaren”, concludeerden de auteurs van het artikel, waarbij AI in dit scenario “systematisch ondermaats presteerde ten opzichte van mensen”.
De resultaten bieden enige troost voor bedienden en bedrijven die zich zorgen maken dat kunstmatige intelligentie hun banen zou kunnen overnemen, omdat het de aandelen van industrieën, van financiën tot marketing, bederft.
Ross Taylor, een van de auteurs van het onderzoek en de CEO van General Reasoning, zei: “Er is zoveel hype over AI-automatisering, maar er zijn niet veel statistieken over het plaatsen van AI op een lange tijdshorizon.”
Hij voegde eraan toe dat veel van de benchmarks die doorgaans worden gebruikt om AI te testen gebrekkig zijn, omdat ze zich afspelen in ‘zeer statische omgevingen’ die weinig gelijkenis vertonen met de chaos en complexiteit van de echte wereld.
Algemene redenering papierdat nog niet door vakgenoten is beoordeeld, biedt tegenwicht aan de groeiende opwinding in Silicon Valley over de grote recente sprongen in het vermogen van AI om computerprogrammeertaken uit te voeren met weinig of geen menselijke tussenkomst.
Taylor, een voormalig Meta AI-onderzoeker, zei: “Als je AI op een aantal echte taken uitprobeert, doet het het echt slecht… Ja, softwaretechnologie is erg belangrijk en economisch waardevol, maar er zijn veel andere activiteiten met een langere tijdshorizon die belangrijk zijn om naar te kijken.”



