Voice AI ontwikkelt zich sneller dan de tools die we gebruiken om het te meten. Alle grote AI-laboratoria – OpenAI, Google DeepMind, Anthropic, xAI – haasten zich om stemmodellen te leveren die in staat zijn tot real-time natuurlijke gesprekken.
Maar de benchmarks die worden gebruikt om deze modellen te evalueren, draaien nog steeds grotendeels op synthetische spraak, alleen op Engelse prompts en scripttestsets die weinig gelijkenis vertonen met hoe mensen daadwerkelijk spreken.
AI-weegschalenopstarten van grote data-annotaties wiens oprichter vorig jaar door Meta werd gepocheerd om het Superintelligence Lab te leidenis nog steeds sterk en pakt het probleem frontaal aan: vandaag wordt het gelanceerd Stemshowdownwat het de eerste mondiale, op voorkeuren gebaseerde arena noemt, ontworpen om stem-AI te benchmarken door de lens van echte menselijke interactie.
Dit product biedt gebruikers een unieke strategische waarde: gratis toegang tot ’s werelds toonaangevende grensmodellen. Via het ChatLab-platform van Scale kunnen gebruikers kosteloos communiceren met modellen op hoog niveau, waarvoor doorgaans meerdere abonnementen van $ 20 per maand nodig zijn. In ruil daarvoor nemen gebruikers af en toe deel aan blinde, onderlinge ‘gevechten’ om te kiezen welke van de twee geanonimiseerde toonaangevende stemmodellen een betere ervaring biedt, en gegevens levert voor de meest authentieke, menselijke voorkeursranglijst van spraak-AI-modellen in de branche.
“Voice AI is op dit moment echt de snelst evoluerende grens op het gebied van AI”, zegt Janie Gu, Product Manager van Showdown bij Scale AI. “Maar de manier waarop we stemmodellen evalueren is niet bijgehouden.”
De resultaten, afkomstig uit duizenden spontane stemgesprekken in meer dan 60 talen, onthullen hiaten in de capaciteiten die andere benchmarks consequent over het hoofd hebben gezien.
Dit is hoe Scale’s Voice Showdown werkt
Voice Showdown is gebouwd op ChatLab, het modelonafhankelijke chatplatform van Scale, waar gebruikers in één app vrijelijk kunnen communiceren met het grensoverschrijdende AI-model van hun keuze. Het platform is beschikbaar geweest voor Scale’s wereldwijde gemeenschap van meer dan 500.000 annotators, waarvan ongeveer 300.000 ten minste één prompt hebben ingediend. Scale stelt het platform vandaag open voor een openbare wachtlijst.
Het evaluatiemechanisme is elegant in zijn eenvoud: terwijl een gebruiker een natuurlijk stemgesprek voert met een model, toont het systeem af en toe – in minder dan 5% van alle gesproken berichten – een blinde zij-aan-zij vergelijking. Dezelfde prompt wordt naar een ander, anoniem model gestuurd en de gebruiker kiest welk antwoord hij verkiest.
Dit ontwerp lost drie problemen op die bestaande spraakbenchmarks teisteren.
Ten eerste komt elke prompt voort uit echte menselijke spraak – met accenten, achtergrondgeluiden, halfafgemaakte zinnen en gespreksvullingen – in plaats van gesynthetiseerde audio die uit tekst wordt gegenereerd.
Ten tweede omvat het platform meer dan 60 talen op 6 continenten, waarbij meer dan een derde van de wedstrijden plaatsvindt in niet-Engelse talen, waaronder Spaans, Arabisch, Japans, Portugees, Hindi en Frans.
Ten derde: omdat overeenkomsten plaatsvinden binnen de daadwerkelijke dagelijkse gesprekken van gebruikers, zijn 81% van de prompts gesprekken of open vragen zonder één enkel correct antwoord. Het sluit automatisch scoren uit en maakt menselijke voorkeur tot het enige geloofwaardige signaal.
Voice Showdown kent momenteel twee evaluatiemodi: Dicteren (gebruikers spreken, modellen reageren met tekst) en Speech-to-Speech of S2S (Speech-to-Speech, gebruikers spreken, modellen spreken terug). Een derde modus – Full Duplex, die onderbrekende gesprekken in realtime vastlegt – is in ontwikkeling.
Stimulansgericht stemmen
Eén ontwerpdetail scheidt Voice Showdown van Chatbot Arena (LM Arena), de tekstbenchmark waar deze het meest op lijkt. In LM Arena hebben critici opgemerkt dat gebruikers soms eenmalige stemmen uitbrengen met een klein belang in de uitkomst. Voice Showdown pakt dit direct aan: zodra een gebruiker heeft gestemd op het model van zijn voorkeur, schakelt de app hem voor de rest van het gesprek over naar dat model. Als je GPT-4o Audio boven Gemini hebt gestemd, praat je nu met GPT-4o Audio. Deze afstemming van consistentie op voorkeur ontmoedigt willekeurige of oneerlijke stemmingen.
Het systeem controleert ook op verwarring die vergelijkingen zou kunnen verstoren: beide modelreacties beginnen gelijktijdig te streamen (waardoor de snelheidsbias wordt geëlimineerd), het stemgeslacht wordt voor beide opties op elkaar afgestemd (waardoor de gendervoorkeur wordt geëlimineerd) en geen van beide modellen wordt tijdens het stemmen bij naam geïdentificeerd.
Het nieuwe Voice AI-leaderboard zou interessant moeten zijn voor elke zakelijke beslisser
Voice Showdown wordt gelanceerd met 11 grensmodellen die op 18 maart 2026 zijn geëvalueerd over 52 model-stemparen. Niet alle modellen ondersteunen beide evaluatiemodi: de Dictate-ranglijst omvat 8 modellen, terwijl de S2S er 6 bevat.
Leaderboard dicteren (inspreken, sms-uit)
In deze modus geven gebruikers een gesproken prompt en evalueren ze twee tekstreacties naast elkaar. Hier zijn de basisresultaten:
-
Tweeling 3 Pro (1073)
-
Gemini 3 Flitser (1068)
-
GPT-4o-audio (1019)
-
Vraag 3 Omni (1000)
-
Voxtral Klein (925)
-
Gemma 3n (918)
-
GPT Realtime (875)
-
Phi-4 Multimodaal (729)
Opmerking: Gemini 3 Pro en Gemini 3 Flash staan statistisch gezien op gelijke hoogte op de eerste plaats.
Spraak-naar-spraak (S2S)-klassement
In deze modus spreken gebruikers met het model en evalueren ze twee concurrerende audioreacties. Ook basislijnen:
-
Gemini 2.5 Flash-audio (1060)
-
GPT-4o-audio (1059)
-
Norse stem (1024)
-
Vraag 3 Omni (1000)
-
GPT Realtime (962)
-
GPT Realtime 1.5 (920)
Opmerking: Gemini 2.5 Flash Audio en GPT-4o Audio staan statistisch gezien gelijk op de eerste plaats in basisevaluaties.
De dicteerranglijsten worden aangevoerd door Google’s Gemini 3 Pro en Gemini 3 Flash, die statistisch gezien op nummer 1 staan met Elo-scores rond de 1.043-1.044 na stijlcontrole.
GPT-4o Audio staat op een duidelijke derde plaats. Modellen met open gewicht, waaronder Gemma3n, Voxtral Small en Phi-4 Multimodal, lopen aanzienlijk achter.
De Speech-to-Speech (S2S)-ranglijst laat een nauwere race aan de top zien, waarbij Gemini 2.5 Flash Audio en GPT-4o Audio statistisch op nummer 1 staan in de basisranglijst.
Na aanpassing van de responslengte en opmaak (factoren die de waargenomen kwaliteit kunnen verhogen) gaat GPT-4o Audio voorop (1.102 Elo vs. 1.075 voor Gemini 2.5 Flash Audio).
De Grok Voice springt naar een goede tweede plaats op 1.093 onder Style Control, wat erop wijst dat de rauwe nummer 3-ranglijst de daadwerkelijke prestaties ondermaats maakt.
De Qwen 3 Omni, het opengewichtmodel van Alibaba’s Qwen-team, presteert beter op pure voorkeur dan zijn populariteit doet vermoeden: hij staat vierde in beide modi, vóór verschillende namen met een hoger profiel.
“Als mensen binnenkomen, kiezen ze voor de grote namen”, merkte Gu op. “Maar bij voorkeur gaan minder bekende modellen zoals Qwen juist voorop.”
Verrassing onthuld door voorkeursgegevens uit de echte wereld
Naast ranglijsten ligt de echte waarde van Voice Showdowns in de foutdiagnose – en ze schetsen een ingewikkelder beeld van stem-AI dan de meeste klassementen onthullen.
De meertalige kloof is groter dan je denkt
Taalrobuustheid is de scherpste differentiator tussen modellen. In Dictate leiden Gemini 3-modellen in vrijwel elke geteste taal.
In S2S hangt de winnaar sterk af van de gesproken taal: GPT-4o Audio leidt in het Arabisch en Turks; Gemini 2.5 Flash Audio is het sterkst in het Frans; Grok Voice is competitief in het Japans en Portugees.
Maar de meer alarmerende bevinding is hoe vaak sommige modellen simpelweg niet meer reageren op de taal van de gebruiker.
GPT Realtime 1.5 – het nieuwere real-time stemmodel van OpenAI – reageert ongeveer 20% van de tijd in het Engels op niet-Engelse vragen, zelfs in rijke, officieel ondersteunde talen zoals Hindi, Spaans en Turks.
Zijn voorganger, GPT Realtime, haalt niet de helft van deze snelheid (~10%). Gemini 2.5 Flash Audio en GPT-4o Audio zitten op ~7%.
Het fenomeen werkt twee kanten op: sommige modellen brengen niet-Engelse context van eerder in een gesprek over in een Engelse wending, of ze verstaan een prompt eenvoudigweg verkeerd en genereren een niet-gerelateerd antwoord in de verkeerde taal.
Gebruikerswoorden van het platform geven de frustratie direct weer: “Ik zei dat ik vandaag een interview heb met Quest Management en in plaats van te antwoorden, kreeg ik informatie over ‘Risk Management’.”
“GPT Realtime 1.5 dacht dat ik onsamenhangend sprak en adviseerde hulp op het gebied van de geestelijke gezondheidszorg, terwijl Qwen 3 Omni correct identificeerde dat ik een lokale Nigeriaanse taal sprak.”
De reden dat bestaande benchmarks dit missen: ze zijn gebouwd op synthetische spraak die is geoptimaliseerd voor puur akoestische omstandigheden, en ze zijn zelden meertalig. Echte sprekers in echte omgevingen – met achtergrondgeluiden, korte uitingen en regionale accenten – verstoren het spraakverstaan op manieren die niet worden voorspeld door laboratoriumomstandigheden.
Stemselectie is meer dan esthetiek
The Voice Showdown evalueert modellen niet alleen op modelniveau, maar op individueel stemniveau – en de variantie binnen de stemmencatalogus van een enkel model is opvallend.
Voor een niet nader genoemd model in het onderzoek won de best presterende stem 30 procentpunten vaker dan de slechtst presterende stem uit hetzelfde onderliggende model. Beide stemmen delen dezelfde redenering en generatie-backend. Het verschil zit uitsluitend in de geluidspresentatie.
De beste stemmen hebben de neiging om te winnen of te verliezen als het gaat om goede verstaanbaarheid en volledigheid van de inhoud, ongeacht of het model u goed heeft gehoord en volledig heeft gereageerd. Maar spraakkwaliteit blijft een bepalende factor op stemselectieniveau, vooral wanneer modellen verder vergelijkbaar zijn. “Stem bepaalt rechtstreeks hoe gebruikers de interactie evalueren”, zei Gu.
Modellen verslechteren in gesprekken
De meeste benchmarks testen een enkele run. Voice Showdown test hoe modellen het volhouden tijdens langere gesprekken – en de resultaten zijn niet vleiend.
In ronde 1 is de inhoudskwaliteit verantwoordelijk voor 23% van de modelfouten. Bij bocht 11 en hoger wordt dit de primaire storingsmodus bij 43%. De meeste modellen merken dat hun winstpercentages dalen naarmate gesprekken langer duren, en ze hebben moeite om de consistentie tussen meerdere uitwisselingen te behouden.
GPT Realtime-varianten vormen een uitzondering en verbeteren marginaal in latere beurten – in overeenstemming met hun bekende sterke punten in langere contexten en hun gedocumenteerde zwakte bij de korte, luidruchtige uitingen die vroege interacties domineren.
De lengte van de prompts laat een complementair patroon zien: korte prompts (minder dan 10 seconden) worden gedomineerd door audiobegripsfouten (38%), terwijl lange prompts (meer dan 40 seconden) de primaire fout verschuiven naar de kwaliteit van de inhoud (31%). Een korter geluid geeft modellen minder akoestische context om te ontleden; langere vragen worden begrepen, maar moeilijker om goed te beantwoorden.
Waarom sommige stem-AI-modellen verliezen
Na elke S2S-vergelijking beoordelen gebruikers waarom ze de voorkeur gaven aan de ene reactie boven de andere, op drie assen: audioverstaanbaarheid, inhoudskwaliteit en spraakuitvoer. De foutsignaturen verschillen aanzienlijk van model tot model.
De verliezen van Qwen 3 Omni draaien rond het genereren van spraak – de redenering ervan is competitief, maar gebruikers worden afgeschrikt door de manier waarop het klinkt. De verliezen van GPT Realtime 1.5 worden gedomineerd door audiobegripsfouten (51%), wat consistent is met het taalwisselgedrag bij uitdagende aanwijzingen. De mislukkingen van Grok Voice zijn evenwichtiger over alle drie de assen heen, wat wijst op geen enkele dominante zwakte, maar ook geen bijzondere kracht.
Wat is het volgende
De huidige ranglijst omvat turn-based interactie: jij spreekt, het model reageert, herhaalt. Maar echte stemgesprekken werken niet op die manier. Mensen onderbreken elkaar, veranderen halverwege een zin van richting en praten door elkaar heen.
Scale zegt dat Full Duplex-evaluatie – ontworpen om deze realtime dynamiek vast te leggen via menselijke voorkeuren in plaats van via scriptscenario’s of geautomatiseerde statistieken – als volgende naar Showdown komt. Geen enkele bestaande benchmark legt full-duplex interactie vast via organische menselijke voorkeursgegevens.
Het klassement is live op scale.com/showdown. Er is vandaag een openbare wachtlijst geopend om lid te worden van het ChatLab en te stemmen over vergelijkingen, waarbij gebruikers gratis toegang krijgen tot grensverleggende stemmodellen, waaronder de GPT-4o, Gemini en Grok, in ruil voor incidentele voorkeurstemmen.

