HealthBench: OpenAI’s medische AI-benchmarkscores uitgelegd – en wat ze betekenen voor klinische AI
OpenAI beschrijft HealthBench als “een nieuwe benchmark die is ontworpen om de mogelijkheden van AI-systemen voor de gezondheid beter te meten.” Het geeft scores uit op basis van een reeks van meer dan 48.000 criteria, geschreven door artsen die relevant zijn voor het interview. Deze gesprekken kunnen in 1 van de 7 categorieën vallen die HealthBench heeft gedefinieerd, van noodverwijzingen en taken op het gebied van gezondheidsgegevens tot het vragen om context of het identificeren van onzekerheid. Bovendien wordt elk criterium verder beoordeeld op factoren zoals nauwkeurigheid, duidelijkheid en volledigheid, inclusief aanbevelingen voor de volgende beste handelwijze.
In een onderzoekspaper bij de HealthBench-release rapporteert OpenAI “een gestage aanvankelijke vooruitgang… en snellere recente verbeteringen” in de prestaties en beveiliging van het model.
Onafhankelijk onderzoek is meer gemengd. Eén artikel zegt dat HealthBench “betrouwbaar is en goed correleert met beoordelingen door artsen”, maar merkt op dat het ontbreekt aan “real-time klinische interactiebeoordelingen of meting van klinische resultaten verderop in de keten.” Een ander artikel beschrijft HealthBench als een “significante vooruitgang in de medische AI-benchmarking”, maar merkt op dat een ondervertegenwoordiging van zeldzame ziekten en een onvermogen om longitudinale workflows te beoordelen “de inzichten in de impact van AI op het hele zorgcontinuüm beperken.”
Ghane zegt dat het belangrijk is om te onthouden dat benchmarks zoals HealthBench geen directe vervanging zijn voor bewijsmateriaal uit de echte wereld. “Scores weerspiegelen de prestaties in gesimuleerde omgevingen en moeten worden geïnterpreteerd naast real-world, lokale tests, workflowintegratie en beveiliging”, zegt ze. “Zorgsystemen moeten niet uitsluitend vertrouwen op benchmarks voor implementatiebeslissingen; ze moeten een van de vele maatstaven zijn die worden gebruikt om AI-aanbestedingen te informeren.”
LEES MEER: Maak gebruik van data en kunstmatige intelligentie voor betere gezondheidsresultaten.
Overwegingen bij de implementatie van ondernemingen: Claude, Gemini en OpenAI
Ondertussen heeft elk van de grote LLM-spelers de afgelopen maanden een reeks AI-aangedreven producten voor ziekenhuizen en gezondheidszorgsystemen uitgebracht. Elk aanbod is iets anders, en het is belangrijk voor organisaties om deze nuance te begrijpen bij het evalueren van AI-tools op ondernemingsniveau. “Het belangrijkste is hoe een oplossing werkt voor uw unieke patiënten, de gebruikscontext, de gegevens en de workflows”, zegt Ghane.
Claude voor het gezondheidszorgsysteem. Claude kan putten uit “industriestandaardsystemen en databases”, evenals uit de National Provider Identifier Registry, de ICD-10-codebasis en databases voor dekkingsbepaling. Organisaties kunnen AI-agenten inzetten voor voorafgaande goedkeuring en gegevensuitwisseling van middelen voor snelle interoperabiliteit in de gezondheidszorg, waardoor de automatisering van een aantal administratieve processen mogelijk wordt.
Tweeling 3.0. Aashima Gupta, mondiaal directeur gezondheidszorg voor Google Cloud, suggereert in een LinkedIn-post dat Gemini’s onderscheidende factor multimodaliteit is, of het vermogen om “tekst, stem, afbeeldingen, golfvormen, scans, genomische gegevens, klinische richtlijnen en operationele gegevens” samen te brengen. Dit kan worden gebruikt ter ondersteuning van aanbevelingen voor de volgende beste actie. Gemini 3.0 bevat ook AI-agents voor het automatiseren van workflows in bedrijfsapplicaties.
Klik op onderstaande banner om te registreren GezondheidTech’s wekelijkse nieuwsbrief.



