In operationele beoordelingen en bestuurskamers zie ik steeds hetzelfde patroon: management vraagt om nauwkeurigheid, teams maken de cijfers en beloften waar AI inspanningen worden beoordeeld als onvoldoende presterend voordat de organisatie daadwerkelijk heeft geleerd wat er nodig is om ze waar te maken. Dan trekt iemand de stekker eruit, verlaagt de investering of laat het initiatief stilletjes aflopen.
Soms hebben ze gelijk. Maar vaak gebruikten ze gewoon de verkeerde test.
Het probleem is niet dat managers zich druk maken over meten. Een sterke meetdiscipline is precies wat organisaties die AI opschalen onderscheidt van organisaties die pilots verzamelen. Het probleem is dat veel managers een volwassen ondernemingsscorekaart toepassen op werk dat nog niet volwassen is – en het resultaat is een voorspelbare verkeerde interpretatie.
Het verschil in de scorekaart
Denk eens na over de manier waarop de meeste gevestigde bedrijven succes meten: ROI binnen een bepaald venster, kosteneffectiviteit, efficiëntie. Dit zijn redelijke metingen voor een stabiele werking. Als ze te vroeg worden gebruikt bij nieuw AI-werk, creëren ze geen discipline. Ze creëren valse negatieven.
AI-initiatieven komen niet op dezelfde tijdlijn tot ontwikkeling als een productupdate of een kostenbesparingsprogramma. De eerste waarde komt vaak naar voren in de vorm van snellere beslissingen, minder herbewerking of verbeterde datakwaliteit – en niet als regelitem in de winst-en-verliesrekening van het volgende kwartaal. Het opnieuw ontwerpen van workflows – het echte werk van het integreren van AI in de manier waarop mensen daadwerkelijk werken – is traag, ontwrichtend en onzichtbaar voor traditionele financiële rapportage totdat dit niet meer het geval is.
Wanneer managers conventionele ROI eisen over een horizon van één tot drie jaar, reageren teams rationeel: ze optimaliseren voor wat meetbaar is. Ze streven naar efficiëntieverbeteringen op de korte termijn, vermijden het rommeligere werk van het opnieuw ontwerpen van processen en bouwen pilots die zijn ontworpen om een financiële beoordeling te overleven in plaats van iets te leren. Het is geen kwade trouw. Het is een logisch antwoord op de prikkels die door de scorekaart worden gecreëerd.
Het resultaat is wat nu ‘proof-of-concept-vermoeidheid’ wordt genoemd: organisaties die tientallen AI-experimenten uitvoeren, waarvan er maar weinig ooit in productie komen. Gartner voorspelt dat 30% van de generatieve AI-projecten eind 2025 zal worden stopgezet na proof of concept. Het gaat niet in de eerste plaats om een technologisch faalpercentage. Het is een meetfoutpercentage.
Vier vormen van waarde die buiten de scorecard vallen
Wanneer organisaties verouderde statistieken toepassen op AI-werk, verdwijnen er consequent vier dingen uit het kader.
Leerwaarde. Vroege AI-initiatieven moeten organisatorische kennis genereren – over welke processen daadwerkelijk AI-ready zijn, waar de dataproblemen zitten, welke teams verandering kunnen absorberen en welke niet. Niets hiervan verschijnt op een standaard ROI-dashboard. Als het leren niet wordt bijgehouden, wordt het niet gewaardeerd. Uiteindelijk gebeurt het niet meer.
Adoptie werkelijkheid. Een model dat goed presteert in een gecontroleerde pilot en faalt op het moment van implementatie is geen technologisch probleem. Het is een meetontwerpprobleem; de pilotcriteria omvatten niet de mensen die het daadwerkelijk zouden gebruiken. De gezondheidszorg staat vol met voorbeelden: AI-tools die worden geëvalueerd op basis van administratieve statistieken, die vervolgens instorten wanneer artsen ze tegenkomen in echte workflows. Benchmark heeft de belangrijkste variabele weggelaten.
Workflow-waarde. Uit onderzoek van McKinsey blijkt dat het herontwerp van de workflow – en niet de nauwkeurigheid van het model – de grootste factor is achter de EBIT-impact van AI. Maar het opnieuw ontwerpen van workflows is duur en ontwrichtend. Wanneer managers AI meten aan prestatiedoelen op de korte termijn, hebben teams alle reden om dit over te slaan. De snellere weg naar een verdedigbaar aantal is een beperkte pilot die vrijwel niets bewijst over de vraag of AI daadwerkelijk de manier waarop bedrijven werken kan veranderen.
Capaciteitswaarde. Organisaties die een samengesteld rendement uit AI halen, ontwikkelen in de loop van de tijd een intern oordeel – over waar AI helpt en waar niet, hoe ze het kunnen integreren zonder de menselijke verantwoordelijkheid te verliezen. Het vertaalt zich niet in kostenbesparingen in één jaar. Het blijkt jaren later een concurrentievoordeel te zijn. Uit onderzoek van MIT Sloan bleek dat organisaties die hun KPI’s bijwerkten om weer te geven hoe AI waarde creëert, drie keer meer kans hadden op een betekenisvol financieel voordeel dan organisaties die dat niet deden. De metrische verandering kwam vóór de economische winst.
Metrieken zijn niet neutraal
Dit is het onderdeel dat vaak verloren gaat in gesprekken over statistieken: de statistieken die je kiest, geven aan wat je werkelijk waardeert.
Wanneer het management de traditionele ROI als de primaire standaard voor een AI-initiatief stelt, creëren ze niet alleen een raamwerk. Ze vertellen het team wat belangrijk is. En als het om een kortetermijncijfer gaat, zullen teams daarop voortbouwen. U krijgt het resultaat van uw scorekaartbeloningen – wat misschien niets te maken heeft met de transformatie die u zei te willen.
Ruim 40% van de bedrijven meldt dat ze moeite hebben met het definiëren of meten van de impact van hun AI-initiatieven, en minder dan de helft maakt überhaupt gebruik van AI-specifieke KPI’s. Het is geen dataprobleem. Het is een managementprobleem. Als de mensen die de meetstandaard vaststellen hun ideeën over hoe de waarde van AI er in een vroeg stadium uit ziet, niet hebben bijgewerkt, kan geen enkele vorm van downstream-analyse dit oplossen.
De vragen zijn de moeite waard om mee te zitten
Ik pleit niet tegen meten. Ik pleit voor een meting die past bij de fase van het werk.
Een paar vragen: Zijn de statistieken die u op dit initiatief toepast dezelfde als die u zou gebruiken om een volwassen branche te evalueren? Zo ja, waarom? Wat zou je in het eerste jaar moeten zien om te weten dat je aan iets echts toewerkt, zelfs als de traditionele ROI nog niet zichtbaar is? Optimaliseert uw team om te leren, of voor een aantal dat een budgetherziening zal overleven?
Het doel is niet zachtere normen. Het is slimmer. Er is een reëel verschil tussen een initiatief dat echt leerproces genereert en naar schaal toewerkt, en een initiatief dat theater produceert dat elk kwartaal wordt beoordeeld. Een goede meting scheidt de twee dingen.
De verkeerde scorekaart interpreteert niet alleen de AI-waarde verkeerd. Het traint de organisatie om er minder van te produceren.


