Enterprise AI-programma’s mislukken zelden vanwege slechte ideeën. Vaker zitten ze vast in een onbeheerde pilotmodus en bereiken ze nooit de productie. Tijdens een recent VentureBeat-evenement legden technologieleiders van MassMutual en Mass General Brigham uit hoe ze die valkuil hebben vermeden – en hoe de resultaten eruitzien als discipline de wildgroei vervangt.
Bij MassMutual zijn de resultaten tastbaar: 30% productiviteitswinst voor ontwikkelaars, oplossingstijden voor de IT-helpdesk teruggebracht van 11 minuten naar één, en klantenservice-oproepen teruggebracht van 15 minuten naar slechts één of twee.
“We beginnen altijd met: waarom geven we om dit probleem?” Sears Merritt, hoofd bedrijfstechnologie en ervaring van MassMutual, zei dit tijdens het evenement. “Als we het probleem oplossen, hoe weten we dan dat we het hebben opgelost? En hoeveel waarde is eraan verbonden?”
Definieer statistieken, zorg voor sterke feedbackloops
MassMutual, een 175 jaar oud bedrijf dat miljoenen polishouders en klanten bedient, heeft kunstmatige intelligentie in het hele bedrijf in productie gebracht – klantenondersteuning, IT, klantenwerving, acceptatie, service, claims en andere gebieden.
Merritt zei dat zijn team de wetenschappelijke methode volgt, beginnend met een hypothese en testen of dit een resultaat oplevert dat het bedrijf tastbaar vooruit zal helpen. Sommige ideeën zijn goed, maar ze kunnen ‘onoplosbaar zijn in het bedrijfsleven’ vanwege factoren zoals een gebrek aan gegevens, toegang of wettelijke beperkingen.
“We gaan pas verder met een idee als we glashelder hebben over hoe we willen meten en hoe we succes willen definiëren.”
Uiteindelijk is het aan verschillende afdelingen en managers om te definiëren wat kwaliteit betekent: kies een maatstaf en definieer het minimale kwaliteitsniveau voordat een tool in handen van teams en partners wordt gelegd.
Dit startpunt creëert een snelle feedbacklus. “De dingen waarvan we merken dat ze ons vertragen, zijn waar er geen gedeelde duidelijkheid is over welk resultaat we proberen te bereiken”, wat kan leiden tot verwarring en voortdurende herschikking, zei Merritt. “We gaan pas in productie als er een zakenpartner is die zegt: ‘Ja, het werkt’.”
Zijn team is strategisch bij het evalueren van nieuwe tools en “extreem rigoureus” bij het testen en meten van wat “goed” betekent. Ze voeren bijvoorbeeld vertrouwensscores uit om het aantal hallucinaties te verlagen, stellen drempels en evaluatiecriteria vast en monitoren de functie- en outputdrift.
Merritt hanteert ook een vrijblijvend beleid, wat betekent dat het bedrijf zich niet vastlegt aan het gebruik van een bepaald model. Het heeft wat hij een ‘ongelooflijk heterogene’ technologieomgeving noemt, waarin de beste modellen worden gecombineerd met mainframes waarop COBOL draait. Die flexibiliteit is geen toeval. Zijn team heeft gemeenschappelijke servicelagen, microservices en API’s gebouwd die zich tussen de AI-laag en alles daaronder bevinden. Dus als er een beter model komt, betekent dit niet dat je opnieuw moet beginnen en het moet vervangen.
Omdat, zo legde Merritt uit, “het beste van het ras van vandaag morgen het slechtste van het ras kan zijn, en we willen niet dat we achterop raken.”
Wied wieden in plaats van duizend bloemen te laten bloeien
Massa-generaal Brigham (MGB) van zijn kant hanteerde aanvankelijk een meer spray-and-pray-aanpak.
Ongeveer 15.000 onderzoekers in de non-profit gezondheidszorg hebben de afgelopen 10 tot 15 jaar AI, ML en deep learning gebruikt, zei CTO Nallan “Sri” Sriraman op hetzelfde VB-evenement.
Maar vorig jaar maakte hij een gewaagde keuze: zijn team schakelde een aantal onbemande AI-piloten uit. “Aanvankelijk volgden we de duizend bloemen bloeiende methode, maar we hadden geen duizend bloemen, we hadden waarschijnlijk enkele tientallen bloemen die probeerden te bloeien”, zei hij.
Net als Merritts team bij MassMutual koos MGB voor een meer holistische visie en onderzocht waarom ze bepaalde tools ontwikkelden voor de workflows van specifieke afdelingen. Ze vroegen zich af welke capaciteiten ze wilden en nodig hadden en welke investeringen daarvoor nodig waren.
Het team van Sriraman sprak ook met hun belangrijkste platformaanbieders – Epic, Workday, ServiceNow, Microsoft – over hun roadmaps. Dit was een ‘cruciaal moment’, merkte hij op, toen ze zich realiseerden dat ze interne tools aan het bouwen waren die leveranciers al hadden geleverd (of van plan waren uit te rollen).
Zoals Sriraman het verwoordde: “Waarom bouwen we het zelf? We bevinden ons al op het platform. Het zal in de workflow zitten. Profiteer ervan.”
Dat gezegd hebbende, de markt is nog steeds in ontwikkeling, wat tot lastige beslissingen kan leiden. “De analogie die ik wil geven is wanneer je zes blinde mannen vraagt een olifant aan te raken en te zeggen: hoe ziet deze olifant eruit?” zei Sriraman. “Je krijgt zes verschillende antwoorden.”
Daar is niets mis mee, merkte hij op; het is gewoon zo dat iedereen aan het ontdekken en experimenteren is terwijl het landschap blijft veranderen.
In plaats van een Wild West-omgeving distribueert het team van Sriraman Microsoft Copilot onder gebruikers in het hele bedrijf, met behulp van een “kleine landingszone” waar ze veilig meer geavanceerde producten kunnen testen en het tokengebruik kunnen controleren.
Ze begonnen ook “opzettelijk AI-kampioenen te integreren” binnen bedrijfsgroepen. “Dit is ongeveer het tegenovergestelde van duizend bloemen laten bloeien, zorgvuldig planten en verzorgen”, zei Sriraman.
Waarneembaarheid is een andere belangrijke overweging; hij beschrijft realtime dashboards die de werking en beveiliging van modellen beheren en IT-teams in staat stellen AI ‘iets pragmatischer’ te beheren. Gezondheidsmonitoring is van cruciaal belang bij AI-systemen, merkte hij op, en zijn team heeft principes en beleid opgesteld rond het gebruik van AI, om nog maar te zwijgen van toegangsrechten.
In klinische omgevingen is de vangrail absoluut: AI-systemen nemen nooit de uiteindelijke beslissing. “Er zal altijd een arts of arts-assistent aanwezig zijn om de beslissing af te ronden”, zei Sriraman. Hij noemde het genereren van röntgenrapporten als een gebied waar AI veelvuldig wordt gebruikt, maar waar altijd een radioloog rapporteert.
Sriraman was duidelijk: “Doe dit niet: toon geen PHI (beschermde gezondheidsinformatie) in verwarring. Zo simpel is het, toch?”
En het allerbelangrijkste: er moeten veiligheidsmechanismen aanwezig zijn. “We hebben een grote rode knop nodig, maak hem kapot”, benadrukte Sriraman. “We stoppen niets in de operationele setting zonder.”
Hoewel agent AI een transformerende technologie is, hoeft de benadering van het bedrijf er uiteindelijk niet dramatisch anders voor te zijn. “Er is niets nieuws aan”, zei Sriraman. “Je kunt het woord BPM (business process management) uit de jaren 90 en 2000 vervangen door AI. Dezelfde concepten zijn van toepassing.”



