(Noot van de redactie: Agenten van transformatie is een onafhankelijke GeekWire-serie, onderschreven door Accenture, die de adoptie en impact van AI en agenten onderzoekt. Zie dekking van ons gerelateerde evenement.)
Het gebruik van een AI-model gaat nog steeds gepaard met een onuitgesproken asterisk: bevestig voordat u handelt. Bekijk het eens. Google het. Vraag het aan een collega. De last van nauwkeurigheid is uiteindelijk altijd op de mens terechtgekomen. Maar Microsoft denkt dat het een manier heeft om die last te verleggen: laat twee AI’s elkaar in de gaten houden.
In een tijdperk waarin de taken van het personeel steeds meer door AI-agenten worden afgehandeld, maakt deze multi-modelstrategie gebruik van iets waarvan menselijke werknemers dachten dat het alleen van hen was: oordeel. De ‘human-in-the-loop’ was lange tijd het ononderhandelbare in AI-workflows. De aanpak van Microsoft elimineert dit niet, maar roept wel de vraag op hoeveel van die rol we bereid zijn over te dragen.
‘Twee hoofden zijn beter dan één’
Microsoft staat niet alleen in deze inspanning. Amazon Web Services, Google en anderen bouwen platforms die bedrijven via één interface toegang geven tot meerdere modellen.
AWS Bedrock biedt toegang tot fundamentele modellen van meerdere providers, terwijl Google’s Gemini Enterprise één enkele voordeur biedt voor AI op de werkplek. Het onderscheid van Microsoft is dat het de beoordeling van meerdere modellen rechtstreeks integreert in een productiviteitstool die door miljoenen werknemers wordt gebruikt.
Afgelopen week zagen we ook de eerste uitvoering van dit plan nieuwe upgrades naar Microsoft 365 Copilot. De Researcher-agent kan nu de GPT van OpenAI gebruiken om een antwoord op te stellen en vervolgens Claude van Anthropic het laten beoordelen op juistheid, volledigheid en citatiekwaliteit voordat het definitief wordt gemaakt.
‘Wij willen bewust diversiteit aan meningen’ Steve GustavsonMicrosoft’s vice-president ontwerp en onderzoek vertelde GeekWire in een interview. “Twee hoofden zijn beter dan één als ze samenkomen.”
Het is geen triviale zorg. Uit onderzoek is dat al gebleken AI-gebruikers hebben de neiging kritisch denken uit te besteden naar modellen die zij als gezaghebbend beschouwen. Als we al een oordeel vellen over een enkel model, zou een nieuwe druk op het eerste dan de ontbrekende cheque kunnen zijn?
Het is een vraag waarmee Microsoft heeft geworsteld bij het ontwerp van Critique en Council, de twee nieuwe functies van zijn Researcher-agent.
“Ons onderzoek laat consequent zien dat werknemers blijven verlangen naar zowel een dieper vertrouwen in kunstmatige intelligentie als hoogwaardige inhoud”, aldus Gustavson. “Mensen vertrouwen AI te veel – ze accepteren beweringen die ze niet zouden moeten doen – of vertrouwen er te weinig op en krijgen niet de volledige waarde ervan. Beide zijn ontwerp- en technische mogelijkheden.”
Neem bijvoorbeeld de Critique-functie van Microsoft. Gustavson zei dat Microsoft het heeft ontworpen rond een doelbewuste overdracht: het genereren van GPT-leads en Claude komt tussenbeide als recensent.
“Het onderscheid is van belang omdat evaluatie een andere cognitieve toestand is dan generatie”, zei hij. “Als één model beide doet, krijg je twee keer dezelfde blinde vlekken. Als het de taak van een ander model is om het eerste te valideren, krijg je structureel iets anders.”
Dit creëert een “krachtige feedbacklus die resultaten van hogere kwaliteit oplevert op het gebied van feitelijke nauwkeurigheid, analytische breedte en presentatie.” Gaurav AnandDe vice-president engineering van Microsoft, schreef in een technische blogpost over de kritiekfunctie van M365.
Multimodel is niet alleen een proof of concept: het is live en het is al de standaardervaring in Researcher. Maar Gustavson wijst er al snel op dat het de meeste werknemers niet uitmaakt welke modellen er onder de motorkap rijden. Volgens hem moeten de modellen onzichtbaar zijn.
“De gemiddelde gebruiker wil fenomenale resultaten. Ze willen erop kunnen vertrouwen”, zei hij. “Moeten ze weten dat het 5,2 is versus wat dan ook? Ik denk het niet.”
Gustavson betwist dat dit een geval is van “blinden die blinden leiden” en benadrukt dat het afstemmen van de modellen de manier is om hallucinaties te voorkomen. Met Researcher “heeft Claude bewezen een geweldige synthesizer te zijn en een soort controle op wat de GPT-modellen kunnen doen.”
Gustavson zei echter dat Microsoft voortdurend de prestaties van enkele modellen versus dubbele modellen evalueert, en ook “een LLM-rechter tussen de twee” inschakelt om de afweging te zien.
Gustavson zei dat Microsoft van plan is om helemaal geen specifieke modelnamen meer te promoten, maar de focus te verleggen naar wat een werknemer probeert te bereiken. Hij zei bijvoorbeeld dat werknemers zouden kunnen specificeren dat ze in de financiële wereld zitten, en Copilot zou het werk richten op het model dat het beste omgaat met Excel, datasynthese en -analyse – er is geen modelselectie vereist.
Enterprise AI-slinger
Voor Microsoft is multi-model niet zozeer een kenmerk als wel de onvermijdelijke richting van enterprise AI. Gustavson noemt het een natuurlijke ontwikkeling en merkt op dat Copilot met één enkel model begon.
Sindsdien, zo zei hij, schommelt de industrie tussen wat modellen kunnen doen, wat de productervaring zou moeten zijn en waar de concurrentiestrijd bestaat.
“Ik denk dat dit gewoon een natuurlijke ontwikkeling is”, zei hij. “Twee modellen zijn beter dan één.”
Omdat modellen elke paar maanden elkaar overlappen, rekent Microsoft niet op één exemplaar, maar probeert ze eerder iets te bouwen dat langer meegaat dan ze allemaal.
Nu organisaties niet meer experimenteren met kunstmatige intelligentie, maar er steeds meer op vertrouwen bij het nemen van consequente beslissingen, begint de benadering op basis van één model zijn grenzen te tonen. De vraag is misschien niet zozeer of bedrijven meerdere modellen moeten adopteren, maar eerder of ze bereid zijn een systeem te accepteren waarin de controles geautomatiseerd zijn, modellen onzichtbaar zijn en AI door AI gaat voordat een mens ooit de output ziet.
Naast de initiële integratie in de Researcher-agent zei Gustavson dat Microsoft van plan is de multi-modelbenadering uit te breiden naar zijn andere AI-tools. Hij hoopt dat deze aanpak standaard zal worden in de hele sector. Volgens hem is het inbouwen van multi-modelreviews in de workflows van agenten zowel goed bestuur als een goed ontwerp.
Voor de ervaringen met bouwagenten is het advies van Gustavson eenvoudig: behandel agenten zoals elk proces met betekenisvolle gevolgen. De hamvraag: “Wie controleert het werk?”



