Home Nieuws De drie disciplines die AI-agentdemonstraties scheiden van implementatie in de echte wereld

De drie disciplines die AI-agentdemonstraties scheiden van implementatie in de echte wereld

2
0
De drie disciplines die AI-agentdemonstraties scheiden van implementatie in de echte wereld

Het blijkt lastiger om AI-agenten betrouwbaar te laten presteren in de productie – en niet alleen in demo’s – dan bedrijven hadden verwacht. Gefragmenteerde gegevens, onduidelijke workflows en op hol geslagen escalatie vertragen de implementatie in alle sectoren.

“De technologie zelf werkt vaak goed bij demonstraties”, zegt Sanchit Vir Gogia, hoofdanalist bij Greyhound Research. “De uitdaging begint wanneer er gevraagd wordt om te opereren binnen de complexiteit van een echte organisatie.”

Burley Kawasaki, die toezicht houdt op de inzet van agenten bij Creatio, en het team hebben een methodologie ontwikkeld die is opgebouwd rond drie disciplines: datavirtualisatie om data lake-vertragingen te omzeilen; agentdashboards en KPI’s als managementlaag; en strak gedefinieerde use-case-loops om naar een hoge autonomie te streven.

In eenvoudiger gebruikssituaties heeft deze praktijk agenten volgens Kawasaki in staat gesteld om tot 80-90% van de taken zelf uit te voeren. Met verdere afstemming schat hij dat ze autonome resolutie in ten minste de helft van de gebruiksscenario’s zouden kunnen ondersteunen, zelfs in complexere implementaties.

“Mensen hebben veel geëxperimenteerd met proof-of-concepts, ze hebben veel tests uitgevoerd”, vertelde Kawasaki aan VentureBeat. “Maar nu, in 2026, beginnen we ons te concentreren op bedrijfskritische workflows die operationele efficiëntie of extra inkomsten genereren.”

Waarom agenten steeds falen in de productie

Bedrijven willen graag agent-AI in een of andere vorm adopteren – vaak uit angst buitengesloten te worden, zelfs voordat ze zelfs maar concrete gebruiksscenario’s in de praktijk hebben geïdentificeerd – maar lopen tegen aanzienlijke knelpunten aan rond data-architectuur, integratie, monitoring, beveiliging en workflowontwerp.

De eerste hindernis heeft bijna altijd te maken met data, zei Gogia. Bedrijfsinformatie bestaat zelden in een nette of geaggregeerde vorm; het is verspreid over SaaS-platforms, apps, interne databases en andere datastores. Sommige zijn gestructureerd, andere niet.

Maar zelfs als bedrijven het probleem van het ophalen van gegevens overwinnen, is integratie een grote uitdaging. Agenten vertrouwen op API’s en automatiseringshakes om met applicaties te communiceren, maar veel bedrijfssystemen zijn ontworpen lang voordat dit soort autonome interactie werkelijkheid was, benadrukt Gogia.

Dit kan resulteren in onvolledige of inconsistente API’s, en systemen kunnen onvoorspelbaar reageren wanneer ze programmatisch worden benaderd. Organisaties komen ook in de problemen als ze processen proberen te automatiseren die nooit formeel zijn gedefinieerd, zegt Gogia.

“Veel bedrijfsprocessen zijn afhankelijk van stilzwijgende kennis”, zei hij. Dat wil zeggen dat werknemers weten hoe ze uitzonderingen die ze eerder hebben gezien, moeten oplossen zonder expliciete instructies – maar de ontbrekende regels en instructies worden verrassend duidelijk wanneer workflows worden vertaald in automatiseringslogica.

De afstemlus

Creatio zet agenten in in een ‘afgebakend gebied met duidelijke vangrails’, gevolgd door een ‘expliciete’ afstemmings- en validatiefase, legde Kawasaki uit. Teams beoordelen de eerste resultaten, passen deze indien nodig aan en testen vervolgens opnieuw totdat ze een acceptabel nauwkeurigheidsniveau hebben bereikt.

Deze lus volgt doorgaans dit patroon:

  • Aanpassing ontwerptijd (vóór start): De prestaties worden verbeterd door snelle engineering, context-wrapping, roldefinities, workflowontwerp en basis in gegevens en documenten.

  • Human-in-the-loop-correctie (in uitvoering): Ontwikkelaars keuren uitzonderingen goed, bewerken of lossen deze op. In gevallen waarin mensen het meest moeten ingrijpen (escalatie of goedkeuring), stellen gebruikers strengere regels vast, bieden ze meer context en werken ze de workflowstappen bij; anders beperken ze de toegang tot het gereedschap.

  • Continue optimalisatie (na start): Ontwikkelaars blijven uitzonderingspercentages en -resultaten monitoren en vervolgens iteratief afstemmen als dat nodig is, waardoor de nauwkeurigheid en autonomie in de loop van de tijd worden verbeterd.

Het team van Kawasaki past retrieval-augmentedgeneration toe op grondagenten in de kennisbanken, CRM-gegevens en andere eigen bronnen van het bedrijf.

Wanneer agenten in het wild worden ingezet, worden ze gemonitord met een dashboard dat prestatieanalyse, conversie-inzichten en controleerbaarheid biedt. In principe worden agenten behandeld als digitale werknemers. Ze hebben een eigen managementlaag met dashboards en KPI’s.

Er zal bijvoorbeeld een onboarding-agent worden opgenomen als een standaard dashboardinterface die agentmonitoring en telemetrie biedt. Dit maakt deel uit van de platformlaag – orkestratie, bestuur, beveiliging, workflowuitvoering, monitoring en UI-inbedding – die ‘boven de LLM’ zit, zei Kawasaki.

Gebruikers zien een dashboard met agenten die in gebruik zijn en elk van hun processen, workflows en uitgevoerde resultaten. Ze kunnen inzoomen op een individueel record (zoals een verwijzing of verlenging), waarbij ze een stapsgewijze uitvoeringslogboek en gerelateerde communicatie tonen ter ondersteuning van de traceerbaarheid, het oplossen van problemen en de afstemming van agenten. De meest voorkomende aanpassingen zijn logica en prikkels, bedrijfsregels, snelle context en toegang tot tools, zei Kawasaki.

De grootste problemen die ontstaan ​​na implementatie:

  • Het verwerkingsvolume voor uitzonderingen kan hoog zijn: Vroege pieken in randgevallen komen vaak voor totdat de vangrails en workflows zijn afgestemd.

  • Gegevenskwaliteit en volledigheid: Ontbrekende of inconsistente velden en documenten kunnen escalaties veroorzaken; teams kunnen identificeren welke gegevens prioriteit moeten krijgen voor aarding en welke controles moeten worden geautomatiseerd.

  • Controleerbaarheid en vertrouwen: Met name gereguleerde klanten hebben duidelijke logbestanden, autorisaties, op rollen gebaseerde toegangscontrole (RBAC) en audittrails nodig.

“We leggen altijd uit dat je tijd moet vrijmaken om agenten op te leiden”, vertelde Katherine Kostereva, CEO van Creatio, aan VentureBeat. “Het gebeurt niet meteen als je de agent aanzet. Het heeft tijd nodig om het volledig te begrijpen, daarna zal het aantal fouten afnemen.”

“Data readiness” vereist niet altijd een revisie

Wanneer u agenten wilt inzetten, vraagt ​​u zich af: “Zijn mijn gegevens gereed?” een veel voorkomende vroege vraag. Bedrijven weten dat datatoegang belangrijk is, maar kan worden uitgeschakeld door een grootschalig dataconsolidatieproject.

Maar virtuele verbindingen kunnen agenten toegang geven tot onderliggende systemen en typische data lake/sea/warehouse-vertragingen omzeilen. Het team van Kawasaki heeft een platform gebouwd dat met data integreert en werkt nu aan een aanpak die data in een virtueel object verzamelt, verwerkt en gebruikt als standaardobject voor gebruikersinterfaces en workflows. Op deze manier hoeven ze geen grote hoeveelheden gegevens in hun database te “onderhouden of dupliceren”.

Deze techniek zou nuttig kunnen zijn op gebieden als het bankwezen, waar de transactievolumes simpelweg te groot zijn om naar CRM te kopiëren, maar “nog steeds waardevol zijn voor AI-analyse en triggers”, aldus Kawasaki.

Zodra integraties en virtuele objecten tot stand zijn gebracht, kunnen teams de volledigheid, consistentie en beschikbaarheid van gegevens evalueren en startpunten met weinig wrijving identificeren (zoals documentintensieve of ongestructureerde workflows).

Kawasaki benadrukte het belang van “het daadwerkelijk gebruiken van de gegevens in de onderliggende systemen, die sowieso de neiging hebben om feitelijk de schoonste of de bron van de waarheid te zijn.”

Zorg ervoor dat agenten aan het werk komen

Het beste geschikt voor autonome (of bijna-autonome) agenten zijn workflows met grote volumes met “een duidelijke structuur en beheersbare risico’s”, aldus Kawasaki. Bijvoorbeeld documentinname en validatie tijdens onboarding of leningvoorbereiding of gestandaardiseerd outreach-contact zoals verlengingen en verwijzingen.

“Vooral als je ze kunt koppelen aan zeer specifieke processen binnen een branche, kun je de ROI echt meten en realiseren”, zegt hij.

Financiële instellingen zijn b.v. vaak buiten beschouwing gelaten door de natuur. Commerciële kredietteams presteren in hun eigen omgeving, vermogensbeheer in een andere. Maar een onafhankelijke agent kan afdelingen en afzonderlijke datastores doorzoeken om bijvoorbeeld commerciële klanten te identificeren die goede kandidaten zouden kunnen zijn voor vermogensbeheer of advies.

“Je denkt dat dat een voor de hand liggende mogelijkheid zou zijn, maar niemand kijkt over alle silo’s heen”, zei Kawasaki. Sommige banken die voor dit specifieke scenario agenten hebben gebruikt, hebben “voordelen van miljoenen dollars aan extra inkomsten gezien”, beweerde hij, zonder specifieke instellingen te noemen.

Maar in andere gevallen – vooral in gereguleerde sectoren – hebben agenten met een langere context niet alleen de voorkeur, maar zijn ze ook noodzakelijk. Bijvoorbeeld bij taken die uit meerdere stappen bestaan, zoals het verzamelen van bewijsmateriaal in verschillende systemen, het samenvatten, vergelijken, opstellen van communicatie en het produceren van controleerbare rechtvaardigingen.

“De agent geeft je niet meteen antwoord”, zei Kawasaki. “Het kan uren, dagen duren om complete end-to-end taken te voltooien.”

Dit vereist een georkestreerde executie door agenten in plaats van een ‘enkele gigantische prompt’, zei hij. Deze aanpak verdeelt het werk in deterministische stappen die door subagenten moeten worden uitgevoerd. Geheugen- en contextbeheer kan over verschillende stappen en tijdsintervallen worden gehandhaafd. Door te aarden met RAG kan de uitvoer aan goedgekeurde bronnen worden gekoppeld, en kunnen gebruikers de extensie voor bestandsshares en andere documentopslagplaatsen dicteren.

Dit model vereist doorgaans geen aangepaste omscholing of een nieuw funderingsmodel. Ongeacht het model dat bedrijven gebruiken (GPT, Claude, Gemini), worden de prestaties verbeterd door middel van aanwijzingen, roldefinities, gecontroleerde tools, workflows en data-gronding, aldus Kawasaki.

De feedbackloop legt “extra nadruk” op tussenliggende controlepunten, zei hij. Mensen beoordelen tussenliggende artefacten (zoals samenvattingen, geëxtraheerde feiten of conceptaanbevelingen) en corrigeren fouten. Deze kunnen vervolgens worden omgezet in betere regels en ophaalbronnen, smallere toolscopes en verbeterde sjablonen.

“Wat belangrijk is voor deze stijl van autonome agenten is dat je het beste van twee werelden combineert: de dynamische redenering van AI met de controle en kracht van echte orkestratie”, aldus Kawasaki.

Uiteindelijk hebben agenten gecoördineerde veranderingen nodig binnen de bedrijfsarchitectuur, nieuwe orkestratieframeworks en expliciete toegangscontroles, aldus Gogia. Aan agenten moeten identiteiten worden toegewezen om hun bevoegdheden te beperken en binnen de perken te houden. Waarneembaarheid is van cruciaal belang; monitoringtools kunnen de voltooiingspercentages van taken, escalatiegebeurtenissen, systeeminteracties en foutpatronen registreren. Dit soort evaluatie zou een permanente praktijk moeten zijn, en agenten zouden moeten worden getest om te zien hoe ze reageren wanneer ze nieuwe scenario’s en ongebruikelijke input tegenkomen.

“Op het moment dat een AI-systeem actie kan ondernemen, moeten bedrijven een aantal vragen beantwoorden die zelden voorkomen tijdens de inzet van copiloten”, aldus Gogia. Zoals: Tot welke systemen heeft de agent toegang? Welke soorten acties kan het zonder toestemming uitvoeren? Welke activiteiten vereisen altijd een menselijke beslissing? Hoe wordt elke actie geregistreerd en beoordeeld?

“De bedrijven die de uitdaging onderschatten, zitten vaak opgescheept met demonstraties die er indrukwekkend uitzien, maar de echte operationele complexiteit niet kunnen overleven”, aldus Gogia.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in