Home Nieuws Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

3
0
Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Doorgaans geven bedrijven prioriteit aan nauwkeurigheid bij het bouwen, trainen en inzetten van kunstmatige intelligentie. En het is ongetwijfeld belangrijk; maar in zeer complexe, genuanceerde sectoren zoals de wetgeving is nauwkeurigheid alleen niet voldoende. Hogere inzet betekent hogere standaarden: de output van modellen moet worden beoordeeld op relevantie, autoriteit, citatienauwkeurigheid en hallucinatiepercentages.

Om deze enorme opgave op te lossen, LexisNexis is verder geëvolueerd dan de standaard retrieval-augmented generatie (RAG) om RAG- en agentgrafieken te tekenen; het heeft ook ‘planner’- en ‘reflectie’-AI-agenten gebouwd die verzoeken analyseren en hun eigen output bekritiseren.

“Er bestaat niet zoiets als ‘perfecte AI’, omdat je nooit 100% nauwkeurigheid of 100% relevantie krijgt, vooral niet in complexe domeinen waar veel op het spel staat, zoals de juridische sector”, erkende Min Chen, SVP en Chief AI Officer van LexisNexis, in een nieuwe VentureBeat Beyond the Pilot-podcast.

Het doel is om deze onzekerheid zoveel mogelijk te beheersen en te vertalen naar consistente klantwaarde. “Uiteindelijk is voor ons de kwaliteit het belangrijkst AI-resultaaten het is een voortdurende reis van experimenteren, iteratie en verbetering”, zei Chen.

Krijg ‘volledige’ antwoorden op veelzijdige vragen

Om modellen en hun output te evalueren, heeft het team van Chen meer dan een zestal ‘submetrieken’ opgesteld om het ‘nut’ te meten op basis van verschillende factoren (autoriteit, nauwkeurigheid van citaties, hallucinatiepercentages) en ‘omvang’. Deze specifieke maatstaf is ontworpen om te evalueren of een gen-AI-reactie alle aspecten van de juridische vraag van een gebruiker volledig heeft aangepakt.

“Het gaat dus niet alleen om relevantie,” zei Chen. “Volledigheid spreekt rechtstreeks van juridische betrouwbaarheid.”

Een gebruiker kan bijvoorbeeld een vraag stellen die een antwoord vereist, waarbij vijf verschillende juridische overwegingen aan de orde komen. Gen AI kan een antwoord bieden dat precies drie van deze problemen aanpakt. Hoewel relevant, is dit gedeeltelijke antwoord echter onvolledig en vanuit gebruikersperspectief onvoldoende. Dit kan misleidend zijn en reële risico’s met zich meebrengen.

Of het kunnen bijvoorbeeld enkele citaten zijn semantisch relevant op de vraag van een gebruiker, maar ze kunnen verwijzen naar argumenten of zaken die uiteindelijk door de rechtbank zijn verworpen. “Onze advocaten zullen ze als niet-citeerbaar beschouwen”, zei Chen. “Als ze niet kunnen worden geciteerd, zijn ze niet nuttig.”

Gaat verder dan standaard RAG

LexisNexis lanceerde in 2023 zijn vlaggenschip gen AI-product, Lexis+ AI – een legale AI-tool voor opstellen, onderzoek en analyse. Het was gebouwd op een standaard RAG-framework en hybride vectorzoekopdrachten die antwoorden baseren op de vertrouwde, gezaghebbende kennisbank van LexisNexis.

Het bedrijf bracht vervolgens in 2024 zijn persoonlijke juridische assistent, Protégé, op de markt. Deze agent integreert een kennisgrafieklaag bovenop het zoeken naar vectoren om een ​​”belangrijke beperking” van puur semantisch zoeken te overwinnen. Hoewel semantisch zoeken ‘zeer goed’ is in het ophalen van contextueel relevante inhoud, ‘garandeert het niet altijd gezaghebbende antwoorden’, zegt Chen.

Initiële semantische zoekopdrachten retourneren wat zij als relevante inhoud beschouwen; Het team van Chen beoordeelt deze rendementen vervolgens in een ‘point of law’-grafiek om de meest gezaghebbende documenten verder te filteren.

Daarnaast ontwikkelt het team van Chen agentgrafieken en versnelt het de automatisering, zodat agenten complexe, uit meerdere stappen bestaande taken kunnen plannen en uitvoeren.

Zelfgestuurde “planneragenten” voor onderzoeksvragen en antwoorden verdelen gebruikersvragen bijvoorbeeld in verschillende subvragen. Menselijke gebruikers kunnen deze bekijken en bewerken om de uiteindelijke antwoorden verder te verfijnen en te personaliseren. Ondertussen zorgt een ‘reflectieagent’ voor het opmaken van transactiedocumenten. Het kan “automatisch, dynamisch” zijn oorspronkelijke concept bekritiseren en vervolgens die feedback opnemen en in realtime verfijnen.

Chen zei echter dat dit alles niet is om mensen uit de mix te halen; menselijke experts en AI-agenten kunnen ‘samen leren, redeneren en groeien’. “Ik zie de toekomst (als) een diepere samenwerking tussen mens en AI.”

Bekijk de podcast om meer te horen over:

  • Hoe LexisNexis’ overname van Handlangers hielp AI-modellen te gronden met eigen LexisNexis- en klantgegevens;

  • Het verschil tussen deterministische en niet-deterministische evaluatie;

  • Waarom bedrijven KPI’s en definities van succes moeten identificeren voordat ze overhaast beginnen te experimenteren;

  • Het belang van het focussen op een ‘driehoek’ van sleutelcomponenten: kosten, snelheid en kwaliteit.

Je kunt ook luisteren en abonneren Verder dan de piloot op Spotify, Appel of waar u uw podcasts ook vandaan haalt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in