Home Nieuws De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

7
0
De meeste RAG-systemen begrijpen geen geavanceerde documenten; ze vernietigen ze

Geleidelijk aan hebben veel bedrijven een vorm van RAG geïmplementeerd. De belofte is verleidelijk: indexeer uw PDF’s, sluit u aan bij een LLM en democratiseer onmiddellijk uw zakelijke kennis.

Maar voor industrieën die afhankelijk zijn van zware techniek is de realiteit teleurstellend. Ingenieurs stellen specifieke vragen over infrastructuur en de bot hallucineert.

De fout zit niet in de LLM. De fout zit in de voorbewerking.

Standaard RAG-pijplijnen behandelen documenten als tekenreeksen met platte tekst. Ze gebruiken “vaste grootte-chunking” (knipt een document om de 500 tekens). Dit werkt voor proza, maar het vernietigt de logica van technische handleidingen. Het splitst tabellen in tweeën, scheidt bijschriften van afbeeldingen en negeert de visuele hiërarchie van de pagina.

IHet verbeteren van de betrouwbaarheid van RAG gaat niet over het kopen van een groter model; het gaat over het oplossen van het probleem van ‘donkere data’ door middel van semantische chunking en multimodale tekstualisering.

Hier is het architecturale raamwerk voor het bouwen van een RAG-systeem dat daadwerkelijk een handleiding kan lezen.

De misvatting van chunking met een vaste grootte

In een standaard Python RAG-tutorial splitst u tekst op aantal tekens. In een bedrijfs-PDF is dit rampzalig.

Als een tabel met beveiligingsspecificaties 1.000 tokens omvat en uw chunkgrootte 500 is, splitst u gewoon de header ‘spanningslimiet’ van de ‘240V’-waarde. De vectordatabase bewaar ze apart. Wanneer een gebruiker vraagt: “Wat is de spanningslimiet?”, Vindt het ophaalsysteem de header, maar niet de waarde. LLM’s die gedwongen worden te antwoorden, raden vaak.

De oplossing: semantische chunking

De eerste stap om de productie-RAG te verbeteren is het opgeven van willekeurige karaktertellingen ten gunste van documentintelligentie.

Door gebruik te maken van opmaakbewuste parseerhulpmiddelen (zoals Azure Document Intelligence) kunnen we gegevens segmenteren op basis van de documentstructuur, zoals hoofdstukken, secties en alinea’s, in plaats van op het aantal tokens.

  • Logische verbinding: Een sectie die een specifiek machineonderdeel beschrijft, blijft als een enkele vector behouden, zelfs als deze in lengte varieert.

  • Tafelopslag: De parser identificeert een tabelgrens en dwingt het hele raster tot één deel, waarbij de rij-kolomrelaties behouden blijven die essentieel zijn voor nauwkeurig ophalen.

In onze interne kwalitatieve benchmarks verbeterde de overstap van vaste naar semantische chunking de ophaalnauwkeurigheid van tabelgegevens aanzienlijk, waardoor de fragmentatie van technische specificaties effectief werd tegengegaan.

Visuele donkere gegevens ontsluiten

De tweede faalwijze bij enterprise-RAG is blindheid. Een enorme hoeveelheid bedrijfs-IP wordt niet in tekst aangetroffen, maar in stroomdiagrammen, schema’s en systeemarchitectuurdiagrammen. Standaard inbeddingsmodellen (zoals text-embed-3-small) kunnen deze afbeeldingen niet “zien”. Ze worden tijdens het indexeren overgeslagen.

Als uw antwoord in een stroomdiagram staat, zegt uw RAG-systeem: “Ik weet het niet.”

De oplossing: multimodale tekstualisatie

Om grafieken doorzoekbaar te maken, hebben we een multimodale voorverwerkingsstap geïmplementeerd met behulp van vision-compatibele modellen (met name GPT-4o) voordat de gegevens ooit in de vectoropslag terechtkomen.

  1. OCR-extractie: Uiterst nauwkeurige optische tekenherkenning haalt tekstlabels uit de afbeelding.

  2. Generatief bijschrift: Het visiemodel analyseert het beeld en genereert een gedetailleerde natuurlijke-taalbeschrijving (“Een stroomdiagram dat laat zien dat proces A leidt tot proces B als de temperatuur boven de 50 graden komt”).

  3. Hybride inbedding: Deze gegenereerde beschrijving wordt ingebed en opgeslagen als metagegevens die aan de originele afbeelding zijn gekoppeld.

Wanneer een gebruiker nu zoekt naar “temperatuurprocesstroom”, komt de vectorzoekopdracht overeen beschrijvingzelfs als de originele bron een PNG-bestand was.

De vertrouwenslaag: op bewijs gebaseerde gebruikersinterface

Voor zakelijke adoptie is nauwkeurigheid slechts het halve werk. De andere helft wel verifieerbaarheid.

In een standaard RAG-interface geeft de chatbot een tekstantwoord en citeert een bestandsnaam. Dit dwingt de gebruiker om de pdf te downloaden en naar de pagina te zoeken om de claim te verifiëren. Bij vragen waarbij veel op het spel staat (“Is deze chemische stof ontvlambaar?”), Vertrouwen gebruikers de bot eenvoudigweg niet.

De architectuur moet visuele citatie implementeren. Omdat we tijdens de voorverwerkingsfase de verbinding tussen het tekstfragment en de bovenliggende afbeelding hebben behouden, kan de gebruikersinterface samen met het tekstantwoord het exacte diagram of de exacte tabel weergeven die werd gebruikt om het antwoord te genereren.

Met dit ‘laat je werk zien’-mechanisme kunnen mensen de redeneringen van AI onmiddellijk verifiëren, waardoor de vertrouwenskloof wordt overbrugd die zoveel mensen het leven kost. interne AI-projecten.

Toekomstbestendig: native multimodale inbedding

Hoewel de ‘textualisatie’-methode (het omzetten van afbeeldingen in tekstuele beschrijvingen) de praktische oplossing voor vandaag is, evolueert de architectuur snel.

We zien nu al de opkomst van inheemse multimodale inbedding (zoals Cohere’s Embedd 4). Deze modellen kunnen tekst en afbeeldingen in dezelfde vectorruimte in kaart brengen zonder de tussenstap van ondertitels. Hoewel we momenteel een meertrapspijplijn gebruiken voor maximale controle, zal de toekomst van de data-infrastructuur waarschijnlijk ‘end-to-end’-vectorisatie met zich meebrengen, waarbij de lay-out van een pagina rechtstreeks wordt ingebed.

Bovendien, als LLM’s met lange context kosteneffectief wordt, kan de behoefte aan chunking worden verminderd. Binnenkort kunnen we volledige handleidingen naar het contextvenster sturen. Totdat de latentie en de kosten van oproepen van miljoenen tokens echter aanzienlijk afnemen, blijft semantische voorverwerking de economisch meest haalbare strategie voor realtime systemen.

Conclusie

Het verschil tussen een RAG-demo en een productiesysteem is de manier waarop het omgaat met de rommelige realiteit van bedrijfsgegevens.

Beschouw uw documenten niet langer als eenvoudige tekstreeksen. Als u wilt dat uw AI uw bedrijf begrijpt, moet u de structuur van uw documenten respecteren. Door semantische chunking te implementeren en de visuele gegevens in uw grafieken te ontsluiten, transformeert u uw RAG-systeem van een ‘trefwoordzoeker’ in een echte ‘kennisassistent’.

Dippu Kumar Singh is een AI-architect en data-ingenieur.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, onbevooroordeelde diepgaande inzichten in AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma – en bekijk ons richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in