Er zijn veel bedrijfsgegevens vastgelegd in PDF-documenten. Toegegeven, de generatie AI-tools zijn in staat geweest om PDF’s op te nemen en te analyseren, maar nauwkeurigheid, tijd en kosten waren niet ideaal. Nieuwe technologie van Databricks zou het kunnen veranderen.
Het bedrijf heeft deze week zijn “ai_parse_document”-technologie gedetailleerd beschreven, nu geïntegreerd met Databricks’ Het platform van Agent Brick. De technologie pakt een kritiek knelpunt aan bij de adoptie van AI in ondernemingen: ongeveer 80% van de bedrijfskennis blijft opgesloten in pdf’s, rapporten en grafieken die AI-systemen moeilijk accuraat kunnen verwerken en begrijpen.
“Het is een algemene veronderstelling dat het parseren van PDF’s een opgelost probleem is, maar in werkelijkheid is dat niet het geval”, vertelde Erich Elsen, hoofdonderzoeker bij Databricks, aan VentureBeat. “De uitdaging is niet alleen dat documenten ongestructureerd zijn; het is ook dat bedrijfs-pdf’s inherent complex zijn. Ze combineren digitaal ingebedde inhoud met gescande pagina’s en foto’s van fysieke documenten, samen met tabellen, grafieken en onregelmatige lay-outs, en de meeste bestaande tools slagen er niet in om die informatie nauwkeurig vast te leggen.”
De verborgen complexiteit achter het parseren van documenten
Hoewel optische tekenherkenning (OCR) al tientallen jaren bestaat, stelt Elsen dat het extraheren van bruikbare, gestructureerde gegevens uit echte bedrijfsdocumenten fundamenteel onopgelost blijft.
Belangrijke elementen zoals tabellen met tussengevoegde cellen, bijschriften van figuren en ruimtelijke relaties tussen documentelementen worden routinematig verwijderd of verkeerd gelezen door bestaande tools, waardoor downstream AI-applicaties, Retrieval-Augmented Generation (RAG)-systemen of business intelligence-dashboards onbetrouwbaar worden.
De typische bedrijfsoplossing bestond uit het op elkaar stapelen van verschillende imperfecte tools: één service voor lay-outdetectie, een andere voor OCR, een derde voor het extraheren van tabellen en aanvullende API’s voor figuuranalyse. Deze aanpak vereist maanden van aangepaste data-engineering en doorlopend onderhoud naarmate documentformaten evolueren.
“Om dit te compenseren hebben teams talloze onvolmaakte tools op elkaar moeten stapelen of uitgebreide pijplijnen op maat moeten bouwen en maanden moeten besteden aan data-engineering in plaats van aan innovatie”, aldus Elsen. “ai_parse_document lost dat op door volledige, gestructureerde gegevens uit documenten uit de echte wereld te extraheren, zodat organisaties eindelijk ongestructureerde gegevens rechtstreeks in Databricks kunnen vertrouwen en opvragen.”
Technische aanpak: end-to-end training versus pijplijnstapelen
Er zijn tegenwoordig verschillende services op de markt voor het parseren van PDF’s, waaronder onder meer AWS Textract, Google Document AI en Azure Document Intelligence. Elsen betoogde dat de tool, in plaats van simpelweg tekst te lezen, gebruik maakt van een systeem van moderne AI-componenten die end-to-end zijn getraind om gestructureerde context met de modernste kwaliteit te extraheren.
De functie gaat verder dan de basisextractie en legt het volgende vast:
-
Tabellen blijven precies behouden zoals ze verschijnen, inclusief samengevoegde cellen en geneste structuren
-
Figuren en grafieken met door AI gegenereerde bijschriften en beschrijvingen
-
Ruimtelijke metadata en selectiekaders voor nauwkeurige plaatsing van elementen
-
Optionele beelduitvoer voor multimodale zoektoepassingen
Alle resultaten worden rechtstreeks in de Databricks Unity Catalog opgeslagen als Delta-tabellen, wat betekent dat geparseerde documenten doorzoekbare gestructureerde gegevens worden zonder de Databricks-omgeving te verlaten. Dit is een belangrijk verschil met clouddiensten waarbij gegevens moeten worden geëxporteerd voor verwerking.
“Door datagerichte training en geoptimaliseerde inferentie hebben we 3-5x lagere kosten bereikt, terwijl we toonaangevende systemen zoals Textract, Document AI en Azure Document Intelligence evenaren of overtreffen”, aldus Elsen.
Vroege bedrijfsacceptatie in de productie- en industriële sectoren
Verschillende grote bedrijven hebben ai_parse_document al in productie geïmplementeerd met gebruiksscenario’s die de optimalisatie van data science-workflows, democratisering van documentverwerking en de ontwikkeling van RAG-applicaties omvatten.
Elsen merkte bijvoorbeeld op dat Rockwell Automation ai_parse_document gebruikt om de configuratiekosten voor zijn datawetenschappers te verlagen.
“Wat ooit een aanzienlijke set-up vereiste om complexe oplossingen te ondersteunen, is nu gestroomlijnd, zodat hun teams meer tijd besteden aan innovatie en minder tijd aan het beheren van de infrastructuur”, zei hij.
TE Connectivity gebruikt ondertussen ai_parse_document om ongestructureerde gegevensverwerking te democratiseren.
“In het verleden vereiste het extraheren van tabellen, tekst en metagegevens uit documenten complexe, code-intensieve workflows”, aldus Elsen. “Met Databricks hebben ze dit allemaal samengevat in één enkele SQL-functie, waardoor geavanceerde documentverwerking toegankelijk is voor elk datateam, niet alleen voor datawetenschappers.”
Emerson Electric is een andere early adopter. Het bedrijf gebruikt ai_parse_document voor een RAG-use-case. Elsen legde uit dat Emerson, door parallelle documentparsing rechtstreeks in Delta-tabellen mogelijk te maken, het bouwen van RAG-applicaties zowel snel als eenvoudig heeft gemaakt, allemaal binnen de bestaande Databricks-omgeving.
Het platformintegratiespel
Hoewel Databricks een lange geschiedenis van open source heeft, is de ai_parse_document technologie een eigen onderdeel van het Databricks-platform.
In tegenstelling tot zelfstandige documentintelligentie-API’s is ai_parse_document diep geïntegreerd met het Agent Bricks-platform van Databricks, een verzameling AI-functies en orkestratiemogelijkheden voor het bouwen van productie-AI-agents.
De functie werkt met de bredere data-infrastructuur van Databrick, waaronder:
-
Spark declaratieve pijplijnen: Zorg voor automatische incrementele verwerking, wat betekent dat nieuwe documenten die binnenkomen in SharePoint, S3 of Azure Data Lake Storage automatisch worden geparseerd zonder handmatige orkestratie.
-
Apparaatcatalogus: Beheert machtigingen, audittrails en gegevensafstamming voor geparseerde inhoud, net zoals voor gestructureerde gegevens.
-
Vector zoeken: Indexeert ontlede documentelementen, inclusief tekst, tabellen en figuren met bijschriften voor multimodale RAG-toepassingen.
-
AI-functieketen: Hiermee kunnen ontwikkelaars ai_parse_document-uitvoer rechtstreeks doorgeven aan ai_extract (entiteitsextractie), ai_classify (documentcategorisatie) en ai_summarize (inhoudssamenvatting) binnen één enkele SQL-query.
-
Supervisor van meerdere agenten: Coördineert documentverwerkingsagenten met andere gespecialiseerde agenten voor complexe workflows.
“Het ontleden is slechts het begin en zelden een doel op zichzelf”, zegt Elsen. “Het doel is om klanten in staat te stellen onze ai_functies, zoals ai_extract en ai_classify, te koppelen aan ai_parse_document om hun documenten om te zetten in bruikbare gegevens en inzichten. We streven er ook naar om het naadloos te maken om een corpus van documenten om te zetten in een kennisdatabase voor gebruik in RAG of andere middelen voor het ophalen van informatie.”
Wat dit betekent voor de AI-strategie van het bedrijf
Voor bedrijven die AI-agentsystemen bouwen, is het van cruciaal belang om te begrijpen hoe PDF-documenten daadwerkelijk door systemen worden gebruikt en begrepen.
De Databricks-aanpak werpt nieuw licht op een probleem dat velen als een opgelost probleem zouden hebben beschouwd. Het daagt bestaande verwachtingen uit met een nieuwe architectuur die meerdere soorten workflows ten goede kan komen. Dit is echter een platformspecifieke functie die zorgvuldige evaluatie vereist voor organisaties die Databricks nog niet gebruiken.
Voor technische besluitvormers die AI-agentplatforms evalueren, komt het erop neer dat documentintelligentie verschuift van een gespecialiseerde externe dienst naar een geïntegreerde platformcapaciteit.



