Home Nieuws Agenten hebben meer behoefte aan vectoronderzoek dan RAG ooit heeft gedaan

Agenten hebben meer behoefte aan vectoronderzoek dan RAG ooit heeft gedaan

2
0
Agenten hebben meer behoefte aan vectoronderzoek dan RAG ooit heeft gedaan

Wat is de rol van vectordatabases in de agentische AI-wereld? Het is een vraag waar organisaties de afgelopen maanden mee hebben geworsteld. Het verhaal had echt momentum. Terwijl grote taalmodellen werden geschaald naar contextvensters van miljoenen tokens, circuleerde er een geloofwaardig argument onder ondernemingsarchitecten: speciaal gebouwde vectorzoekopdrachten waren een stopplaats, geen infrastructuur. Het agentische geheugen zou het ophaalprobleem absorberen. Vectordatabases waren een artefact uit het RAG-tijdperk.

Het productiecertificaat loopt de andere kant op.

Qdranthet in Berlijn gevestigde open source vectorzoekbedrijf kondigde donderdag een Series B van $ 50 miljoen aan, twee jaar na een Series A van $ 28 miljoen. De timing is niet toevallig. Het bedrijf levert ook versie 1.17 van zijn platform. Alles bij elkaar weerspiegelen ze een specifiek argument: het inhaalprobleem werd niet kleiner toen de agenten arriveerden. Het werd groter en moeilijker.

“Elke paar minuten stellen mensen een paar vragen”, zegt Andre Zayarni, CEO en medeoprichter van Qdrant, tegen VentureBeat. “Agenten voeren honderden of zelfs duizenden vragen per seconde uit en verzamelen eenvoudigweg informatie om beslissingen te nemen.”

Deze verschuiving verandert de infrastructuurvereisten op manieren waarvoor implementaties uit het RAG-tijdperk nooit waren ontworpen.

Waarom agenten een ophaallaag nodig hebben die het geheugen niet kan vervangen

Agenten werken op basis van informatie waarvoor ze nooit zijn opgeleid: eigen bedrijfsgegevens, actuele informatie, miljoenen documenten die voortdurend veranderen. Contextvensters beheren de sessiestatus. Ze bieden geen zoekopdrachten met een hoge herinnering aan deze gegevens, behouden de kwaliteit van het ophalen wanneer deze verandert, of onderhouden de zoekvolumes die autonome besluitvorming genereert.

“De meerderheid van de AI-geheugenframeworks die er zijn, gebruiken een vorm van vectoropslag”, zei Zayarni.

De implicatie is direct: zelfs de tools die als geheugenalternatief zijn gepositioneerd, zijn afhankelijk van de onderliggende ophaalinfrastructuur.

Er doen zich drie faalmodi voor wanneer de herstellaag niet speciaal voor de belasting is gebouwd. Op documentschaal is een verloren resultaat geen latentieprobleem; het is een probleem met de kwaliteit van de beslissing, waarbij elke ophaalactie wordt gekoppeld aan één enkele agenttrip. Onder schrijfbelasting neemt de relevantie af omdat recentelijk geladen gegevens zich in niet-geoptimaliseerde segmenten bevinden voordat de indexering de achterstand inhaalt, waardoor zoekopdrachten op de meest recente gegevens langzamer en minder nauwkeurig worden, precies op het moment dat de huidige informatie er het meest toe doet. Binnen de gedistribueerde infrastructuur zorgt één enkele langzame replica voor latentie bij elke parallelle tooloproep tijdens een agentbeurt – een vertraging die een menselijke gebruiker als ongemak opvat, maar een autonome agent niet.

Qdrant’s 1.17 release pakt elk probleem rechtstreeks aan. Een relevantiefeedbackquery verbetert de herinnering door de gelijkenisscore bij de volgende ophaalronde aan te passen met behulp van lichtgewicht modelgegenereerde signalen zonder het inbeddingsmodel opnieuw te trainen. Een vertraagde fan-out-functie voert een query uit op een andere replica wanneer de eerste een configureerbare latentiedrempel overschrijdt. Een nieuwe clusterbrede telemetrie-API vervangt probleemoplossing per knooppunt door één weergave voor het hele cluster.

Waarom Qdrant geen vectordatabase meer wil heten

Bijna alle grote databases ondersteunen nu vectoren als gegevenstype – van hyperscalers tot traditionele relationele systemen. Die verschuiving heeft het concurrentievraagstuk veranderd. Het gegevenstype is nu table stake. Wat gespecialiseerd blijft is de kwaliteit van het ophalen op productieschaal.

Dit onderscheid is de reden waarom Zayarni niet langer wil dat Qdrant een vectordatabase wordt genoemd.

“We bouwen een laag voor het ophalen van informatie voor het AI-tijdperk”, zei hij. “Databases zijn bedoeld voor het opslaan van gebruikersgegevens. Als de kwaliteit van zoekresultaten ertoe doet, heb je een zoekmachine nodig.”

Zijn advies aan beginnende teams: gebruik de vectorondersteuning die al in je stapel zit. De teams die migreren naar speciaal gebouwde ophaalmogelijkheden doen dit wanneer de schaal het probleem dwingt. “We zien elke dag bedrijven naar ons toekomen die zeggen dat ze met Postgres zijn begonnen en dachten dat het goed genoeg was – en dat is het niet.”

De architectuur van Qdrant, geschreven in Rust, biedt de geheugenefficiëntie en prestatiecontrole op laag niveau die talen op een hoger niveau niet kunnen evenaren voor dezelfde prijs. De open source-basis combineert dat voordeel: dankzij feedback uit de gemeenschap en adoptie door ontwikkelaars kan een bedrijf van de omvang van Qdrant concurreren met leveranciers die over veel grotere technische middelen beschikken. ‘Zonder dit zouden we niet zijn waar we nu zijn’, zei Zayarni.

Hoe twee productieteams de grenzen van databases voor algemene doeleinden ontdekten

De bedrijven die productie-AI-systemen op Qdrant bouwen, voeren vanuit verschillende richtingen hetzelfde argument aan: agenten hebben een ophaallaag nodig, en conversatie- of contextueel geheugen is daar geen vervanging voor.

GlassDollar helpt bedrijven als Siemens en Mahle startups te evalueren. Zoeken is het kernproduct: een gebruiker beschrijft een behoefte in natuurlijke taal en krijgt een gerangschikte shortlist terug uit een corpus van miljoenen bedrijven. De architectuur voert zoekopdrachtuitbreiding uit op elke zoekopdracht: een enkele prompt explodeert in meerdere parallelle zoekopdrachten, waarbij elke kandidaat vanuit een andere hoek wordt opgehaald voordat de resultaten worden gecombineerd en opnieuw worden gerangschikt. Het is een patroon voor het ophalen van agenten, geen RAG-patroon, en er is een speciaal gebouwde zoekinfrastructuur voor nodig om het op volume te houden.

Het bedrijf migreerde van Elasticsearch terwijl het opschaalde naar 10 miljoen geïndexeerde documenten. Na de overstap naar Qdrant verlaagde het de infrastructuurkosten met ongeveer 40%, liet het een op trefwoorden gebaseerde compensatielaag vallen die het had behouden om de relevantiekloof van Elasticsearch te compenseren, en zag het een drie keer grotere gebruikersbetrokkenheid.

“We meten succes aan de hand van de herinnering”, vertelde Kamen Kanev, Chief Product Officer van GlassDollar, aan VentureBeat. “Als de beste bedrijven niet in de resultaten staan, doet niets anders ertoe. De gebruiker verliest het vertrouwen.”

Agentgeheugen en uitgebreide contextvensters zijn ook niet voldoende om de werklast op te vangen die GlassDollar nodig heeft.

“Het is een infrastructuurprobleem, geen conversatietaak voor staatsbeheer”, zei Kanev. “Het is niet iets dat je oplost door een contextvenster uit te breiden.”

Een andere Qdrant-gebruiker wel &AIdat infrastructuur bouwt voor patentzaken. De AI-agent Andy voert semantische zoekopdrachten uit in honderden miljoenen documenten verspreid over tientallen jaren en in meerdere rechtsgebieden. Octrooigemachtigden zullen niet handelen op basis van door AI gegenereerde juridische teksten, wat betekent dat elk resultaat dat de agent weergeeft, geworteld moet zijn in een echt document.

“Onze hele architectuur is ontworpen om het risico op hallucinaties te minimaliseren door het terugvinden tot de primitieve kern te maken, en niet tot de generatie”, vertelde Herbie Turner, oprichter en CTO van &AI, aan VentureBeat.

Voor &AI zijn de agentlaag en de ophaallaag qua ontwerp gescheiden.

“Andy, onze patentagent, is bovenop Qdrant gebouwd”, aldus Turner. “De agent is de interface. De vectordatabase is de grondwaarheid.”

Drie tekenen dat het tijd is om van uw huidige opstelling af te stappen

Het praktische uitgangspunt: gebruik de vectorcapaciteit die al in uw stapel aanwezig is. De evaluatievraag is niet of u vectorzoekopdrachten moet toevoegen – maar wanneer uw huidige configuratie niet meer voldoende is. Drie signalen markeren dit punt: de kwaliteit van het ophalen is direct gekoppeld aan de bedrijfsresultaten; vraagpatronen omvatten uitbreiding, herschikking in meerdere stappen of parallelle tooloproepen; of de hoeveelheid gegevens bedraagt ​​tienduizenden documenten.

Op dat moment verschuift de evaluatie naar operationele vragen: hoeveel inzicht geeft uw huidige configuratie u in wat er gebeurt in een gedistribueerd cluster, en hoeveel prestaties levert het op als het queryvolume van agenten toeneemt.

“Er is momenteel veel ophef over wat de ophaallaag vervangt”, zei Kanev. “Maar voor iedereen die een product bouwt waarbij de kwaliteit van het ophalen centraal staat, en waarbij het missen van een resultaat reële zakelijke gevolgen heeft, heb je een speciale zoekinfrastructuur nodig.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in