Home Nieuws Evaluatie van AI-agenten vervangt datatagging als het kritieke pad naar productie-implementatie

Evaluatie van AI-agenten vervangt datatagging als het kritieke pad naar productie-implementatie

19
0
Evaluatie van AI-agenten vervangt datatagging als het kritieke pad naar productie-implementatie

Naarmate LLM’s zich blijven verbeteren, is er in de sector enige discussie ontstaan ​​over de voortdurende behoefte aan zelfstandige tools voor het labelen van gegevens, aangezien LLM’s steeds beter in staat zijn om met alle soorten gegevens te werken. Menselijk Signaal, de toonaangevende commerciële leverancier achter het open-source Label Studio-programma heeft een andere mening. In plaats van minder vraag naar datatagging te zien, ziet het bedrijf er meer.

Eerder deze maand nam HumanSignal Erud AI over en lanceerde hun fysieke Frontier Data Labs voor nieuwe gegevensverzameling. Maar het creëren van data is slechts de helft van de uitdaging. Vandaag gaat het bedrijf aan de slag met wat daarna komt: bewijzen dat de AI-systemen die op deze data zijn getraind ook daadwerkelijk werken. Met de nieuwe multimodale agentevaluatiemogelijkheden kunnen bedrijven complexe AI-agents valideren die applicaties, afbeeldingen, code en video genereren.

“Als je je concentreert op de bedrijfssegmenten, moeten alle AI-oplossingen die ze bouwen nog steeds worden geëvalueerd, wat gewoon een ander woord is voor datatagging door mensen en nog meer door experts”, vertelde Michael Malyuk, medeoprichter en CEO van HumanSignal, aan VentureBeat in een exclusief interview.

Het kruispunt van datalabeling en agentische AI-evaluatie

Het hebben van de juiste gegevens is geweldig, maar het is niet het einddoel van een bedrijf. Waar de moderne datalabeling naartoe gaat, is evaluatie.

Het is een fundamentele verschuiving in wat bedrijven moeten valideren: niet of hun model een afbeelding correct classificeert, maar of hun AI-agent goede beslissingen heeft genomen bij een complexe, uit meerdere stappen bestaande taak waarbij redeneren, gereedschapsgebruik en het genereren van code een rol spelen.

Als evaluatie slechts het labelen van gegevens voor AI-uitvoer is, vertegenwoordigt de verschuiving van modellen naar agenten een stapsgewijze verandering in wat er moet worden gelabeld. Waar traditionele datatagging het taggen van afbeeldingen of het categoriseren van tekst inhoudt, vereist de evaluatie van agenten het beoordelen van redeneerketens in meerdere stappen, de selectie van gereedschapsbeslissingen en multimodale output – allemaal binnen één enkele interactie.

“Er is een zeer sterke behoefte om niet alleen meer mensen op de hoogte te zijn, maar ook experts op de hoogte”, zei Malyuk. Hij wees op grootschalige toepassingen zoals de gezondheidszorg en juridisch advies als voorbeelden waarbij de kosten van mislukking onbetaalbaar hoog blijven.

Het verband tussen datalabeling en AI-evaluatie gaat dieper dan de semantiek. Voor beide activiteiten zijn dezelfde basisvaardigheden vereist:

  • Gestructureerde interfaces voor menselijk oordeel: Of reviewers nu afbeeldingen taggen voor trainingsgegevens of beoordelen of een agent meerdere tools correct heeft georkestreerd, ze hebben speciaal gebouwde interfaces nodig om hun oordelen systematisch vast te leggen.

  • Consensus tussen verschillende recensenten: Voor trainingsdatasets van hoge kwaliteit zijn meerdere labelers nodig die meningsverschillen kunnen verzoenen. Evaluatie van hoge kwaliteit vereist hetzelfde: meerdere experts die de output beoordelen en meningsverschillen oplossen.

  • Domeinexpertise op schaal: Voor het trainen van moderne AI-systemen zijn vakexperts nodig, en niet alleen maar crowdworkers die op knoppen klikken. Het evalueren van productie-AI-output vereist dezelfde diepgaande expertise.

  • Feedback gaat naar AI-systemen: Gelabelde training datafeeds modelontwikkeling. Evaluatiegegevens zorgen voor voortdurende verbetering, verfijning en benchmarking.

Evaluatie van het volledige agenttracering

De uitdaging bij het evalueren van agenten is niet alleen de hoeveelheid gegevens, maar ook de complexiteit van wat moet worden geëvalueerd. Agents produceren geen eenvoudige tekstuitvoer; ze genereren redeneerketens, maken gereedschapkeuzes en produceren artefacten op meerdere modaliteiten.

De nieuwe functies in de validatievereisten voor adresagenten van Label Studio Enterprise:

  • Multimodale spoorinspectie: Het platform biedt consistente interfaces voor het beoordelen van de volledige tracering van de uitvoering van agenten: redeneringsstappen, toolaanroepen en uitvoer over verschillende modaliteiten heen. Dit pakt een veelvoorkomend pijnpunt aan waarbij teams afzonderlijke logstreams moeten parseren.

  • Interactieve evaluatie van meerdere beurten: Beoordelaars beoordelen gespreksstromen waarbij agenten de status gedurende meerdere rondes behouden, waarbij het volgen van de context en de intentie-interpretatie worden gevalideerd via de interactiesequentie.

  • Agent Arena: Vergelijkend evaluatiekader voor het testen van verschillende agentconfiguraties (basismodellen, promptsjablonen, railingimplementaties) onder identieke omstandigheden.

  • Flexibele evaluatierubrieken: Teams definiëren domeinspecifieke evaluatiecriteria programmatisch in plaats van vooraf gedefinieerde statistieken te gebruiken, ter ondersteuning van vereisten zoals begripsnauwkeurigheid, geschiktheid van reacties of uitvoerkwaliteit voor specifieke gebruiksscenario’s

Agentevaluatie is het nieuwe strijdtoneel voor leveranciers van datalabels

HumanSignal is niet de enige die erkent dat agentevaluatie de volgende fase van de markt voor datalabeling vertegenwoordigt. Concurrenten maken soortgelijke draaipunten terwijl de industrie reageert op zowel technologische verschuivingen als marktverstoringen.

Labeldoos lanceerde in augustus 2025 zijn Evaluation Studio met een focus op rubriekgebaseerde evaluaties. Net als HumanSignal breidt het bedrijf verder uit dan de traditionele datalabeling om AI-validatie te produceren.

Het algehele concurrentielandschap op het gebied van datatagging veranderde dramatisch in juni toen Meta 14,3 miljard dollar investeerde voor een belang van 49% in Scale AI, de voormalige marktleider. De deal veroorzaakte een uittocht van enkele van de grootste klanten van Scale. HumanSignal profiteerde van de verstoring, waarbij Malyuk beweerde dat zijn bedrijf afgelopen kwartaal meer concurrerende deals kon binnenhalen. Malyuk noemt de volwassenheid, configuratieflexibiliteit en klantenondersteuning van het platform als onderscheidende factoren, hoewel concurrenten soortgelijke beweringen doen.

Wat dit betekent voor AI-bouwers

Voor bedrijven die AI-productiesystemen bouwen, heeft de convergentie van datalabeling- en evaluatie-infrastructuur verschillende strategische implicaties:

Begin met de waarheid. Investeringen in het creëren van hoogwaardige gelabelde datasets met meerdere deskundige beoordelaars die meningsverschillen oplossen, werpen vruchten af ​​gedurende de hele levenscyclus van de AI-ontwikkeling: van de initiële training tot voortdurende productieverbeteringen.

Waarneembaarheid blijkt noodzakelijk maar onvoldoende. Hoewel het belangrijk blijft om te monitoren wat AI-systemen doen, meten observatie-instrumenten activiteit en niet kwaliteit. Bedrijven hebben een speciale evaluatie-infrastructuur nodig om de output te beoordelen en verbeteringen te stimuleren. Dit zijn afzonderlijke problemen die verschillende capaciteiten vereisen.

De trainingsdata-infrastructuur dient tevens als evaluatie-infrastructuur. Organisaties die hebben geïnvesteerd in datalabelplatforms voor modelontwikkeling kunnen dezelfde infrastructuur uitbreiden voor productie-evaluatie. Dit zijn geen afzonderlijke problemen waarvoor afzonderlijke tools nodig zijn; het is dezelfde basisworkflow die in verschillende fasen van de levenscyclus wordt toegepast.

Voor bedrijven die AI op grote schaal implementeren, is het knelpunt verschoven van het bouwen van modellen naar het valideren ervan. Organisaties die deze verschuiving vroegtijdig onderkennen, zullen de vruchten plukken van de inzet van AI-systemen.

De kritische vraag voor bedrijven is geëvolueerd: niet of AI-systemen geavanceerd genoeg zijn, maar of organisaties systematisch kunnen bewijzen dat ze voldoen aan de kwaliteitseisen voor specifieke domeinen waar veel op het spel staat.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in