Ondanks de toenemende geruchten over een toekomst waarin veel menselijk werk wordt geautomatiseerd door AI, is een van de ironieën van de huidige technologiehausse de hardnekkige afhankelijkheid van mensen, met name het proces van het trainen van AI-modellen met behulp van versterkend leren van menselijke feedback (RLHF).
In zijn eenvoudigste vorm is RLHF een geleidingssysteem: nadat een AI is getraind op samengestelde gegevens, maakt deze nog steeds fouten of klinkt robotachtig. Menselijke contractanten worden vervolgens massaal ingehuurd door AI-laboratoria om de output van een nieuw model te beoordelen en te rangschikken terwijl het traint, en het model leert van hun beoordelingen en past zijn gedrag aan om hogere outputs te bieden. Dit proces is des te belangrijker naarmate AI zich uitbreidt en multimedia-uitvoer produceert, zoals video, audio en afbeeldingen, die genuanceerdere en subjectievere kwaliteitsstatistieken kunnen hebben.
Historisch gezien is dit mentoringproces een enorme logistieke hoofdpijn en PR-nachtmerrie geweest voor AI-bedrijven, die afhankelijk waren van gefragmenteerde netwerken van buitenlandse aannemers en statische etiketteringspools in specifieke geografische centra met lage inkomens. door de media als lage lonen bestempeld – zelfs uitbuitend. Het is ook inefficiënt: AI-labs moeten weken of maanden wachten op een enkele batch feedback, waardoor de voortgang van het model wordt vertraagd.
Nu is er een nieuwe startup verschenen die het proces veel efficiënter maakt: SnelHet platform van RLHF ‘gamificeert’ effectief door genoemde beoordelingstaken over de hele wereld naar bijna 20 miljoen gebruikers van populaire apps, waaronder Duolingo of Candy Crush, te pushen in de vorm van korte, opt-in beoordelingstaken die ze kunnen voltooien in plaats van mobiele advertenties te bekijken, waarbij de gegevens onmiddellijk worden teruggestuurd naar een AI-laboratorium dat de opdracht krijgt.
Zoals gedeeld met VentureBeat in een persbericht, stelt dit platform AI-laboratoria in staat om “modellen in bijna realtime te herhalen”, waardoor de ontwikkelingstijden aanzienlijk worden verkort in vergelijking met traditionele methoden.
CEO en oprichter Jason Corkill verklaarde in dezelfde release dat Rapidata “het menselijk oordeel wereldwijd en in bijna realtime beschikbaar maakt, waardoor een toekomst wordt ontgrendeld waarin AI-teams constante feedbackloops kunnen uitvoeren en systemen kunnen bouwen die elke dag evolueren in plaats van elke releasecyclus.”
Rapidata beschouwt RLHF als hogesnelheidsinfrastructuur en niet als een handarbeidsprobleem. Vandaag heeft het bedrijf exclusief aan ons op VentureBeat aangekondigd dat het een startronde van $8,5 miljoen heeft opgehaald onder leiding van Canaan Partners en IA Ventures, met deelname van Acequia Capital en BlueYard, om zijn unieke benadering van on-demand menselijke data op te schalen.
Het cafégesprek dat een menselijke wolk bouwde
Het ontstaan van Rapidata ontstond niet in een directiekamer, maar aan een tafel met een paar biertjes. Als student aan de ETH Zürich, werkzaam in robotica en computer vision, stuitte Corkill op de muur waar elke AI-ingenieur uiteindelijk mee te maken krijgt: het knelpunt bij de data-annotatie.
“In het bijzonder werk ik al een aantal jaren in de robotica, kunstmatige intelligentie en computer vision, studeer ik aan de ETH hier in Zürich en ben ik altijd gefrustreerd door het annoteren van gegevens”, herinnerde Corkill zich in een recent interview. “Altijd als je annotatie van mensen of menselijke gegevens nodig had, dan werd je project een beetje stilgezet, want tot die tijd kon je het vooruit helpen door gewoon langere nachten aan te houden. Maar als je de grote menselijke annotatie nodig had, moest je naar iemand toe gaan en dan een paar weken wachten”.
Gefrustreerd door deze vertraging realiseerden Corkill en zijn medeoprichters zich dat het bestaande werkmodel van kunstmatige intelligentie fundamenteel kapot was voor een wereld die zich met de snelheid van de moderne computer beweegt. Terwijl computergebruik exponentieel schaalt, doet de traditionele menselijke beroepsbevolking – gebonden aan handmatige onboarding, regionale aanwervingen en langzame betalingscycli – dat niet. Rapidata is ontstaan uit het idee dat menselijk oordeel kan worden geleverd als een wereldwijd gedistribueerde, vrijwel onmiddellijke service.
Technologie: Digitale voetafdrukken transformeren in trainingsgegevens
De kerninnovatie van Rapidata ligt in de distributiemethode. In plaats van fulltime annotators in specifieke regio’s in te huren, profiteert Rapidata van de bestaande aandachtseconomie in de wereld van mobiele apps. Door samen te werken met apps van derden, zoals Candy Crush of Duolingo, geeft Rapidata gebruikers de keuze: een traditionele advertentie bekijken of een paar seconden besteden aan het geven van feedback aan een AI-model.
“Aan gebruikers wordt gevraagd: ‘Hé, in plaats van advertenties te zien en bedrijven zo je ogen te laten kopen, zou je liever wat gegevens willen annoteren en feedback willen geven?'” legde Corkill uit. Volgens Corkill verkiest tussen de 50% en 60% van de gebruikers de feedbacktaak boven een traditionele videoadvertentie.
Deze ‘crowd intelligence’-benadering stelt AI-teams in staat om op een ongekende schaal gebruik te maken van een diverse, mondiale demografie.
-
Het mondiale netwerk: Rapidata bereikt momenteel tussen de 15 en 20 miljoen mensen.
-
Enorm parallellisme: Het platform kan in één uur 1,5 miljoen menselijke annotaties verwerken.
-
Snelheid: Feedbackcycli die voorheen weken of maanden duurden, worden teruggebracht tot uren of zelfs minuten.
-
Kwaliteitscontrole: Het platform bouwt in de loop van de tijd vertrouwens- en expertiseprofielen op van respondenten, waardoor complexe vragen worden gematcht met de meest relevante menselijke juryleden.
-
Anonimiteit: Hoewel gebruikers worden gevolgd via geanonimiseerde ID’s om consistentie en betrouwbaarheid te garanderen, verzamelt Rapidata geen persoonlijke identiteiten, waardoor de privacy behouden blijft en de gegevenskwaliteit wordt geoptimaliseerd.
Online RLHF: overstappen naar de GPU
De belangrijkste technologische sprong die Rapidata mogelijk maakt, is wat Corkill omschrijft als “online RLHF”. Traditioneel wordt AI getraind in niet-verbonden batches: je traint het model, stopt, stuurt gegevens naar mensen, wacht weken op labels en gaat dan verder. Hierdoor ontstaat een ‘cirkel’ van informatie waarin vaak geen nieuwe menselijke inbreng aanwezig is.
Rapidata verplaatst dit oordeel rechtstreeks naar de trainingslus. Omdat hun netwerk zo snel is, kunnen ze via API rechtstreeks worden geïntegreerd met de GPU’s waarop het model draait.
“We hebben altijd het idee gehad van versterkend leren voor menselijke feedback… tot nu toe heb je het altijd in batches moeten doen”, zei Corkill. “Nu, als je helemaal naar beneden gaat, hebben we nu een paar klanten waar we, omdat we zo snel zijn, direct, eigenlijk in het proces, kunnen zijn, zoals in de processor direct op de GPU, en de GPU berekent wat output, en het kan ons onmiddellijk op een gedistribueerde manier verzoeken. ‘Oh, ik heb, ik heb, ik heb een mens nodig om hiernaar te kijken.’ Ik krijg het antwoord en pas dan het verlies toe, wat tot nu toe niet mogelijk was”.
Momenteel ondersteunt het platform ongeveer 5.500 mensen per minuut door live feedback te geven aan modellen die op duizenden GPU’s draaien. Dit voorkomt ‘beloningsmodel-hacking’, waarbij twee AI-modellen elkaar voor de gek houden in een feedbackloop, door de training te baseren op daadwerkelijke menselijke nuances.
Product: Oplossing volgens smaak en mondiale context
Terwijl AI verder gaat dan eenvoudige objectherkenning naar generatieve media, zijn de vereisten voor het labelen van gegevens geëvolueerd van objectieve tagging naar subjectieve ‘op smaak gebaseerde’ curatie. Het gaat niet langer alleen om “is dit een kat?” maar eerder “is deze stemsynthese overtuigend?” of “welke van deze twee samenvattingen voelt professioneler aan?”.
Lily Clifford, CEO van voice AI startup Rime, merkt op dat Rapidata transformatief is geweest voor het testen van modellen in de echte wereld. “In het verleden betekende het verzamelen van betekenisvolle feedback het verzamelen van leveranciers en enquêtes, segment voor segment of land voor land, die niet schaalbaar zijn”, aldus Clifford. Met behulp van Rapidata kan Rime de juiste doelgroepen bereiken – of dat nu in Zweden, Servië of de VS is – en zien hoe modellen presteren in echte klantworkflows in dagen, in plaats van maanden.
“De meeste modellen zijn feitelijk correct, maar ik weet zeker dat je e-mails hebt gekregen die, weet je, niet authentiek aanvoelen, toch?” merkte Corkill op. “Je ruikt een AI-e-mail, je ruikt een AI-beeld of een video, het is je meteen duidelijk… deze modellen voelen nog steeds niet menselijk aan en daarvoor heb je menselijke feedback nodig.”
De financiële en operationele shift
Vanuit operationeel oogpunt positioneert Rapidata zichzelf als een infrastructuurlaag die de noodzaak voor bedrijven elimineert om hun eigen aangepaste annotatiebewerkingen te beheren. Door een schaalbaar netwerk aan te bieden, verlaagt het bedrijf de toegangsdrempel voor AI-teams die voorheen worstelden met de kosten en complexiteit van traditionele feedbackloops.
Jared Newman van Canaan Partners, die de investering leidde, suggereert dat deze infrastructuur van cruciaal belang is voor de volgende generatie kunstmatige intelligentie. “Elke serieuze AI-implementatie is ergens in de levenscyclus afhankelijk van menselijk oordeel”, zegt Newman. “Naarmate modellen overgaan van op expertise gebaseerde taken naar op smaak gebaseerde curatie, zal de vraag naar schaalbare menselijke feedback dramatisch groeien”.
Een toekomst voor menselijk gebruik
Terwijl de huidige focus ligt op de modelleringslaboratoria in de Bay Area, ziet Corkill een toekomst waarin de AI-modellen zelf de belangrijkste klanten van het menselijk oordeel worden. Hij noemt dit ‘menselijk gebruik’.
In deze visie zou een auto-ontwerper AI niet zomaar een generiek voertuig genereren; het zou Rapidata programmatisch kunnen bellen om 25.000 mensen op de Franse markt te vragen wat zij van een specifieke esthetiek vonden, die feedback te herhalen en het ontwerp binnen enkele uren te verfijnen.
“De samenleving verandert voortdurend”, merkte Corkill op, waarmee hij inging op de trend om AI te gebruiken om menselijk gedrag te simuleren. “Als ze nu een samenleving simuleren, zal de simulatie een paar maanden stabiel zijn en misschien een spiegelbeeld zijn van de onze, maar daarna verandert het volledig omdat de samenleving is veranderd en zich totaal anders heeft ontwikkeld”.
Door een gedistribueerde, programmatische manier te creëren om wereldwijd toegang te krijgen tot de menselijke hersencapaciteit, positioneert Rapidata zichzelf als de vitale schakel tussen silicium en de samenleving. Met 8,5 miljoen dollar aan nieuwe financiering is het bedrijf van plan agressief te werk te gaan om ervoor te zorgen dat naarmate de AI zich verder uitbreidt, het menselijke element niet langer een knelpunt is, maar een realtime kenmerk.


