Patronus AIde startup voor de evaluatie van kunstmatige intelligentie, ondersteund door 20 miljoen dollar van investeerders incl Lightspeed Venture-partners En Computerhondheeft dinsdag een nieuwe trainingsarchitectuur onthuld die volgens haar een fundamentele verschuiving vertegenwoordigt in de manier waarop AI-agenten complexe taken leren uitvoeren.
De technologie, die het bedrijf ‘Generatieve simulatoren”, creëert adaptieve simulatieomgevingen die voortdurend nieuwe uitdagingen genereren, regels dynamisch bijwerken en de prestaties van een agent evalueren terwijl deze leert – en dat allemaal in realtime. De aanpak wijkt af van de statische benchmarks die lange tijd hebben gediend als de industriestandaard voor het meten van AI-mogelijkheden, maar die steeds meer onder vuur komen te liggen omdat ze er niet in slagen de prestaties in de echte wereld te voorspellen.
“Traditionele benchmarks meten geïsoleerde mogelijkheden, maar missen de onderbrekingen, contextwisselingen en gelaagde besluitvorming die echt werk definiëren”, zegt Anand Kannappan, CEO en medeoprichter van Patronus AI, in een exclusief interview met VentureBeat. “Als agenten op menselijk niveau willen presteren, moeten ze leren hoe mensen dat doen, door middel van dynamische ervaring en voortdurende feedback.”
De aankondiging komt op een cruciaal moment voor de AI-industrie. AI-agenten hervormen de softwareontwikkeling, van het schrijven van code tot het uitvoeren van complexe instructies. Op LLM gebaseerde agents zijn echter foutgevoelig en presteren vaak slecht bij complexe taken die uit meerdere stappen bestaan. Uit eerder dit jaar gepubliceerd onderzoek bleek dat een agent er maar één heeft 1% foutenpercentage per stap kan bij de honderdste stap toenemen tot 63% kans op falen – een ontnuchterende statistiek voor bedrijven die autonome AI-systemen op grote schaal willen inzetten.
Waarom statische AI-benchmarks falen – en wat daarna komt
De aanpak van Patronus AI richt zich op wat het bedrijf beschrijft als een groeiende discrepantie tussen de manier waarop AI-systemen worden geëvalueerd en hoe ze daadwerkelijk presteren in de productie. Traditionele benchmarks, zo betoogt het bedrijf, werken als gestandaardiseerde tests: ze meten specifieke vaardigheden op een vast tijdstip, maar hebben moeite om de rommelige, onvoorspelbare aard van echt werk vast te leggen.
De nieuwe Generatieve simulatoren architectuur keert dit model om. In plaats van agenten een vaste reeks vragen voor te leggen, genereert het systeem on-the-fly taken, omgevingsomstandigheden en toezichtprocessen en past het zich vervolgens aan op basis van hoe de agent zich gedraagt.
“Het afgelopen jaar hebben we een verschuiving gezien van traditionele statische benchmarks naar meer interactieve leeromgevingen”, vertelde Rebecca Qian, chief technology officer en mede-oprichter van Patronus AI, aan VentureBeat. “Dat komt deels door de innovatie die we bij modelontwikkelaars hebben gezien: de verschuiving naar versterkend leren, bijscholing en continu leren en weg van begeleide instructieaanpassing. Dat betekent dat er een breuk is ontstaan in het onderscheid tussen training en evaluatie. Benchmarks zijn omgevingen geworden.”
De technologie is gebaseerd op versterkend leren – een aanpak waarbij AI-systemen met vallen en opstaan leren, beloningen ontvangen voor correcte acties en straffen voor fouten. Reinforcement learning is een aanpak waarbij AI-systemen leren optimale beslissingen te nemen door beloningen of straffen te ontvangen voor hun acties die met vallen en opstaan verbeteren. RL kan agenten helpen verbeteren, maar vereist doorgaans dat ontwikkelaars hun code uitgebreid herschrijven. Dit ontmoedigt de adoptie, ook al kunnen de gegevens die door deze agenten worden gegenereerd de prestaties aanzienlijk verbeteren via RL-training.
Patronus AI introduceerde ook een nieuw concept dat het “Open recursieve zelfverbetering“of ORSI – omgevingen waar agenten voortdurend kunnen verbeteren door interactie en feedback zonder dat een volledige hertrainingscyclus tussen tests nodig is. Het bedrijf positioneert dit als een kritieke infrastructuur voor de ontwikkeling van AI-systemen die in staat zijn om voortdurend te leren in plaats van op een gegeven moment te worden bevroren.
Binnen de ‘Goldilocks Zone’: hoe adaptieve AI-training de goede plek vindt
In het hart van Generatieve simulatoren ligt wat Patronus AI een ‘curriculum-aanpasser’ noemt – een component die het gedrag van agenten analyseert en op dynamische wijze de moeilijkheidsgraad en aard van trainingsscenario’s verandert. De aanpak is geïnspireerd op de manier waarop effectieve menselijke leraren hun onderwijs aanpassen op basis van de prestaties van hun leerlingen.
Qian legde de aanpak uit met behulp van een analogie: “Je kunt dit zien als een leraar-leerlingmodel, waarbij we het model trainen en de professor het curriculum voortdurend aanpast.”
Deze adaptieve aanpak pakt een probleem aan dat Kannappan omschreef als het vinden van de ‘Goudlokje-zone’ in trainingsgegevens – en zorgt ervoor dat voorbeelden niet te gemakkelijk of te moeilijk zijn voor een bepaald model om effectief van te leren.
“Wat belangrijk is, is niet alleen of je kunt trainen op een dataset, maar ook of je kunt trainen op een dataset van hoge kwaliteit die is afgestemd op jouw model – een dataset waar je daadwerkelijk van kunt leren”, aldus Kannappan. “We willen ervoor zorgen dat de voorbeelden niet te moeilijk of te gemakkelijk zijn voor het model.”
Het bedrijf zegt dat de eerste resultaten betekenisvolle verbeteringen in de prestaties van agenten laten zien. Training in de omgevingen van Patronus AI heeft volgens het bedrijf het voltooiingspercentage van taken met 10% tot 20% verhoogd voor taken in de echte wereld, waaronder softwareontwikkeling, klantenservice en financiële analyse.
Het AI-cheatprobleem: hoe ‘Moving Target’-omgevingen beloningshacking voorkomen
Een van de meest hardnekkige uitdagingen bij het trainen van AI-agenten door middel van versterkend leren is een fenomeen dat onderzoekers noemen “beloning hacken“-waar systemen leren mazen in hun trainingsomgeving te misbruiken in plaats van problemen daadwerkelijk op te lossen. Beroemde voorbeelden zijn onder meer vroege agenten die leren zich te verstoppen in hoeken van videogames in plaats van ze daadwerkelijk te spelen.
Generatieve simulatoren lossen dit op door van de trainingsomgeving zelf een bewegend doelwit te maken.
“Het hacken van beloningen is een fundamenteel probleem als systemen statisch zijn. Het is net alsof studenten leren vals te spelen tijdens een toets”, zegt Qian. “Maar als we de omgeving voortdurend ontwikkelen, kunnen we feitelijk kijken naar delen van het systeem die moeten worden aangepast en ontwikkeld. Statische benchmarks zijn vaste doelen; generatieve simulatoromgevingen zijn bewegende doelen.”
Patronus AI rapporteert een omzetgroei van 15x naarmate de vraag van bedrijven naar training van agenten toeneemt
Patronus AI positioneert Generative Simulators als de basis van een nieuwe productlijn die het “RL-omgevingen“- oefenterreinen ontworpen voor basismodellaboratoria en bedrijven die agenten bouwen voor specifieke domeinen. Het bedrijf zegt dat dit aanbod een strategische uitbreiding vertegenwoordigt die verder gaat dan de oorspronkelijke focus op evaluatie-instrumenten.
“We zijn dit jaar in omzet vijftien keer gegroeid, grotendeels dankzij de hoogwaardige omgevingen die we hebben ontwikkeld en die extreem leerbaar zijn gebleken door verschillende soorten grensmodellen”, aldus Kannappan.
De CEO weigerde absolute omzetcijfers te geven, maar zei dat het nieuwe product het bedrijf in staat heeft gesteld “hoger op de stapel te komen in termen van waar we verkopen en aan wie we verkopen.” Het platform van het bedrijf wordt gebruikt door talloze Fortune 500-bedrijven en toonaangevende AI-bedrijven over de hele wereld.
Waarom OpenAI, Anthropic en Google niet alles in eigen huis kunnen bouwen
Een centrale vraag Patronus AI Dat is de reden waarom de diepe zakken die grensmodellen ontwikkelen – organisaties houden ervan Open AI, AntropischEn Google Deepmind – onderwijsinfrastructuur in licentie zouden geven in plaats van deze zelf te bouwen.
Kannappan erkende dat deze bedrijven “aanzienlijk investeren in omgevingen”, maar voerde aan dat de breedte van de domeinen die gespecialiseerde training vereisen een natuurlijke opening creëert voor externe leveranciers.
“Ze willen agenten in veel verschillende domeinen verbeteren, of het nu gaat om coderen of het gebruik van tools of het navigeren door browsers of workflows in de financiële wereld, de gezondheidszorg, de energiesector en het onderwijs”, zegt hij. “Het oplossen van alle verschillende operationele problemen is voor één bedrijf erg moeilijk.”
Het concurrentielandschap wordt steeds intenser. Microsoft heeft onlangs uitgebracht Agent Lyneen open source-framework dat versterkend leren voor elke AI-agent laat werken zonder herschrijvingen. NVIDIA’s Nemo-sportschool biedt modulaire RL-infrastructuur voor het ontwikkelen van agentische AI-systemen. Metaswetenschappers vrijgelaten DroomGym in november een raamwerk dat RL-omgevingen simuleert en de moeilijkheidsgraad van taken dynamisch aanpast naarmate agenten verbeteren.
‘Omgevingen zijn de nieuwe olie’: Patronus AI’s gedurfde onderneming in de toekomst van AI-training
Wat de toekomst betreft, vervult de Patronus AI zijn missie in verregaande termen. Het bedrijf wil “alle gegevens van de wereld op milieuvriendelijke wijze verwerken” en menselijke workflows omzetten in gestructureerde systemen waar AI van kan leren.
“Wij geloven dat alles een milieu zou moeten zijn – intern maken we grapjes dat het milieu de nieuwe olie is,” zei Kannappan. “Versterkend leren is slechts één trainingsmethode, maar de constructie van een omgeving is waar het echt om gaat.”
Qian beschreef de mogelijkheid in uitgebreide bewoordingen: “Dit is een compleet nieuw onderzoeksgebied dat niet elke dag voorkomt. Generatieve simulatie is geïnspireerd op vroeg onderzoek op het gebied van robotica en belichaamde agenten. Het is al tientallen jaren een droom, en we zijn nu pas in staat om deze ideeën te verwezenlijken dankzij de mogelijkheden van de hedendaagse modellen.”
Het bedrijf werd in september 2023 gelanceerd met de nadruk op evaluatie: het helpen van bedrijven bij het identificeren van hallucinaties en veiligheidsproblemen bij AI-output. Die missie is nu stroomopwaarts uitgebreid naar de training zelf. Patronus AI betoogt dat de traditionele scheiding tussen evaluatie en training aan het verdwijnen is – en dat degene die de omgeving controleert waarin AI-agenten leren, hun capaciteiten zal vormgeven.
“We bevinden ons echt op dit kritieke punt, dit omslagpunt, waar wat we nu doen van invloed zal zijn op hoe de wereld er de komende generaties uit zal zien”, zei Qian.
Ontstoken Generatieve simulatoren die belofte waar kan maken, zullen we moeten zien. De vijftienvoudige omzetgroei van het bedrijf suggereert dat zakelijke klanten hongerig zijn naar oplossingen, maar dat spelers met grote zakken uit Microsoft naar Meta racen om hetzelfde fundamentele probleem op te lossen. Als de afgelopen twee jaar de industrie iets hebben geleerd, is het dat de toekomst in AI de gewoonte heeft om voor te lopen op het schema.


