Home Nieuws Nieuw agentframework komt overeen met door mensen gemaakte AI-systemen – en voegt...

Nieuw agentframework komt overeen met door mensen gemaakte AI-systemen – en voegt geen gevolgtrekkingskosten toe aan de implementatie

3
0
Nieuw agentframework komt overeen met door mensen gemaakte AI-systemen – en voegt geen gevolgtrekkingskosten toe aan de implementatie

Agents die bovenop de huidige modellen zijn gebouwd, gaan vaak kapot met eenvoudige wijzigingen (een nieuwe bibliotheek, een aanpassing van de workflow) en vereisen een menselijke ingenieur om het probleem op te lossen. Dat is een van de meest hardnekkige uitdagingen bij het implementeren van AI voor ondernemingen: het creëren van agenten die zich kunnen aanpassen aan dynamische omgevingen zonder voortdurend de hand vast te houden. Hoewel de huidige modellen krachtig zijn, zijn ze grotendeels statisch.

Om dit op te lossen hebben onderzoekers van de Universiteit van Californië, Santa Barbara ontwikkeld Groep ontwikkelingsagenten (GEA), een nieuw raamwerk dat groepen AI-agenten in staat stelt samen te evolueren, ervaringen te delen en hun innovaties te hergebruiken om in de loop van de tijd autonoom te verbeteren.

Bij experimenten met complexe codeer- en software-engineeringtaken presteerde GEA aanzienlijk beter dan de bestaande zelfverbeterende raamwerken. Misschien wel het meest opvallend voor de besluitvormers van het bedrijf was dat het systeem onafhankelijk agenten ontwikkelde die de prestaties van raamwerken die zorgvuldig waren ontworpen door menselijke experts evenaren of zelfs overtroffen.

De beperkingen van de ‘lone wolf’-evolutie

De meeste bestaande agentische AI-systemen vertrouw op vaste architecturen ontworpen door ingenieurs. Deze systemen hebben vaak moeite om verder te gaan dan de capaciteitslimieten die hun oorspronkelijke ontwerp oplegde.

Om dit aan te pakken, hebben onderzoekers lang gezocht naar zelfontwikkelende agenten die autonoom hun eigen code en structuur kunnen aanpassen om hun oorspronkelijke beperkingen te overwinnen. Dit vermogen is cruciaal voor het omgaan met open omgevingen, waarin de agent voortdurend nieuwe oplossingen moet verkennen.

Maar de huidige benaderingen van zelf-evolutie hebben een grote structurele tekortkoming. Zoals de onderzoekers in hun artikel opmerken, zijn de meeste systemen geïnspireerd door biologische evolutie en ontworpen rond ‘individueel-gecentreerde’ processen. Deze methoden maken doorgaans gebruik van een boomgestructureerde aanpak: er wordt één enkele ‘ouder’-agent geselecteerd om nakomelingen te produceren, waardoor verschillende evolutionaire takken ontstaan ​​die strikt van elkaar geïsoleerd blijven.

Klassieke zelfontwikkelende agentstructuur (bron: arXiv)

Door deze isolatie ontstaat een silo-effect. Een agent in de ene vertakking heeft geen toegang tot de gegevens, tools of workflows die door een agent in een parallelle vertakking zijn ontdekt. Als een specifieke lijn niet wordt geselecteerd voor de volgende generatie, sterft daarmee elke waardevolle ontdekking die de agent heeft gedaan, zoals een nieuwe debugging-tool of een efficiëntere testworkflow.

In hun artikel betwijfelen de onderzoekers de noodzaak van het vasthouden aan deze biologische metafoor. “AI-agenten zijn geen biologische individuen”, beweren ze. “Waarom zou hun evolutie beperkt blijven door biologische paradigma’s?”

De collectieve intelligentie van groepsevoluerende agenten

GEA verandert het paradigma door een groep actoren, in plaats van een individu, te behandelen als de basiseenheid van de evolutie.

Het proces begint met het selecteren van een groep bovenliggende agenten uit een bestaand archief. Om een ​​gezonde mix van stabiliteit en innovatie te garanderen, selecteert GEA deze agenten op basis van een gecombineerde score van prestaties (vermogen om taken op te lossen) en nieuwheid (hoe verschillend hun capaciteiten zijn van die van anderen).

groep ontwikkelingsagent

Groepsevoluerende agent (GEA) (bron: arXiv)

In tegenstelling tot traditionele systemen waarbij een agent alleen leert van zijn directe ouder, creëert GEA een gedeelde verzameling collectieve ervaringen. Deze pool bevat de evolutionaire sporen van alle leden van de bovenliggende groep, inclusief codewijzigingen, succesvolle oplossingen voor taken en geschiedenis van tooloproepen. Elke agent in de groep heeft toegang tot deze collectieve geschiedenis, waardoor ze kunnen leren van de doorbraken en fouten van hun collega’s.

Een “Reflectiemodule”, aangedreven door een groot taalmodel, analyseert deze collectieve geschiedenis om groepsbrede patronen te identificeren. Als de ene agent bijvoorbeeld een krachtige foutopsporingstool ontdekt terwijl een andere agent een testworkflow perfectioneert, haalt het systeem beide inzichten eruit. Op basis van deze analyse genereert het systeem ‘evolutierichtlijnen’ op hoog niveau die de creatie van de kindgroep begeleiden. Dit zorgt ervoor dat de volgende generatie de gecombineerde krachten van al hun ouders bezit, in plaats van alleen de eigenschappen van één enkele lijn.

GEA

Hoe GEA ontwikkelingsfuncties selecteert en deelt (bron: arXiv)

Deze bijenkorf-mind-aanpak werkt echter het beste als succes objectief is, zoals bij codeertaken. “Voor minder deterministische domeinen (bijvoorbeeld creatieve generatie) zijn evaluatiesignalen zwakker”, vertelden Zhaotian Weng en Xin Eric Wang, co-auteurs van het artikel, in schriftelijke commentaren aan VentureBeat. “Het blindelings delen van resultaten en ervaringen kan ervaringen van lage kwaliteit introduceren die als ruis fungeren. Dit suggereert de behoefte aan sterkere mechanismen voor het filteren van ervaringen” voor subjectieve taken.

GEA in actie

De onderzoekers testten de GEA tegen de huidige state-of-the-art zelfontwikkelende basislijn, de Darwin Godel-machine (DGM), op twee strenge benchmarks. De resultaten lieten een enorme sprong in capaciteit zien zonder dat het aantal gebruikte middelen toenam.

Deze gezamenlijke aanpak maakt het systeem ook robuuster tegen storingen. In hun experimenten hebben de onderzoekers agenten opzettelijk kapot gemaakt door handmatig fouten in hun implementaties te injecteren. GEA kon deze kritieke fouten in gemiddeld 1,4 iteraties herstellen, terwijl de basislijn vijf iteraties in beslag nam. Het systeem maakt effectief gebruik van de ‘gezonde’ leden van de groep om de gecompromitteerde leden te diagnosticeren en te patchen.

Op SWE-bench Verified, een benchmark bestaande uit echte GitHub-problemen inclusief bugs en functieverzoeken, behaalde GEA een succespercentage van 71,0% vergeleken met de 56,7% in de basislijn. Dit vertaalt zich in een aanzienlijke toename van de autonome engineeringdoorvoer, wat betekent dat agenten veel beter in staat zijn om het echte softwareonderhoud af te handelen. Op dezelfde manier scoorde GEA op Polyglot, dat het genereren van code in verschillende programmeertalen test, 88,3% vergeleken met de 68,3% in de uitgangssituatie, wat wijst op een hoog aanpassingsvermogen aan verschillende technologieën.

GEA versus DGM

GEA versus Darwin-Godel Machine (DGM) (bron: arXiv)

Voor de R&D-teams van het bedrijf is de meest kritische conclusie dat GEA AI in staat stelt zichzelf net zo effectief te ontwerpen als menselijke ingenieurs. Op de SWE-bank komt het succespercentage van GEA van 71,0% effectief overeen met de prestaties van OpenHandenhet beste door mensen ontworpen open source-framework. Op Polyglot presteerde GEA aanzienlijk beter dan Aider, een populaire codeerassistent, die 52,0% scoorde. Dit suggereert dat organisaties uiteindelijk hun afhankelijkheid van grote teams van agile engineers kunnen verminderen om agentframeworks te verfijnen, omdat de agenten deze optimalisaties zelfstandig kunnen meta-leren.

Deze efficiëntie omvat kostenbeheersing. “GEA is expliciet een systeem in twee fasen: (1) de ontwikkeling van agenten en vervolgens (2) gevolgtrekking/inzet”, aldus de onderzoekers. “Na de evolutie implementeert u één enkele geëvolueerde agent… zodat de kosten aan het einde van de bedrijfscyclus in wezen ongewijzigd blijven ten opzichte van een standaard configuratie met één agent.”

Het succes van GEA is grotendeels te danken aan het vermogen om verbeteringen te consolideren. De onderzoekers volgden specifieke innovaties die door de agenten tijdens het evolutionaire proces waren uitgevonden. In de basisbenadering verschenen waardevolle instrumenten vaak in geïsoleerde takken, maar verspreidden zich niet omdat de specifieke lijnen ophielden. Bij GEA zorgde het gedeelde ervaringsmodel ervoor dat deze tools werden overgenomen door de best presterende agenten. De beste agent-geïntegreerde eigenschappen van GEA van 17 unieke voorouders (die 28% van de bevolking vertegenwoordigen), terwijl de beste basis-agent-geïntegreerde eigenschappen van slechts 9 zijn. In feite creëert GEA een “superwerknemer” die over de gecombineerde best practices van de hele groep beschikt.

“Een door GEA geïnspireerde workflow in de productie zou agenten in staat stellen eerst een paar onafhankelijke oplossingen uit te proberen wanneer er fouten optreden”, legden de onderzoekers uit over dit zelfherstellende vermogen. “Een reflectieagent (meestal aangedreven door een sterk fundamenteel model) kan vervolgens de resultaten samenvatten… en een uitgebreidere systeemupdate begeleiden.”

Bovendien zijn de verbeteringen die GEA heeft ontdekt niet gebonden aan een specifiek onderliggend model. Agenten die met één model waren ontwikkeld, zoals Claude, behielden hun prestatieverbeteringen, zelfs als de onderliggende engine werd overgeschakeld naar een andere modelfamilie, zoals GPT-5.1 of GPT-o3-mini. Deze portabiliteit geeft bedrijven de flexibiliteit om van modelaanbieder te wisselen zonder de aangepaste architecturale optimalisaties te verliezen die hun agenten hebben geleerd.

Voor industrieën met strenge compliance-eisen kan het idee van zelfmodificerende code riskant klinken. Om dit aan te pakken, zeiden de auteurs: “We verwachten dat bedrijfsimplementaties niet-geëvolueerde vangrails bevatten, zoals sandbox-uitvoering, beleidsbeperkingen en verificatielagen.”

Hoewel de onderzoekers van plan zijn de officiële code binnenkort vrij te geven, kunnen ontwikkelaars al beginnen met het conceptueel implementeren van de GEA-architectuur bovenop bestaande agentframeworks. Het systeem vereist drie belangrijke toevoegingen aan een standaard agentenstack: een ‘ervaringsarchief’ om evolutionaire sporen op te slaan, een ‘reflectiemodule’ om groepspatronen te analyseren, en een ‘updatemodule’ waarmee de agent zijn eigen code kan aanpassen op basis van deze inzichten.

Vooruitkijkend zou het raamwerk de ontwikkeling van geavanceerde agenten kunnen democratiseren. “Eén veelbelovende richting zijn hybride evolutionaire pijplijnen”, aldus de onderzoekers, “waar kleinere modellen vroeg onderzoek doen om verschillende ervaringen te verzamelen, en sterkere modellen later de evolutie begeleiden met behulp van die ervaringen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in