Wetenschappers weten het Meta EERLIJK en dat Nationale Universiteit van Singapore hebben een nieuw raamwerk voor versterkend leren ontwikkeld voor zelfverbeterende AI-systemen.
Genaamd Zelf spelen in Corpus-omgevingen (SPICE)het raamwerk zet twee AI-agenten tegenover elkaar, creëert zijn eigen uitdagingen en verbetert geleidelijk zonder menselijk toezicht.
Hoewel dit momenteel een proof-of-concept is, zou dit zelfspeelmechanisme de basis kunnen vormen van toekomstige AI-systemen die zich dynamisch kunnen aanpassen aan hun omgeving, waardoor ze robuuster worden tegen de onvoorspelbaarheid van toepassingen in de echte wereld.
De uitdaging van zelfverbetering van AI
Het doel van zelfverbetering van AI is om systemen te creëren die dat kunnen hun vaardigheden verbeteren door interactie met hun omgeving.
Een veel voorkomende aanpak is versterkend leren met verifieerbare beloningen (RLVR), waarbij modellen worden beloond voor het geven van correcte antwoorden op problemen. Dit wordt vaak beperkt door de afhankelijkheid van door mensen beheerde probleemsets en domeinspecifieke beloningstechniek, waardoor het moeilijk is om op te schalen.
Zelfspel, waarbij een model verbetert door met zichzelf te concurreren, is een ander veelbelovend paradigma. De bestaande zelfspeelmethoden voor taalmodellen worden echter vaak beperkt door twee kritische factoren.
-
Ffeitelijke fouten in gegenereerde vragen en antwoorden verergeren, wat leidt tot een feedbackloop van hallucinaties.
-
Wanneer de probleemgenerator en de probleemoplosser informatiesymmetrie hebben (dwz dezelfde kennisbasis delen), slagen ze er niet in om echte nieuwe uitdagingen te genereren en vervallen ze in repetitieve patronen.
Zoals de onderzoekers in hun artikel opmerken: “Deze systematische empirische fouten geven aan dat zelfverbetering interactie vereist met een externe bron die diverse, verifieerbare feedback biedt, in plaats van pure introspectie met een gesloten lus.”
Hoe SPICE werkt
SPICE is een zelfspeelraamwerk waarbij één enkel model in twee verschillende rollen verschijnt.
-
Een “Challenger” stelt een syllabus samen met uitdagende problemen uit een groot corpus aan documenten.
-
Een “Reasoner” probeert vervolgens deze problemen op te lossen zonder toegang tot de brondocumenten.
Deze opzet doorbreekt de informatiesymmetrie die andere zelfspeelmethoden beperkt, aangezien de Reasoner geen toegang heeft tot de documenten en kennis die de Challenger gebruikt om de problemen te genereren.
Het onderbrengen van de taken in een groot en divers corpus van documenten voorkomt hallucinaties door vragen en antwoorden te verankeren in de inhoud uit de echte wereld. Dit is belangrijk omdat AI-systemen zichzelf betrouwbaar kunnen verbeteren als ze externe aardingsbronnen nodig hebben. Daarom moeten LLM-agenten leren van interacties met mensen en de echte wereld, en niet alleen van hun eigen resultaten, om samengestelde fouten te voorkomen.
De conflicterende dynamiek tussen de twee rollen creëert een automatisch curriculum.
De Uitdager wordt beloond voor het creëren van problemen die zowel divers zijn als op de grens van de capaciteiten van de Redenaar liggen (niet te gemakkelijk of onmogelijk).
De redeneerder wordt beloond voor het juiste antwoord. Deze symbiotische interactie dwingt beide agenten om voortdurend nieuwe uitdagingen te ontdekken en te overwinnen.
Omdat het systeem onbewerkte documenten gebruikt in plaats van vooraf gedefinieerde vraag-antwoordparen, kan het verschillende taakformaten genereren, zoals meerkeuzevragen en vragen in vrije vorm.
Dankzij deze flexibiliteit kan SPICE op elk domein worden toegepast, waardoor het knelpunt wordt doorbroken dat eerdere methoden beperkte tot beperkte vakgebieden zoals wiskunde en code. Het vermindert ook de afhankelijkheid van dure, door mensen samengestelde datasets voor gespecialiseerde domeinen zoals juridische of medische analyse.
SPIJS in actie
De onderzoekers evalueerden SPICE op verschillende basismodellen, o.a Qwen3-4B-basis En OctoThinker-3B-Hybride-Base.
Ze vergeleken de prestaties met basislijnen zoals het basismodel zonder training, een Reasoner-model getraind met een vaste “Strong Challenger” (Qwen3-32B-Instruct) en pure zelfspeelmethoden zoals R-Zero en Absolute Zero. De evaluatie omvatte een breed scala aan wiskundige en algemene redeneringsbenchmarks.
In alle modellen presteerde SPICE consistent beter dan de basislijnen en leverde het aanzienlijke verbeteringen op in zowel wiskundige als algemene redeneertaken.
De resultaten laten zien dat de redeneervaardigheden die door corpus-gebaseerd zelfspel zijn ontwikkeld, breed worden overgedragen in verschillende modellen, dankzij de verschillende externe kenniscorpus die ze gebruikten.
Een belangrijke bevinding is dat de conflicterende dynamiek een effectief automatisch curriculum creëert. Naarmate de training vordert, leert Challenger steeds moeilijkere problemen te genereren.
In één experiment steeg het slagingspercentage van Reasoner voor een vaste reeks problemen in de loop van de tijd van 55% naar 85%, wat de verbeterde mogelijkheden ervan aantoont.
Ondertussen konden latere versies van Challenger vragen genereren waardoor het slagingspercentage van een Redener in een vroeg stadium daalde van 55% naar 35%, wat bevestigt dat beide rollen zich met succes ontwikkelen.
De onderzoekers concluderen dat deze aanpak een paradigmaverschuiving in zelfverbeterende redeneringsmethoden met zich meebrengt: van ‘closed-loop self-play’ dat vaak stagneert als gevolg van hallucinerende drift naar open-end verbetering door interactie met de enorme, verifieerbare kennis die is ingebed in de corpora van webdocumenten.
Momenteel vertegenwoordigt het corpus dat voor SPICE wordt gebruikt de menselijke ervaring vastgelegd in tekst. Het uiteindelijke doel is dat zelfverbeterende systemen vragen genereren op basis van interacties met de werkelijkheid, inclusief de fysieke wereld, het internet, en menselijke interacties via meerdere modaliteiten zoals video, audio en sensorgegevens.



