Home Nieuws Met Andrej Karpathy’s nieuwe open source ‘autoresearch’ kun je ’s nachts honderden...

Met Andrej Karpathy’s nieuwe open source ‘autoresearch’ kun je ’s nachts honderden AI-experimenten uitvoeren – met revolutionaire implicaties

6
0
Met Andrej Karpathy’s nieuwe open source ‘autoresearch’ kun je ’s nachts honderden AI-experimenten uitvoeren – met revolutionaire implicaties

Andrej Karpathy – de invloedrijke ex-Tesla AI-leider en mede-oprichter en voormalig lid van OpenAI die de term ‘vibe coding’ bedacht – heeft dit weekend gepubliceerd op X over zijn nieuwe open source-project, auto-onderzoek.

Het was geen kant-en-klaar model of een gigantisch bedrijfsproduct: het was, naar eigen zeggen, een eenvoudig script van 630 regels. beschikbaar gesteld op Github onder een tolerante, ondernemingsvriendelijke MIT-licentie. Maar de ambitie was enorm: de wetenschappelijke methode automatiseren met AI-agenten terwijl wij mensen slapen.

“Het doel is om je agenten zodanig te ontwikkelen dat ze voor onbepaalde tijd en zonder je eigen tussenkomst de snelste onderzoeksvoortgang boeken”, verklaarde hij op X.

Het systeem werkt als een autonome optimalisatielus. Een AI-agent krijgt een trainingsscript en een vast rekenbudget (doorgaans 5 minuten op een GPU).

Het leest zijn eigen broncode, vormt een hypothese voor verbetering (zoals het veranderen van een leertempo of een architectuurdiepte), past de code aan, voert het experiment uit en evalueert de resultaten.

Als het validatieverlies – gemeten in bits per byte (val_bpb) – verbetert, het behoudt de verandering; zo niet, dan keert het terug en probeert het opnieuw. IN in één nachtelijke run voltooide Karpathy’s agent 126 experimentenverlies omlaag van 0,9979 naar 0,9697.

Vandaag meldde Karpathy dat hij erin geslaagd was nadat hij de agent twee dagen lang een “diepte=12”-model had laten afstemmen ongeveer 700 autonome wijzigingen verwerkt.

De agent vond ongeveer twintig additieve verbeteringen die perfect bij grotere modellen passen. Door deze veranderingen op elkaar te stapelen daalde de ‘Tijd tot GPT-2’-statistiek op het scorebord van 2,02 uur naar 1,80 uur – een efficiëntiewinst van 11% voor een project waarvan Karpathy dacht dat het al was verfijnd.

“Het is krankzinnig om de agent deze hele workflow end-to-end en helemaal alleen te zien doen,” merkte Karpathy op, en merkte op dat de agent fouten betrapte op het gebied van aandachtschaling en regularisatie die hij handmatig had gemist gedurende twintig jaar werk.

Dit is meer dan alleen een productiviteitshack; het is een fundamentele verandering in de manier waarop intelligentie wordt verfijnd. Door de ‘wetenschappelijke methode’ van code te automatiseren, heeft Karpathy machinaal leren veranderd in een evolutionair proces dat verloopt met de snelheid van silicium in plaats van met de snelheid van het menselijk denken.

En meer nog: het liet de bredere AI- en machine learning-gemeenschap bij X zien dat dit soort processen veel verder dan de informatica kunnen worden toegepast, op gebieden als marketing, gezondheid en, nou ja, eigenlijk alles waarvoor onderzoek nodig is.

Auto-onderzoek verspreidt zich wijd en zijd

De reactie was snel en viraal, waarbij Karpathy’s post in de tussenliggende twee dagen meer dan 8,6 miljoen views kreeg terwijl bouwers en onderzoekers zich haastten om de “Karpathy Loop” op te schalen.

Varun Mathur, CEO van AI-toolaggregatorplatform Hyperspace AI, nam de single-agent-lus en verspreidde deze over een peer-to-peer-netwerk. Elk knooppunt waarop de Hyperspace-agent draaide, werd een onafhankelijke onderzoeker.

In de nacht van 8 op 9 maart voerden 35 autonome agenten op het Hyperspace-netwerk 333 experimenten uit, volledig onbeheerd. De resultaten waren een masterclass in opkomende strategie:

  • Hardwarediversiteit als kenmerkMathur merkte op dat terwijl H100 GPU’s “brute kracht” gebruikten om agressieve leersnelheden te vinden, agenten op laptops die alleen CPU’s gebruikten, gedwongen werden slim te zijn. Deze ‘underdog’-agenten concentreerden zich op initialisatiestrategieën (zoals Kaiming en Xavier init) en normalisatiekeuzes omdat ze niet konden vertrouwen op ruwe doorvoer.

  • Op roddels gebaseerde ontdekking: Met behulp van het GossipSub-protocol deelden agenten hun winsten in realtime. Toen een agent ontdekte dat de Kaiming-initiatie het verlies met 21% verminderde, verspreidde het idee zich als een digitaal virus door het netwerk. Binnen enkele uren hadden 23 andere agenten de ontdekking in hun eigen hypothesen verwerkt.

  • De compressie van de geschiedenis: In slechts 17 uur herontdekten deze agenten zelfstandig ML-mijlpalen – zoals RMSSnorm en gebonden inbedding – waar menselijke onderzoekers in laboratoria als Google Brain en OpenAI bijna acht jaar over deden om ze te formaliseren.

Voer elk jaar 36.500 marketingexperimenten uit in plaats van 30

Terwijl de ML-puristen zich concentreerden op verliescurven, maakte de zakenwereld een ander soort revolutie door. Eric Siu, oprichter van reclamebureau Single Grainauto-onderzoek toegepast op de “Experiment Loop” van marketing.

“De meeste marketingteams voeren ~30 experimenten per jaar uit”, schreef Siu op X. “De volgende generatie zal er 36.500+ uitvoeren. Gemakkelijk.” Hij vervolgde:

“Ze voeren experimenten uit terwijl ze slapen. De huidige marketingteams voeren 20 tot 30 experimenten per jaar uit. Misschien 52 als ze ‘goed’ zijn. Nieuwe landingspagina. Nieuw advertentiemateriaal. Misschien een onderwerpregeltest. Dat wordt beschouwd als ‘datagedreven marketing’. Maar de volgende generatie marketingsystemen zal meer dan 36.500 experimenten per jaar uitvoeren.”

Het raamwerk van Sius vervangt het trainingsscript door een marketingmiddel: een landingspagina, een advertentie of een koude e-mail. De agent verandert een variabele (de onderwerpregel of de CTA), implementeert deze, meet het ‘positieve responspercentage’ en behoudt of gooit deze weg.

Siu beweert dat hierdoor een ‘eigen kaart’ ontstaat van wat resoneert met een specifiek publiek – een gracht die niet is opgebouwd uit code maar uit experimentele geschiedenis. “De bedrijven die winnen, willen geen betere marketeers”, schreef hij, “ze willen snellere experimentloops”.

Communitydiscussie en ‘spoiler’ van de validatieset

Ondanks de hartstocht GitHub-discussies onthulde een samenleving die worstelt met de gevolgen van zo’n snelle, geautomatiseerde vooruitgang.

De valkuil van overoptimalisatie: Onderzoeker alexistuel uitte een aangrijpende zorg: “Ben je niet bang dat het lanceren van zoveel experimenten uiteindelijk de validatieset zal ‘vernietigen’?”. De angst is dat met voldoende agenten de parameters zullen worden geoptimaliseerd voor de specifieke eigenaardigheden van de testgegevens in plaats van voor algemene intelligentie.

De betekenis van de winst: Gebruiker Samionb vroeg zich af of een daling van 0,9979 naar 0,9697 echt merkbaar was. Karpathy’s antwoord was karakteristiek bot: “Het enige wat we doen is de prestaties per computer optimaliseren… dat zijn echte en aanzienlijke voordelen”

Het menselijke element: Op X, gebruiker heksenHoofd Groei op cryptoplatform Yari Financiëndocumenteerden hun eigen nachtelijke run op een Mac Mini M4 en merkten op dat hoewel 26 van de 35 experimenten mislukten of crashten, de zeven die slaagden onthulden dat “het model beter werd door eenvoudiger te worden”.

Dit inzicht – dat minder vaak meer is – kwam tot stand zonder enige menselijke tussenkomst.

De toekomst: nieuwsgierigheid als knelpunt

De introductie van autoresearch suggereert een toekomst van domeinoverschrijdend onderzoek waarin de menselijke rol, dankzij eenvoudige AI-instructiemechanismen, verschuift van ‘experimenten’ naar ‘experimenteel ontwerper’.

Nu tools als DarkMatter, Optimization Arena en NanoClaw opduiken om deze zwerm te ondersteunen, is het knelpunt in de voortgang van AI niet langer het vermogen van de ‘vleescomputer’ (Karpathy’s beschrijving van het menselijk brein) om te coderen – het is ons vermogen om de beperkingen van zoeken te definiëren.

Andrej Karpathy heeft de stemming opnieuw veranderd. We coderen niet langer alleen maar modellen; we zaaien ecosystemen die leren terwijl we slapen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in