Home Nieuws TTT-Discover optimaliseert GPU-kernen 2x sneller dan menselijke experts – door te trainen...

TTT-Discover optimaliseert GPU-kernen 2x sneller dan menselijke experts – door te trainen onder gevolgtrekking

3
0
TTT-Discover optimaliseert GPU-kernen 2x sneller dan menselijke experts – door te trainen onder gevolgtrekking

Onderzoekers van Stanford, Nvidia en Together AI hebben een nieuwe techniek ontwikkeld waarmee nieuwe oplossingen voor zeer complexe problemen kunnen worden ontdekt. Ze zijn er bijvoorbeeld in geslaagd een kritische GPU-kern te optimaliseren zodat deze 2x sneller werkt dan de vorige state-of-the-art, geschreven door menselijke experts.

Hun techniek, genaamd “Test-Time Training om te ontdekken” (TTT-Discover), daagt het huidige paradigma uit om modellen “langer te laten nadenken” over redeneerproblemen. TTT-Discover stelt het model in staat om door te gaan met trainen tijdens het gevolgtrekkingsproces en de gewichten voor het huidige probleem bij te werken.

De grenzen van het ‘bevroren’ redeneren

De huidige AI-strategieën voor ondernemingen zijn vaak gebaseerd op ‘bevroren’ modellen. Of u nu een gesloten of open redeneermodel gebruikt, de parameters van het model zijn statisch. Wanneer je deze modellen vraagt, zoeken ze naar antwoorden binnen het vaste spruitstuk van hun trainingsgegevens. Dit werkt goed voor problemen die vergelijkbaar zijn met wat het model eerder heeft gezien.

Maar echte ontdekkingsproblemen, zoals het bedenken van een nieuw algoritme of het bewijzen van een nieuwe wiskundige stelling, vallen per definitie buiten de distributie. Als de oplossing een logische sprong vereist die niet in de trainingsset wordt gevonden, zal een bevroren model waarschijnlijk mislukken, ongeacht hoeveel rekenwerk je er tijdens de inferentie aan toevoegt.

In commentaar op VentureBeat illustreerde Mert Yuksekgonul, co-auteur van het artikel en promovendus aan Stanford, dit onderscheid aan de hand van een beroemde wiskundige doorbraak:

“Ik geloof dat modeldenkers bijvoorbeeld P != NP niet zouden kunnen bewijzen zonder testuurtraining, net zoals Andrew Wiles de laatste stelling van Fermat niet zou kunnen bewijzen zonder de zeven jaar die hij besteedde aan het geïsoleerd onderzoeken van dit ene probleem en voortdurend leren van zijn eigen fouten.”

TTT-Discover behandelt het testprobleem niet als een vraag die beantwoord moet worden, maar als een omgeving die beheerst moet worden. Wanneer het model het probleem probeert op te lossen, genereert het verschillende soorten gegevens: fouten, gedeeltelijke successen en mislukkingen. In plaats van deze gegevens weg te gooien, gebruikt TTT-Discover deze om de gewichten van het model in realtime bij te werken, waardoor het model zich effectief kan concentreren op de specifieke uitdaging, in plaats van een zeer algemeen raamwerk voor probleemoplossing te ontwikkelen.

Een andere benadering van versterkend leren

TTT-Discover zorgt voor een fundamentele verandering in de manier waarop redeneermodellen worden getraind. Bij standaard training voor versterkend leren (RL) is het doel een generalistisch beleid dat gemiddeld goed presteert bij veel taken. Bij TTT-Discover is het doel om de beste oplossing te vinden voor een heel specifiek probleem, en het beleid is volgens de auteurs “een middel daartoe”. Zodra het model het artefact (dat wil zeggen de geoptimaliseerde code, het bewijs of het molecuul) detecteert, kan het neurale netwerk dat het produceerde, worden weggegooid.

Om dit te bereiken hebben de onderzoekers twee specifieke componenten ontworpen die TTT-Discover onderscheiden van standaard versterkend leren:

  1. Entropische doelstelling: Standaard RL optimaliseert voor de gemiddelde verwachte beloning. Als een model een riskant pad probeert en faalt, bestraft de standaard-RL het model. TTT-Discover draait dit om. Het maakt gebruik van een “entropische maatstaf” die hoge beloningsresultaten exponentieel weegt. Dit dwingt het model om ‘veilige’, gemiddelde antwoorden te negeren en agressief op zoek te gaan naar ‘eureka’-uitschieters: oplossingen waarvan de kans klein is dat ze worden gevonden, maar die een enorme beloning bieden.

  2. PUCT-zoekopdracht: Het systeem introduceert PUCT, een boomzoekalgoritme geïnspireerd op AlfaZero. Het onderzoekt verschillende oplossingspaden en bouwt een dataset van proeven op. Het model traint vervolgens in realtime op deze dataset en leert herkennen welke substappen tot resultaten met hoge beloningen leiden.

Cruciaal is dat deze methode het beste werkt bij problemen met een continu beloningssignaal. Het systeem heeft een manier nodig om de incrementele voortgang te meten, zoals ‘runtime in microseconden’ of ‘error rate’ in plaats van een binair ‘pass/fail’-signaal. Hierdoor kan het model de geleidelijke verbetering richting de optimale oplossing volgen.

De economie aan het ‘zware einde’

Voor bedrijven die gewend zijn om fracties van een cent per API-oproep te betalen, vereist het kostenprofiel van TTT-Discover een mentaliteitsverandering. In hun experimenten rapporteerden de onderzoekers dat een enkele ontdekkingsrun ongeveer 50 trainingsstappen en duizenden implementaties omvat, wat ongeveer $ 500 per run kost. probleem.

TTT-Discover zou geschikt kunnen zijn voor ‘statische activa van hoge waarde’, in tegenstelling tot triviale en terugkerende problemen die kunnen worden opgelost met bestaande modellen en benaderingen.

Stel je een cloud-native bedrijf voor dat een datapijplijn beheert die ’s nachts petabytes aan informatie verwerkt. Als deze pijplijn afhankelijk is van een specifieke SQL-query of GPU-kern, kan het optimaliseren van deze code met slechts 1% honderdduizenden dollars aan jaarlijkse rekenkosten besparen. In deze context is het uitgeven van €500 om een ​​kern te vinden die 50% sneller is een triviale uitgave met een onmiddellijke ROI.

“Dit is het meest logisch voor laagfrequente beslissingen met een hoge impact, waarbij een enkele verbetering veel meer waard is dan de rekenkosten,” zei Yuksekgonul. “Supply chain routing, medicijnontwerp en materiaalontdekking komen in aanmerking. In deze omstandigheden kan het gemakkelijk de moeite waard zijn om honderden dollars uit te geven aan een enkele ontdekkingsstap.”

Implementatieoverwegingen

Een van de belangrijkste uitkomsten voor de acceptatie door ondernemingen is dat TTT-Discover geen eigen grensmodel vereist. De onderzoekers verkregen state-of-the-art resultaten met behulp van gpt-oss-120bOpenAI’s model met open gewichten. De onderzoekers hebben heeft de code vrijgegeven voor TTT-Discover zodat onderzoekers en ontwikkelaars het voor hun eigen modellen kunnen gebruiken.

Omdat de techniek met open modellen werkt, kunnen bedrijven deze ‘ontdekkingslus’ volledig binnen hun eigen beveiligde VPC’s of on-premise H100-clusters uitvoeren zonder hun bedrijfseigen gegevens naar servers van derden te sturen.

“Als een bedrijf al versterkend leren uitvoert, is er geen extra infrastructuur nodig”, zei Yuksekgonul. “TTT-Discover gebruikt dezelfde trainingsstack (GPU’s, deploymentworkers, optimizers, checkpointing).”

Als ze RL nog niet gebruiken, zouden ze die infrastructuur moeten bouwen. Maar bedrijven kunnen ook bestaande oplossingen gebruiken om de complexiteit van het proces te verminderen. De onderzoekers orkestreerden deze trainingsruns met behulp van Tinker-API door Thinking Machines, een API die de complexiteit van gedistribueerde training en gevolgtrekking beheert.

“Tools zoals Tinker (en open varianten, zoals OpenTinker) verlagen de installatiekosten, en zowel de arbeids- als de computerkosten zullen waarschijnlijk in de loop van de tijd afnemen”, zei hij.

Gebruik cases uit de echte wereld

De onderzoekers implementeerden TTT-Discover in vier verschillende technische domeinen: systeemtechniek, algoritmeontwerp, biologie en wiskunde. In vrijwel alle gevallen zorgde de methode voor een nieuwe state-of-the-art.

In één experiment optimaliseerde het model GPU-kernen voor matrixvermenigvuldiging (inclusief de “TriMul”-kern die werd gebruikt in AlphaFold), behaalt uitvoeringssnelheden die tot 2x sneller zijn dan eerdere state-of-the-art en presteert beter dan de beste door mensen geschreven kernels in de ranglijst.

TTT-Ontdek het GPU-kernontwerp

TTT-Discover ontdekt SOTA GPU-kern (bron: arXiv)

In concurrerende programmeerscenario’s (BijCoder), loste het complexe heuristische problemen (bijvoorbeeld het optimaliseren van geometrische beperkingen voor visnetten) beter op dan menselijke topexperts en eerdere AI-basislijnen.

Voor ondernemingen hangt de overgang van deze academische benchmarks naar bedrijfswaarde af van één specifieke beperking: het bestaan ​​van een verifieerbaar, scalair signaal. In tegenstelling tot een chatbot die tekst genereert, heeft TTT-Discover een harde maatstaf nodig (bijvoorbeeld runtime, foutenpercentage of winstmarge) om tegen te optimaliseren.

Yuksekgonul zei dat deze eis een duidelijke grens trekt tussen waar deze technologie wel en niet mag worden gebruikt. “Momenteel is de belangrijkste vereiste een betrouwbaar scalair signaal van vooruitgang – kosten, fouten, moleculaire eigenschappen – waartegen het systeem kan optimaliseren,” zei hij.

Dit stimuleert de adoptie van bedrijven richting ‘harde’ technische en operationele uitdagingen zoals logistiek, supply chain en resource management, waarbij problemen zoals vlootroutering of bemanningsplanning vaak afhankelijk zijn van statische heuristieken. TTT-Discover kan deze behandelen als optimalisatieomgevingen en urenlang zoeken naar een routestructuur die 5% korting geeft op de dagelijkse brandstofkosten.

De eis van duidelijke verificatiepunten sluit kwalitatieve taken uit zoals “het schrijven van een betere marketingstrategie”, waarbij verificatie subjectief is en gevoelig voor ruis.

“Moeilijk te verifiëren problemen zijn nog steeds een open vraag”, zei Yuksekgonul.

Met de huidige technologie is de beste manier om verificateurs te ontwerpen, maar “het robuust en moeilijk te maken van deze verificateurs maken is een uitdaging, en we hebben nog geen goede oplossing”, voegde hij eraan toe.

Van conclusie tot uitvinding

De bredere implicatie is dat AI-stacks van ondernemingen mogelijk moeten evolueren om dit soort leren op zichzelf te ondersteunen. probleem.

“Systemen die rond een bevroren model zijn gebouwd, moeten maatwerk per probleem (of per domein) ondersteunen, en bedrijven zullen betere probleemspecificaties en interne feedbacksignalen nodig hebben om leren van uur tot uur effectief te maken”, aldus Yuksekgonul. “Als de training plaatsvindt in een particuliere VPC, kan de trainingslus ook worden geïntegreerd met een groter deel van de interne omgeving van het bedrijf, niet alleen met een centrale laboratoriumpijplijn.”

Voor het bedrijf ligt de waarde in het identificeren van ‘miljoenendollarproblemen’, optimalisatie-uitdagingen waarbij een verifieerbare maatstaf bestaat, maar de menselijke vooruitgang tot stilstand is gekomen. Dit zijn de kandidaten voor TTT-Discover. Door hogere latentie en kosten voor specifieke vragen te accepteren, kunnen bedrijven hun inferentiële computergebruik omzetten in een geautomatiseerd R&D-laboratorium, waarmee oplossingen worden ontdekt die voorheen buiten bereik waren van zowel mensen als bevroren AI-modellen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in