Home Nieuws Nous Research’s NousCoder-14B is een open source coderingsmodel dat precies op het...

Nous Research’s NousCoder-14B is een open source coderingsmodel dat precies op het Claude Code-moment belandt

6
0
Nous Research’s NousCoder-14B is een open source coderingsmodel dat precies op het Claude Code-moment belandt

Nous Onderzoekopen source kunstmatige intelligentie-startup ondersteund door het crypto-venturebedrijf Paradigmaheeft maandag een nieuw competitief programmeermodel uitgebracht dat naar eigen zeggen overeenkomt met of beter is dan een aantal grote propriëtaire systemen – in slechts vier dagen getraind met behulp van 48 van de nieuwste Nvidia-systemen B200 grafische processors.

Het model, genaamd NousCoder-14Bis weer een nieuwkomer in een druk veld van AI-codeerassistenten, maar arriveert op een bijzonder geladen tijdstip: Claude-codede agentische programmeertool van rivaliserende Anthropic domineert sinds nieuwjaarsdag de discussie op sociale media, met berichten van ontwikkelaars ademloos getuigenis over de mogelijkheden ervan. De gelijktijdige ontwikkeling onderstreept hoe snel AI-ondersteunde softwareontwikkeling vordert – en hoe hevig grote en kleine bedrijven concurreren om vast te leggen wat volgens velen een fundamentele technologie zal worden voor de manier waarop software wordt geschreven.

NousCoder-14B bereikt een nauwkeurigheid van 67,87 procent LiveCodeBench v6een gestandaardiseerde evaluatie die modellen test voor competitieve programmeerproblemen, gepubliceerd tussen augustus 2024 en mei 2025. Dit cijfer vertegenwoordigt een verbetering van 7,08 procentpunten ten opzichte van het basismodel waaruit het is getraind, Alibaba’s Qwen3-14Bvolgens het technische rapport van Nous Research dat bij de release is gepubliceerd.

“Ik gaf Claude Code een beschrijving van het probleem, het genereerde binnen een uur wat we vorig jaar bouwden,” behoreneen hoofdingenieur bij Google die verantwoordelijk is voor de Gemini API, in een virale post op X vorige week die het heersende sentiment rond AI-coderingstools vastlegde. Dogan beschreef een gedistribueerd agent-orkestratiesysteem waaraan haar team een ​​jaar had besteed om het te ontwikkelen: een systeem, Claude Code, benaderd op basis van een prompt van drie alinea’s.

De nevenschikking is leerzaam: terwijl Anthropics Claude Code spreekt tot de verbeelding Met end-to-end demonstraties van softwareontwikkeling gokt Nous Research erop dat open source-alternatieven die zijn getraind op verifieerbare problemen de kloof kunnen dichten – en dat transparantie in de manier waarop deze modellen worden gebouwd net zo belangrijk is als de ruwe capaciteit.


Hoe Nous Research een AI-coderingsmodel bouwde dat iedereen kan repliceren

Wat kenmerkt NousCoder-14B Het vrijkomen van berichten van veel concurrenten is de radicale openheid ervan. Nous Research niet alleen gepubliceerd model gewichten maar dat compleet versterkende leeromgevingbenchmarksuite en trainingsharnas – gebouwd op die van het bedrijf Atropos-framework – om elke onderzoeker met voldoende rekenkracht in staat te stellen het werk reproduceren of uitbreiden.

“Open-sourcing van de Atropos-stack biedt de noodzakelijke infrastructuur voor reproduceerbaar redeneeronderzoek op Olympiade-niveau,” merkte een waarnemer op X opdat de betekenis voor de academische en open source-gemeenschappen samenvat.

Het model is getraind door Joe Leeeen onderzoeker in residentie bij Nous Research en zelf een voormalig competitief programmeur. Lee’s technisch rapport onthult een onverwachte persoonlijke dimensie: hij vergeleek het verbeteringstraject van het model met zijn eigen reis op Codeforces, het competitieve programmeerplatform waar deelnemers beoordelingen verdienen op basis van competitieve prestaties.

Op basis van ruwe schattingen waarbij LiveCodeBench-scores werden gekoppeld aan Codeforces-beoordelingen, berekende Li dat de verbeteringen van NousCoder-14B – van ca. Beoordelingsbereik van 1600-1750 tot 2100-2200 – weerspiegelt een sprong die hem bijna twee jaar aanhoudende oefening kostte tussen de leeftijd van 14 en het bereiken van het model in 14 dagen.

“Het was een behoorlijk surrealistische ervaring om de laatste oefensessie te zien plaatsvinden”, schreef Li in het technische rapport.

Maar Li merkte al snel een belangrijk voorbehoud op dat bredere vragen over de effectiviteit van AI beantwoordt: hij loste in de loop van de twee jaar ongeveer duizend problemen op, terwijl het model er 24.000 nodig had. Mensen blijven, althans voorlopig, aanzienlijk efficiëntere leerlingen.


Binnen het versterkende leersysteem dat traint op 24.000 competitieve programmeerproblemen

NousCoder-14BHet trainingsproces van het bedrijf biedt inzicht in de steeds geavanceerdere technieken die onderzoekers gebruiken om de AI-redeneervaardigheden te verbeteren door middel van versterkend leren.

De aanpak is gebaseerd op wat onderzoekers ‘verifieerbare beloningen’ noemen: een systeem waarbij het model codeoplossingen genereert, deze oplossingen worden uitgevoerd op basis van testgevallen en het model een eenvoudig binair signaal ontvangt: correct of onjuist. Hoewel deze feedbacklus conceptueel eenvoudig is, vereist deze een aanzienlijke infrastructuur om op schaal uit te voeren.

Nous Onderzoek gebruikt Modaaleen cloud computing-platform om parallel uitvoering van sandbox-code uit te voeren. Elk van de 24.000 trainingsproblemen bevat gemiddeld honderden testgevallen, en het systeem moet verifiëren dat de gegenereerde code de juiste uitvoer produceert binnen de beperkingen van tijd en geheugen: respectievelijk 15 seconden en 4 gigabyte.

Bij de training werd gebruik gemaakt van een techniek genaamd DAPO (optimalisatie van dynamisch bemonsteringsbeleid)waarvan de onderzoekers ontdekten dat ze iets beter presteerden dan alternatieven in hun experimenten. Een belangrijke innovatie betreft ‘dynamische bemonstering’: het weglaten van trainingsvoorbeelden waarbij het model alle pogingen oplost of alle pogingen faalt, omdat deze geen bruikbaar gradiëntsignaal geven om te leren.

De onderzoekers introduceerden ook ‘iteratieve contextuitbreiding’, waarbij het model eerst werd getraind met een contextvenster van 32.000 tokens voordat het werd uitgebreid naar 40.000 tokens. Tijdens de evaluatie leverde het verder uitbreiden van de context tot ongeveer 80.000 tokens de beste resultaten op, met een nauwkeurigheid van 67,87 procent.

Misschien wel het allerbelangrijkste is dat de trainingspijplijn gevolgtrekking en verificatie overlapt: zodra het model een oplossing genereert, begint het aan het volgende probleem te werken terwijl het de vorige oplossing controleert. Deze pipeline, gecombineerd met asynchrone training waarbij meerdere modelinstanties parallel werken, maximaliseert het hardwaregebruik op dure GPU-clusters.


Het dreigende gebrek aan gegevens dat de ontwikkeling van het AI-coderingsmodel zou kunnen vertragen

Begraven in Li’s technisch rapport is een bevinding met aanzienlijke implicaties voor de toekomst van AI-ontwikkeling: de trainingsdataset voor NousCoder-14B omvat “een aanzienlijk deel van alle direct beschikbare, verifieerbare competitieve programmeerproblemen in een gestandaardiseerd datasetformaat.”

Met andere woorden: voor dit specifieke domein naderen onderzoekers de grenzen van hoogwaardige trainingsgegevens.

“Het totale aantal competitieve programmeerproblemen op internet is ongeveer van dezelfde orde van grootte”, schreef Li, verwijzend naar de 24.000 problemen die voor training werden gebruikt. “Dit suggereert dat we in het competitieve programmeerdomein de grenzen van hoogwaardige gegevens hebben benaderd.”

Deze observatie weerspiegelt de groeiende bezorgdheid in de AI-industrie over databeperkingen. Naarmate de berekeningen zich blijven uitbreiden volgens goed begrepen economische en technische principes, zijn trainingsgegevens ‘steeds eindiger’, zoals Li het uitdrukte.

“Het lijkt erop dat een deel van het belangrijkste onderzoek dat in de toekomst zal worden gedaan, zich zal afspelen op het gebied van synthetische datageneratie en data-efficiënte algoritmen en architecturen”, concludeerde hij.

De uitdaging is vooral acuut bij competitief programmeren, omdat het domein problemen vereist met bekende correcte oplossingen die automatisch kunnen worden geverifieerd. In tegenstelling tot taken in natuurlijke taal, waarbij menselijke evaluatie of proxy-metrieken voldoende zijn, werkt code wel of niet, waardoor het genereren van synthetische gegevens aanzienlijk moeilijker wordt.

Li identificeerde één potentieel pad: trainingsmodellen niet alleen om problemen op te lossen, maar om oplosbare problemen te genereren, waardoor een vorm van zelfspel mogelijk wordt gemaakt, vergelijkbaar met technieken die succesvol blijken te zijn in AI-systemen voor games. “Zodra het genereren van synthetische problemen is opgelost, wordt zelfspel een zeer interessante richting”, schreef hij.


Een weddenschap van $65 miljoen dat open source AI kan concurreren met Big Tech

Nous Research heeft voor zichzelf een onderscheidende positie verworven in het AI-landschap: een bedrijf dat zich daarvoor inzet open source-releases die concurreren met – en soms zelfs groter zijn dan – propriëtaire alternatieven.

Het bedrijf vertrok 50 miljoen dollar tegen april 2025 in een ronde onder leiding van Paradigm, het op cryptocurrency gerichte venture-bedrijf opgericht door mede-oprichter van Coinbase, Fred Ehrsam. Volgens sommige rapporten bedroeg de totale financiering $ 65 miljoen. De investering weerspiegelde de groeiende belangstelling voor gedecentraliseerde benaderingen van AI-training, een gebied waarop Nous Research zijn eigen aanpak heeft ontwikkeld Psyche-platform.

Eerdere releases bevatten Hermes 4een familie van modellen die we hebben gerapporteerd “beter presteren dan ChatGPT zonder inhoudsbeperkingen,” en DeepHermes-3, die het bedrijf omschreef als de eerste “redeneermodel aan te zetten” — stelt gebruikers in staat om indien nodig uitgebreide denkvaardigheden te activeren.

Het bedrijf heeft een onderscheidende esthetiek en gemeenschap gecultiveerd, wat aanleiding heeft gegeven tot enige scepsis over de vraag of stijl de inhoud kan overschaduwen. “Ofc, ik ga een anime pfp-bedrijf geloven. stop met het benchmarken van ffs,” schreef een criticus over Xdaarbij verwijzend naar de anime-stijl branding van Nous Research en de industriële praktijk van het optimaliseren voor benchmarkprestaties.

Anderen stelden technische vragen. “Op basis van de benchmark is Nemotoron beter,” merkte een commentator op, verwijzend naar Nvidia’s familie van taalmodellen. Een ander vroeg ernaar NousCoder-14B is “agentgericht of slechts ‘one shot’-codering” – een onderscheid dat gevolgen heeft voor praktische softwareontwikkeling, waarbij iteratie op basis van feedback doorgaans betere resultaten oplevert dan afzonderlijke pogingen.


Wat volgens onderzoekers moet gebeuren wil AI-coderingstools steeds beter worden

De publicatie bevat verschillende richtingen voor toekomstig werk die suggereren waar het onderzoek naar AI-codering naartoe kan gaan.

Multi-turn versterkingsleren staat bovenaan de lijst. Momenteel ontvangt het model pas een definitieve binaire beloning (geslaagd of mislukt) na het genereren van een oplossing. Maar competitieve programmeerproblemen omvatten doorgaans openbare testgevallen die tussentijdse feedback geven: compilatiefouten, onjuiste uitvoer, overtredingen van de tijdslimiet. Trainingsmodellen om deze feedback over meerdere onderzoeken heen te integreren, kunnen de prestaties aanzienlijk verbeteren.

Het beheersen van de responslengte blijft ook een uitdaging. De onderzoekers ontdekten dat onjuiste oplossingen vaak langer duurden dan correcte, en dat de responslengte tijdens de training de beschikbare contextvensters snel verzadigde – een patroon dat verschillende algoritmische aanpassingen niet konden oplossen.

Misschien wel het meest ambitieus stelde Li ‘probleemgeneratie en zelfspel’ voor: trainingsmodellen voor het oplossen en creëren van programmeerproblemen. Dit zou het probleem van dataschaarste direct aanpakken door modellen in staat te stellen hun eigen trainingsplannen te genereren.

“Mensen zijn goed in het creëren van interessante en nuttige problemen voor andere competitieve programmeurs, maar het lijkt erop dat er nog steeds een aanzienlijke kloof bestaat in LLM-mogelijkheden bij het genereren van creatieve problemen”, schreef Li.

Het model is nu beschikbaar op Knuffelgezicht onder een Apache 2.0-licentie. Voor onderzoekers en ontwikkelaars die op het werk willen voortbouwen, heeft Nous Research het volledige werk vrijgegeven Atropos trainingsstapel ernaast.

Wat Li twee jaar jeugdige toewijding kostte om te bereiken – van een beginneling op 1600-niveau naar een concurrent op Codeforces met een score van 2100 – een AI die in 96 uur werd gerepliceerd. Hij had duizend problemen nodig. Het model had er 24.000 nodig. Maar al snel kunnen deze systemen leren hun eigen problemen te schrijven, zichzelf les te geven en menselijke maatstaven volledig achter zich te laten.

De vraag is niet langer of machines kunnen leren coderen. Het gaat erom of ze binnenkort betere leraren zullen worden dan wij ooit zijn geweest.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in