Nous Onderzoekde in San Francisco gevestigde startup voor kunstmatige intelligentie heeft dinsdag een open source wiskundig redeneersysteem uitgebracht genaamd Nomos 1 die dit jaar bijna-elite menselijke prestaties neerzette William Lowell Putnam Wiskundige Competitieeen van de meest prestigieuze en notoir moeilijke wiskundecompetities voor studenten ter wereld.
Putnam staat bekend om zijn moeilijkheidsgraad: hoewel een perfecte score 120 is, was de topscore van dit jaar 90 en de mediaan slechts 2. Nomos 1 scoorde daarentegen 87 punten – een resultaat dat volgens het bedrijf op de tweede plaats zou hebben gestaan van de 3.988 deelnemers aan de competitie van 2024.
De release markeert een keerpunt in de snel toenemende race om AI-systemen te bouwen die in staat zijn tot geavanceerde wiskundige redeneringen. In tegenstelling tot de enorme, computerintensieve modellen die door grote technologiebedrijven worden ingezet, Nomos 1 behaalt zijn resultaten met een relatief compacte architectuur: 30 miljard parameters waarvan er op elk moment ongeveer 3 miljard actief zijn, met behulp van een mix van deskundige ontwerpen gebaseerd op Alibaba’s Qwen3-model.
“Deze score zou in 2024 #2/3988 zijn en markeert onze eerste stap met Hillclimb AI richting het creëren van een SOTA AI-wiskundige”, zegt Nous Research. aangekondigd op sociale media dinsdag.
Hetzelfde basismodel scoorde 24 punten zonder de gespecialiseerde training van Nous Research
Misschien wel het meest opvallend is de kloof ertussen Nomos 1 en zijn basismodel. Toen Nous Research hetzelfde deed Qwen3-30B-A3B-Thinking-2507-model via een identiek testharnas scoorde het slechts 24 van de 120 – een resultaat dat het cruciale belang onderstreept van optimalisatie na de training en gespecialiseerde redeneertechnieken op de schaal van onbewerkte modellen.
“Nomos 1 behaalde een 87/120 met 8 perfecte scores”, verklaarde het bedrijf en merkte op dat het prestatieverschil “vooral te wijten is aan de post-training en de gegevenskwaliteit en niet aan het harnas.”
De resultaten werden geverifieerd door middel van blinde beoordeling door een menselijke expert die eerder in de top 200 in Putnam was geëindigd. Nous Onderzoek leverde de geanonimiseerde inzendingen aan de beoordelaar en gaf vervolgens de volledige set gede-anonimiseerde bestanden en runbooks vrij die werden gebruikt om ze te genereren op GitHub.
Waarom de Putnam Competitie wordt beschouwd als de ultieme test van wiskundig redeneren
De William Lowell Putnam Wiskundige Competitie is een jaarlijkse wiskundewedstrijd voor studenten die zijn ingeschreven aan instellingen voor hoger onderwijs in de Verenigde Staten en Canada. Het wordt beschouwd als de meest prestigieuze wiskundewedstrijd op universitair niveau ter wereld.
De notoir meedogenloze William Lowell Putnam Mathematical Competition is meer een wiskundig sportevenement dan een academische test. De test bestaat uit twee sessies van 3 uur, gescheiden door een pauze van 2 uur. Er zijn in totaal 12 vragen die moeten worden opgelost, 6 voor elke sessie. Elke vraag is 10 punten waard, voor een totaal van 120 punten.
Putnam-vragen zijn niet het type dat in reguliere examens of studieboeken voorkomt. Ze lijken meer op puzzels dan op berekeningen, en vereisen vaak dat leerlingen verschillende manieren vinden om dingen weer te geven voordat er een oplossing kan ontstaan.
Vorig jaar schreven bijna 4.000 studenten over het hele continent Putnam. Volgens cijfers scoorde 61 procent drie punten of minder Wiskundige Vereniging van Amerikadie de wedstrijd organiseert. De hoogste score was 90 van de 120.
Veel Putnam Fellows zijn uitgegroeid tot vooraanstaande onderzoekers op het gebied van de wiskunde en andere vakgebieden, waaronder drie Fields-medaillewinnaars – John Milnor, David Mumford en Daniel Quillen – en twee Nobelprijswinnaars in de natuurkunde – Richard Feynman en Kenneth Wilson.
Binnen het tweefasige redeneersysteem dat de wiskundige doorbraak van Nomos 1 aandrijft
Nomos 1 is een specialisatie van Qwen Qwen3-30B-A3B-denkmodelgeoptimaliseerd voor het oplossen van wiskundige problemen en proeflezen in natuurlijke taal. Het systeem is ontwikkeld in samenwerking met Hillclimb-AI.
Wat Nomos 1 onderscheidt van eenvoudige modelinferentie is het geavanceerde redeneringsharnas: een open source-framework dat orkestreert hoe het model problemen benadert en oplost. Selenium werkt in twee verschillende fasen binnen een tijdslimiet van drie uur, wat de werkelijke Putnam-competitiestructuur weerspiegelt.
In de oplossingsfase pakken parallelle werkers tegelijkertijd problemen aan met behulp van een op prioriteiten gebaseerd systeem. Elke medewerker selecteert een probleem, genereert een inzending en scoort vervolgens zijn eigen werk op een schaal van 1 tot 7. Problemen met de minste perfecte scores krijgen prioriteit, zodat het systeem zijn berekening richt op de moeilijkste uitdagingen. Dit proces gaat door totdat alle problemen het doel van zelfbekritiseerde perfecte scores hebben bereikt, of totdat de tijd om is.
De slotfase begint 15 minuten voor de tijdslimiet (of 50% voor kortere runs) en maakt gebruik van een selectieproces in twee fasen. Ten eerste groepeert een consolidatiestap de inzendingen op conclusie en probeert de juiste groep te identificeren – wat nog belangrijker is, niet noodzakelijkerwijs de meerderheidsgroep. Daarna bepaalt een gepaarde single-eliminatietoernooi de uiteindelijke inzending voor elk probleem.
“Ons open source redeneersysteem bestaat uit een oplossingsfase waarin werknemers een minimaal opgelost probleem proberen en zichzelf evalueren, gevolgd door een voltooiingsfase waarin de inzendingen worden samengevoegd om voor elk probleem een definitieve inzending te selecteren”, zegt Nous Research. uitgelegd.
Hoe Nomos 1 zich verhoudt tot wiskundige AI-systemen van DeepSeek, Google en OpenAI
De resultaten van Nomos 1 komen te midden van een golf van vooruitgang in de AI voor wiskundig redeneren. Het DeepSeek-model, DeepSeekMath-V2scoorde 118 van de 120 punten op vragen van de William Lowell Putnam Wiskundige Competitie van 2024, waarmee hij de beste menselijke score van 90 versloeg. Het model presteerde ook op gelijke voet met gouden medaillewinnaars op de Internationale Wiskundeolympiade.
Dit jaar is Google geavanceerd Gemini-modellen liep end-to-end in natuurlijke taal en leverde rigoureuze wiskundige bewijzen rechtstreeks op basis van de officiële probleembeschrijvingen – en dat alles binnen de deadline van de competitie van 4,5 uur. Ze bereikten het resultaat van dit jaar met behulp van een geavanceerde versie van de Tweelingen diep nadenken.
Wat de prestaties van de Nomos 1 opmerkelijk maakt, zijn niet de ruwe prestaties (hij volgt de 118/120 van DeepSeek), maar eerder de toegankelijkheid en efficiëntie. Met 30 miljard parameters waarvan er slechts 3 miljard actief zijn, kan het model draaien op hardware van consumentenkwaliteit, een schril contrast met de enorme rekenclusters die nodig zijn voor grensmodellen van OpenAI en Google.
Hermes 4.3 arriveerde slechts zes dagen eerder, getraind op een gedecentraliseerd blockchain-netwerk
De aankondiging van Nomos 1 volgt op de voet van de release van Nous Research op 3 december Hermes 4.3een algemeen taalmodel dat een nieuwe belangrijke mijlpaal voor het bedrijf markeerde.
Hermes 4.3, gebaseerd op die van ByteDance Seed-OSS-36B-basismodelis het eerste productiemodel waar Nous Research volledig op getraind heeft Psyche-netwerk – een gedistribueerde trainingsinfrastructuur die gebruik maakt van een nieuwe optimalisatie genaamd DisTrO om training te coördineren tussen knooppunten verspreid over datacenters via het open internet, beveiligd door consensus over de Solana-blockchain.
Het bedrijf heeft een opleiding gevolgd Hermes 4.3 zowel via traditionele gecentraliseerde methoden als op andere manieren Psyche-netwerkspecifiek om te verifiëren dat gedistribueerde training de gecentraliseerde prestaties voor productiewerklasten kan evenaren of overtreffen. De door Psyche getrainde versie presteerde beter dan de gecentraliseerde versie bij een aantal downstream-taken, meldde het bedrijf.
“De trainingsrun bleek de hele tijd stabiel, met een gemiddelde van 144.000 tokens/seconde over 24 Psyche-knooppunten”, aldus Nous Research. “Door gebruik te maken van de overlappende collectieve strategie van DisTrO werd alle P2P-communicatie verborgen voor de trainingstijd, waardoor effectief een gelijkwaardige doorvoer werd bereikt als traditionele, gecentraliseerde training.”
Hermes 4.3 behaalde ook geavanceerde resultaten op RefusalBench, een nieuwe benchmark die de bereidheid van een model meet om behulpzaam te zijn in een reeks scenario’s die gewoonlijk beperkt worden door andere modellen. Het model beantwoordde 74,60% van de RefusalBench-vragen zonder rechtvaardiging, presteerde beter dan zijn voorganger Hermes 4 70B (59,50%) en presteerde beter dan gesloten modellen, waaronder de Grok 4 (51,30%) en Gemini 2.5 Pro (24,23%).
Kleine modellen met slimme training dichten de kloof met reuzen met biljoenen parameters
Samen duiden de twee releases in één week op de strategische weddenschap van Nous Research: dat kleinere, efficiëntere modellen met geavanceerde post-trainingstechnieken en redeneringsharnassen kunnen concurreren met – en in sommige gevallen beter presteren dan – de enorme modellen die zijn ontwikkeld door beter gefinancierde concurrenten.
Voor de besluitvormers van de bedrijven zijn de gevolgen aanzienlijk. Wiskundig redeneren heeft toepassingen die veel verder gaan dan academische competities: ze zijn essentieel voor formele verificatie, het bewijzen van stellingen, wetenschappelijke modellering, cryptografische analyse en elk domein dat rigoureuze logische deductie vereist.
Het open source-karakter van beide releases – Nomos 1 is beschikbaar onder de Apache 2.0-licentie op Hugging Face, met het volledige redeneringsharnas op GitHub – betekent dat organisaties deze functies op hun eigen infrastructuur kunnen implementeren zonder afhankelijk te zijn van API-oproepen naar grote cloudproviders.
“Voor het eerst kan iedereen een geavanceerde AI-wiskundige besturen of er toegang toe krijgen”, merkte een waarnemer op sociale media op. “Dit verlaagt de barrière voor serieus wiskundig onderzoek, bewijsverificatie, modellering van complexe systemen en geavanceerd redeneerwerk.”
Belangrijke bijdragen aan Nomos 1 zijn onder meer Roger Jin, die de training leidde; Jeffrey Quesnelle en Dakota Mahan, die de infrastructuur bouwden; Chen Guang, die adviseerde; en Ryan Teknium en Jeffrey Quesnelle, die leiding gaven. Het model is ontwikkeld met bijdragen van Hillclimb AI en een team van wiskundige experts, waaronder Samuel Kim, Miron Yurkevich en anderen.
De race om AI-wiskundigen te bouwen versnelt sneller dan iemand had voorspeld
De 86. Putnam-wedstrijd vond plaats op zaterdag 6 december 2025 – slechts drie dagen voordat Nous Research Nomos 1 uitbracht. De timing onderstreept hoe snel het vakgebied evolueert: bedrijven brengen nu wiskundige AI-systemen uit die in staat zijn tot bijna-elite menselijke prestaties binnen enkele dagen na de competities waarvoor ze zijn ontworpen.
De concurrentie op het gebied van wiskundige kunstmatige intelligentie is de afgelopen maanden dramatisch toegenomen. In juli verscheen een geavanceerde versie van Het Gemini-model van Google DeepMind en een experimenteel redeneermodel uit OpenAI beide bereikten de gouden status op IMO 2025. Het nieuwe model van DeepSeek evenaarden hun prestaties en losten 5 van de 6 problemen op.
De resourcevereisten van deze grenssystemen blijven echter voor de meeste organisaties onbetaalbaar. OpenAI’s o1-pro wordt geschat op meer dan 1,8 biljoen parameters; Google’s Gemini 2.5 Pro overschrijdt waarschijnlijk de 400 miljard. De Nomos 1 daarentegen behaalt concurrerende resultaten met een fractie van die voetafdruk.
De kloof tussen massieve grensmodellen en effectieve open source-alternatieven wordt kleiner. En voor organisaties die wiskundig redeneren nodig hebben zonder het budget voor hyperscale computing, zou die kloof wel eens klein genoeg kunnen zijn om er toe te doen.
Naad één waarnemer zei op sociale media: “Dit betekent een grote sprong voorwaarts voor AI-wiskundemodellen die klein genoeg zijn om op je laptop te draaien.”
Een laptop die nu beter presteert dan bijna 4.000 van de beste niet-gegradueerde wiskundigen van het continent.



