Het Allen Institute for AI (Ai2) heeft onlangs wat het zijn krachtigste noemt modellenfamilie tot nu toe, Olmo 3. Maar het bedrijf bleef de modellen herhalen en de RL-runs (versterking leren) uitbreiden om Olmo 3.1 te creëren.
De nieuwe Olmo 3.1-modellen richten zich op efficiëntie, transparantie en controle voor bedrijven.
Ai2 heeft twee van de drie versies van Olmo 2 bijgewerkt: Olmo 3.1 Think 32B, het vlaggenschipmodel dat is geoptimaliseerd voor geavanceerd onderzoek, en Olmo 3.1 Instruct 32B, ontworpen voor het volgen van instructies, multi-turn dialoog en gereedschapsgebruik.
Olmo 3 heeft een derde versie, Olmo 3-Base voor programmeren, begrip en wiskunde. Het werkt ook goed voor voortdurende fijnafstemming.
Ai2 zei dat de onderzoekers, om de Olmo 3 Think 32B te upgraden naar de Olmo 3.1, hun beste RL-run hebben uitgebreid met een langer trainingsschema.
“Na de eerste lancering van Olmo 3 hebben we onze RL-training voor de Olmo 3 32B Think hervat en nog eens 21 dagen getraind op 224 GPU’s met extra tijdperken ten opzichte van onze Dolci-Think-RL-dataset”, zei Ai2 in een blogpost. “Dit leverde de Olmo 3.1 32B Think aanzienlijke winsten op op het gebied van wiskunde, redeneren en het volgen van instructies: verbeteringen van 5+ punten op AIME, 4+ punten op ZebraLogic, 4+ punten op IFEval en 20+ punten op IFBench, samen met sterkere taken op meerdere locaties en complexere taken.”
Om tot de Olmo 3.1 Instruct te komen, zeiden Ai2-onderzoekers dat hun onderzoekers het recept achter de kleinere Instruct-grootte, 7B, hadden toegepast op het grotere model.
De Olmo 3.1 Instruct 32B is “geoptimaliseerd voor chat, toolgebruik en multi-turn dialoog – waardoor het een veel efficiëntere broer of zus is van de Olmo 3 Instruct 7B en klaar is voor toepassingen in de echte wereld”, zei Ai2 in een bericht op X.
Voorlopig zijn de nieuwe controlepunten beschikbaar op Ai2 Playground of Hugging Face, en binnenkort komt er API-toegang.
Betere prestaties op benchmarks
De Olmo 3.1-modellen presteerden goed in benchmarktests en versloegen voorspelbaar de Olmo 3-modellen.
De Olmo 3.1 Think presteerde beter dan de Qwen 3 32B-modellen in de AIME 2025-benchmark en presteerde dicht bij de Gemma 27B.
De Olmo 3.1 Instruct deed het sterk ten opzichte van zijn open source-collega’s en versloeg zelfs modellen als de Gemma 3 op de Math-benchmark.

“Wat de Olmo 3.1 32B Instruct betreft, het is een op grotere schaal afgestemd model dat is gebouwd voor chat, toolgebruik en dialoog met meerdere beurten. De Olmo 3.1 32B Instruct is ons meest capabele volledig open chatmodel tot nu toe en – in onze evaluaties – het sterkste volledig open instructiemodel op 32B-schaal”, aldus het bedrijf.
Ai2 heeft ook zijn RL-Zero 7B-modellen geüpgraded voor wiskunde en coderen. Het bedrijf zei over de X dat beide modellen profiteerden van langere en stabielere trainingsruns.
Toewijding aan transparantie en open source
Ai2 vertelde VentureBeat eerder dat het de Olmo 3-modellenfamilie heeft ontworpen om bedrijven en onderzoekslaboratoria meer controle en begrip te bieden van de gegevens en training die in het model zijn verwerkt.
Organisaties kunnen de datamix van het model uitbreiden en opnieuw trainen om ook te leren van wat er is toegevoegd.
Dit is al lang een toezegging van Ai2, dat er ook een biedt tool genaamd OlmoTrace dat bijhoudt hoe de LLM-uitvoer overeenkomt met de trainingsgegevens.
“Samen laten Olmo 3.1 Think 32B en Olmo 3.1 Instruct 32B zien dat openheid en prestaties samen kunnen evolueren. Door dezelfde modelstroom uit te breiden, blijven we de mogelijkheden verbeteren terwijl we de end-to-end transparantie over data, code en trainingsbeslissingen behouden”, aldus Ai2.

