OpenAI heeft introduceerde GPT-5.1-Codex-Maxeen nieuw coderingsmodel voor grensagenten dat nu beschikbaar is in de Codex-ontwikkelaarsomgeving. De release markeert een belangrijke stap voorwaarts in de ontwikkeling van AI-ondersteunde software en biedt verbeterde langetermijnredenen, efficiëntie en realtime interactieve mogelijkheden. GPT-5.1-Codex-Max zal nu GPT-5.1-Codex vervangen als het standaardmodel op met Codex geïntegreerde oppervlakken.
Het nieuwe model is ontworpen om te fungeren als een persistente softwareontwikkelingsagent met een hoge context die in staat is om complexe refactoren te beheren, workflows te debuggen en taken op projectschaal in meerdere contextvensters uit te voeren.
Het komt op de hielen van Google brengt zijn krachtige nieuwe Gemini 3 Pro-model uit gisteren, maar nog steeds beter dan of vergelijkbaar met belangrijke coderingsbenchmarks:
Op SWE-Bench geverifieerd, GPT-5.1-Codex-Max behaalde een nauwkeurigheid van 77,9% bij een extra hoge redeneerinspanning die verder gaat dan de 76,2% van Gemini 3 Pro.
Het leidde ook verder Terminal-Bench 2.0, met een nauwkeurigheid van 58,1% versus Gemini’s 54,2%, en evenaarde Gemini’s score van 2.439 op LiveCodeBench Pro, een competitieve Elo-benchmark voor coderen.
Gemeten tegen de meest geavanceerde configuratie van Gemini 3 Pro (het Deep Thinking-model) heeft Codex-Max ook een kleine voorsprong in benchmarks voor agentische codering.
Prestatiebenchmarks: incrementele winst bij belangrijke taken
GPT-5.1-Codex-Max demonstreert meetbare verbeteringen ten opzichte van GPT-5.1-Codex in een aantal standaard benchmarks voor software-engineering.
Op de SWE-Lancer IC SWE behaalde het een nauwkeurigheid van 79,9%, een aanzienlijke stijging ten opzichte van de 66,3% van de GPT-5.1-Codex. In SWE-Bench Verified (n=500) behaalde het een nauwkeurigheid van 77,9% bij Extra High Reasoning, waarmee het de 73,7% van GPT-5.1-Codex overtrof.
De prestaties op Terminal Bench 2.0 (n=89) lieten meer bescheiden verbeteringen zien, waarbij GPT-5.1-Codex-Max een nauwkeurigheid van 58,1% behaalde, vergeleken met 52,8% voor GPT-5.1-Codex.
Alle evaluaties werden uitgevoerd met compressie en extra hoge redeneerinspanning ingeschakeld.
Deze resultaten geven aan dat het nieuwe model een hoger plafond biedt voor zowel de gebenchmarkte correctheid als de bruikbaarheid in de echte wereld onder uitgebreide redeneerbelastingen.
Technische architectuur: redeneren met lange horizon via compressie
Een belangrijke architectonische verbetering in GPT-5.1-Codex-Max is het vermogen om efficiënt te redeneren over langere input-output-sessies met behulp van een mechanisme genaamd compressie.
Hierdoor kan het model belangrijke contextuele informatie behouden terwijl irrelevante details worden weggegooid wanneer het de grens van het contextvenster nadert, waardoor continu werken met miljoenen tokens effectief mogelijk wordt gemaakt zonder prestatieverlies.
Er is intern waargenomen dat het model taken uitvoert die meer dan 24 uur duren, inclusief refactoren in meerdere stappen, testgestuurde iteratie en autonoom debuggen.
Compressie verbetert ook de tokenefficiëntie. Voor gemiddeld redeneerwerk gebruikte GPT-5.1-Codex-Max ongeveer. 30% minder think-tokens dan GPT-5.1-Codex voor vergelijkbare of betere nauwkeurigheid, wat gevolgen heeft voor zowel de kosten als de latentie.
Platformintegratie en gebruiksscenario’s
GPT-5.1-Codex-Max is momenteel beschikbaar in meerdere Codex-gebaseerde omgevingen, die verwijzen naar OpenAI’s eigen geïntegreerde tools en interfaces die speciaal zijn gebouwd voor codegerichte AI-agenten. Deze omvatten:
-
Codex-CLIOpenAI’s officiële opdrachtregeltool (@openai/codex) waar GPT-5.1-Codex-Max al live is.
-
IDE-extensieswaarschijnlijk ontwikkeld of onderhouden door OpenAI, hoewel er geen specifieke IDE-integraties van derden werden genoemd.
-
Interactieve codeeromgevingenzoals die worden gebruikt om front-end simulatie-apps zoals CartPole of Snell’s Law Explorer te demonstreren.
-
Tool voor interne codebeoordelinggebruikt door OpenAI-engineeringteams.
Tot nu toe is GPT-5.1-Codex-Max nog niet beschikbaar via de publieke API, hoewel OpenAI aangeeft dat dit binnenkort komt. Gebruikers die vandaag de dag met het model in terminalomgevingen willen werken, kunnen dit doen door de Codex CLI te installeren en te gebruiken.
Het is momenteel niet bevestigd of en hoe het model zal worden geïntegreerd in IDE’s van derden, tenzij ze bovenop de CLI of toekomstige API worden gebouwd.
Het model kan communiceren met live tools en simulaties. Voorbeelden uit de release zijn onder meer:
-
Een interactieve CartPole-beleidsgradiëntsimulator die de training en activering van versterkend leren visualiseert.
-
Een optica-onderzoeker naar de wet van Snell die dynamische ray tracing over brekingsindices ondersteunt.
Deze interfaces illustreren het vermogen van het model om in realtime te redeneren en tegelijkertijd een interactieve ontwikkelingssessie te behouden, waardoor berekeningen, visualisatie en implementatie effectief binnen één lus worden overbrugd.
Cyberbeveiliging en beveiligingsbeperkingen
Hoewel GPT-5.1-Codex-Max niet voldoet aan OpenAI’s “hoge” capaciteitsdrempel voor cyberbeveiliging onder zijn Readiness Framework, is het momenteel het meest capabele cyberbeveiligingsmodel dat OpenAI heeft geïmplementeerd. Het ondersteunt gebruiksscenario’s zoals geautomatiseerde detectie en herstel van kwetsbaarheden, maar standaard met strikte sandboxing en uitgeschakelde netwerktoegang.
OpenAI meldt geen toename van het grootschalige kwaadwillige gebruik, maar heeft wel verbeterde monitoringsystemen geïntroduceerd, waaronder activiteitenroutering en opschortingsmechanismen voor verdacht gedrag. Codex blijft geïsoleerd ten opzichte van een lokale werkruimte, tenzij ontwikkelaars kiezen voor bredere toegang, waardoor risico’s zoals snelle injectie van niet-vertrouwde inhoud worden verminderd.
Implementatiecontext en gebruik door ontwikkelaars
GPT-5.1-Codex-Max is momenteel beschikbaar voor gebruikers van ChatGPT Plus, Pro, Business, Edu en Enterprise plannen. Het zal ook de nieuwe standaard worden in op Codex gebaseerde omgevingen, ter vervanging van GPT-5.1-Codex, dat een algemener model was.
OpenAI stelt dat 95% van de interne engineers Codex wekelijks gebruiken, en sinds de adoptie hebben deze engineers gemiddeld ~70% meer pull-requests verzonden – wat de impact van de tool op de interne ontwikkelingssnelheid onderstreept.
Ondanks zijn autonomie en volharding benadrukt OpenAI dat Codex-Max moet worden behandeld als een codeerassistent en niet als vervanging voor menselijke beoordeling. Het model produceert terminallogboeken, testoffertes en uitvoer van tooloproepen om de transparantie van de gegenereerde code te ondersteunen.
Vooruitzichten
GPT-5.1-Codex-Max vertegenwoordigt een significante evolutie in de strategie van OpenAI richting agentontwikkelingstools die een grotere redeneerdiepte, tokenefficiëntie en interactieve mogelijkheden bieden voor software-engineeringtaken. Door het contextbeheer en de compressiestrategieën uit te breiden, is het model gepositioneerd om taken op de schaal van volledige archieven af te handelen in plaats van individuele bestanden of fragmenten.
Met voortdurende nadruk op agentische workflows, veilige sandboxes en real-world evaluatiestatistieken, bereidt Codex-Max de weg voor de volgende generatie AI-ondersteunde programmeeromgevingen, terwijl het belang van toezicht in steeds autonomere systemen wordt benadrukt.



