Wekenlang beweerde een groeiend koor van ontwikkelaars en AI-gebruikers dat de vlaggenschipmodellen van Anthropic hun voorsprong aan het verliezen waren. Gebruikers van GitHub, X en Reddit hebben dit gemeld een fenomeen dat zij omschrijven als ‘AI-krimpflatie’-een waargenomen inzinking, waarbij Claude minder in staat leek tot aanhoudend redeneren, meer vatbaar was voor hallucinaties en steeds meer tokens verspilde.
Critici wezen op een meetbare gedragsverandering, met het argument dat het model was overgegaan van een ‘onderzoek eerst’-benadering naar een luiere,’ eerst bewerken’-stijl die niet langer kon worden vertrouwd voor complexe engineering.
Terwijl het bedrijf zich aanvankelijk verzette tegen de beweringen dat het model zou worden ‘nerfed’ om de vraag te beheersen, zorgde het toenemende bewijsmateriaal van spraakmakende gebruikers en benchmarks van derden voor een aanzienlijk vertrouwenskloof.
Vandaag, Anthropic heeft deze zorgen direct aangepakthet vrijgeven van een technisch post-mortem waarin drie afzonderlijke productlaagveranderingen werden geïdentificeerd die verantwoordelijk waren voor de gerapporteerde kwaliteitsproblemen.
“We nemen meldingen van degradatie zeer serieus”, staat er te lezen Anthropic’s blogpost over deze kwestie. “We hebben onze modellen nooit opzettelijk verslechterd en we konden onmiddellijk bevestigen dat onze API en inferentielaag onaangetast bleven.”
Anthropic beweert dat het de problemen heeft opgelost door terug te keren naar de prompt voor het wijzigen van de redenering en de formulering, terwijl ze de caching-bug hebben opgelost in versie v2.1.116.
Het groeiende bewijs van degradatie
De controverse begon begin april 2026, aangewakkerd door gedetailleerde technische analyses van de ontwikkelaarsgemeenschap. Stella Laurenzo, senior directeur van AMD’s AI-groep, heeft een uitgebreide audit uitgebracht van 6.852 Claude Code-sessiebestanden en meer dan 234.000 tool-aanroepen op Github toont prestaties die afnemen door haar gebruik eerder.
Haar bevindingen gaven aan dat Claude’s diepgang van redeneren scherp was afgenomen, wat leidde tot redeneringslussen en de neiging om de ‘eenvoudigste oplossing’ te kiezen in plaats van de juiste.
Deze anekdotische frustratie werd blijkbaar gevalideerd door benchmarks van derden. BridgeMind meldde dat de nauwkeurigheid van Claude Opus 4.6 in hun tests was gedaald van 83,3% naar 68,3%, waardoor de ranking daalde van #2 naar #10.
Hoewel sommige onderzoekers beweerden dat deze specifieke benchmarkvergelijkingen gebrekkig waren vanwege inconsistente testvolumes, werd het verhaal dat Claude “dommer” was geworden een viraal gespreksonderwerp. Gebruikers meldden ook dat de gebruikslimieten sneller leegliepen dan verwacht, wat leidde tot vermoedens dat Anthropic opzettelijk de prestaties beperkte om de stijgende vraag te beheersen.
De redenen
In zijn post-morem moeraspost verduidelijkte Anthropic dat, hoewel de gewichten van de onderliggende modellen niet waren teruggevallen, drie specifieke wijzigingen aan het “harnas” rond de modellen onbedoeld hun prestaties hadden belemmerd:
-
Standaard redeneerinspanning: Op 4 maart veranderde Anthropic de standaard redeneerinspanning van
highnaarmediumvoor Claude Code om UI-vertragingsproblemen op te lossen. Deze verandering was bedoeld om te voorkomen dat de interface “bevroren” leek terwijl het model aan het nadenken was, maar het resulteerde in een merkbare afname van de intelligentie voor complexe taken. -
Een cachinglogica-bug: Geplaatst op 26 maart bevatte een caching-optimalisatie, bedoeld om het oude ‘denken’ uit inactieve sessies te verwijderen, een kritieke bug. In plaats van de gedachtegeschiedenis één keer na een uur inactiviteit te wissen, werd deze bij elke volgende beurt gewist, waardoor het model zijn “kortetermijngeheugen” verloor en repetitief of vergeetachtig werd.
-
Woordlimieten voor systeemprompts: Op 16 april voegde Anthropic instructies toe aan de systeemprompt om de tekst tussen tooloproepen onder de 25 woorden en de uiteindelijke antwoorden onder de 100 woorden te houden. Deze poging om de reikwijdte in Opus 4.7 te verkleinen mislukte, wat resulteerde in een daling van 3% in de evaluaties van de codeerkwaliteit.
Effect en toekomstige veiligheidsmaatregelen
De kwaliteitsproblemen reikten verder dan de Claude Code CLI en waren ook van invloed Claude Agent-SDK En Claude Cowerkhoewel Claude API werd niet beïnvloed.
Anthropic gaf toe dat deze veranderingen ervoor zorgden dat het model “minder intelligentie” leek te hebben, wat volgens hen niet de ervaring was die gebruikers mochten verwachten.
Om het vertrouwen van de gebruiker te herwinnen en toekomstige achteruitgang te voorkomen, implementeert Anthropic verschillende operationele veranderingen:
-
Interne dogfooding: Een groter deel van het interne personeel zal de exacte openbare builds van Claude Code moeten gebruiken om ervoor te zorgen dat zij het product ervaren zoals gebruikers dat doen.
-
Uitgebreide evaluatiesuites: Het bedrijf zal nu een bredere reeks evaluaties en “ablaties” per model uitvoeren voor elke systeempromptwijziging om de impact van specifieke instructies te isoleren.
-
Strengere controles: Er zijn nieuwe tools gebouwd om het gemakkelijker te maken om onmiddellijke veranderingen te controleren, en modelspecifieke veranderingen zullen nauw verbonden zijn met de beoogde doelstellingen.
-
Compensatie voor abonnees: Om rekening te houden met de tokenverspilling en prestatieproblemen die door deze fouten worden veroorzaakt, heeft Anthropic de gebruikslimieten voor alle abonnees vanaf 23 april opnieuw ingesteld.
Het bedrijf is van plan zijn nieuwe te gebruiken @ClaudeDev’s account op X en GitHub-threads om een diepere grondgedachte achter toekomstige productbeslissingen te bieden en een transparantere dialoog met de ontwikkelaarsbasis te onderhouden.



