Home Nieuws Claude Opus 4.5 van Anthropic is er: goedkopere AI, oneindige chats en...

Claude Opus 4.5 van Anthropic is er: goedkopere AI, oneindige chats en codeervaardigheden die mensen verslaan

17
0
Claude Opus 4.5 van Anthropic is er: goedkopere AI, oneindige chats en codeervaardigheden die mensen verslaan

Antropisch heeft maandag zijn meest capabele kunstmatige-intelligentiemodel tot nu toe uitgebracht, waardoor de prijzen met ongeveer tweederde zijn verlaagd en tegelijkertijd geavanceerde prestaties op het gebied van software-engineering worden geclaimd – een strategische zet die de concurrentie van AI-startups OpenAI en Google met diepe zakken verhevigt.

Het nieuwe model, Werk afsluiten 4.5scoorde hoger op de meest uitdagende interne technische beoordeling van Anthropic dan welke menselijke kandidaat dan ook in de geschiedenis van het bedrijf, volgens materiaal beoordeeld door VentureBeat. Het resultaat onderstreept zowel de snel voortschrijdende mogelijkheden van AI-systemen als de groeiende vragen over hoe de technologie witteboordenbanen zal hervormen.

Het door Amazon gesteunde bedrijf prijst de Claude Opus 4.5 op Invoertokens van $ 5 per miljoen En Uitvoertokens van $ 25 per miljoen – een dramatische verlaging ten opzichte van de tarieven van $ 15 en $ 75 van zijn voorganger, Werk afsluiten 4.1eerder dit jaar gepubliceerd. Deze stap maakt grensverleggende AI-mogelijkheden beschikbaar voor een breder scala aan ontwikkelaars en ondernemingen, terwijl de concurrentie onder druk wordt gezet om zowel de prestaties als de prijzen te evenaren.

“We willen er zeker van zijn dat dit echt werkt voor mensen die met deze modellen willen werken”, zegt Alex Albert, hoofd ontwikkelaarsrelaties van Anthropic, in een exclusief interview met VentureBeat. “Dat is echt onze focus: hoe kunnen we Claude in staat stellen om u beter te helpen de dingen te doen die u in uw werk niet noodzakelijkerwijs wilt doen?”

De aankondiging komt als Antropische races om hun positie in een steeds drukker wordend veld te behouden. OpenAI is onlangs uitgebracht GPT-5.1 en een gespecialiseerd coderingsmodel genaamd CodexMax die langere tijd zelfstandig kan werken. Google onthuld Tweeling 3 net vorige week, wat zelfs bij OpenAI zorgen baart over de voortgang van de zoekgigant, volgens een recent rapport van The Information.

Opus 4.5 demonstreert een verbeterd oordeel over taken in de echte wereld, zeggen ontwikkelaars

Uit interne tests van Anthropic bleek wat het bedrijf beschrijft als een kwalitatieve sprong voorwaarts in de redenering van Claude Opus 4.5. Het model behaalde een nauwkeurigheid van 80,9% SWE-bank geverifieerdeen benchmark die softwareontwikkelingstaken in de echte wereld meet, presteert volgens bedrijfsgegevens beter dan OpenAI’s GPT-5.1-Codex-Max (77,9%), Anthropic’s eigen Sonnet 4.5 (77,2%) en Google’s Gemini 3 Pro (76,2%). Het resultaat markeert een opmerkelijke vooruitgang ten opzichte van het huidige state-of-the-art model van OpenAI, dat slechts vijf dagen eerder werd uitgebracht.

Maar de technische benchmarks vertellen slechts een deel van het verhaal. Albert zei dat testers van medewerkers consequent meldden dat het model een beter beoordelingsvermogen en intuïtie laat zien bij verschillende taken – een verschuiving die hij beschreef als het model dat een gevoel ontwikkelt voor wat er in de echte wereld toe doet.

“Het model snapt het wel”, zei Albert. “Het heeft zojuist dit soort intuïtie en oordeel ontwikkeld over veel dingen uit de echte wereld, wat kwalitatief aanvoelt als een grote sprong voorwaarts ten opzichte van eerdere modellen.”

Als voorbeeld noemde hij zijn eigen workflow. Albert zei dat hij in het verleden AI-modellen vroeg om informatie te verzamelen, maar aarzelde om de synthese of prioritering ervan te vertrouwen. Met Opus 4.5 delegeert hij completere taken, door deze te verbinden met Slack en interne documenten om samenhangende overzichten te produceren die aansluiten bij zijn prioriteiten.

Opus 4.5 presteert beter dan alle menselijke kandidaten tijdens de zwaarste technische test van het bedrijf

De prestaties van het model op basis van de interne technische beoordeling van Anthropic vormen een opmerkelijke mijlpaal. Het take-home-examen, bedoeld voor potentiële kandidaten voor prestatietechniek, is bedoeld om de technische bekwaamheid en het beoordelingsvermogen onder tijdsdruk binnen een voorgeschreven limiet van twee uur te evalueren.

Met behulp van een techniek genaamd parallelle test-time compute – die meerdere tests uit het model samenvoegt en het beste resultaat selecteert – Opus 4.5 scoorde volgens het bedrijf hoger dan welke menselijke kandidaat dan ook die de test deed. Zonder tijdslimiet kwam het model overeen met de prestaties van de beste menselijke kandidaat ooit bij gebruik in Claude Code, de codeeromgeving van Anthropic.

Het bedrijf erkende dat de test geen andere cruciale professionele vaardigheden meet, zoals samenwerking, communicatie of de instincten die zich door jarenlange ervaring ontwikkelen. Toch zegt Anthropic dat het resultaat “vragen oproept over hoe AI de techniek als beroep zal veranderen.”

Albert benadrukte het belang van de vondst. “Ik denk dat dit een teken is van wat komen gaat, hoe nuttig deze modellen daadwerkelijk kunnen zijn in een werkcontext en voor onze banen”, zei hij. “Dit was duidelijk een technische taak, en ik zou zeggen dat modellen op technisch gebied relatief voorop lopen in vergelijking met andere vakgebieden, maar ik denk dat het een heel belangrijk signaal is om op te letten.”

Dramatische efficiëntieverbeteringen verminderen het tokenverbruik met maximaal 76% op belangrijke benchmarks

Naast de ruwe prestaties verwacht Anthropic dat efficiëntieverbeteringen zich zullen onderscheiden Werk afsluiten 4.5 op de markt. Het bedrijf zegt dat het model dramatisch minder tokens gebruikt – de teksteenheden die AI-systemen verwerken – om vergelijkbare of betere resultaten te bereiken in vergelijking met zijn voorgangers.

Op een gemiddeld inspanningsniveau komt Opus 4.5 overeen met de vorige Sonnet 4.5 de beste score van het model SWE-bank geverifieerd terwijl er volgens Anthropic 76% minder outputtokens worden gebruikt. Op het hoogste inzetniveau presteert Opus 4.5 4,3 procentpunten beter dan Sonnet 4.5, terwijl er nog steeds 48% minder tokens worden gebruikt.

Om ontwikkelaars meer controle te geven, introduceerde Anthropic een ‘inspanningsparameter’ waarmee gebruikers kunnen aanpassen hoeveel rekenwerk het model op elke taak toepast, waarbij de prestaties worden afgewogen tegen de latentie en de kosten.

Zakelijke klanten zorgden voor een vroege validatie van de werkzaamheidsclaims. “Opus 4.5 verslaat Sonnet 4.5 en de concurrentie op onze interne benchmarks, waarbij we minder tokens gebruiken om dezelfde problemen op te lossen”, zegt Michele Catasta, president van Replit, een cloudgebaseerd codeerplatform, in een verklaring aan VentureBeat. “Op schaal vergroot het de efficiëntie.”

GitHub’s Chief Product Officer, Mario Rodriguez, zei dat uit vroege tests blijkt dat Opus 4.5 “de interne coderingsbenchmarks overtreft terwijl het gebruik van tokens wordt gehalveerd en bijzonder geschikt is voor taken zoals codemigratie en coderefactoring.”

Vroege klanten melden dat AI-agenten leren van ervaringen en hun eigen vaardigheden verfijnen

Een van de meest opvallende kenmerken die door vroege klanten werd gedemonstreerd, betreft wat Anthropic ‘zelfverbeterende agenten’ noemt: AI-systemen die hun eigen prestaties kunnen verfijnen door middel van iteratief leren.

Rakutenhet Japanse e-commerce- en internetbedrijf Claude testte Opus 4.5 over de automatisering van kantoortaken. “Onze agenten waren in staat om hun eigen vaardigheden onafhankelijk te verfijnen en bereikten topprestaties in vier iteraties, terwijl andere modellen die kwaliteit na tien iteraties niet konden evenaren”, zegt Yusuke Kaji, Rakuten’s algemeen directeur van AI for Business.

Albert legde uit dat het model zijn eigen gewichten – de basisparameters die het gedrag van een AI-systeem definiëren – niet bijwerkt, maar eerder iteratief de tools en benaderingen verbetert die het gebruikt om problemen op te lossen. “Het was het iteratief verfijnen van een vaardigheid voor een taak en het zien hoe het de vaardigheid probeerde te optimaliseren om betere prestaties te krijgen, zodat het die taak kon uitvoeren”, zei hij.

De mogelijkheid gaat verder dan alleen coderen. Albert zei dat Anthropic aanzienlijke verbeteringen heeft waargenomen bij het maken van professionele documenten, spreadsheets en presentaties. “Ze zeggen dat dit de grootste sprong is die ze tussen modelgeneraties hebben gezien”, zei Albert. “Dus zelfs als je van Sonnet 4.5 naar Opus 4.5 gaat, is de sprong groter dan welke twee modellen dan ook in het verleden.”

Fundamentele onderzoekslaboratoriaeen financieel modellenbureau meldde dat “de nauwkeurigheid van onze interne evaluaties met 20% verbeterde, de efficiëntie met 15% toenam en dat complexe taken die ooit onbereikbaar leken, haalbaar werden”, aldus mede-oprichter Nico Christie.

Nieuwe functies zijn gericht op Excel-gebruikers en Chrome-workflows en elimineren limieten voor de chatlengte

Naast de modelrelease heeft Anthropic een aantal productupdates uitgerold, gericht op zakelijke gebruikers. Claude voor Excel werd algemeen beschikbaar voor Max-, Team- en Enterprise-gebruikers met nieuwe ondersteuning voor draaitabellen, grafieken en bestandsuploads. De Chrome-browserextensie is nu beschikbaar voor alle Max-gebruikers.

Misschien wel het allerbelangrijkste: Anthropic introduceerde “eindeloze chats” – een functie die de beperkingen van contextvensters elimineert door eerdere delen van gesprekken automatisch samen te vatten naarmate ze langer worden. “Binnen Claude AI, binnen het product zelf, krijg je in feite dit soort oneindige contextvensters vanwege de compressie, plus wat memorisatie-dingen die we doen,” legde Albert uit.

Voor ontwikkelaars heeft Anthropic “programmatic tool calling” uitgebracht, waarmee Claude code kan schrijven en uitvoeren die functies rechtstreeks aanroept. Claude Code kreeg een bijgewerkte “Planmodus” en werd beschikbaar op de desktop in onderzoekspreview, waardoor ontwikkelaars meerdere AI-agentsessies parallel konden uitvoeren.

De markt warmt op terwijl OpenAI en Google zich inspannen om de prestaties en prijzen op elkaar af te stemmen

Antropisch bereikt 2 miljard dollar aan jaarlijkse inkomsten tijdens het eerste kwartaal van 2025, ruim een ​​verdubbeling ten opzichte van de $1 miljard in de voorgaande periode. Het aantal klanten dat jaarlijks meer dan $100.000 uitgeeft, is jaar na jaar achtvoudig toegenomen.

De snelle release van Opus 4.5 – slechts weken later Haiku 4.5 in oktober en Sonnet 4.5 in september – als weerspiegeling van de bredere sectordynamiek. OpenAI vrijgegeven verschillende GPT-5-varianten gedurende 2025, inclusief een gespecialiseerde Codex Max-model in november, die maximaal 24 uur zelfstandig kunnen werken. Google heeft Gemini 3 medio november uitgebracht na maanden van ontwikkeling.

Albert schreef het versnelde tempo van Anthropic gedeeltelijk toe aan het gebruik van Claude om zijn eigen ontwikkeling te versnellen. “We zien veel hulp en versnelling van Claude zelf, of het nu gaat om het daadwerkelijk bouwen van producten of om het modelonderzoek”, zei hij.

De prijsverlaging voor Opus 4.5 zou de marges kunnen ondermijnen en mogelijk de bereikbare markt vergroten. “Ik verwacht dat veel startups dit veel meer in hun producten gaan opnemen en onder de aandacht zullen brengen”, aldus Albert.

Toch blijft winstgevendheid ongrijpbaar voor toonaangevende AI-laboratoria, omdat ze zwaar investeren in computerinfrastructuur en onderzoekstalent. De De verwachting is dat de AI-markt een omzet van meer dan $1 biljoen zal overschrijden binnen tien jaar, maar geen enkele aanbieder heeft een dominante marktpositie verworven – zelfs nu de modellen een drempel bereiken waarop ze op zinvolle wijze complex kenniswerk kunnen automatiseren.

Michael Truell, CEO van Cursor, een door AI aangedreven code-editor, noemde Opus 4.5 “een opmerkelijke verbetering ten opzichte van de vorige Claude-modellen binnen Cursor, met verbeterde prijzen en intelligentie voor moeilijke codeertaken.” Scott Wu, CEO van Cognition, een start-up voor AI-codering, zei dat het model “sterkere resultaten oplevert bij onze zwaarste evaluaties en consistente prestaties tijdens autonome codeersessies van 30 minuten.”

Voor bedrijven en ontwikkelaars betekent de concurrentie een snelle capaciteitsverbetering tegen dalende prijzen. Maar naarmate de prestaties van AI op technische taken het menselijke expertniveau naderen (en soms zelfs overschrijden), wordt de impact van de technologie op professioneel werk minder theoretisch.

Toen hem werd gevraagd naar de resultaten van het ingenieursexamen en wat deze aangeven over het traject van AI, was Albert bot: “Ik denk dat het een heel belangrijk signaal is om op te letten.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in