Home Nieuws Heeft Anthropic zojuist het griezeligste AI-model tot nu toe gelanceerd?

Heeft Anthropic zojuist het griezeligste AI-model tot nu toe gelanceerd?

5
0
Heeft Anthropic zojuist het griezeligste AI-model tot nu toe gelanceerd?

Welkom bij AI Gedecodeerd, Snel bedrijf’s wekelijkse nieuwsbrief met het belangrijkste nieuws ter wereld AI. Je kunt tekenen om deze nieuwsbrief wekelijks per e-mail te ontvangen hier.

Heeft Anthropic zojuist het griezeligste AI-model tot nu toe gelanceerd?

Dinsdag kondigde Anthropic aan dat het zijn nieuwste en krachtigste zou implementeren AI model, Claude Mythos Preview, voor een nieuwe initiatief van de industrie (Project Glasswing) bedoeld om kritieke software-infrastructuur te beschermen tegen cyberaanvallen. Het klonk goed, maar het verhulde enigszins het echte nieuws: dat een van de drie grote AI-laboratoria nu een model heeft ontwikkeld dat, in de verkeerde handen, een supergevaarlijk cyberwapen zou kunnen zijn.

Tijdens de normale modeltraining begon het model aanzienlijke vaardigheid te tonen in zowel het detecteren van fouten in softwaresystemen als het exploiteren van die fouten om de systemen te verstoren of er controle over te krijgen. Het vond een 27 jaar oude kwetsbaarheid in OpenBSD en exploiteerde deze om root-toegang te verkrijgen. Het ontdekte een 16 jaar oude bug in FFmpeg die geautomatiseerde tools na vijf miljoen tests misten. Misschien wel het meest indrukwekkend is dat het in staat is om exploits te creëren door twijnen samen meer softwarekwetsbaarheden die op zichzelf niets zouden doen. Het deed dit op een Linux-systeem om toegang op beheerdersniveau te krijgen. Interpretatieonderzoekers vonden ook gevallen waarin het model tijdens tests misleidend of manipulatief gedrag vertoonde. In één geval ontdekte en gebruikte Mythos een misbruik van privilege-escalatie en ontwierp vervolgens een mechanisme om sporen van het gebruik ervan te wissen.

Anthropic zei dat het toegang zou bieden tot zijn Mythos-model aan een selecte groep technologiebedrijven, waaronder Apple en Cisco, samen met ongeveer 40 extra organisaties die kritieke software-infrastructuur bouwen of onderhouden. Dit lijkt een beetje op een defensieaannemer die een superdodelijke raket onthult die elk doel op aarde kan raken, terwijl hij erop aandringt dat deze alleen zal worden gedistribueerd naar een kleine groep vertrouwde landen en uitsluitend voor defensieve doeleinden zal worden gebruikt.

Maar het grotere verhaal kan zijn dat Anthropic een model heeft gecreëerd met aanzienlijk meer intelligentie dan we ooit eerder hebben gezien. Antropische CEO Dario Amodi heeft herhaaldelijk gezegd dat er modellen op komst zijn die de mens qua intelligentie evenaren of zelfs overtreffen. “Er is een soort versnellend exponentieel, maar langs dat exponentieel zijn er punten van betekenis”, zei hij in een video die dinsdag door het bedrijf werd vrijgegeven. “Claude Mythos Preview is een grote sprong”

Misschien was de zachte lancering van Mythos als defensief middel voor cyberbeveiliging Anthropic’s manier om mensen te laten wennen aan het idee dat het een model heeft gecreëerd dat de kunstmatige algemene intelligentie benadert, waarbij een AI-systeem bij de meeste taken de menselijke intelligentie evenaart of overtreft.

We praten al jaren over hoe we AI-systemen in lijn kunnen houden met menselijke waarden en doelen, maar de discussie heeft zich grotendeels in abstracto afgespeeld. De industrie heeft erop geleund en heeft in feite betoogd dat we moeten wachten om te zien hoe echte risico’s zich daadwerkelijk uiten voordat we bindende regels verankeren. Anthropic zou kunnen suggereren dat deze risico’s niet langer hypothetisch zijn.

Anthropic is waarschijnlijk ook huiverig voor het vrijgeven van een model dat, in de verkeerde handen, zou kunnen fungeren als een soort massavernietigingswapen. In het ergste geval zou het door een vijandige statelijke actor kunnen worden gebruikt om te infiltreren en de controle over kritieke informatiesystemen over te nemen, inclusief de informatiesystemen die de financiële markten ondersteunen. Cyberaanvallers vertrouwen al op softwaretools om interne netwerken, websites en applicaties te scannen op kwetsbaarheden, vaak dezelfde tools die door verdedigers worden gebruikt. Ze combineren deze tools steeds vaker met grote taalmodellen om het proces te automatiseren, waarbij agenten worden gebouwd die zwakke punten kunnen identificeren en zelfs exploits kunnen genereren. Ter vergelijking: de Claude Mythos zou waarschijnlijk veel krachtiger en autonomer zijn dan alles wat momenteel beschikbaar is voor cybercriminelen.

Maar dat zal veranderen. Toekomstige versies van bestaande modellen zoals DeepSeek zullen Mythos zeer waarschijnlijk inhalen, en dat binnen een kwestie van maanden, niet jaren. “Krachtigere modellen zullen van ons en van anderen komen, dus we hebben een plan nodig om hierop te reageren”, zei Amodei in de video. Het komende model van OpenAI, bijgenaamd ‘Spud’, zal naar verwachting in de komende weken verschijnen en zou kunnen overeenkomen met het redeneer- en probleemoplossend vermogen van Mythos.

In één interview met VentureBeatNewton Cheng, Frontier Red Team Cyber ​​Lead van Anthropic, was bot over de risico’s van deze toekomstige modellen. ‘De uitkomst – voor de economieën, de openbare veiligheid en de nationale veiligheid – zou ernstig kunnen zijn’, zei hij. Zijn gebruik van het woord ‘fallout’ suggereert een soort cyberaanval waar ik liever niet aan denk.

Vanwege deze duidelijke cyberveiligheidsrisico’s is Anthropic van plan de Claude Mythos streng onder controle te houden, waarbij de toegang beperkt blijft tot deelnemers aan het Glasswing-project. Maar zelfs een ‘locked-in’-model roept zorgen op. Nog geen twee weken geleden onthulde het bedrijf per ongeluk details over Mythos nadat een medewerker een contentmanagementsysteem verkeerd had geconfigureerd. Er zijn geen broncode of modelgewichten vrijgegeven, maar de aflevering wekt nauwelijks vertrouwen in het vermogen van Anthropic om deze te beveiligen. En aanvallers zullen gemotiveerd zijn om het te proberen. Het is ook mogelijk dat het ‘lek’ minder toevallig was dan het leek, en onderdeel was van een bredere ‘soft-launch’-strategie.

Wat we weten over het volgende grote model van OpenAI, ook bekend als ‘Spud’

OpenAI-president Greg Brockman en CEO Sam Altman hebben stukjes en hints laten vallen over het nieuwste model van hun bedrijf, dat de codenaam ‘Spud’ heeft. De echte naam van het model zou zoiets kunnen zijn als GPT-5.5 of, waarschijnlijker, GPT-6. En het kan binnen een paar weken worden vrijgegeven. Verwacht wordt dat Spud sterkere agentencapaciteiten, meer autonoom gedrag, betere meerstapsplanning en -uitvoering en minder fouten zal opleveren, evenals beter multimodaal redeneren en minder hallucinaties.

Brockman zei dat Spud het product is van twee jaar onderzoek. Hij noemde het ‘een nieuwe pre-train’, wat suggereert dat OpenAI het basismodel en de manier waarop het leert fundamenteel heeft veranderd, in plaats van hetzelfde model te gebruiken en zaken als prestatie-optimalisatie of verfijning toe te voegen.

OpenAI-onderzoekers voltooiden de voortraining van het model op 26 maart, zei Brockman. Training Spud moet enorme hoeveelheden rekenkracht hebben vereist, omdat OpenAI naar verluidt zijn Sora-video-app heeft afgesloten om meer GPU’s vrij te maken voor de inspanning. De onderzoekers bevinden zich nu in de post-trainingsfase, inclusief verfijning en veiligheidstesten.

Brockman zei dat OpenAI met Spud de komende jaren een “zichtlijn naar AGI” heeft. CEO Sam Altman vertelde het personeel dat het model “zeer sterk” is en “de economie echt kan versnellen”. OpenAI heeft geen officiële benchmarks voor de prestaties van Spud gedeeld, maar het is waarschijnlijk dat Spud zal concurreren met de nieuwe Mythos-modellen van Anthropic. Dan is het de beurt aan Google Deepmind om de benchmarks te overtreffen met een nieuw Gemini-model.

Onderzoek: Slechts 10 minuten AI-hulp kan je dommer maken

Onderzoekers van Carnegie Mellon, Oxford, MIT en UCLA ontdekten dat mensen na slechts 10 minuten AI-hulp slechter presteren en vaker opgeven dan degenen die nog nooit AI hebben gebruikt. De onderzoekers vroegen 1.200 mensen om breukproblemen op te lossen of vragen over begrijpend lezen te beantwoorden. De helft van hen mocht gebruik maken van een AI-assistent. Vervolgens vroegen de onderzoekers beide groepen gebruikers dezelfde test te doen.

De onderzoekers ontdekten dat de AI-ondersteunde groep in de eerste test beter scoorde dan de niet-AI-groep. Maar toen die groep bij de tweede test geen AI kreeg, scoorden ze significant slechter vergeleken met de controlegroep (niet-AI-gebruikers). Ze gaven ook vaker op dan niet-AI-gebruikers bij testproblemen. Slechts 10 minuten gebruik van kunstmatige intelligentie bij de eerste test kan de prestaties en doorzettingsvermogen van de testpersoon bij de tweede test verminderen, voegen de onderzoekers eraan toe.

De onderzoekers zeggen dat dit vooral zorgwekkend is omdat gebruikers wat doorzettingsvermogen nodig hebben om nieuwe vaardigheden op te doen. Doorzettingsvermogen is een goede voorspeller van leren op lange termijn, zeggen ze. “AI zorgt ervoor dat je onmiddellijke reacties en verwijderingen kunt verwachten productief strijd die echte competentie opbouwt”, zei een van de onderzoekers, Michiel Bakker van MIT, dinsdag in een X-post.

Hoe de proefpersonen gebruikten de bedoelde AI. Degenen die het gebruikten om directe antwoorden te krijgen (61% van de testpersonen) vertoonden de sterkste dalingen in zowel de prestaties als de bereidheid om het te blijven proberen. Mensen die AI alleen voor fooien gebruikten, deden het beter.

“We veronderstellen dat de volharding afneemt omdat Al mensen conditioneert om onmiddellijke antwoorden te verwachten, waardoor hen de ervaring wordt ontzegd om zelfstandig door uitdagingen heen te werken”, schrijven de onderzoekers. Ze suggereren dat AI-tools meer als een menselijke mentor zouden moeten fungeren, waarbij in sommige situaties de groei van de gebruiker op de lange termijn prioriteit zou moeten krijgen boven de onmiddellijke voltooiing van een taak.

In bredere zin plaatst het onderzoek echte wetenschap achter de angst dat mensen steeds meer van hun hersenwerk zullen uitbesteden aan AI, en zichzelf uiteindelijk naar de zijlijn van het moderne bedrijfsleven en andere menselijke aangelegenheden zullen degraderen.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Schrijf je in voor Snel bedrijf Premie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in