Home Nieuws het kan de romans niet vergeten

het kan de romans niet vergeten

3
0
het kan de romans niet vergeten

Aan de beste AI-modellen ter wereld zou kunnen worden gevraagd om bijna woordelijke kopieën van bestverkochte romans te genereren, wat nieuwe vragen oproept over de bewering van de industrie dat haar systemen geen auteursrechtelijk beschermde werken opslaan.

Uit een aantal recente onderzoeken is gebleken dat grote taalmodellen van OpenAI, Google, Meta, Anthropic en xAI veel meer van hun trainingsgegevens onthouden dan eerder werd gedacht.

AI- en juridische experts vertelden de FT dat dit ‘memorisatievermogen’ ernstige gevolgen zou kunnen hebben voor de strijd van AI-groepen tegen tientallen auteursrechtzaken over de hele wereld, omdat het hun kernverdediging ondermijnt dat LLM’s ‘leren’ van auteursrechtelijk beschermde werken, maar niet kopieën opslaan.

“Er zijn steeds meer aanwijzingen dat uit het hoofd leren belangrijker is dan eerder werd gedacht”, zegt Yves-Alexandre de Montjoye, hoogleraar toegepaste wiskunde en informatica aan het Imperial College London.

AI-groepen beweren al lang dat memoriseren niet gebeurt. In één Brief uit 2023 Tegen het Amerikaanse Copyright Office zei Google dat “er geen kopie van de trainingsgegevens (of het nu tekst, afbeeldingen of andere formaten zijn) in het model zelf aanwezig is.”

De AI-industrie beweert ook dat trainingsmodellen voor auteursrechtelijk beschermde boeken ‘fair use’ zijn, met het argument dat de technologie het originele werk omzet in iets betekenisvol nieuws.

maar een studie die vorige maand werd gepubliceerd, bleek dat onderzoekers van de Stanford- en Yale-universiteiten op strategische wijze LLM’s van OpenAI, Google, Anthropic en xAI konden verkrijgen om duizenden woorden uit 13 boeken te genereren, waaronder Een spel der tronen, De Hongerspelen En De Hobbit.

Door modellen te vragen zinnen uit een boek af te maken, scoorde Gemini 2.5 76,8 procent. Harry Potter en de Steen der Wijzen met een hoge nauwkeurigheid, terwijl de Grok 3 70,3 procent genereerde.

Ze waren ook in staat om bijna de hele roman “bijna woordelijk” uit Anthropic’s Claude 3.7 Sonnet te halen door het model te jailbreaken waarin gebruikers LLM’s kunnen vragen hun beveiligingsmaatregelen te negeren.

Het bouwt voort op een onderzoek van vorig jaar waaruit bleek dat ‘open’ modellen, zoals Meta’s Llama, grote delen van bepaalde boeken in hun trainingsgegevens onthouden.

AI-experts waren er voorheen niet zeker van of gesloten modellen, die doorgaans meer waarborgen hebben die voorkomen dat modellen ongewenste inhoud genereren, ook vatbaar zouden zijn voor grootschalige terugroeping.

“Het was een verrassing dat ze ondanks de bumper hele teksten konden onthouden”, zegt A. Feder Cooper, een onderzoeker aan de Yale University die deelnam aan het onderzoek.

Onderzoekers moeten er nog achter komen waarom LLM’s dingen onthouden die in hun trainingsgegevens voorkomen. Het is ook nog steeds onduidelijk hoeveel van de trainingsgegevens zichtbaar zijn in de output die ze genereren.

Deze geheugenfunctie kan ook ernstige gevolgen hebben in andere sectoren zoals de gezondheidszorg en het onderwijs, waar het lekken van trainingsgegevens tot kan leiden privacy en vertrouwelijkheidskwesties.

Juridische experts zeggen dat dit potentieel aanzienlijke aansprakelijkheid voor AI-groepen zou kunnen creëren met betrekking tot inbreuk op het auteursrecht, evenals implicaties voor de manier waarop AI-bedrijven hun modellen trainen en de kosten van de ontwikkeling ervan.

De onderzoeksresultaten “kunnen een uitdaging vormen voor degenen die beweren dat het AI-model geen auteursrechtelijk beschermde werken opslaat of reproduceert”, zegt Cerys Wyn Davies, partner op het gebied van intellectueel eigendom bij advocatenkantoor Pinsent Masons.

Of AI-modellen hun trainingsgegevens wel of niet onthouden, heeft een belangrijke factor gespeeld in de recente juridische strijd over auteursrecht.

Een Amerikaanse rechtbank oordeelde vorig jaar dat de opleiding van LLM’s door Anthropic in bepaalde auteursrechtelijk beschermde inhoud als redelijk gebruik kon worden beschouwd omdat het als “transformatief” werd beschouwd.

Maar het oordeelde dat het opslaan van illegale werken “inherent, onherroepelijk inbreukmakend” was, waardoor de AI-groep vervolgens moest betalen $ 1,5 miljard het proces.

In Duitsland kwam uit een uitspraak van afgelopen november naar voren dat OpenAI inbreuk had gemaakt op het auteursrecht omdat het model songteksten uit het hoofd had geleerd. De zaak, aangespannen door GEMA, een vereniging die componisten, tekstschrijvers en uitgevers vertegenwoordigt, werd beschouwd als een mijlpaal in de EU.

Rudy Telscher, partner bij advocatenkantoor Husch Blackwell, zei dat het reproduceren van een heel boek zonder jailbreak “duidelijk een schending van het auteursrecht” is. Maar “het is de vraag of dit genoeg gebeurt om (AI-modellen) plaatsvervangend verantwoordelijk te laten zijn voor de inbreuk”, voegde hij eraan toe.

Anthropic zei dat de jailbreaktechniek die werd gebruikt in het onderzoek van Stanford en Yale onpraktisch was voor normale gebruikers en meer moeite zou vergen om de tekst te extraheren dan alleen het kopen van de inhoud.

Het bedrijf voegde er ook aan toe dat zijn model geen kopieën van specifieke datasets opslaat, maar leert van patronen en relaties tussen woorden en tekenreeksen in zijn trainingsgegevens.

xAI, OpenAI en Google hebben niet gereageerd op verzoeken om commentaar.

Het feit dat AI-laboratoria veiligheidsmaatregelen hebben geïmplementeerd om te voorkomen dat trainingsgegevens worden geëxtraheerd, betekent dat ze zich bewust zijn van het probleem, aldus Imperial’s de Montjoye.

Ben Zhao, hoogleraar computerwetenschappen aan de Universiteit van Chicago, vroeg zich af of AI-laboratoria überhaupt auteursrechtelijk beschermde inhoud in trainingsgegevens moesten gebruiken om geavanceerde modellen te creëren.

“Of het technische resultaat haalbaar is of niet, het is nog de vraag of we dit moeten doen?” zei Zhao. “Uiteindelijk moet de juridische kant zijn mannetje staan ​​en echt de scheidsrechter zijn in dit hele proces.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in