AI modellen hebben een vraatzuchtige honger naar data. Het is een uitdaging om op de hoogte te blijven van de informatie die aan gebruikers moet worden gepresenteerd. Dat is de reden waarom bedrijven die voorop lopen op het gebied van kunstmatige intelligentie een antwoord lijken te hebben gevonden: voortdurend het internet doorzoeken.
Maar website-eigenaren willen AI-bedrijven steeds vaker niet de vrije loop laten. Dus herwinnen ze de controle door de crawlers hard aan te pakken.
Om dit te doen, gebruiken ze robots.txt, een bestand dat door veel websites wordt bijgehouden en dat als leidraad fungeert voor hoe webcrawlers hun inhoud wel of niet kunnen schrapen. Oorspronkelijk ontworpen als een signaal aan zoekmachines over de vraag of een website zijn pagina’s al dan niet geïndexeerd wilde hebben, is het in het AI-tijdperk steeds belangrijker geworden, omdat sommige bedrijven instructies zouden negeren.
IN een nieuwe studieNicolas Steinacker-Olsztyn, een onderzoeker aan de Universiteit van Saarland, en zijn collega’s analyseerden hoe verschillende websites robots.txt behandelden – en of er een verschil was tussen websites die als betrouwbaar en als berucht werden beoordeeld, met name in termen van de vraag of ze crawlen wel of niet toestonden. Voor veel AI-bedrijven is het een soort ‘nu doen en later excuses aanbieden’, zegt Steinacker-Olsztyn.
In het onderzoek werden ruim 4.000 websites gecontroleerd op hun reacties op 63 verschillende AI-gerelateerde user agents, waaronder GPTBot, ClaudeBot, CCBot en Google-Extended – die allemaal door AI-bedrijven worden gebruikt bij hun inspanningen om informatie te verzamelen.
De website werd vervolgens verdeeld tussen gerenommeerde nieuwsuitzendingen of desinformatiesites met behulp van beoordelingen die waren samengesteld door Media Bias/Fact Check, een organisatie die nieuwsbronnen categoriseert op basis van hun geloofwaardigheid en de feitelijkheid van hun berichtgeving.
Op alle 4.000 beoordeelde sites blokkeerde ongeveer 60% van de sites die als gerenommeerde nieuwssites werden beschouwd, ten minste één AI-crawler de toegang tot hun informatie; van de desinformatiesites deed slechts 9,1% dit.
De gemiddelde gerenommeerde site blokkeert meer dan 15 verschillende AI-agenten via zijn robots.txt-bestand. Desinformatiesites daarentegen hebben de neiging de crawlers helemaal niet te blokkeren.
“Het grootste voordeel is dat de gerenommeerde nieuwssites goed op de hoogte blijven van het evoluerende ecosysteem als het gaat om deze grote AI-ontwikkelaars en hun praktijken”, zegt Steinacker-Olsztyn.
In de loop van de tijd zal de kloof tussen degenen die bereid zijn bots hun sites te laten crawlen en degenen die dat niet willen, groter worden. Van september 2023 tot mei 2025 steeg het aandeel platforms dat crawlers uitsluitte van 23% naar 60%, terwijl het aandeel sites dat desinformatie verkocht vlak bleef, zo blijkt uit het onderzoek.
Het resultaat, zegt Steinacker-Olsztyn, is dat minder gerenommeerde inhoud wordt opgezogen en vervolgens wordt uitgespuugd door AI-modellen die routinematig door honderden miljoenen mensen worden gebruikt. “Deze modellen worden steeds vaker ook gewoon gebruikt voor het ophalen van informatie en vervangen traditioneel gebruikte opties zoals zoekmachines of Google”, voegt Steinacker-Olsztyn toe.
Het raadsel van legitieme gegevens
Om ervoor te zorgen dat AI-modellen op de hoogte blijven van de actualiteit, worden ze getraind op gerenommeerde sites, en dat is precies wat deze sites niet willen.
De oorlog over auteursrecht en toegang tot trainingsgegevens tussen AI-bedrijven en nieuwssites komt steeds vaker in de rechtbanken terecht –De New York Times rechtszaak tegen OpenAI, de makers van bijvoorbeeld ChatGPT, ging door vorige week.
Deze rechtszaken zijn ingegeven door beschuldigingen dat AI-bedrijven illegaal gegevens op nieuwswebsites verzamelen om te dienen als regelmatig bijgewerkte, op waarheid gebaseerde trainingsgegevens voor de modellen die hun AI-chatbots aandrijven. Naast het voeren van hun geschillen blokkeren gerenommeerde nieuwssites AI-crawlers.
Het is goed voor hun bedrijven en rechten. Maar Steinacker-Olsztyn maakt zich zorgen over de bredere impact. “Als gerenommeerde nieuwsuitzendingen deze informatie steeds vaker onbeschikbaar maken, is er reden om aan te nemen dat dit de betrouwbaarheid van deze modellen kan aantasten”, legt hij uit. “In de toekomst verandert dit het percentage legitieme gegevens waartoe ze toegang hebben.”
Kortom: het maakt voor een AI-crawler niet uit of hij iets ziet New York Times of er verdwijnt een desinformatiewebsite uit Hoboken. Het zijn allebei trainingsgegevens, en als de ene gemakkelijker beschikbaar is dan de andere, is dat het enige dat telt.
Niet iedereen is zo zeker van de negatieve impact van het blokkeren van crawlers.
Felix Simon, -een onderzoekscollega op het gebied van kunstmatige intelligentie en digitaal nieuws aan het Reuters Institute for the Study of Journalism van de Universiteit van Oxford, zegt dat hij niet verbaasd was toen hij hoorde dat sites die desinformatie verspreiden, gecrawld zouden willen worden, “terwijl traditionele uitgevers momenteel een prikkel hebben om dergelijk schrapen te voorkomen.” Sommige van deze traditionele uitgevers, zo voegt hij eraan toe, laten nog steeds enige schrammen toe ‘om een overvloed aan redenen’.
Simon waarschuwt ook dat het feit dat desinformatiesites vaker hun deuren openen voor AI-crawlers niet noodzakelijkerwijs betekent dat ze de informatieruimte zo vervuilen als we zouden kunnen vrezen.
“AI-ontwikkelaars filteren en wegen gegevens op verschillende punten in het systeemtrainingsproces en op het moment van inferentie”, zegt hij. “Je zou hopen dat AI-ontwikkelaars, op dezelfde manier waarop de auteurs onbetrouwbare websites hebben kunnen identificeren, dergelijke gegevens kunnen filteren.”
De uiterste deadline voor Fast Company’s Wereldveranderende ideeënprijzen is vrijdag 12 december om 23:59 uur PT. Solliciteer vandaag nog.


