Je bent al een tijdje bezig met AI en bent waarschijnlijk een LLM/Agent/Chat-gebruiker, maar heb je jezelf ooit afgevraagd hoe deze tools in de nabije toekomst zullen worden getraind en wat als we de gegevens die we nodig hebben al hebben gebruikt om modellen te trainen? Veel theorieën stellen dat we bijna geen door mensen gegenereerde gegevens van hoge kwaliteit meer hebben om onze modellen te trainen.
Er komt elke dag nieuwe inhoud bij, dat is een realiteit, maar een steeds groter deel van wat er dagelijks wordt toegevoegd, is zelf door AI gegenereerd. Dus als je blijft trainen op openbare webdata, train je uiteindelijk op de output van je eigen voorgangers. De slang eet zijn staart. Onderzoekers noemen dit fenomeen Model Collapse, waarbij AI-modellen beginnen te leren van de fouten van hun voorgangers totdat het hele systeem in onzin vervalt.
Maar wat als ik je vertel dat we eigenlijk niet zonder gegevens komen te zitten? We hebben gewoon op de verkeerde plek gekeken.
In dit artikel zal ik de belangrijkste inzichten uit dit briljante artikel uiteenzetten.
Het web dat we al gebruiken en het web dat er toe doet
De meesten van ons beschouwen het internet als een unieke informatiebron. In werkelijkheid zijn het er minstens twee.
Er is het Surface Web: de geïndexeerde, publieke wereld zoals we die vinden op Reddit, Wikipedia en nieuwssites. Dit is wat we al jaren al hebben geschraapt en te veel gebruikt om de reguliere AI-modellen van vandaag te trainen. Dan is er nog wat wij het Deep Web noemen, en hier heb ik het niet over het ‘Dark Web’ of iets illegaals.
Het Deep Web is simpelweg alles achter een login of een firewall. Het verwijst naar alles op internet dat niet openbaar is geïndexeerd. Het kan gaan om het patiëntenportaal van uw ziekenhuis, het interne dashboard van uw bank, bedrijfsdocumentarchieven, privédatabases en jarenlange e-mail achter een inlogscherm. Normale, saaie, maar ontzettend waardevolle data.
Veel onderzoeken suggereren dat het Deep Web een orde van grootte groter is dan het Surface Web. Belangrijker nog is dat gegevens van betere kwaliteit cruciaal zijn. Vergeleken met oppervlakkige webinhoud, die luidruchtig kan zijn, vol verkeerde informatie en sterk SEO-geoptimaliseerd is. Het bevat ook steeds vaker inhoud die opzettelijk is ontworpen om AI-modellen te misleiden of te vergiftigen. Deep web-gegevens, zoals medische dossiers of geverifieerde financiële documenten of andere interne databases, zijn doorgaans schoon, geauthenticeerd en georganiseerd door mensen die om de kwaliteit ervan geven.
Het probleem? Ik denk dat je het wel kunt raden, het is privé. Je kunt niet zomaar een miljoen medische dossiers extraheren zonder rekening te houden met alle juridische en ethische rampen die je zult veroorzaken.
Het PROPS-framework
Dit is waar een nieuw raamwerk genaamd PROPS (Protected Pipelines) in beeld komt. Geïntroduceerd door Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) en Laurence Moroney (voormalig Google AI Lead), fungeert PROPS als een brug tussen deze gevoelige gegevens en de AI-modellen die deze nodig hebben.
Het geniale van PROPS is dat het u niet vraagt uw gegevens “over te dragen”. In plaats daarvan maakt het gebruik van privacybeschermende orakels. Beschouw een orakel als een ‘vertrouwde tussenpersoon’ die naar uw gegevens kan kijken, kan verifiëren dat deze echt zijn en vervolgens het AI-model kan vertellen wat het moet weten zonder het model ooit de ruwe informatie te laten zien.
Deze opvattingen over rekwisieten klinken misschien magisch, omdat ze veel problemen kunnen oplossen die verband houden met de beschikbaarheid van gegevens waarmee AI-modellen tegenwoordig worden geconfronteerd. Maar hoe werkt dit precies? Laten we een voorbeeld nemen van een medisch bedrijf dat een diagnostisch hulpmiddel wil trainen op basis van echte medische dossiers. Onder het PROPS-framework:
- Toestemming: Als gebruiker logt u in op uw eigen gezondheidsportaal en geeft u toestemming voor een specifiek gebruik van uw gegevens.
- Het Orakel: Beschouw Oracle als een digitale notaris. Het gaat naar uw privéportaal (zoals uw ziekenhuisdatabase) om te bevestigen dat uw gegevens correct zijn. In plaats van uw bestanden te kopiëren, vertelt het eenvoudigweg aan het AI-systeem: “Ik heb de originele documenten gezien en ik getuig dat ze authentiek zijn.” Het levert het bewijs van de waarheid zonder ooit de privégegevens zelf weg te geven. Hiervoor bestaan al hulpmiddelen, b.v DECO. Het is een protocol waarmee gebruikers kunnen bewijzen dat ze een specifiek stukje gegevens van een webserver hebben gehaald via een beveiligd TLS-kanaal.
- De veilige enclave: Dit is een ‘zwarte doos’ in de computerhardware waar de daadwerkelijke training plaatsvindt. We stoppen het AI-model en uw privégegevens erin en “doen de deur op slot”. Geen mens of ontwikkelaar kan zien wat er binnenin gebeurt. De AI ‘bestudeert’ de gegevens en laat alleen de modelgewichten over. De onbewerkte gegevens blijven vergrendeld totdat de sessie eindigt.
- Het resultaat: Het model wordt getraind op de gegevens in dat vak. Alleen de bijgewerkte “gewichten” (het leren) verschijnen. De onbewerkte gegevens worden nooit door menselijke ogen gezien.
De bijdragers weten precies waar ze mee instemmen, en ze kunnen worden beloond voor deelname op een manier die is afgestemd op hoe waardevol hun specifieke gegevens daadwerkelijk zijn. Het is een heel andere relatie tussen data-eigenaren en AI-systemen.
Maar waarom zou je je hier druk over maken in plaats van met synthetische data?
Sommigen vragen zich misschien af: “Waarom zouden we ons druk maken over deze complexe opzet als we gewoon synthetische gegevens kunnen genereren?”
Het antwoord is dat synthetische data een diversiteitsmoordenaar zijn. Per definitie versterkt het genereren van synthetische gegevens het midden van de belcurve. Als u een zeldzame medische aandoening heeft die slechts 0,01% van de bevolking treft, zal een synthetische datagenerator u waarschijnlijk afdoen als ‘ruis’.
Modellen die zijn getraind op synthetische gegevens worden steeds slechter in het omgaan met uitschieters. PROPS pakt dit aan door een veilige manier te creëren voor echte mensen met zeldzame aandoeningen of unieke achtergronden om zich aan te melden. Het verandert het delen van gegevens van een privacyrisico in een ‘datamarktplaats’. waar waardevolle data de beloning krijgen die ze verdienen.
Het gaat niet alleen om training, ook conclusies zijn belangrijk
De meeste discussies richten zich op training, maar PROPS heeft een even interessante toepassing op het gebied van gevolgtrekkingen.
Tegenwoordig gaat het krijgen van een lening bijvoorbeeld gepaard met het indienen van veel documenten: bankafschriften, loonstrookjes en belastingaangiften. In een op PROPS gebaseerd systeem stellen zij het gebruik van een leningbeslissingsmodel (LDM) voor:
- U geeft de LDM toestemming om rechtstreeks met uw bank te spreken.
- De bank bevestigt uw saldo via een privacybeschermend orakel.
- LDM neemt een besluit.
- Het resultaat? De kredietverstrekker krijgt een bevestigd “Ja” of “Nee” zonder ooit uw privédocumenten aan te raken. Dit elimineert het risico op datalekken en maakt het bijna onmogelijk voor mensen om frauduleuze, gefotoshopte documenten te gebruiken.
Wat houdt dat eigenlijk tegen in 2026?
Het gaat simpelweg om schaalgrootte en infrastructuur.
De meest robuuste versie van PROPS vereist dat training plaatsvindt in een door hardware ondersteunde veilige enclave (zoals Intel SGX of NVIDIA’s H100 TEE’s). Deze werken goed op kleine schaal, maar ze laten werken voor de enorme GPU-clusters die nodig zijn voor grensoverschrijdende LLM’s is nog steeds een open technisch probleem. Er zijn enorme clusters nodig om in perfecte, gecodeerde synchronisatie te kunnen werken.
De onderzoekers zijn duidelijk: PROPS is nog geen eindproduct. Het is een overtuigend proof-of-concept. Maar een lichtere versie kan vandaag de dag worden geïmplementeerd. Zelfs zonder volledige hardwaregaranties kun je systemen bouwen die gebruikers betekenisvolle beveiliging bieden, wat al een verbetering is ten opzichte van iemand vragen om je een PDF-bestand te sturen.
Mijn eigen laatste gedachten
PROPS is niet echt een “nieuwe” technologie; het is een nieuwe toepassing van bestaande tools. Privacy-orakels worden al jaren gebruikt in de blockchain- en Web3-ruimte (zoals Chainlink). Het inzicht hier is om te erkennen dat dezelfde tools de AI-datacrisis kunnen oplossen.
De ‘datacrisis’ is geen gebrek aan informatie; het is een gebrek aan vertrouwen. We hebben meer dan genoeg gegevens om de volgende generatie kunstmatige intelligentie te bouwen, maar deze zitten opgesloten achter de deuren van het Deep Web. De slang hoeft zijn staart niet op te eten; het moet gewoon een betere tuin vinden.
👉 LinkedIn: Sabrine Bendimerad
👉 Medium: https://medium.com/@sabrine.bendimerad1
👉 Instagram: https://tinyurl.com/datailearn



