Dat je de data niet byte voor byte in het mod kunt terugvinden, betekent niet dat de informatie er niet in zit. Hetzelfde zou je kunnen zeggen over een ZIP-bestand, of misschien realistischer, een JPEG.
Met de juiste query krijg je problematische informatie weer terug uit het model. Beschouw het als een soort lossy tekstopslag.
Uh, nee, die vergelijking kun je helemaal niet zo maken. Een ZIP bestand of een JPG kun je terugleiden naar de originele pixels, met een neuraal netwerk kan dat niet, hooguit fragmenten daarvan. Dat hangt volledig af van wat, en hoe, er getraind wordt.
De vergelijking tussen mensen en computers raakt kant nog wal (mensen zijn geen computers, computers zijn niet zelfbewust, neurale netwerken en het menselijk brein lijken helemaal niet zoveel op elkaar, dat is puur een leuke naamgeving) maar dat maakt ook niet uit, natuurlijk; al wordt de data opgeslagen in een accuraat gesimuleerd menselijk brein, de data staat nog steeds op een computer opgeslagen en is onderhevig aan de daarover geldende wetgeving.
Of de data nu wordt opgeslagen in een database of op een andere manier moet voor de wet natuurlijk niet uitmaken. Dat zou een hele mooie workaround zijn voor iedere data broker die gegevens van mensen verkoopt zonder de GDPR te hoeven navolgen.
Tuurlijk moet iedereen zich aan de regels houden (en waar zij zich niet aan hebben gehouden is de "gentleman's agreement" van robots.txt), maar dat is het punt juist: de data wordt verwerkt en er worden verbanden uit gehaald, maar de data in z'n geheel wordt niet 1 op 1 opgeslagen, ook niet in gecomprimeerde vorm. Ik zal als voorbeeld een spam filter nemen, waar één van de oudste methodes een zogenaamd Bayesian filter is (en geinig genoeg iets dat lastiger is met een volwaardig NN

). Om zo'n filter te trainen gooi je er een hoop spam en "ham" (non-spam) in, waarbij je dat vooraf bepaald hebt. Wat je binnen je classifier doet is de ingevoerde tekst analyseren: aantal tekens, lengte van woorden, verhouding tussen letters en leesteken, gemiddelde woord lengte, zin lengte, enzovoort. Allemaal metadata. Waar je vervolgens daadwerkelijk data op slaat is als je bijvoorbeeld telt welke woorden heel vaak in spam voorkomen, maar vrijwel nooit in ham. Zo zal "viagra" de spam score van een bericht dramatisch verhogen. De rest van de tekst doe je echter geen reet mee en gooi je weg na ze geanalyseerd te hebben. Als je dus al data op slaat, zijn dat kleine fragmenten.
Met neurale netwerken is dat niet zo heel erg anders. Het risico dat je bij beide loopt is dat er gevoelige gegevens aangemerkt worden als relevant - maar dat is waar je de analyse/parameters op aan moet passen. Je kunt zelfs de data door een ánder NN gooien om te kijken of het iets gevoeligs is (kijken of iets NSFW is, of een adres is).
Misschien moet het trainen vanaf het begin af aan beginnen als de technologie niet klaar is zich aan de nodige wetgeving te houden. Dat zou heel jammer zijn. Aan de andere kant is dat het probleem van de AI-bedrijven, niet dat van de wet. Als ik een auto maak waar onmogelijk airbags of remmen in te bevestigen zijn, kan ik niet claimen dat ik me niet aan de wet hoef te houden vanwege technische beperkingen; dat probleem los je maar op voordat je je product verkoopt.
Nogmaals, volledig mee eens, maar dat is niet waar het hier om gaat. We weten niet wát ze verwerkt hebben en hóe ze dat doen - als op janlul.nl een volledig adres, telefoonnummer en BSN staat, kan het best zijn dat ze dat weten te herkennen en dus niet gebruiken als trainingdata. Zo te horen is dat overigens wel het geval.
Als janlul.nl niet in robots.txt aangegeven heeft dat een crawler (waarbij ik die term heel erg losjes gebruik; wat mij betreft zou dat ook moeten gelden voor menselijk misbruik) dat niet mag bekijken is dat wat mij betreft z'n eigen fout. Het internet is niet privé, het is een openbare bibliotheek (vergeet niet dat ze niet je emails hebben zitten bekijken, enkel publieke data). Waar OpenAI hier mis heeft gezeten is dat ze robots.txt blijkbaar nooit respecteerden, tot op heden. Dát hadden ze vanaf dag 1 in orde moeten hebben. Het is geen wet en "slechts" een gentleman's agreement op het web, maar toch zitten ze daar fout.
Of ze verder iets verkeerd doen met de gegevens die ze scrapen laat ik me niet over uit, dat weet ik niet - dat weten alleen zij