FTC onderzoekt licentiedeals die Reddit sluit voor trainen AI-modellen

De Amerikaanse Federal Trade Commission is een onderzoek gestart naar de licentiedeals die Reddit met verschillende partijen, waaronder Google, heeft gesloten. Met zo'n overeenkomst mogen bedrijven content op het forumplatform gebruiken om AI-modellen te trainen.

Reddit heeft op 14 maart een brief ontvangen van de FTC waarin de Amerikaanse toezichthouder laat weten dat deze een onderzoek is gestart gericht op de verkoop en het verlenen van licenties aan derden om content van gebruikers te mogen gebruiken voor het trainen van AI-modellen. Dat schrijft het forumplatform in het prospectus van de aankomende beursgang.

Het bedrijf zegt niet waarom de FTC een onderzoek is gestart. Wel laat Reddit weten niet verrast te zijn, aangezien het gaat om relatief nieuwe technologieën en commerciële ondernemingen. "We geloven niet dat we ons schuldig hebben gemaakt aan oneerlijke of misleidende handelspraktijken", voegt Reddit toe. Het socialmediaplatform zegt dat de FTC Reddit heeft uitgenodigd voor een gesprek en van plan is om gedurende het onderzoek verschillende documenten en andere informatie op te vragen. Daarnaast waarschuwt Reddit potentiële aandeelhouders dat een dergelijk onderzoek flink in de kosten kan lopen, met het risico dat het bedrijf bepaalde plannen moet wijzigen of schrappen.

In februari werd duidelijk dat Reddit een deal met Google heeft gesloten, zodat laatstgenoemde de content van het forum mag gebruiken als trainingsdata voor zijn AI-modellen. Naar verluidt gaat het om een overeenkomst ter waarde van omgerekend ruim 55,5 miljoen euro op jaarbasis. Naast Google zou Reddit ook met andere, kleinere partijen soortgelijke overeenkomsten hebben gesloten, al is daar verder geen informatie over bekend.

In zijn prospectus laat het socialmediaplatform weten dat het nog maar net begonnen is met het ter licentie aanbieden van zijn data, en dat het nog maar de vraag is of dit een duurzame onderneming blijkt. Reddit belooft verder dat deze datalicenties 'niet in strijd zijn met onze waarden en de rechten van Redditors'. Het socialmediaplatform is van plan om later deze maand naar de beurs te gaan.

Door Kevin Krikhaar

Redacteur

17-03-2024 • 11:13

35

Reacties (35)

Sorteer op:

Weergave:

Waarvan moeten de AI modellen anders dan getraind worden? Reddit is een goudmijn van informatie over hoe normale mensen communiceren.
Is dat zo? Wanneer ik kijk op Reddit en diverse posts bekijk dan weet ik niet of dit onder “normale mensen” valt en zeker niet of dit een “normale” manier van communiceren is.

Ik zal het iets breder trekken om het punt te verduidelijken. Persoonlijk ben ik van mening dat de manier waarop online gecommuniceerd wordt niet één op één vertaald kan worden naar hoe mensen echt met elkaar praten. Je krijgt dus een vertekening van de werkelijkheid. Daarnaast doen veel mensen zich online anders voor en hebben minder sociale remmingen wat opnieuw leidt tot vertekeningen.
Voor de duidelijkheid; ik veroordeel niet, maar constateer het slechts. Deze vertekeningen gaan straks mee in een AI die op basis van al die vertekeningen verder gaat rekenen. De output van dit vertekend model wordt gebruikt als input op nieuwe documenten en andere input (online danwel anders). Hierdoor krijg je een steeds verdere vertekening.

Dan het beeld van “normale mensen”. Ik stereotypeer hier om de simpele reden om mijn punt te verduidelijken; Reddit zit vol met mensen in één of meerdere bubbels met complexe sociale interacties die elkaar verstevigen. Daarnaast zit niet iedereen op Reddit dus in hoeverre kun je Reddit zien als “normaal”? Het is en blijft een (grote) subgroep.

Ik vraag me af of het wenselijk is om AI hiermee te voeden, want dan wordt het wel normaal, waaronder extreme meningen, pesten en buiten proportie uitgekauwde content.
Dat vind ik ook. Los van het feit dat grote subreddits best wel een circlejerk zijn, wordt Reddit ook best vaak gebruikt vanwege het anonieme karakter. Als je dat afzet tegen elkaar, denk ik dat mensen meer durven te zeggen dan in een 'normaal' gesprek.
Ik vraag me af of het wenselijk is om AI hiermee te voeden
Steeds meer bronnen verzetten zich tegen gebruik voor trainingsdoelen, met rechtszaken of onbetaalbaar hoge fees. Boeken mogen niet meer gelezen worden. Nieuwsartikelen van gerenommeerde bronnen mogen niet meer gebruikt worden. Veel sites willen niet meer door A.I. gecrawld worden.

Het is de vraag of de huidige modellen van OpenAI en Meta überhaupt wel legaal zijn. Je krijgt de situatie dat de enige 'verstandige' modellen niet kunnen bestaan zonder illegale data, want een mens mag boeken lezen tegen een vergoeding van de bieb, maar een A.I. mag dat niet, want die heeft een te goed geheugen. (Je kan alvast fantaseren over een toekomst waarin robots mensenrechten gaan eisen maar belanghebbenden dat niet willen.) Het is dan ook de vraag hoe groot de overlap is tussen (a) wat wenselijk is, en (b) wat legaal en mogelijk is.

Als wat jij niet wenselijk vind nu juist een heldere legale bron is, misschien wordt de eerste transparante en legale A.I. dan gewoon een stukje asocialer dan de illegalen. ;)

[Reactie gewijzigd door Sando op 28 juli 2024 21:13]

Persoonlijk ben ik van mening dat de manier waarop online gecommuniceerd wordt niet één op één vertaald kan worden naar hoe mensen echt met elkaar praten.
Inderdaad, de meeste mensen gedragen zich als debielen online.
Waarvan moeten de AI modellen anders dan getraind worden? Reddit is een goudmijn van informatie over hoe normale mensen communiceren.
Waarom moeten AI modellen getrained worden? Dat is geen grondrecht.
Ik vind het prachtige techniek hoor maar het doel mag het middel niet heiligen.

Overigens bedrijven we al 50 jaar AI en het grootste deel daarvan bestond Reddit niet eens. Op deze wereld lopen miljarden mensen rond die taalvaardig zijn zonder heel Reddit te hebben gelezen. Dit is niet het enige pad naar de toekomst.

Even met wat meer afstand: mensen leren taal vooral interactief, door om te gaan met andere mensen die taal gebruiken. Daarnaast leren we ook door te lezen maar we laten onze kinderen vooral teksten lezen die zijn geschreven door professionals. Mensen die hun hele leven bezig zijn met het schrijven van boeken of kranten. Je kan reddit niet op je literaratuurlijst zetten. Wij trainen vooral met goed voorbeeldmateriaal en voor ons mensen werkt dat. In principe zou de computer het ook zo moeten kunnen leren.
Aan privacy of auteursrechten kan het niet liggen. Google en andere zoekmachines mogen nu ook al de data scrapen en de gebruikers weten dat. De dat zal alleen nu op een andere manier gepresenteerd gaan worden naast zoekmachineresultaten.
Aan privacy of auteursrechten kan het niet liggen. Google en andere zoekmachines mogen nu ook al de data scrapen en de gebruikers weten dat. De dat zal alleen nu op een andere manier gepresenteerd gaan worden naast zoekmachineresultaten.
Welcome to the new boss, same as the old boss.

Zijstraat: copyright werd jarenlang aangestuurd vanuit Hollywood. De oppermachtige film&media-industrie kon de wet min of meer dicteren en in het eigen voordeel draaien door stevig te lobbyen met dure juristen. Nu is de techindustrie die plek over aan het nemen. De rechten van de oude copyrighthouders worden genegeerd terwijl nieuwe rechten en rechtenhouders worden bedacht naar gelang het past in het straatje van de rijkste bedrijven.
Het is tekenend dat er met geen woord gesproken wordt over de rechten Reddit-gebruikers die al die teksten geschreven hebben. Die zijn niet relevant, copyright is er niet om auteurs te beschermen of om de productie van nieuwe werken te stimuleren, het gaat alleen nog maar over het bewaken van de marktpositie van de allergrootste bedrijven.
Ik vind het bijzonder dat dit zo gedaan wordt. Mede omdat er op Reddit enorm veel posts en comments staan van voor deze deal. Die mensen konden twee jaar geleden toch niet weten dat dit zou gebeuren. AI was niet eens echt een groot ding. Een inbreuk op mensen hun auteursrecht.

Overigens heb ik de e-mail van 20 februari erbij gepakt en zo Reddit's laatst gecommuniceerde privacy policy en user agreement erbij gehaald en daar staat nergens AI or artificial intelligence in. Dus zo duidelijk kan iemand het niet weten als ze die lezen.
"het gaat alleen nog maar over het bewaken van de marktpositie van de allergrootste bedrijven."
Juist. De truc is om regels sneaky te overtreden en te groeien over de rug van andere bedrijven, dan lobbyen dat bepaalde regels stom zijn en weg moeten zodat je in alle vrijheid helemaal knetter rijk kan worden om dan vervolgens als andere bedrijven hetzelfde gaan doen t.o.v. jouw bedrijf, lobbyen voor strengere regels die de anderen buitensluiten. Zodat jij zelf de grootste kan blijven. Dat is de tactiek van de grote techbedrijven geweest.
"Inbreuk op het auteursrecht" - waarom? Vergeet niet, jij hebt Reddit een auteursrechtenlicentie verstrekt door jouw content daar te posten. Dat is inherent aan het concept van posten. Zonder zo'n soort licentie kan jouw post niet op Reddit staan.

Je kunt dus sowieso geen "inbreuk op auteursrecht" claimen vis-a-vis Reddit, maar je moet een licentieschending claimen. Dat is fundamenteel een ander soort rechtzaak (wetsovertreding vs contractbreukt). En Reddit heeft een " royalty-free, perpetual, irrevocable, non-exclusive, unrestricted, worldwide license". Je kunt dus geen AI-restrictie claimen, want dat is in strijd met de " unrestricted".
En Reddit heeft een " royalty-free, perpetual, irrevocable, non-exclusive, unrestricted, worldwide license
...Je kunt dus geen AI-restrictie claimen, want dat is in strijd met de " unrestricted".
Ja dat vinden ze zelf. Heeft een Europese of Nederlandse rechter daar al eens over besloten (in eventueel een sterk vergelijkbare casus) dat dit betekent dat ze dan de informatie op deze wijze mogen doorverkopen? De FTC kijkt ernaar. Als het zo'n makkelijke slam-dunk was, vraag ik me af of ze die moeite zouden nemen, zeker als ongelimiteerd = ongelimiteerd geldt.

Reddit mijn post te laten gebruiken in de context van hun website is iets heel anders dan dat zij direct mijn gesposte informatie gaan doorverkopen aan een commerciële partij, die de informatie direct invoeren in een AI en daar weer informatie mee maakt, eventueel zelfs letterlijk dezelfde info als de gebruiker invoerde.

Dit klinkt als het 'je koopt geen game maar een licentie om het spel te spelen' verhaal. Dat zeggen veel mensen en de overeenkomst zelf ook, echter vind de rechter het toch echt gewoon verkoop in Europa en heb je rechten en wordt jouw gekochte kopie als eigendom gezien.

Edit: vergeten woord toegevoegd en stukje tekst op einde ter verduidelijking.

[Reactie gewijzigd door Minoesh op 28 juli 2024 21:13]

Je kunt van elke regel in elk contract wel de vraag stellen of een rechter er al naar gekeken heeft. Sommige vragen zijn zelfs redelijk: " royalty-free, perpetual, irrevocable, non-exclusive, unrestricted, worldwide" is potentieel in strijd met de sancties op Noord Korean, dus is het wel wereldwijd?

Maar dat is dus een uitzondering juist omdat er voor Noord Korea een wettelijke uitzondering geldt. AI training is wettelijk nog niet speciaal geregeld, en dan valt het dus onder de normale betekenis van "unrestricted".

En het is ook niet gezegd dat de FTC naar de Reddit-deal kijkt vanwege de gebruikers privacy. Het is ook denkbaar dat het een competitie-onderzoek is: waarom alleen een deal met Google, en niet Meta?
er zit denk ik wel een groot verschil tussen verwijzen naar die data en die data claimen...alleen trainen als in weten wat je zegt of die data verkondigen als jou data is ook een verschil.
Er gaat natuurlijk een hele beerput open nu, herpublicatie zonder bronvermelding of context via een taalmodel type ai. Je kunt van alles in contracten en voorwaarden vervatten. Echter als het in strijd blijkt met de wet, auteursrechtenwet en zo meer, dan gaat daar gewoon achteraf alsnog een dikke vette streep door heen en kun je ondanks contracten boetes of gevangenisstraf zelfs tegemoet zien.

Zal hier zo een vaart niet lopen, maar ik schrijf mijn reddit posts alvast niet om indirect Google en Microsoft nog rijker te maken terwijl kleinere EU spelers die data licenties dan niet kunnen betalen. Dit is Amerikaans grootkapitaal dat anders Amerikaans grootkapitaal helpt de concurrentie buiten te houden.
punt 1 zeg ik ook dus.
punt 2 als jij denk google niet te willen helpen op reddit dan doen andere het. iets met tegen de bierkaai vechten.
ik vind bijvoorbeeld ook dat microsoft op de desktop abnormaal dominant is en je er niet omheen kan en erg ongezond is en zelfs veel malen erger is dan op de smcartphone.
ik wil al jaren over op linux maar als de spellen of programma's die ik wil spelen/gebruiken niet werken dan houd het op en blijf ik windows gebruiken.
Maar zoekmachines indexeren openbare bronnen (sites), met dit soort constructies kunnen ze dus ook lepelen uit gesloten content. Is juridisch wel een wereld van verschil.
Men lijkt soms te denken dat trainen niets meer dan copy-past is en dat in een database opslaan zoals google/bing search-engines doen, maar dat is dus helemaal niet zo. Die systemen leren in principe hetzelfde als mensen leren, maar dan vele malen sneller. Wij mensen zijn ook niets meer dan biologische AI.
Mijn indruk is dat je onderschat wat het algoritme van Google doet. En dat je overschat hoe een AI leert.

Beide systemen proberen de waarschijnlijkheid in te schatten dat een bepaald antwoord past bij jou invoer.

AI doet dat bij neer-by-search van vectoren. Wat simpelweg deel-zinnen zijn die bestaan uit deelwoorden. Het kunnen ook deel-plaatjes zijn etc.

Het originele Autonomy (ooit de beste zoekmachine) legde statistisch verband tussen woorden die dicht bij elkaar in het document voor kwamen.

Het originele Google algoritme had een data model dat woorden per letter opknipte en de resultaten waren de doorsnede van de gevonden documenten per zoekwoord.
Door dat opknippen was het algoritme heel snel en kon de filtering al starten voordat je klaar was met typen, en kreeg je dus eerder je antwoord. De laatste bomen werden onthouden in memory en waren dus sneller dan bomen die nog niet in memory zaten. (Google Search Appliance).

Nu zit er veel meer statistiek in het Google algoritme dan eerst. Daarom is Autonomy geen grote speler meer.

[Reactie gewijzigd door djwice op 28 juli 2024 21:13]

AI [probeert de waarschijnlijkheid in te schatten dat een bepaald antwoord past bij jou invoer ] bij neer-by-search van vectoren. Wat simpelweg deel-zinnen zijn die bestaan uit deelwoorden. Het kunnen ook deel-plaatjes zijn etc.
Ik vermoed dat je met " neer-by" het Engelse woord "nearby" (dichtbij) bedoeld, en dat is dan vermoedelijk weer een semantische verhaspeling van neighborhood search. Alsnog is dat niet hoe AI taalmoedellen in dit decennium werken.

SuperDre had een veel betere samenvatting. Elke moderne AI, inclusief Large Language Models, is gebaseerd op neurale netwerken, net zoals mensen. Woorden in de trainingsinput of in de query zijn verbonden met corresponderende neuronen in de eerste laag neuronen. De statistische verbanden tussen woorden zijn gerepresenteerd als (geleerde) verbindingssterktes tussen die neuronen.
Hoe verhouden vector data bases zich hier toe? Want ik hoor ik me heen dat al onze data daar dan in moet zodat de AI er iets mee kan.
Onzinnige claim. Wij trainen hier 24/7 nieuwe AI's, en dat gaat compleet zonder enige "vector database".
Ok. Hmm..
Dank je.
Waar dienen die dan voor?
Geluidsherkenning - onze trainingsdata zijn gewoon geluidsfiles op disk.
Cool, zou ik wel meer over willen weten / leren. Hoe jullie dat doen. Ik wil ook AI trainen met geluidsbestanden als bron, is erg nieuw allemaal voor mij.

Zat te denken om een AI te trainen om de zang van oude muziek opnames te laten klinken alsof de zanger / zangeres nu bij je in de kamer is.

Ik heb redelijk wat muziek van CD omgezet naar flac (30.000+) als data bron.
Dan kun je het beste beginnen met een standaard AI cursus, genoeg online te vinden. Daarna kun je kijken naar de DCASE conferentie. Die hebben een jaarlijkse challenge.
Welke raad je aan? Ik heb AWS Sagemaker redelijk ombeperkt tot m'n beschikking (2 dagen nog ofzo).
Andrew Ng heeft goede cursussen.
Deal lijkt (vanaf de zijlijn gezien), vooral gunstig voor Google
Ik vraag me ook af in hoeverre dat dit zo kan. Best wat mensen op Reddit posten dingen die zij gemaakt hebben als artiest zijnde.
Kan Reddit besluiten voor die artiest dat de AI die afbeeldingen en teksten mag gebruiken?

Ik heb vanuit mijn e-mail van Reddit van 20 februari hun laatste privacy policy en user agreement opgezocht en daar staat niks over AI of artificial intelligence. Dan is het twijfelachtig of iemand er vanuit kan gaan dat dit zo kon gebeuren.

En dan zijn er natuurlijk ook enorm veel posts van mensen voor dat deze deal gemaakt werd.

Ik vind het allemaal maar twijfelachtig of dit zo kan. Ja, data wordt al tijden massaal verkocht. Dat maakt het niet minder twijfelachtig.
Reddit heeft een ongelimiteerde gebruikslicentie. Het antwoord is dus ja. "AI gebruik" valt onder "ongelimiteerd gebruik".
Regel 1 op het internet: als iets "gratis" is, ben jij het product.
Dus jij verwacht dat Tweakers - als je geen betaald account hebt - jouw comments in licentie mag geven aan Google om een AI te trainen?
Ik stel nergens dat iets mag of niet mag. Ik hang geen oordeel aan mijn reactie. Ik zeg alleen dat als je gebruik maakt van diensten die "gratis" zijn dat je zelf het product bent. Een Reddit, Facebook, FOK! of Tweakers zou niet kunnen bestaan zonder op 1 of andere manier gebruikers ten gelde te maken.

[Reactie gewijzigd door BlueTooth76 op 28 juli 2024 21:13]

Maar dat is toch bij elk bedrijf zo, niet alleen bij gratis diensten. Ook bij een verzekeraar ben jij onderdeel van het product. En ook bij de Supermarkt, want jouw koopgedrag zorgt er voor dat ze kunnen inschatten wat je straks gaat kopen. En dat vinden product leveranciers ook weer informatief etc.
Als in de voorwaarden stond/staat dat Tweakers dat mag doen, dan ja.
Vaak hebben sites voorwaarden die zeggen dat jij de rechten aan hun overdraagt. En dan mogen ze idd alles ermee doen, zoals ze dat zouden doen als ze dat zelf geschreven hebben.

Op dit item kan niet meer gereageerd worden.