Reddit dient aanklacht tegen Perplexity in om AI-training met Reddit-content

Reddit klaagt Perplexity en drie 'datascrapingserviceproviders' aan, omdat Perplexity zijn AI op onrechtmatige wijze zou hebben getraind met Reddit-content. Volgens Reddit hebben de bedrijven zich schuldig gemaakt aan 'grootschalige, onrechtmatige omzeiling van gegevensbescherming'.

Reddit vergelijkt de datascrapingbedrijven SerpApi, Oxylabs en AWMProxy met 'bankrovers die de bankkluis niet kunnen openen en in plaats daarvan inbreken in de gepantserde vrachtwagen met het geld.' Perplexity is volgens het socialemediaplatform een klant van 'minstens een van deze bedrijven'. Het AI-bedrijf zou volgens Reddit 'alles doen' om Reddit-gegevens te verkrijgen, behalve een rechtstreekse overeenkomst met Reddit zelf sluiten.

Reddit schrijft dat het platform in mei een cease-and-desistbrief naar Perplexity heeft gestuurd waarin geëist werd dat Perplexity zou stoppen met het scrapen van Reddit-data. Perplexity zou destijds hebben laten weten dat het geen Reddit-content gebruikte om zijn AI-modellen te trainen en dat het de robots.txt van Reddit respecteerde. Sinds 2024 blokkeert dat bestand crawlers van AI-diensten. Volgens de aanklacht steeg het aantal Reddit-citaties na de brief juist.

Reddit claimt dat Perplexity de beschermingsmaatregelen die het platform had genomen omzeilde door Reddit-content te scrapen via Googles zoekresultaten. Om die hypothese te testen, maakte Reddit een bericht dat alleen door Google kon worden gecrawld en verder niet toegankelijk was. Perplexity kon de inhoud van dat bericht volgens Reddit 'enkele uren' na publicatie citeren.

Reddit paste in 2023 zijn api-beleid aan om te voorkomen dat de content van het platform onbetaald gebruikt kon worden voor de training van AI-modellen. Het bedrijf sloot daarna overeenkomsten met OpenAI en Google, waardoor respectievelijk ChatGPT en Gemini op Reddit-content getraind kunnen worden. Het socialemediabedrijf klaagde eerder dit jaar ook Anthropic aan.

Door Imre Himmelbauer

Redacteur

22-10-2025 • 21:17

41

Reacties (41)

Sorteer op:

Weergave:

Reddit vergelijkt de datascrapingbedrijven SerpApi, Oxylabs en AWMProxy met 'bankrovers die de bankkluis niet kunnen openen en in plaats daarvan inbreken in de gepantserde vrachtwagen met het geld.'
Een eerlijker vergelijk zou zijn dat Reddit het geld aan Google in bruikleen geeft en men bij Google inbreekt. Wie is dan verantwoordelijk voor het geld?

Google scraped Reddit tegen betaling en Perplexity scraped vervolgens weer Google. Volgens mij dient Google dan een klacht in te dienen en niet Reddit...
Het blijft de content waar Reddit rechten op heeft, dus lijkt me terecht dat Reddit de aanklacht indient.

Als een schrijver site A een licentie geeft om een boek volledig op de site te publiceren, en site B scrapet dat vervolgens, dan lijkt het me ook logisch dat de auteur daar achteraan gaat. Het is zijn boek dat gestolen wordt...

[Reactie gewijzigd door vickypollard op 22 oktober 2025 21:32]

Ja ok maar Reddit schrijft niets. Het is allemaal door de gebruikers gegenereerde inhoud.
Maar het moment dat je iets post sta je je rechten af aan Reddit en zijn zei de eigenaar van de content
Is dat zo? Ik dacht dat het meer een public domain iets was ofzo? (geen idee btw)
Ja dat is zo.
When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit. For example, this license includes the right to use Your Content to train AI and machine learning models, as further described in our Public Content Policy. You also agree that we may remove metadata associated with Your Content, and you irrevocably waive any claims and assertions of moral rights or attribution with respect to Your Content.

Any ideas, suggestions, and feedback about Reddit or our Services that you provide to us are entirely voluntary, and you agree that Reddit may use such ideas, suggestions, and feedback without compensation or obligation to you.

Although we have no obligation to screen, edit, or monitor Your Content, we may, in our sole discretion, delete, deem your content ineligible for monetization, or remove Your Content, at any time and for any reason, including for violating these Terms, our Reddit Rules, or our other terms and policies, or if you otherwise create or are likely to create liability for us.
Daar staat dat ze licentiehouder worden van de content. Wel een erg uitgebreide licentie, maar een licentiehouder is toch geen eigenaar?

Als ik partij A een licentie geef om iets van mij te gebruiken, en vervolgens gebruikt partij B het ook.

Wie mag er dan achter partij B aangaan voor oneigenlijk gebruik? Ik, de eigenaar, of partij A, een licentiehouder?

Het gaat hier ook om een niet-exclusieve licentie die Reddit krijgt.

[Reactie gewijzigd door ZinloosGeweldig op 23 oktober 2025 11:17]

Wat ze vgm hiermee proberen te zeggen is dat reddit mag doen met de post/comment wat ze willen maar dat als je iets strafbaars doet jij als eigenaar verantwoordelijk bent.

oftewel Reddit krijgt alle baten, jij alle lasten
Dat is vrijwel met ieder social media platform of dienst. Als het "gratis" is, wordt dat ergens mee betaald, niet alleen advertenties, maar alle data die je naar ze toe stuurt. Daar claimen zij eigenschap over (en waar jezelf toestemming voor geeft), zodat ze ermee kunnen doen wat ze willen, zoals gegevens doorverkopen of ai trainen. Dusja, Twitter, Tiktok, Facebook, Reddit, allen kunnen copyright claimen over het werk wat je vrijwillig aan hun overhandigt.
Geef je Reddit eem licentie, of draag je de rechten schriftelijk over bij elke nieuwe post?

Een belangrijke reden waarom je als platform geen eigenaar wil zijn ban de posts is dat je dan ook aansprakelijl bent voor die posts.

Reddit wil blijkbaar wel de lusten maar niet de lasten.
Reddit wil blijkbaar wel de lusten maar niet de lasten.
Iedereen toch?
Een belangrijke reden waarom je als platform geen eigenaar wil zijn ban de posts is dat je dan ook aansprakelijl bent voor die posts.
Dat is maar in beperkte mate zo natuurlijk.
Geloof maar dat een winkelier allerlei gezeur gaat krijgen, als ze een derde toestemming geven om allerlei racistische leuzen in de etalage te plaatsen. Ongeacht of in de overeenkomst staat dat de schrijver van die leuzen de eigenaar blijft :)
Nee hoor, dat is absoluut niet beperkt. Je vergelijking is niet relevant, Reddit valt onder Amerikaans recht en daar is een speciale uitzondering voor websites met dergelijke posts van derden.("Section 230" uitzondering). Jouw winkelier valt niet onder die online wetgeving.
Je geeft een licentie. Een niet-exclusieve overigens, dus je mag er zelf ook nog van alles mee doen.
In dit geval zal het de werkelijke auteurs weinig uitmaken. Ze posten publiekelijk iets op het internet zonder enige verwachting op compensatie. Natuurlijk vindt Reddit het allemaal weer heel verschrikkelijk dat deze berichten “gestolen” worden. Het kost ze blijkbaar niet eens extra server capaciteit als ik zo goed begrijp dat het simpelweg door Google geïndexeerd werd, zoals sowieso al gebeurt.

Persoonlijk vind ik het als gebruiker van zowel Reddit als dit soort ai applicaties positief dat llm’s zo beter worden, onder andere door mijn eigen content. Dat Reddit weer heel zielig doet ga ik verder niet wakker van liggen, moeten ze maar met elkaar uitzoeken allemaal.


Trouwens misschien niet helemaal gerelateerd, maar wat ik echt irritant vindt is dat Reddit posts gaat vertalen en je dan meerdere keren hetzelfde terugziet op Google (in verschillende talen) en je maar moet gokken wat het origineel is.

[Reactie gewijzigd door i7x op 22 oktober 2025 22:04]

Het enige waar Reddit natuurlijk echt bang voor is, is advertentieinkomsten missen omdat de concurrent hun data gebruikt voor antwoorden en méér data heeft van een gebruiker om relevantere advertenties te laten zien en dus ook te verkopen.
Ja wat is het nou? Staat het iedereen vrij om AI te trainen met alles wat je op internet kan vinden of geldt dat enkel als je een bestaande partij met diepe zakken bent?
Heel duidelijk geldt dat alleen als je diepe zakken hebt. Auteursrechten zijn voor poor people.
Ai mag niet de data gebruiken als dat in de robots.txt verboden is.Iedereen kan daarmee zijn of haar intellectuele eigendommen beschermen.

Tegen de wil in data verzamelen en gebruiken is gewoon een overtreding en mag niet. In dit geval konden ze het dus ook nog aantonen dat het gebeurde door een nep bericht wat ze geplaatst hadden.
Het lastige is dat je data die ze gebruikt hebben voor het learning proces je niet zo maar kan verwijderen.
Een overtreding van wat, precies? Voor zover ik weet wordt robots.txt niet ondersteund door de wet.

Daarnaast proberen grote bedrijven gewoon de ladder omhoog te trekken wat AI betreft. Zelf hebben ze getraind op alles wat ze maar konden vinden, maar "ineens" is het belangrijk dat er licenties worden afgenomen.
Ach, dat hebben alle grote partijen toch allang gedaan?
Die hebben alles gescraped waar ze met hun gretige tengeltjes aan konden komen en wijzen vervolgens heel verontwaardigd naar andere (meestal kleinere) partijen die hetzelfde doen.

Die robot.txt is volgens mij echt een wasse neus, daar houd niemand zich aan.
Ik ben geen AI-expert, maar Perplexity heeft toch helemaal geen eigen model? Ik dacht dat het een leuke schil was, die gebruik maakt van AI-modellen van anderen. Wat wordt er dan getraind door Perplexity?
Ik vind het wel grappig dat bedrijven informatie en data openbaar online zetten, en dan gaan huilen dat de wereld het leest en gebruikt.
Maar dat is hoe copyright werkt. Reddit bepaald wie wat mag doen met de data die zij publiceren.

Ik mag iets openbaar publiceren, maar dat geeft niemand het recht er iets mee te doen, anders dan het te lezen, tenzij ik expliciet toestemming geef. Ik mag broncode openbaar op Github plaatsen, zonder dat iemand die broncode mag kopiëren, enzovoorts.
https://docs.github.com/en/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/licensing-a-repository
You're under no obligation to choose a license. However, without a license, the default copyright laws apply, meaning that you retain all rights to your source code and no one may reproduce, distribute, or create derivative works from your work. If you're creating an open source project, we strongly encourage you to include an open source license.
En dan natuurlijk even los van het feit dat het misschien niet slim is, om de code openbaar te publiceren als ik niet wil dat mensen er wat mee gaan doen.
Maar dat is hoe copyright werkt. Reddit bepaald wie wat mag doen met de data die zij publiceren.
Dat is niet hoe auteursrecht werkt. Door op Reddit te posten geef je Reddit een licentie jou content te gebruiken, maar ze worden hier geen eigenaar van en die licentie is expliciet niet-exclusief.

Reddit is niet auteursrechthouder van de content waar het om gaat, maar licentienemer.
Als jij je broncode openbaar op Github zet dan mag ik dat lezen en ervan leren. Daar koos je voor toen je besloot je content niet op privé te zetten. Wat ik met die kennis doe is niet aan jou. Als ik kies om een vergelijkbaar iets te maken dan is dat prima. Of als ik als Perplexity zijnde kies om daar iets van quoten dan mag dat ook. Je hebt bij het publiceren toestemming gegeven aan de wereld om het te gebruiken. Die licentie poeha is er om nog wat extra centjes los te trekken maar heeft verder niks met het principe te maken
Het is als een opname van een uitzending op TV maken, de reclames wegknippen en dan vervolgens zelf de uitzending (te koop) aanbieden. "Ja maar het wordt gratis en openbaar op de ether gezet" is dan ook niet een geldig excuus.
Dat is copy pasten. Heeft niks met 'gebruiken' te maken.
Niet te vergeten dat zij eigenlijk geen eigen data hebben, maar door gebruikers gecreëerde content.
Waarom wordt Perplexity dan aangeklaagd en niet Google? Die heeft toch de zoekresultaten gemaakt en geleverd? Verder vraag ik mij af of je wel iets kunt forceren als je geen gebruiker bent van de dienst maar simpelweg een bezoeker. Je keurt geen algemene voorwaarden of privacy policy goed als je geen account aanmaakt en als je via google werkt, dan is het meer alsof je iets aan iemand vertelt die het vervolgens doorvertelt. Ga je dan degene die de kennis via via hoorde aanklagen of degene die je kennis initieel heeft verkregen en doorgegeven?
Als ik een 'illegale kopie' maak van een beschermd werk, dan is niet de fabrikant van de browser of fotocamera degene die fout is.

Volgens Reddit (laten we het even aan de rechter of het klopt) is Perplexity doelbewust bezig om Reddit-informatie te scrapen via een derde partij. Die derde partij heeft toestemming om Reddit data te scrapen. Perplexity niet.
Volgens Reddit is de data van Reddit niet 'toevallige bijvangst' die Perplexity heeft bemachtigd, maar gebruikt het Google om de data te vergaren.

Stel dat een bedrijf in Nederland niet mag handelen om reden XYZ, dan mogen ze dat ook niet via Amazon Duitsland in Nederland. (en dan even los van hoe makkelijk te controleren is.)
Waarom wordt Perplexity dan aangeklaagd en niet Google?
Omdat Reddit wel graag door Google geïndexeerd wil worden zodat gewone mensen ze kunnen vinden, maar niet wil dat iemand de inhoud van Reddit gebruikt voor iets anders.

Het copyright-bouwwerk was (is) al niet geschikt voor het internet tijdperk en dat wordt door de opkomst van AI alleen maar erger. Dat bouwwerk aanpassen is moeilijk omdat niemand precies weet hoe een aanpassing uit gaat werken, en door belangen en eisen van belangengroepen die vooral voor zichzelf opkomen.

Het resultaat is een lang en pijnlijk proces met vele rechtszaken. Met lang bedoel ik 10-tallen jaren, dit is al heel lang gaande en ik zie voorlopig geen einde.
Modellen trainen is nog wat anders dan alleen maar in search resultaten gebruikt worden.
inderdaad, het model is niet binnen enkele uren bij getraind. Waarschijnlijk gebruikt Perplexity de Google search API om relevante informatie te vinden en er bij te zetten, dat is natuurlijk ook precies hoe Perplexity werkt. Ik denk dat Reddit dan toch bij Google moet aankloppen en vragen of Google de API niet langer beschikbaar maakt.
Als je een gemiddelde Reddit post leest of bepaalde forums ziet dan vraag je je echt af of je daarop AI wilt trainen.

Echter gaat voor niets de zon op, dus hoe slecht iets ook is, je moet er voor betalen vind ik
....

[Reactie gewijzigd door Melkunie op 23 oktober 2025 09:48]

Ik denk dat je dat wel hebt gedaan, lees de gebruikersovereenkomst van Reddit maar eens na.
Reddit Gebruikersovereenkomst zegt:
this license includes the right to use Your Content to train AI and machine learning models, as further described in our Public Content Policy.
https://redditinc.com/nl-nl/policies/user-agreement

Jawel.
You retain any ownership rights you have in Your Content, but you grant Reddit the following license to use that Content:

When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world.
Leuk om je een beetje in te dekken als bedrijf, maar zo'n tekst in je EULA agreement zetten is niet dekkend. Bijvoorbeeld, als ik in een post ergens geplaatst zou hebben "In mijn woonplaats XYZ", dan geldt hierop ook AVG-wetgeving, en daarbij is er expliciet consent nodig om content voor iets anders te gebruiken dan het doel initieel was.

Daarnaast: Wikipedia: End-user license agreement
EULAs are only enforceable to the extent that they do not breach reasonable consumer expectations
Zo zeker is dat niet.


Om te kunnen reageren moet je ingelogd zijn