Reddit dient aanklacht tegen Perplexity in om AI-training met Reddit-content

Reddit klaagt Perplexity en drie 'datascrapingserviceproviders' aan, omdat Perplexity zijn AI op onrechtmatige wijze zou hebben getraind met Reddit-content. Volgens Reddit hebben de bedrijven zich schuldig gemaakt aan 'grootschalige, onrechtmatige omzeiling van gegevensbescherming'.

Reddit vergelijkt de datascrapingbedrijven SerpApi, Oxylabs en AWMProxy met 'bankrovers die de bankkluis niet kunnen openen en in plaats daarvan inbreken in de gepantserde vrachtwagen met het geld.' Perplexity is volgens het socialemediaplatform een klant van 'minstens een van deze bedrijven'. Het AI-bedrijf zou volgens Reddit 'alles doen' om Reddit-gegevens te verkrijgen, behalve een rechtstreekse overeenkomst met Reddit zelf sluiten.

Reddit schrijft dat het platform in mei een cease-and-desistbrief naar Perplexity heeft gestuurd waarin geëist werd dat Perplexity zou stoppen met het scrapen van Reddit-data. Perplexity zou destijds hebben laten weten dat het geen Reddit-content gebruikte om zijn AI-modellen te trainen en dat het de robots.txt van Reddit respecteerde. Sinds 2024 blokkeert dat bestand crawlers van AI-diensten. Volgens de aanklacht steeg het aantal Reddit-citaties na de brief juist.

Reddit claimt dat Perplexity de beschermingsmaatregelen die het platform had genomen omzeilde door Reddit-content te scrapen via Googles zoekresultaten. Om die hypothese te testen, maakte Reddit een bericht dat alleen door Google kon worden gecrawld en verder niet toegankelijk was. Perplexity kon de inhoud van dat bericht volgens Reddit 'enkele uren' na publicatie citeren.

Reddit paste in 2023 zijn api-beleid aan om te voorkomen dat de content van het platform onbetaald gebruikt kon worden voor de training van AI-modellen. Het bedrijf sloot daarna overeenkomsten met OpenAI en Google, waardoor respectievelijk ChatGPT en Gemini op Reddit-content getraind kunnen worden. Het socialemediabedrijf klaagde eerder dit jaar ook Anthropic aan.

Door Imre Himmelbauer

Redacteur

22-10-2025 • 21:17

24

Reacties (24)

Sorteer op:

Weergave:

Reddit vergelijkt de datascrapingbedrijven SerpApi, Oxylabs en AWMProxy met 'bankrovers die de bankkluis niet kunnen openen en in plaats daarvan inbreken in de gepantserde vrachtwagen met het geld.'
Een eerlijker vergelijk zou zijn dat Reddit het geld aan Google in bruikleen geeft en men bij Google inbreekt. Wie is dan verantwoordelijk voor het geld?

Google scraped Reddit tegen betaling en Perplexity scraped vervolgens weer Google. Volgens mij dient Google dan een klacht in te dienen en niet Reddit...
Het blijft de content waar Reddit rechten op heeft, dus lijkt me terecht dat Reddit de aanklacht indient.

Als een schrijver site A een licentie geeft om een boek volledig op de site te publiceren, en site B scrapet dat vervolgens, dan lijkt het me ook logisch dat de auteur daar achteraan gaat. Het is zijn boek dat gestolen wordt...

[Reactie gewijzigd door vickypollard op 22 oktober 2025 21:32]

In dit geval zal het de werkelijke auteurs weinig uitmaken. Ze posten publiekelijk iets op het internet zonder enige verwachting op compensatie. Natuurlijk vindt Reddit het allemaal weer heel verschrikkelijk dat deze berichten “gestolen” worden. Het kost ze blijkbaar niet eens extra server capaciteit als ik zo goed begrijp dat het simpelweg door Google geïndexeerd werd, zoals sowieso al gebeurt.

Persoonlijk vind ik het als gebruiker van zowel Reddit als dit soort ai applicaties positief dat llm’s zo beter worden, onder andere door mijn eigen content. Dat Reddit weer heel zielig doet ga ik verder niet wakker van liggen, moeten ze maar met elkaar uitzoeken allemaal.


Trouwens misschien niet helemaal gerelateerd, maar wat ik echt irritant vindt is dat Reddit posts gaat vertalen en je dan meerdere keren hetzelfde terugziet op Google (in verschillende talen) en je maar moet gokken wat het origineel is.

[Reactie gewijzigd door i7x op 22 oktober 2025 22:04]

Het enige waar Reddit natuurlijk echt bang voor is, is advertentieinkomsten missen omdat de concurrent hun data gebruikt voor antwoorden en méér data heeft van een gebruiker om relevantere advertenties te laten zien en dus ook te verkopen.
Ja ok maar Reddit schrijft niets. Het is allemaal door de gebruikers gegenereerde inhoud.
Maar het moment dat je iets post sta je je rechten af aan Reddit en zijn zei de eigenaar van de content
Is dat zo? Ik dacht dat het meer een public domain iets was ofzo? (geen idee btw)
Ja dat is zo.
When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit. For example, this license includes the right to use Your Content to train AI and machine learning models, as further described in our Public Content Policy. You also agree that we may remove metadata associated with Your Content, and you irrevocably waive any claims and assertions of moral rights or attribution with respect to Your Content.

Any ideas, suggestions, and feedback about Reddit or our Services that you provide to us are entirely voluntary, and you agree that Reddit may use such ideas, suggestions, and feedback without compensation or obligation to you.

Although we have no obligation to screen, edit, or monitor Your Content, we may, in our sole discretion, delete, deem your content ineligible for monetization, or remove Your Content, at any time and for any reason, including for violating these Terms, our Reddit Rules, or our other terms and policies, or if you otherwise create or are likely to create liability for us.
Geef je Reddit eem licentie, of draag je de rechten schriftelijk over bij elke nieuwe post?

Een belangrijke reden waarom je als platform geen eigenaar wil zijn ban de posts is dat je dan ook aansprakelijl bent voor die posts.

Reddit wil blijkbaar wel de lusten maar niet de lasten.
Reddit wil blijkbaar wel de lusten maar niet de lasten.
Iedereen toch?
Een belangrijke reden waarom je als platform geen eigenaar wil zijn ban de posts is dat je dan ook aansprakelijl bent voor die posts.
Dat is maar in beperkte mate zo natuurlijk.
Geloof maar dat een winkelier allerlei gezeur gaat krijgen, als ze een derde toestemming geven om allerlei racistische leuzen in de etalage te plaatsen. Ongeacht of in de overeenkomst staat dat de schrijver van die leuzen de eigenaar blijft :)
Ja wat is het nou? Staat het iedereen vrij om AI te trainen met alles wat je op internet kan vinden of geldt dat enkel als je een bestaande partij met diepe zakken bent?
Heel duidelijk geldt dat alleen als je diepe zakken hebt. Auteursrechten zijn voor poor people.
Ai mag niet de data gebruiken als dat in de robots.txt verboden is.Iedereen kan daarmee zijn of haar intellectuele eigendommen beschermen.

Tegen de wil in data verzamelen en gebruiken is gewoon een overtreding en mag niet. In dit geval konden ze het dus ook nog aantonen dat het gebeurde door een nep bericht wat ze geplaatst hadden.
Het lastige is dat je data die ze gebruikt hebben voor het learning proces je niet zo maar kan verwijderen.
Een overtreding van wat, precies? Voor zover ik weet wordt robots.txt niet ondersteund door de wet.

Daarnaast proberen grote bedrijven gewoon de ladder omhoog te trekken wat AI betreft. Zelf hebben ze getraind op alles wat ze maar konden vinden, maar "ineens" is het belangrijk dat er licenties worden afgenomen.
Ik vind het wel grappig dat bedrijven informatie en data openbaar online zetten, en dan gaan huilen dat de wereld het leest en gebruikt.
Waarom wordt Perplexity dan aangeklaagd en niet Google? Die heeft toch de zoekresultaten gemaakt en geleverd? Verder vraag ik mij af of je wel iets kunt forceren als je geen gebruiker bent van de dienst maar simpelweg een bezoeker. Je keurt geen algemene voorwaarden of privacy policy goed als je geen account aanmaakt en als je via google werkt, dan is het meer alsof je iets aan iemand vertelt die het vervolgens doorvertelt. Ga je dan degene die de kennis via via hoorde aanklagen of degene die je kennis initieel heeft verkregen en doorgegeven?
Modellen trainen is nog wat anders dan alleen maar in search resultaten gebruikt worden.
inderdaad, het model is niet binnen enkele uren bij getraind. Waarschijnlijk gebruikt Perplexity de Google search API om relevante informatie te vinden en er bij te zetten, dat is natuurlijk ook precies hoe Perplexity werkt. Ik denk dat Reddit dan toch bij Google moet aankloppen en vragen of Google de API niet langer beschikbaar maakt.
Als je een gemiddelde Reddit post leest of bepaalde forums ziet dan vraag je je echt af of je daarop AI wilt trainen.

Echter gaat voor niets de zon op, dus hoe slecht iets ook is, je moet er voor betalen vind ik
....

[Reactie gewijzigd door Melkunie op 23 oktober 2025 09:48]

Ik denk dat je dat wel hebt gedaan, lees de gebruikersovereenkomst van Reddit maar eens na.
Reddit Gebruikersovereenkomst zegt:
this license includes the right to use Your Content to train AI and machine learning models, as further described in our Public Content Policy.


Om te kunnen reageren moet je ingelogd zijn