'Tumblr en WordPress.com gaan gebruikersdata verkopen aan Midjourney en OpenAI'

Het moederbedrijf van Tumblr en WordPress.com, Automattic, is naar verluidt in gesprek met Midjourney en OpenAI om trainingsdata te leveren die afkomstig is van de posts van gebruikers. Er moet wel een opt-outoptie beschikbaar komen voor gebruikers.

Automattic staat op het punt om een licentiedeal met de twee AI-bedrijven te sluiten, beweert 404 Media op basis van een anonieme bron. Het bedrijf wil naar verluidt gebruikersgegevens van zijn platformen verkopen om zo aan een nieuwe inkomstenbron te komen. Het is niet duidelijk welk bedrag met de deal gemoeid gaat. Ook welke gegevens precies worden verkocht is niet bekend.

Wel stelt 404 Media dat Automattic in de 'initiële datadump' veel Tumblr-posts heeft verzameld die daar niet thuishoorden. Alle publieke posts van 2014 tot en met 2023 zouden zijn gescrapet, maar daartoe behoorden per ongeluk ook privéposts op publieke blogs, verwijderde blogs en expliciete posts. Het is onduidelijk of deze gegevens al zijn verstuurd naar Midjourney en OpenAI.

Automattic heeft na de publicatie van het artikel van 404 Media een blogpost online gezet. Daarin bevestigt het bedrijf samen te werken met 'bepaalde AI-bedrijven', al noemt het geen namen. Het moederbedrijf laat weten dat het een instelling op Tumblr en WordPress.com heeft toegevoegd waarmee gebruikers kunnen 'ontmoedigen' dat AI-bedrijven hun posts en websites crawlen. Het bedrijf waarschuwt dat bedrijven zich hier niet aan hoeven te houden, aangezien er tot dusver geen wet is die crawling verbiedt. Wel belooft Automattic dat de bedrijven waarmee het samenwerkt de voorkeuren van gebruikers zullen respecteren. Als een gebruiker ervoor kiest om zich later af te melden, wordt de content alsnog verwijderd uit de trainingsdata van die bedrijven, aldus Automattic.

Door Kevin Krikhaar

Redacteur

28-02-2024 • 12:01

60

Reacties (60)

60
59
42
5
0
13
Wijzig sortering
Voor de zekerheid wil ik het wel verduidelijken betreft wordpress. Dit gaat om Wordpress.com, de website waar je (al dan niet tegen betaling) een wordpress site kunt opzetten.

Dit gaat niet om self hosted wordpress. De software van wordpress is open source, dus zelfs als ze dat zouden inbakken dan zal er een fork komen en kun je gewoon overstappen.
Wordpress.com en Wordpress.org zijn toch ook gewoon twee verschillende partijen?
.com, dus Automattic doet bijdrages aan Wordpress, maar beheren niet Wordpress.org (het project)

Zij zouden dit dus ook helemaal niet kunnen inbouwen.

Tweakers had het beter kunnen verwoorden:
Het moederbedrijf van Tumblr en Wordpress.com, Automattic,
Zo noemen ze het bijvoorbeeld zelf ook op hun website. "Tumblr & Wordpress.com"
Ik zie dat het artikel ondertussen is aangepast, de eerste versie was "Tumblr en Wordpress gaan gebruikersdata verkopen".

Daarom vanuit mijn kant de verduidelijking dat wordpress niet gelijk staat aan wordpress.com. Gelukkig heeft de auteur dit ook ingezien en aangepast :)
En doormiddel van het attente berichtje hier waar iedereen het meteen kan zien.
Wel belangrijk om te weten dat de CEO van Automattic dus Matt Mullenweg is. Hij is ook de co-founder van de WordPress CMS, eigenaar van WordPress.com, en heeft enorm veel invloed op de werking van de site wordpress.org (waar WordPress core, plugins en themes worden gehost) en dus ook de CMS.

[Reactie gewijzigd door Stroopwafels op 22 juli 2024 18:36]

Okay, dus toch niet zo verschillend als ik dacht. Wel los van elkaar, maar komt uiteindelijk toch bij Matt uit!
Inderdaad, wat mij betreft mag @Kevinkrikhaar zeker vermelden in de titel dat het om Wordpress.com gaat, want Wordpress.com != Wordpress
Tenzij je de standaardinstellingen aanpast gaat er bij elke nieuwe post een ping naar
http://rpc.pingomatic.com/
Pingomatic is van Wordpress. Ik heb nooit bekeken wat er precies verstuurd wordt, maar mijn punt is dat zelfs self-hosted Wordpress sites standaard gewoon met het moederschip praten.

https://developer.wordpre...ordpress/update-services/
Hetzelfde geldt voor Gravatar, wat ook van Wordpress is. Ook self-hosted Wordpress gebruikt standaard Gravatar voor user avatars, en stuurt daarmee gebruikersdata naar een centrale server in beheer van Wordpress.
Is gravatar juist niet zo ontworpen dat er alleen een SHA256 hash van 'n emailadres wordt verstuurd?

Gegeven, de gebruiker moet zich aanmelden bij Gravatar voor 'n account en z'n email+avatar daar instellen. Maar daarmee wordt geen content of userdata van jouw WP site naar Gravatar/Automattic gestuurd.
Nou ja, geen userdata... er wordt contact gemaakt met de server van Gravatar, waardoor zij weten wat je IP-adres, user agent string, etc. is en dat kunnen matchen met je emailadres, waardoor het in feite fungeert als een tracker.
Hmz, daar heb je inderdaad 'n punt mee.
Goeie! En wat te denken van JetPack? JetPack is weliswaar niet direct van Wordpress (lijkt het), maar elke verse installatie van WordPress stelt volgens mij wel te pas en te onpas JetPack voor.
  • WordPress.com
  • WooCommerce
  • Jetpack
  • Akismet
  • Gravatar
Allemaal producten van Automattic.
Je vergeet woocommerce. En hoewel WordPress.org opensource is, is de eigenaar onderwater ook automattic
Moet dat vanuit de regelgeving hier in EU niet een opt-in zijn?
Het is een opt-in. Je gebruikt namelijk commerciele diensten, en je geeft jouw data aan hun. Dit staat ook in de voorwaarden bij gebruik van Wordpress.com en Tumblr.com, and dat is ook niet in strijd met de wet.

Als je wordpress gebruikt en het zelf host, dan zit je niet met Wordpress.com maar met Wordpress.org, en die data hebben ze geen invloed op en kunnen ze niet gebruiken, en is ook dus geen onderdeel van deze deal.
Volgens het artikel is het opt-out. Dus niet opt-in zoals jij schrijft.
De argumentatie vind ik niet sterk; een bron daarvoor zou verhelderend werken.
De opt-in is dat je je aanmeld. Een standaard opt-out die ze moeten aanbieden op z'n minst is dat je je account kunt verwijderen en je data kun verwijderen, dat valt onder GDPR.

Maar, je hebt je data al aan ze gegeven met commerciele doeleinden, dus het feit dat ze je een derde optie bieden is al iets waarmee ze je tegemoet komen.
Bij opt-in ga je expliciet met een voorwaarde akkoord. Dus met een actie op het specifieke onderdeel aangeven dat je meedoet (bijvoorbeeld met een vinkje zetten maar die is niet altijd nodig). Algemene voorwaarden of dmv gebruikmaken van een dienst is per definitie geen opt-in. Maar "door op doorgaan te klikken ga je er akkoord mee dat we je gegevens mogen verkopen aan derden" kan zeker opt-in zijn, ook als als het een item in een bullet list is. Die toestemming kun je niet zomaar achteraf veranderen omdat de regels zijn veranderd. Dan moet weer de melding komen en moet je akkoord gaan. Overigens kan ik me best voorstellen dat opt-in hiervoor (zelfs in de EU) niet verplicht hoeft te zijn. Dat ligt er oa aan welke data ze verkopen.

[Reactie gewijzigd door pookie79 op 22 juli 2024 18:36]

Hij bedoeld dat het opt-in is omdst je ooit met de voorwaarden van Wordpress en Tumblr akkoord bent gegaan. Het is opt-out voor deze specifieke functie.

Zie het als een schuifje, standaard staat hij aan maar je mag het uitzetten, en hij staat aan omdat je al ooit akkoord bent gegaan met het delen van data vanwege de gebruikers voorwaarden.
Je bent ooit overeengekomen om data met hen te delen, maar niet dat zij die data dan maar zomaar mogen doorverkopen.
Dit is een nieuw manier van jouw gegevens gebruiken en ze mogen er niet vanuit gaan dat ze die dan voor iedereen mogen aanzetten.
Juist dáárvoor is het zo belangrijk dat privacywetgeving er is en zo sterk mogelijk is, want je privacy is onbetaalbaar.
Ligt er aan wat er in de gebruikers voorwaarden staat, als ik Wordpress er even bij pak:
License. By uploading or sharing Content, you grant us a worldwide, royalty-free, transferable, sub-licensable, and non-exclusive license to use, reproduce, modify, distribute, adapt, publicly display, and publish the Content solely for the purpose of providing and improving our products and Services and promoting your website. This license also allows us to make any publicly-posted Content available to select third parties (through Firehose, for example) so that these third parties can analyze and distribute (but not publicly display) the Content through their services. You also give other WordPress.com users permission to share your Content on other WordPress.com websites and add their own Content to it (aka to “reblog” your Content), so long as they use only a portion of your post and they give you credit as the original author by linking back to your website, which the reblogging function on WordPress.com does automatically.
Heb het even vet gedrukt, maar daar staat letterlijk dat zij jouw publieke data mogen aanbieden aan andere partijen. Firehose is een AWS component om data te verspreiden naar andere diensten (van jezelf of van anderen)
Ik ben geen expert op wetgeving hoor, maar volgens mij mag dat dus niet in de EU.
Misschien wordt er nog onderscheid gemaakt tussen publiek toegankelijk materiaal en materiaal dat pas achter een login bereikbaar is.
Ook moet je dit soort spullen, wanneer je een keuze hebt, expliciet toestemming geven in plaats van impliciet.
Zou mooi (*&^% zijn als bedrijven dit zomaar kunnen verstoppen in hun overeenkomsten, die dan updaten met "we delen met openAI" en wanneer jij die update niet ziet dan zomaar jouw schrijfsels worden gebruikt als trainingsdata.
Denk dat je het principe achter opt-in niet helemaal begrijp, akkoord te gaan met de voorwaarden van een website (om gebruik te maken van) is geen opt-in, je moet daar (ook voor out) aparte mogelijkheid voor geven (soft-opts mogen niet meer). Opt-in is 'standaard uit, maar de mogelijkheid aan te zetten', zoals out 'standaard aan, maar mogelijkheid om uit te zetten', zoals de bekende 'ik wil graag de nieuwsbrief ontvangen' met een vinkje aan/uit.

EULA/Cookiewall dat ze dit doen is geen opt-in, of er moet expliciet (zoals bv Sony en MS doen) een optie zijn 'nee, deel geen info met AI derden'.
Ik draai er inderdaad een beetje om heen, maar je bent al akkoord gegaan dat ze je data gebruiken voor commerciele doeleinden. Dat is onderdeel van je aanmelden van een commerciele dienst zonder dat je ervoor betaald. Dus ja, ik weet wat opt-in is, maar in dit geval is het niet heel anders als Reddit die z'n data aan bijvoorbeeld Google verkoopt, zonder dat jij daar invloed op hebt behalve door je account te verwijderen.
Die aanvaarding gaat samen met de huidige technologie. Als die veranderd, kan de opt in ongeldig worden.
Zo'n opt in via de "algemene voorwaarden" is trouwens al zo goed als ongeldig verklaard.
Zoals je zegt: dit soort deals zijn waarschijnlijk legaal als commercieel gebruik van data/content in de voorwaarden stond ten tijde van inschrijving op het platform. De gebruiker heeft de optie om het account te beëindigen, maar kan het gebruik van de data niet weigeren op andere manieren. Gebruikers hebben wel het recht om hun persoonsgegevens te laten verwijderen, maar als je je account wilt blijven gebruiken dan kan dat wellicht niet altijd, of niet volledig. En gebruikerscontent is niet hetzelfde als persoonsgegevens; geschreven teksten en geüploade foto's zijn geen persoonsgegevens (maar kunnen eventueel wel persoonsgegevens bevatten).

Maar "zonder dat je ervoor betaalt" staat er los van. Dit geldt niet alleen voor gratis platforms of diensten, maar ook betaalde. Wordpress.com-gebruikers zijn overwegend betalende gebruikers (de gratis tier is heel beperkt en toont reclame), maar dat spaart hen niet met deze datadeal. Ten minste, er wordt nergens gezegd dat het alleen gaat om specifiek niet-betalende gebruikers. Ook Reddit-gebruikers hebben soms betalingen gedaan aan het platform (via micro-transacties of premium-abbo), en zij gaan een soortgelijke deal aan met AI-makers.

Dus ook als je wel betaalt, ben je tegenwoordig soms nog steeds het product in plaats van de klant. Simpelweg betalen voor platforms is geen uitweg in dit geval.
Het is geen website bezoeken.
Het is (als eigenaar/blogger) een dienst afnemen bij Wordpress.com, namelijk een blog/website.

De commentaren die een bezoeker van zo'n blog plaatst worden niet genoemd (men heeft het over posts op de blog).
Anoniem: 2022072 28 februari 2024 13:20
Mogen die gegevens zomaar worden verkocht door middel van alleen een opt-out? Ik dacht dat je altijd een expliciete opt-in moest doen voor het verhandelen van je gegevens. Ik vraag mij ook af hoe ze dat doen met inactieve gebruikers uit 2014.

Bovendien kan ik mij voorstellen dat als iemand een verzoek indient ter verwijdering van de gegevens en daarbij behorende Posts, dat je die dan ook dient te verwijderen. Dat lijkt nu niet gebeurt te zijn?
Alle publieke posts van 2014 tot en met 2023 zouden zijn gescrapet, maar daartoe behoorden per ongeluk ook privéposts op publieke blogs, verwijderde blogs en expliciete posts
Tumblr en Wordpress.com (en daarmee eigenlijk ook Wordpress.org) komen bij mij nu in ieder geval in een negatiever daglicht te staan.
Mogen die gegevens zomaar worden verkocht door middel van alleen een opt-out? Ik dacht dat je altijd een expliciete opt-in moest doen voor het verhandelen van je gegevens.
Bijna goed, maar het gaat alleen om persoonsgegevens. De opt-in komt voort uit de GDPR/AVG en gaat dus alleen om persoonsgegevens en niet over andere vormen van data.

De volgende interessante vraag is dan wel wat precies een persoonsgegeven is, veel blogs zijn heel persoonlijk. Het komt er ongeveer op neer dat persoonsgegevens kan gebruiken om een persoon te identficeren. Bij gegevens als naam, adres en leeftijd is dat wel duidelijk.

Een verhaal over eendjes voeren in het park is op zich geen persoonsgegeven, maar ik vraag me af waar de grens ligt want uit zo'n verhaal kun je soms best veel leren. "Ik wandelde naar het Goffertpark om de eendjes te voeren met mijn kleinkinderen toen het stoplicht op rood sprong". Die ene zin onthult al dat die persoon in Nijmegen woont, oud genoeg is om kleinkinderen te hebben, er meer dan 1 heeft (en zelf dus ook minstens 1 kind heeft), niet in een rolstoel zit, niet blind is en dat het niet heel lang geleden is (toen waren er geen stoplichten), en nog veel meer (zoals de leeftijd van de kleinkinderen). Uit de schrijfstijl kun je waarschijnlijk ook nog wel iets afleiden over de achtergrond van die persoon (opleidingsniveau, afkomst, leeftijd).

Nog een paar posts met dit soort stukjes informatie en de computer kan waarschijnlijk al flink inzoomen op een kleine groep mensen. Daar komt nog bij dat blogposts vaak linken naar blogs van bekenden en dat bekenden commentaar kunnen posten.

Voor de GDPR/AVG is het overigens niet nodig om met zekerheid een uniek persoon aan te wijzen, de lat ligt veel lager. Ook zonder dat je precies weet wie iemand is moet je zorgvuldig met gegevens omgaan en is de GDPR/AVG van toepassing. Al vermoed ik dat deze bedrijven daar anders over denken en zullen zeggen dat alles OK is zolang ze zelf maar geen database van persoonsgegevens opbouwen.

* PS. Ik zeg niet dat de AI-bedrijven deze data verzamelen met de bedoeling om personen te traceren. Ik geloof dat ze het doen om hun LLMs te trainen. Personen identificeren is niet het doel, maar als de data en de techniek binnen handbereik is zal iemand er vroeg of laat gebruik van gaan maken.
De techniek tegenhouden moeten we niet willen (en het lukt toch niet) dus zullen we extra zuinig op onze data moeten zijn. Dat kan eigenlijk niet wachten en eigenlijk is het al te laat want onze data staat al overal en wordt volop gescraped en verwerkt. Ik weet niet of we die geest nog terug in de fles kunnen stopppen maar hoe langer we wachten hoe lastiger het wordt. Ik zou wel te porren zijn voor een noodwet om user generated content helemaal als persoonsgegeven te behandelen (opt-in) die dus automatisch onder de GDPR valt. Helaas het bijzonder lastig om uit een getrained model af te leiden wat de trainingsdata was waardoor het controleren van zo'n wet erg lastig zou zijn, daarom noem ik het een noodwet zodat we tenmiste iets hebben tot we een beter wet kunnen bedenken.
Bijna goed, maar het gaat alleen om persoonsgegevens. De opt-in komt voort uit de GDPR/AVG en gaat dus alleen om persoonsgegevens en niet over andere vormen van data.
Dat klopt inderdaad en daar doelde ik ook op, maar ik benoemde het niet. Ik ken daadwerkelijk mensen die vroeger in blogs hun eigen of anderen hun telefoonnummers en mailadressen noemden. Ook kwam het wel eens voor dat een adres werd genoemd van een zieke collega, vriend of familielid. Hopelijk hebben ze daar een goede check op gedaan. Al heb ik gezien het feit dat er per ongeluk ook privé- of verwijderd posts zijn meegenomen weinig vertrouwen in.
Je ziet hoe de discussie zeer rap verschoven is van "ze hebben allerlei data gescraped voor hun model zonder te vragen, mag dat wel zomaar" naar "we verkopen de data van onze gebruikers voor een grijpstuiver, mooie nieuwe bron van inkomsten". Het aloude "als je er niet voor betaalt dan ben jij het product" gaat hier duidelijk op. Uiteraard wordt het nooit een opt-in, dan zou er geen droog brood meer mee te verdienen zijn want een gebruiker heeft er nul belang bij dat schuifje over te halen.
Ook de data van "premium" (betalende) users wordt verkocht.
Het is dan ook een beetje kort door de bocht die "vuistregel" want veel open source softare is wel degelijk gratis en ook zonder dat jij helemaal kapotgemined wordt, net als dat als je Google geld geeft voor drive ofzo je nogsteeds gewoon in hun advertentiemolen zit.
Aan alleen opensource software voor online diensten zonder hosting heb je niets. Hosting kost altijd tijd (en vaak geld). Dus qua dat klopt de stelling "je betaalt of je bent het product" wel.

Je kan het ook andersom zien: "Wie is de klant?"

Let op dat de klant betaalt voor een dienst, en de dienstenleverancier daarvoor iets levert. Als je als gebruiker niet met geld betaalt, dan ben je niet de klant.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 18:36]

De ontwikkeling van die software kost evengoed tijd.
OSen als Linux Mint of software als Libreoffice groeien ook niet aan een boom ofzo.

Mijn punt was vooral dat het riskant is je veilig te wanen voor dit soort praktijken alleen omdat je ergens voor betaald.
Dat zegt echt niks meer.

[Reactie gewijzigd door Polderviking op 22 juli 2024 18:36]

De ontwikkeling van die software kost evengoed tijd.
OSen als Linux Mint of software als Libreoffice groeien ook niet aan een boom ofzo.
Het onderwerp betreft Tumblr en WordPress, online diensten. Die moet je ergens hosten. Het gaat mij niet om kosten van ontwikkeling, maar om startkosten voor gebruik (die opensource software zelf niet hoeft te hebben, bijvoorbeeld in het geval van selfhosting) en operationele kosten (die je altijd hebt).
Mijn punt was vooral dat het riskant is je veilig te wanen voor dit soort praktijken alleen omdat je ergens voor betaald.
Dat zegt echt niks meer.
Dat klopt. Daarom doe ik aan selfhosting, wat de enige manier is om niet als product te eindigen onderaan de kosten-batenanalyse van een ander.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 18:36]

Alleen weet je dat in dit geval nog niet.
Helderheid, en een opt-out is wat dat betreft een goede stap voorwaards. Dan kan je voor jezelf bepalen of je het een probleem vind.

Ik vind het bijv. geen probleem dat mijn Github code in deze modellen staat - sterker nog, dat staat de licentie ook toe. Maar een GPL repository scrapen is een ander verhaal, kan je niet maken richting de bouwers (die willen niet bijdragen aan gesloten producten) en kan je ook niet maken richting je gebruikers die wellicht illegale code in hun projecten gebruiken.
Helderder dan dit kun je het niet krijgen: crowdmining, gebruikersdata oogsten en verkopen, ook al zat dat niet in oorspronkelijke businessmodellen.
Dit is natuurlijk altijd al het verdienmodel geweest van Social media platformen. Ze verdienen geen hol aan jouw blog behalve als er advertenties op draaien, en dus kost het ze alleen maar geld. De data is altijd al hetgene wat interessant is geweest voor commerciele bedrijven.
Het is belangrijk om te vermelden dat dit absoluut niet gaat over de open source versie van Wordpress, maar enkel over de Wordpress.com dienst.

De eerste is een software-pakket waarmee je Wordpress op je eigen servers kunt draaien, de tweede is een dienst waarmee je zonder extra host een site kunt opzetten. Wordpress (de open-source applicatie) wordt gedraaid op miljoenen websites, maar Wordpress.com (de commerciële dienst) komt daarbij niet in de buurt.

[Reactie gewijzigd door Luminair op 22 juli 2024 18:36]

Ik vraag me toch af hoe zo'n opt-out dan zou werken bij bv quotes? Ik quote een bericht van iemand die een opt-out heeft gedaan, maar heb wel zijn originele tekst in mijn bericht. Directe tags (naar de user) kan je prima filteren, maar losse quotes uit iemand z'n post lijken me toch aanzienlijk moeilijker.
Bijzonder altijd dat het een opt-out is, in plaats van opt-in. Het wordt gelukkig een keuze, maar wel eentje die je bewust in je profiel moet opzoeken en aanpassen, wat zo goed als niemand ooit gaat doen, behalve een paar uitzonderingen die wel bewust zijn van wat de gevolgen zijn.
Even een vraag waarbij ik het antwoord niet zo snel uit de reacties kan afleiden:

Wat als de content alleen met uid/pwd is te benaderen?
Zou de content dan ook door wordpress.com te crawlen zijn?

Wij hebben wat vertrouwelijke gegevens gepubliceerd voor onderlinge informatievoorziening en communicatie die alleen met uid/pwd te benaderen zijn.
Onze content wordt niet gehost door Wordpress maar door een (externe) hosting provider.

Ben wel benieuwd.
Niets bijzonders. Zullen wel wat privacy schreeuwers aan de gang gaan, maar zoals het artikel al zegt, deze data kan ook verkregen worden via crawling en dat is legaal. Het enige wat deze verkoop toevoegd is dat de externe partij alles in een makkelijk te verwerken bundel krijgt zonder dat het web bandbreedte kost voor crawlers en de sites.
Crawlen is niet per se illegaal; klopt. Maar de data gebruiken en voor commerciële doeleinden inzetten wel weer.
Ook niet per se, zoekmachines doen precies dat namelijk en dat mag dus wel...

Er is dus een grens tussen wat je gebruikt (alle data of snippets/quotes van data om te linken naar de volledige data oid).

[Reactie gewijzigd door watercoolertje op 22 juli 2024 18:36]

Ik denk dat dit afhangt van welke data je crawled. Teksten 1 op 1 overnemen dan heb je gelijk vanwege copyright verwacht ik. Echter om een index van url's te maken (vb zoekmachine) dan heb je geen gelijk. Waar AI learning valt is een open discussie denk ik.
Ja precies, en met de term gebruikersgegevens in het titel wat erg verwarrend werkt in deze context maakt het ook niet beter.

Data over een gebruiker == gebruikersdata
Data ingevoerd door een gebruiker !== gebruikersdata

Wel kan het zijn dat data ingevoerd door gebruikers natuurlijk gebruikersdata bevat...

Op dit item kan niet meer gereageerd worden.