X lijkt Grok te trainen op gebruikersdata en publieke posts via opt-out

X lijkt voor alle gebruikers heimelijk te hebben ingeschakeld dat hun data wordt gebruikt om AI-taalmodel Grok te trainen. Gebruikers moeten dat zelf uitschakelen. Het is opvallend dat ook gebruikers in de EU onder dat beleid vallen, terwijl het onduidelijk is of dat wettelijk is toegestaan.

Gebruikers van X hebben opgemerkt dat er een nieuwe feature in de instellingen van het sociale netwerk zit. Het gaat om een vinkje waarmee gebruikers automatisch toestemming geven dat hun posts, interacties en 'inputs' worden gebruikt om Grok te trainen. Grok is een chatbot van X die abonnees met een Premium- of Premium+-abonnement kunnen gebruiken. De chatbot wordt niet door X gemaakt, maar door xAI, een ander bedrijf van Elon Musk.

X verwijst naar een algemene pagina over Grok. Daar staat expliciet op dat Grok-1, het eerste taalmodel, niet op X-data en -posts is getraind. Dat gaat dus veranderen, waarschijnlijk in een volgende versie van het llm. X zegt dat data om die reden mogelijk ook met xAI wordt gedeeld, wat dus een ander bedrijf is dan X.

Het is vooral opvallend dat de functionaliteit standaard lijkt te zijn ingeschakeld voor alle gebruikers, hoewel X en Elon Musk er publiekelijk niets over hebben gezegd. Het is de vraag of dat wettelijk is toegestaan. Veel andere bedrijven die llm's uitbrengen op basis van gebruikersdata zijn huiverig dat in Europa te doen vanwege de wet. Met wetten zoals de Digital Markets Act en de AVG moet het voor bedrijven moeilijker worden llm's te trainen op gebruikersdata, ook al is die data openbaar beschikbaar, zoals posts op X. Meta besloot eerder deze maand zijn nieuwe taalmodellen niet in de EU uit te brengen. Apple deed hetzelfde met Apple Intelligence.

X Grok data

Door Tijs Hofmans

Nieuwscoördinator

26-07-2024 • 15:50

50

Submitter: Xtuv

Lees meer

Reacties (50)

50
49
21
3
0
22
Wijzig sortering
Als dit echt waar is, en het blijkt in overteding met de DSA en/of DMA, is dit een heel foute boel.

Iets waar het bedrifj door de EU (en evt andere instanties in andere regios) heel hard op aangepakt zou moeten worden met op zijn minst een grondig onderzoek. En afhankelijk wat daar uit komt, verovlgens met (miljarden)boetes.

Sowieso had dit via opt-in moeten gebeuren, niet via opt-out, dat is al erg niet-fatsoenlijk en een grote fout..
Het is vooral opvallend dat de functionaliteit standaard lijkt te zijn ingeschakeld voor alle gebruikers, hoewel X en Elon Musk er publiekelijk niets over hebben gezegd.
En dat er ook niks over gemeld is, is al het tweede wat er heel erg fout gegaan is. Heb op zijn minst dan het basale fatsoen om aan te geven dat ze de user-generated content voor commerciele doeleinden gaan gebruiken zonder medeweten en toestemming van de user in kwestie.
Met wetten zoals de Digital Markets Act en de AVG moet het voor bedrijven moeilijker worden llm's te trainen op gebruikersdata, ook al is die data openbaar beschikbaar, zoals posts op X.
Dat data openbaar beschikbaar is, maakt niet dat je er meteen mee mag doen wat je wil. Zeker als je er, zoals bij X, een commerciele doelstelling mee hebt, is het op zijn minst een kwestie van goed fatsoen om het 1) opt-in te maken, en 2) je gebruikers goed te informeren.

Af en toe heb ik echt het idee dat X, of Musk (of beiden) soms denken dat ze boven de wet- en regelgeving staan, en dat farsoensnormen die maatschappelijk breed geaccepteerd zijn niet voor hen gelden ofzo. Dat is een heel nare mentaliteit.

[Reactie gewijzigd door wildhagen op 26 juli 2024 15:57]

ChatGPT scraped toch ook data uit verschillende bronnen zonder opt-in/out? (wikipedia, nieuws websites, etc)
Wellicht, dat weet ik niet. En als dat zo is, dienen ook zij wellicht onderzocht te worden.

Maar dat de ene partij iets (eventueel) fout doet, geeft een andere partij niet meteen het recht om dat ook maar te doen...

We moeten eens van het idee van sommige bedrijven af dat op internet alles maar zonder toestemming van de (content-)eigenaar moet kunnen. Zeker als daar commerciële motieven achter zitten is dat gewoon niet wenselijk. Al was het maar om basaal fatsoen.
ChatGPT doet dat wel degelijk. En niet alleen openbare websites, ook boeken, tijdschriften, en wat er ook allemaal gevonden kan worden. Ga er maar van uit dat je posts op Tweakers in de datasets van Grok, ChatGPT, LLama, en mogelijk zelfs ChatGLM te vinden zullen worden.

De workaround die deze bedrijven gebruiken is dat copyrightwetgeving binnen wetenschappelijk onderzoek niet heel sterk is (plagiaat e.d. daargelaten). Men traint als onderdeel van wetenschappelijk onderzoek een model, en gebruikt dat model later binnen het bedrijf. Het is maar de vraag of dat een copyrightschending is, daar zullen we over een paar jaar wel wetgeving of een gerechterlijke uitspraak over zien.

Ik denk niet dat Twitter heel bang moet zijn voor contenteigenaren als OpenAI hele filmcollecties en muziekalbums kan gebruiken als trainingsdata. Als BREIN en de MPAA er niets aan doen, denk ik niet dat de Europese marktwaakhonden hier heel veel aan gaan doen, juist omdat het maar de vraag is of wat ze nu doen wel illegaal is.
Niet helemaal mee eens.
Als je niet wilt dat je online content gebruikt kan worden, dan dien je dat af te schermen voor het publieke domein,anders is het gewoon onderdeel van dat publieke domein.
Nope. Publiekelijk zichtbaar is niet hetzelfde als "mag bedrijfsmatig worden ingezet" - dat bestond al voordat Internet verscheen.
Jouw beeltenis mag niet zomaar bedrijfsmatig worden gebruikt. Ook al kan iedereen deze normaal gesproken zien als je op straat loopt.
Je bent niet zomaar je rechten kwijt omdat anderen je gegevens via een publieke route kunnen bereiken. Daarbij staan deze gegevens niet op een publiek medium maar in een omgeving van een bedrijf waar je een overeenkomst mee hebt en de gebruikers die via het publieke medium komen zich ook aan de regels te houden hebben. Anders gaan we al snel richting computervredebreuk: het systeem van een ander niet op de bedoelde manier gebruiken. Daarbij kan een bedrijf niet zomaar even de regels veranderen zonder dat je kans hebt er vanaf te zien en ook het als bedrijf de eigen regels een wetgeving negeren is duidelijk niet de bedoeling. Ik lees niet dat het bedrijf of buitenstaanders eenzijdig maar even jou rechten en belangen mogen negeren om vooral zichzelf te plezieren met andermans gegevens. Zeker niet voor financieel belang waar ze je dan ook niet voor wensen te vergoeden. Omgekeerd kun je ook niet zomaar hun werkngaan gebruiken omdat je er bij kan.
Zo zit de wetgeving nou eenmaal niet in elkaar.

Ik heb wel eens nagedacht wat nou als er geen auteursrecht zou zijn op openbare content. Iedereen mag elkaars werk verbeteren.

Het grootste excuus is dat muziekanten, schrijvers en kunstenaren er niet meer van kunnen leven. Maar is dat erg? Ik denk dat deze groep ook zonder geld wel content zou blijven produceren. Met als voordeel dat iedereen kan en mag bijdragen.

Muzikanten zouden dan wellicht nog meer geld gaan vragen voor fysieke concerten waar dan nieuwe muziek voor het eerst getoont wordt enzo.

Films en series worden dan wellicht meer betaald via donaties van fans.

Software bedrijven zullen meer geld moeten gaan verdienen met snelle patches en support.

Gaat er dan minder geinvesteerd worden? Wellicht, maar dan heb je in ieder geval niet dat een bedrijf een geneesmiddel uitvind en dat voor woekerprijzen verkoopt.

Er kunnen nog steeds fondsen zijn die op basis van donaties wetenschappelijk onderzoek doen naar medicijnen en behandelingen.

Zodat vervolgens iedereen kan het gaan produceren.
Wiens opt-in, die van Wikipedia?
Hier gaat het om jouw data, dus ook jouw opt-in/out.
Volgens mij is de data niet van mij maar van X zodra ik iets post,toch?
Ik denk dat dat voor wat je post wel geldt inderdaad.
Het ligt mogelijk ook aan de afkomst van de data en welke afspraken ChatGPT heeft gemaakt met de verzamelaar van de data. Zo heeft OpenAI ook een overeenkomst met Reddit voor het scrapen van data van dat platform. Reddit maakt ook geen gebruik van een opt-in n.a.v. deze overeenkomst. Dat houdt dus in dat de privacyvoorwaarden van Reddit al zodanig zijn omschreven dat je met het aanmaken van een account akkoord gaat met het verkopen van de data die jij genereert op het platform, of dat men de lokale privacywetgeving niet naleeft.

Wat ik mij afvraag is of er bij een onrechtmatige verwerking door Reddit OpenAI de aansprakelijkheid door kan schuiven naar Reddit en daardoor zelf buiten schot blijft. Ik kan het mij haast niet voorstellen, omdat je op deze manier met een malafide constructie de wetgeving eenvoudig kan omzeilen.

Realistischer lijkt het me dat van OpenAI verwacht mag worden dat bij de verwerking van persoonsgegevens van derden toetst of er sprake is van een rechtmatige gegevensverwerking en dus aansprakelijk blijft wanneer er gebreken worden geconstateerd.
Voorspelling: als dit gebeurt zal X zich terugtrekken uit de EU :')
Ze zullen de boetes wel betaalbaar vinden, denk ik soms. Als je nadenkt hoeveel de producten die ze bouwen waard zijn, dan klopt dat ook wel. Alleen is het niet ethisch verantwoordt.

[Reactie gewijzigd door Justice op 26 juli 2024 16:09]

Dat data openbaar beschikbaar is, maakt niet dat je er meteen mee mag doen wat je wil.
Mag niet, kan wel. En is het sowieso niet lastig om aan te tonen waar trainingsdata vandaan komt, laat staan om dat ook nog te bewijzen?

Hoe dan ook lijkt het me een bewust risico wat ze nemen, eerst graaien en trainen, dan zien of en hoe grote en dure problemen er van komen.
Je hoeft niet zoveel te bewijzen als er letterlijk een vinkje bij je profiel staat met de mededeling dat ze die data daarvoor gebruiken.
Volgens mij zijn ze uit op een publiciteits-stunt en zitten ze de EU gewoon uit te dagen. Wat willen ze doen? Kunstmatig een app en url verbieden of een onderzoek en over 3 jaar de uitspraak "het was in strijd met de wet"?
Wat denk je dat Facebook doet, of Tik Tok, of Google, dat die geen gebruikers data gebruiken voor het trainen van hun AI?

X/Twitter geeft het nog netjes aan, dus je kan het uitzetten. Bij andere platforms kan dat niet.
Wat ik me afvraag.. Stel dat de EU onderzoek doet en concludeert dat X fout zit en ze X een miljardenboete geeft. X besluit daarop om te vertrekken uit de EU en de boete niet te betalen. Wat zou de EU dan kunnen doen om die boete te innen? Zou de VS daar wat mee doen, of zou X er dan mee weg komen?
Allereerst is de kans dat ze uit de EU zouden vertrekken marginaal klein. Dat zou de financiele nekslag voor het bedrijf worden, daar de EU één van de grootste inkomstenbronnen van techbedrijven is, het is een enorm machtsblok met veel gebruikers, en een flink deel van hun winst.

Maar je hebt natuurlijk ook nog zoiets als internationale (handels)verdragen, bijvoorbeeld (maar niet uitsluitend) via de WTO, waardoor landen dat onderling kunnen regelen.

In het meest extreme (maar imho erg onwaarschijnlijke) scenario zou de EU nog diverse sancties aan de VS kunnen opleggen. Denk aan bijvoorbeeld importheffingen etc. Beetje vergelijkbaar met de handelsoorlog die de VS een paar jaar geleden, onder president Trump, met de EU gestart heeft, alleen dan de andere kant op.

Dat wil eigenlijk niemand, daardoor zie ik het niet gebeuren, maar theoretisch zou het kunnen.

Doorgaans kom je niet zomaar weg met 'ik vertrek', als het zo makkelijk zou zijn om onder boetes uit te komen zouden wel meer bedrijven dat doen ;)

Maar zoals gezegd, X zal de EU écht niet verlaten. Musk heeft 44 miljard voor het bedrijf betaalt, dat krijgt hij dan nooit meer terug. Ain't gonna happen. Dus het hele gebeuren is sowieso al theoretisch op dat vlak.
Als VS bang zou zijn van EU dan kunnen we op die manier druk uitoefenen. Maar binnenkort zit die oranje clown weer aan het roer.
Erg leuk nieuws, maar ik kan het in mij (geupdate) app niet reproduceren. Waar zou ik precies de optie moeten zien?
Zie de link in het artikel. Zit niet in de app.
Ik ben gelijk gaan kijken, en bij mijn beide X accounts stond deze inderdaad opt-in. En ik heb hier voorzover ik weet nooit een bericht over gehad. Of het stond verstopt in een "we passen onze algemene voorwaarden aan"...

Ik heb ook gelijk mijn GROK geschiedenis verwijderen link maar aangeklikt.

[Reactie gewijzigd door maradesign op 26 juli 2024 15:55]

Ik ben gelijk gaan kijken, en bij mijn beide X accounts stond deze inderdaad opt-in.
Opt-out bedoel je? Want dan staat het vinkje standaard aan, bij opt-in staat het vinkje standaard uit.
Opt-in als in true of checked. Het is geen opt-out checkbox maar een opt-in checkbox. Dus Opt-in klopt in dit geval gewoon.

Je kunt niet op Opt-out staan, want die bestaat niet, dat is gewoon taal wat men gebruikt (die niet klopt). Er is alleen opt-in en die heeft 2 staten true/false. Anders hadden het twee radio buttons moeten zijn van Opt-in / Opt-out.

[...]
Opt-out bedoel je? Want dan staat het vinkje standaard aan, bij opt-in staat het vinkje standaard uit.
[/quote]
Jawel, als je vinkje aan staat, zonder dat jij het aan hebt gezet, dan is je 'optie' om het 'uit' te zetten. Dus 'opt out'.
Inmiddels kennen we het verweer van de heren Big Tech wel. "Foutje, had niet gemoeten, sorry." En we gaan weer door. Hopelijk laat de EU dit niet klakkeloos aan zich voorbij gaan.
En tweede punt dat ze dan maken is vaak, maar we doen het toch al een tijdje dus dan kun je ons net zo goed door laten gaan want anders hebben wij een probleem en dat gaan wij jullie probleem maken als we niet onze zin krijgen.
Not available in your region
Grok is currently not available in your region or country

Wel je data, niet het gebruik.. interessant :P
Of alleen de setting? Want daar lijkt alles op gebaseerd.
Uiteraard roept Elon dit niet van de daken want dan zetten teveel mensen het uit.
Voor hen die het uit willen zetten: https://x.com/settings/grok_settings

Verwijder dan gelijk je Grok geschiedenis.
Nou, dat wordt dan een AI met flinke bias, gezien de mensen die vaak los gaan op twitter met wereldvreemde ideeen.
De omgangsvormen maak ik me dan nog meer zorgen over…
En af en toe een mooie uitspraak van Horse Ebooks of Dril ertussen. Zou wel een vermakelijke chatbot zijn.
AuteurTijsZonderH Nieuwscoördinator @Wolfos26 juli 2024 17:14
Baal nog steeds als een stekker van die api-changes, ik volgde best veel van die nonsensbots en die maakten je tijdlijn echt wat vrolijker. Ik had ook mijn eigen bot, may it rest in peace :(
Heb je overwogen je bot naar Mastodon (of Threads, dan heb je ook meteen Mastodon :) ) of Bluesky te brengen? Ik volg wat nonsensbots op Mastodon maar helaas zijn ze lang niet allemaal overgekomen.
"Opvallend".

Really? Natuurlijk doet een commercieel bedrijf dit als het niet zeker is dat het niet mag. Totdat iemand er een uitspraak over doet, hebben veel commerciele bedrijven geen moreel en doen ze waar ze mee kunnen wegkomen. Sorry achteraf zeggen kan altijd nog, tot die tijd heb je extra winst (al dan niet in de vorm van user-data) kunnen maken.

Op dit item kan niet meer gereageerd worden.