Cookies op Tweakers

Tweakers is onderdeel van DPG Media en maakt gebruik van cookies, JavaScript en vergelijkbare technologie om je onder andere een optimale gebruikerservaring te bieden. Ook kan Tweakers hierdoor het gedrag van bezoekers vastleggen en analyseren. Door gebruik te maken van deze website, of door op 'Cookies accepteren' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt? Bekijk dan ons cookiebeleid.

Meer informatie

Clubhouse: gescrapete data van gebruikers is via api naar buiten gekomen

De gescrapete data van Clubhouse-gebruikers die dit weekeinde op een forum voor hackers verscheen, is voor iedereen toegankelijk via een api. Daardoor kan iedereen een database opbouwen van Clubhouse-gebruikers.

In de api kan iedereen volgens Clubhouse naast naam en foto ook de gebruikersnaam van die persoon op Instagram en Twitter vinden, naast gegevens over wanneer het account is aangemaakt en het aantal volgers. Met de data uit de api is het mogelijk om Clubhouse-gebruikers te koppelen aan hun andere accounts op sociale media. Het is onduidelijk hoe waardevol een dergelijke database is.

Het gaat in totaal om 1,3 miljoen gescrapete accounts, meldt Cybernews. Bij scrapen is er geen inbraak in het systeem van een bedrijf, maar maken hackers gebruik van openbaar beschikbare informatie op bijvoorbeeld profielpagina's om een database van gebruikers op te bouwen. Het is onbekend hoe de data is verzameld.

Update, 9:12: Dit artikel maakte in eerste instantie melding van een publieke api, maar die bleek niet van de Clubhouse-app te zijn waar het in dit artikel over gaat. De link en informatie daarover zijn daarom weggehaald.

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Door Arnoud Wokke

Nieuwsredacteur

12-04-2021 • 07:08

50 Linkedin

Submitter: juliank

Reacties (50)

Wijzig sortering
Ik begrijp niet helemaal wat nu de situatie is. Heeft de "hacker" de data gescrapet en biedt hij deze data vervolgens aan middels een API? Of heeft hij de data uit de API van Clubhouse? Want in dat laatste geval is er toch geen sprake van scraping? Dat is gewoon volautomatisch de API bevragen en alle responses in een DB verwerken.

Als er echt identificerende informatie in bulk uit de officiele API van Clubhouse te krijgen is vind ik dat wel een kwalijke zaak. Dat is gewoon een datalek.

[Reactie gewijzigd door BezurK op 12 april 2021 07:54]

Het laatste.
Bij scrapen is er geen inbraak in het systeem van een bedrijf, maar maken hackers gebruik van openbaar beschikbare informatie op bijvoorbeeld profielpagina's om een database van gebruikers op te bouwen. Het is onbekend hoe de data is verzameld. De API limiteert het aantal requests tot 200 per minuut. Om tot de database te komen, zou diegene 4,5 dag lang elke minuut 200 requests hebben moeten sturen.
Niet echt web scraping maar api scraping indd.
This is misleading and false. Clubhouse has not been breached or hacked. The data referred to is all public profile information from our app, which anyone can access via the app or our API. - ClubHouse Twitter

[Reactie gewijzigd door Christoxz op 12 april 2021 09:10]

Er staat 'het is onbekend hoe de data is verzameld'. We weten het dus niet. In beide gevallen is het voor de profielen die het betreft op zijn zachtst gezegd 'niet zo mooi'. Door data te combineren kun je er dus achter komen wie wie is. En daar zit hem de crux.

De vraag die ik alleen heb en die ik zo uit de api docs niet kon halen is of je via de api ALLE gebruikers uit kan lezen of dat je alleen jou vriendjes en vriendinnetjes kan uitlezen. Dat laatste zou dan betekenen dat dit datalek niet via de api zou kunnen (of er zit een lek in de api ).
"Er staat" is puur het nieuwsartikel van cybernews. Het is waarschijnlijk niet zo dat ze het niet weten, maar dat ze het niet precies weten. Het laat zich raden dat de 'scraper' de api heeft gescant (als er niet al een manifest was) en gewoon alle ids is afgegaan. Zal wel langer geduurt hebben dan 4,5u. Maar wat is 4,5u nou?
Zal wel langer geduurt hebben dan 4,5u. Maar wat is 4,5u nou?
4,5 dagen bedoel je denk ik.
Hmm, kan me herinneren dat er 4,5 uur in het artikel stond. Maar artikel is intussen flink geedit
Nog steeds is 4,5 dagen niet eens zoveel.

[Reactie gewijzigd door MeMoRy op 12 april 2021 12:26]

Rate limit: 200 p/m
1300000 records / 200 => 6500 Minuten
6500 minuten => 4,5 dagen

Inderdaad, nog steeds niet lang, het is ook puur wachten.
Maar kan ook veel sneller zijn geweest, doormiddel van twee access tokens en twee servers.
De API limiteert het aantal requests tot 200 per minuut. Om tot de database te komen, zou diegene 4,5 dag lang elke minuut 200 requests hebben moeten sturen.
Maar indd flinke edits, ook zegt het artikel nu dat er hoogwaarschijnlijk geen gebruik is gemaakt van de API.
Terwijl Clubhouse vermeld dat deze data gewoon in hun publieke API staat. Waarom zou de 'hacker' dan omslachtig doen?
The company said that the data is already publicly available and that it can be accessed by “anyone” via their API.
Edit:
In het artikel zelf is er een verwarring geweest aangezien er twee apps zijn die Clubhouse heette.
Clubhouse artikel, producten verwisseld?

[Reactie gewijzigd door Christoxz op 12 april 2021 12:41]

Er staat 'het is onbekend hoe de data is verzameld'. We weten het dus niet.
Dat zegt Tweakers ja, maar komt ook helemaal niet terug in de bron.

Tevens heeft Clubhouse zelf al toegegeven dat er geen hack en geweest, maar dat de data vrij te verkrijgen is via de app en API.
This is misleading and false. Clubhouse has not been breached or hacked. The data referred to is all public profile information from our app, which anyone can access via the app or our API. - ClubHouse Twitter
Dus als we ClubHouse mogen vertrouwen, is het dus gewoon een scrape geweest, en hoogwaarschijnlijk via de API.
Een datalek is het pas als de verkregen data via de API normaal niet via de API kon worden.

Als je als bedrijf data moedwillig aanbiedt via een API is dit geen datalek. Of het GDPR/AVG compliant is, is een andere zaak natuurlijk.
'Moedwillig', het kan toch een fout zijn om bepaalde data via de API beschikbaar te maken? Dan is het nog steeds een datalek.
Tenzij het gespecificeerd is in hun API, dan is het duidelijk de bedoeling of moedwillig.
Als je als bedrijf data moedwillig aanbiedt via een API is dit geen datalek. Of het GDPR/AVG compliant is, is een andere zaak natuurlijk.
Ik verwacht dat de APG binnen 72 uur toch wel een melding van van een "datalek" wil zien. Of die data nu moedwillig gelekt is (zoals in de politiek veelvuldig gebeurt), netjes bij de "balie" is opgevraagd en via de "voordeur" naar buiten is gedragen, onder dwang afgestaan of stiekem verduisterd: er is data "gelekt" van intern naar extern, van belanghebbenden naar zij die er geen recht op hebben.

Net als in de fysieke wereld: Ook de bovenbuurman expres zijn kraan open laat staan, wordt er bij waterschade ook gesproken van een "lekkage" bij de onderburen, welke slachtoffer van deze actie zijn.
Als je als bedrijf data moedwillig aanbiedt via een API is dit geen datalek.
Of het via een API gaat of via een SQL-injectie is niet relevant. Of er toestemming en een juridische grondslag was om die data te verspreiden wel.
Nee, teminste zoals ik het begrijp. Het gaat om publiek toegankelijke informatie die mensen er zelf op hebben gezet als publiek toegankelijk.
Anders zou je het feit elke publiek toegankelijke profielpagina een "datalek" kunnen noemen.
De data was te scrapen door de verbinding van de app te MitM'en en de session token daar uit te vissen. De (private) API van Clubhouse support wildcards, dus is het eenvoudig om in één klap miljoenen records te returnen en om profielen te scrapen.
Met dit soort fouten vraag je je toch echt af waar men mee bezig is. Dat een API enerzijds wildcards toelaat en daarnaast ook nog eens ongelimiteerd laat scrapen is geeft toch aan dat als platform je totaal achteloos bent qua gebruikers. Het is te hopen dat ze samen met oa Facebook een ongekende boete krijgen en het liefst nog met beperkingen in het verzamelen en gebruiken van gebruikers data voor een x periode. Deze bedrijven verzamelen data niet voor niets, die hebben dit nodig om goed te kunnen adverteren of meer te verdienenen aan het verkopen van jou data. Zodra je dit wegneemt van platforms zullen ze plots heel snel iets doen aan hun lakse beveiliging.
Waarom heeft zoeits als Clubhouse een openbare API? Waarom is daar geen authenticatie voor nodig..?
Tweakers heeft ook een openbare API, gewoon de website waar jij nu naartoe kijkt. Als je met een scriptje elke minuut 100 Tweakers profielen bezoek hebt je ook de website gescrabed na een tijdje.
Precies. Je kan bij Tweakers ook prima een lijstje maken van gebruikers, met naam, link naar avatar, sociale media profielen (voor hoever ingevuld en wanneer profiel als publiek staat), etc.

Niks nieuws onder de zon, geen hack, waarschijnlijk enkel nieuwswaardig omdat het Clubhouse betreft.
Omdat er wel authenticatie nodig is, maar dat maakt toch niet uit? De API ondersteunt deze functionaliteit, dat heeft niets met wel of geen authenticatie te maken.

https://clubhouse.io/api/rest/v3/#Authentication

Edit: bovenstaande heeft dus geen zak met Clubhouse app te maken :z. Thanks @nsacrawler

[Reactie gewijzigd door aToMac op 12 april 2021 10:30]

Hebben we het hier wel over hetzelfde product? Het artikel gaat over de Clubhouse app, om audiogesprekken met elkaar te voeren, waar https://clubhouse.io/ project management software is.
Zie ook https://www.joinclubhouse.com/
Ik gok dus dat er een private api van de Clubhouse app is gebruikt, de api die jij linkt is van een heel ander product.
The Clubhouse API uses token-based authentication. To generate an API token, go to..
Openbare api? Het is 'openbare' data
Zie https://tweakers.net/nieu...ction=15901020#r_15901020
De Clubhouse app heeft voor zover ik kan zien geen openbare api.
En ik zou denken dat jouw account namen onder PII vallen, je bent immers uniek te identificeren ermee. Dan zou je dit nooit zomaar openbaar mogen maken.
Ik zie dat jou accountnaam 'copi' is, dat is toch geen datalek
Wel moest het niet door Tweakers aangegeven zijn dat die informatie publiek gemaakt zou gaan worden. Wat Tweakers overigens wel netjes doet:

Algemene voorwaarden van Tweakers.
Ontvangers
Tweakers.net en Hardware.info publiceren bepaalde gegevens die je in je profiel hebt opgenomen op de websites. Deze gegevens zijn toegankelijk voor alle bezoekers van de website. Bij het invullen van je profiel is aangegeven welke gegevens op de website worden gepubliceerd. Indien je niet wilt dat deze gegevens openbaar zijn, dan kan je de invulvelden in je profiel leeg laten. Ook de content die je zelf op de website plaatst is toegankelijk voor alle bezoekers van de website.
De schuilnaam is bij het invullen van je profiel aangegeven als een gegeven dat op de website gepubliceerd zal worden.

Tweakers geeft ook aan hoe ze met de andere persoonsgegevens van je omgaan:
Tweakers.net en Hardware.info zullen jouw gegevens niet aan derden beschikbaar stellen, tenzij er sprake is van een bijzondere actie of prijsvraag in samenwerking met een derde partij. in dergelijke gevallen maken wij dit altijd op voorhand bekend zodat u de keuze heeft deel te nemen of niet. Onze werknemers en met ons samenwerkende derden zijn verplicht om de vertrouwelijkheid van uw gegevens te respecteren.
Volgens mij was het niet eenvoudig duidelijk bij Clubhouse dat letterlijk alles in bulk gepubliceerd zou worden aan bv. voor Clubhouse annonieme criminelen (dus niet werknemers of samenwerkende derden die verplicht zijn om de privacy van de gebruikers te respecteren) toen je je account bij Clubhouse aanmaakte. Maar ik weet het niet zeker omdat ik daar geen account heb aangemaakt. Ik weet in ieder geval dat indien Tweakers zulke gegevens in bulk aan criminelen gaat weggeven of verkopen, dat mijn account hier afgesloten wordt en er een aangetekend schrijven opgestuurd wordt. Want dat sta ik absoluut niet toe.

Maar ik ga er in vertrouwen van uit dat bv. Tweakers niet zomaar wat woordjes bij elkaar grabbelde toen ze hun eigen algemene voorwaarden opstelden. En zelfs dan nog: spijtig voor de woordgrabbelaars dan. Want dat zijn toch wel echt de voorwaarden die juridisch gelden.

[Reactie gewijzigd door freaxje op 12 april 2021 09:44]

Freaxje verwoord het al heel goed. Van mijn naam copi weet ik dat hij binnen dit platform en openbaar gedeeld gaat worden. Copi is anoniem, je weet niets van mij.
Als ik binnen tweakers de mogelijkheid heb om Facebook te koppelen om welke reden dan ook, bijvoorbeeld om foto's te importeren, dan verwacht ik niet dat dat betekent dat ze ook gaan vertellen welk Facebook account achter copi hangt. Zodra je dat hebt weet je namelijk aanzienlijk meer van mij, en is mijn anonimiteit in het geding.
Hoe zou jij het vinden als het om een porno site is waar jouw anonieme id ineens te linken is aan jouw echte Facebook account?
De API waar jullie hier naar linken is van Clubhouse.io, een online samenwerkingstool. Dat is dus niet hetzelfde bedrijf!
Haha, inderdaad. Volgens mij kan je dit beter op het forum zetten (onder "geachte redactie")
Waarom wordt die api, db, post etc niet per direct uit de lucht gehaald? Met "copyright schending" zijn de instanties er vlug genoeg bij maar in dit geval.... Typisch.
Omdat de api niets verkeerd doet (tenminste, volgens clubhouse). Technisch gezien had deze 'scraper' dezelfde data kunnen verzamelen via de web UI.
Verder voegt de api wel functionaliteit toe waar een aantal klanten gebruik van maakt.
Ze hadden deze data helemaal niet beschikbaar mogen stellen via zo'n api, iig niet voor gebruikers binnen de EER. Daar is helemaal geen grondslag voor, voor de verwerking van de persoonsgegevens op deze manier.(GDPR)
Hoe bedoel je? Clubhouse is een sociaal media platform. Mensen geven vrijwillig en bewust hun persoonsgegevens af aan dat platform. Je weet dat die informatie op een publieke profielpagina komt.
En ze houden zich echt wel aan GDPR. Dat moet tegenwoordig wel.
Die data stond al online. De api biedt alleen een iets gemakkelijker manier om het te verzamelen.

[Reactie gewijzigd door MeMoRy op 12 april 2021 08:17]

Omdat ik er voor kies (stel dat he) om informatie op te geven in een profiel dat voor een bepaald platform/doel is, bijvoorbeeld zoals recentelijk ook LinkedIn wil dat nog niet zeggen dat een derde partij deze gegevens buiten het waarvoor het is ingevuld zou mogen delen. Deze "openbare" informatie was alleen bedoeld voor weergave op dat specifieke platform en eigenlijk dus ook alleen zichtbaar voor daarop aangemelde gebruikers. Nu komt die data buiten het platform, wat niet de bedoeling was.
Omdat ze alleen consent hebben op het gebruik van die persoonsgegevens bij het faciliteren van de functionalteit van die groepsgesprekken. Het aanbieden van de data in een api is een ander doel en vergt dus een andere grondslag. Volgens mij is de enige grondslag die hiervoor goed zou zijn een expliciete consent, en die is niet gegeven voor dit doel.
En let wel, een consent mag maar voor 1 doel zijn en niet van die fijne paraplu consents waar ze in 1x alles proberen te regelen.
En ze houden zich echt wel aan GDPR. Dat moet tegenwoordig wel.
Huh? Bijna niemand houd zich aan strikte GDPR...dat is nou net het hele probleem.
Omdat je zonder deze API de app niet kunt gebruiken, deze aanvallers hadden deze informatie ook gewoon kunnen verzamelen m.b.v. de UI en zelf alle profielen af kunnen gaan. Had wel wat langer geduurd denk ik alleen 8)7

Het punt is dat alles eigenlijk wel te scrapen is. Het enige wat er voor nodig is, is een scriptje wat door pagina's kan bladeren en weet waar de gegevens staat op elke pagina om deze te verzamelen. Het enige wat je er tegen kunt doen heeft Clubhous blijkbaar al gedaan en dat is rate-limiting. Maar zolang de aanvallers maar rustig aan doen valt het simpelweg niet op.
Kan je in wat meer detail uitleggen wat je bedoelt?
Omdat ik er voor kies (stel dat he) om informatie op te geven in een profiel dat voor een bepaald platform/doel is, bijvoorbeeld zoals recentelijk ook LinkedIn wil dat nog niet zeggen dat een derde partij deze gegevens buiten het waarvoor het is ingevuld zou mogen delen. Deze "openbare" informatie was alleen bedoeld voor weergave op dat specifieke platform en eigenlijk dus ook alleen zichtbaar voor daarop aangemelde gebruikers. Nu komt die data buiten het platform, wat niet de bedoeling was.
En hoe wil je dat tegenhouden? Openbare informatie is altijd in te zien door iedereen. Wat die anderen er mee doen heeft Clubhouse niet zoveel invloed op.
Ik wil niet zeggen dat het de verantwoordelijkheid van Clubhouse is, dit soort acties zijn inderdaad niet tegen te houden. Het aanbieden van de verzamelde data buiten het platform is een ander verhaal.
Als dat volgens de voorwaarden is moet dat ook geen probleem zijn. Dat is niet anders dan wanneer jij gegevens op Facebook post en op publiek zet.
Openbaar op Facebook is inderdaad echt openbaar, openbaar op Clubhouse is alleen openbaar voor aangemelde gebruikers, zie je het verschil? :-)
Dat maakt dan nog niet uit, want Clubhouse weerhoudt je er niet van om een account aan te maken en dan alsnog aan al die data te komen.
Dat zou je dan nog steeds niet het recht mogen geven om de gegevens buiten het platform om aan te bieden.
Dan heb ik slecht nieuws voor je, want het staat al heel erg lang in hun voorwaarden. Die je accepteert als je je aanmeld.
Sterker nog, als ze jouw data helemaal niet mochten gebruiken, dan zouden ze niet kunnen bestaan. Zoveel leveren advertenties namelijk niet op.

[Reactie gewijzigd door MeMoRy op 12 april 2021 12:30]

Zij wel maar een derde partij niet.
Hoeveel levert zo'n gescrapte dataset nou op ongeveer?
Zo te horen word het steeds interessanter
Waarschijnlijk wat de gek/marketeer ervoor geeft. Maar aangezien sommige bedrijven erg groot zijn geworden met gebruikersdata, zullen er genoeg geïnteresseerden zijn.
Je hebt alternatieve clients als ‘clubdeck’ die je op een PC kunt gebruiken (onder Windows of macos). In die Apps is het mogelijk om profieldata op te vragen en toonen deze apps dezelfde data als in de clubhouse app zelf.

Dus profielnaam, volgers, wie jij volgt, gevolgde rooms, wie je heeft uitgenodigd of toegelaten tot clubhouse, je gekoppelde Twitter of Instagram account en wat je zelf hebt opgeschreven in je profiel. Je telnr en e-mail adres niet, tenzij je die in je profieltekst had gezet.

[Reactie gewijzigd door xavalon op 12 april 2021 11:32]

Op dit item kan niet meer gereageerd worden.


Apple iPad Pro (2021) 11" Wi-Fi, 8GB ram Microsoft Xbox Series X LG CX Google Pixel 5a 5G Sony XH90 / XH92 Samsung Galaxy S21 5G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True