Musk: blokkeren van niet-ingelogde gebruikers op Twitter is tijdelijke maatregel

Het blokkeren van niet-ingelogde gebruikers op de webversie van Twitter is een 'tijdelijke noodmaatregel', aldus Elon Musk. Volgens hem was er 'drastische en directe actie' nodig, omdat er veel gegevens werden gescrapet.

Volgens Musk werd er dusdanig veel data gescrapet 'dat het de dienst verslechterde voor normale gebruikers'. In een latere tweet verduidelijkt hij: "Bijna ieder bedrijf dat bezig is met AI, van start-ups tot enkele van de grootste bedrijven, scrapete enorme hoeveelheden data. Het is nogal zuur om op noodbasis tig servers online te moeten brengen, puur om de buitensporige waardering van een AI-start-up te faciliteren".

Sinds vrijdag is de webversie van Twitter niet langer toegankelijk voor niet-ingelogde gebruikers. Met een beeldvullende pop-up vraagt het platform gebruikers om in te loggen. Als ze dat niet doen, worden ze terug naar de startpagina van het sociale medium gestuurd. Wanneer deze maatregel precies wordt opgeheven, noemt Musk niet. Hij zegt enkel dat dat 'binnenkort' moet gaan gebeuren.

Door Kevin Krikhaar

Redacteur

01-07-2023 • 09:27

190

Submitter: CaffeineCipher

Reacties (190)

190
178
104
3
0
20

Sorteer op:

Weergave:

Misschien heeft het iets te maken met dat Musk het een goed idee vond om een deel van de hosting van Twitter van Google Cloud te halen, omdat hij dat te duur vond. Het ging om honderden miljoenen. De data met dat het contract met Google zou aflopen komt precies overeen met vandaag.

[Reactie gewijzigd door Planck op 23 juli 2024 04:52]

Het klinkt haast alsof Musk de rekening niet betaald en de cloud provider het platform gaat throttlen. Scrapen ga je immers niet tegen door toegang van je eigen app tot je eigen database te beperken. Maar als je de rekening niet betaald dan gaat je provider wel je data beperken.

Het zou zeker niet de eerste keer zijn van Twitter onder leiding van Elon haar rekeningen niet betaald.
Valt het betalen van rekeningen etc niet onder nieuwe CEO Linda Yaccarino?
Hoort dit nieuws ook niet van die nieuwe CEO te komen dan ipv van Elon Musk?
Dat is een goed punt. Maar dan moet er natuurlijk wel geld zijn om de rekeningen mee te kunnen betalen. Het gaat immers niet al te best met Twitter sinds Elon zich ermee begon te bemoeien.

Als je in complottheorieen geloofd zou het haast lijken alsof de nieuwe CEO enkel is aangenomen om de schuld op af te kunnen schuiven wanneer Twitter helemaal implodeerd. Want anders dan dat er een nieuwe CEO is hoor je daar niet zoveel van en er zijn ook geen noemenswaardige koersveranderingen zichtbaar. Maar van Elon hoor je nog net zo vaak en komen er nog net zulke dwaze dingen naar buiten zoals nu het throttlen van betalende gebruikers. Dus wie heeft er nou de leiding?
Volgens mij ging het al niet best met Twitter voordat Elon het kocht.
Backdoors etc van de Amerikaanse overheid en zo.
Maar ook een medewerker overhead, waar veel oud medewerkers hebben laten weten dat er haast geen enkele feature "shipped" werd.

Verder vermoed ik dat je gelijk hebt dat die nieuwe CEO meer een marionet is, daar niet van.
Wel een rigoureuze maatregel.
Ze kunnen ook net als Google bij verdenking van een scraper een captcha tonen.
Ik kan sinds vandaag via de app ook geen tweets meer laden dus het lijkt erop dat ze iets te rigoureus bezig zijn geweest :/
Op allestoringen.nl ook flink wat meldingen trouwens.

Edit:
Quote van Musk:
"To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits:

- Verified accounts are limited to reading 6000 posts/day
- Unverified accounts to 600 posts/day
- New unverified accounts to 300/day"

Blijkbaar ook voor de app gebruikers...

600 tweets per dag lezen zou prima zijn. Maar ik moet altijd door bergen rotzooi heen scrollen voor er ergens een tweet staat die ik wil lezen :(

[Reactie gewijzigd door NBK op 23 juli 2024 04:52]

En dat doe je voor je lol?
Je weet waarom die regel is? Twitter draait op AWS en dat is gewoon om de kosten in te perken.
Maar ik moet altijd door bergen rotzooi heen scrollen voor er ergens een tweet staat die ik wil lezen
Hmm tijd voor ander tijdverdrijf misschien? :P
Zat vroeger veel op tweakers maar das ook de moeite niet echt meer sinds alle interessante materie achter de paywall is verdwenen.
Daar zijn ze al een tijd mee gestopt ;)
Ow echt? Was me nog niet opgevallen. Misschien weer eens wat vaker bezoeken dan :D
Heb nu immers weer tijd over :/
Ochère we gaan die tour op. Dat heb jij wel heel flink getypt op dat toetsenbordje van je met die kleine petieterige vleesworstjes van vingertjes hoor Timmetje. :X

Met je denigrerende maniertjes ook.

[Reactie gewijzigd door amyor op 23 juli 2024 04:52]

Dat valt wel mee toch? Ik ken eigenlijk niemand die twitter gebruikt zonder ingelogd te zijn.
Toch zijn die er zat. Je kunt tweets embedden, ook op het GoT-forum wordt dat bijvoorbeeld ondersteund. Als je daar op klikt ga je naar het bericht.

Denk je dat iedereen die op zo'n embedded link klikt een account bij Twitter heeft, of ingelogd is? Natuurlijk niet. Ik heb bijvoorbeeld niet eens een account, maar klik soms wel op zo'n link.
Ik heb wel een account, maar geen behoefte om zo'n 'even iets bekijken' aan de algoritmes van Twitter te voeren; je wordt nl. direct en langdurig doodgegooid met 'aanbevelingen'.

Behoorlijk gemis m.i.: nu is iets op Twitter zetten ineens geen algemeen toegankelijke, linkbare publicatie meer. (Nog 'n tikkie heftiger zelfs dan hoe dat bij Facebook al jaren geldt.) Als ik tweet, is dat om iets te delen, niet om anderen tot een account te dwingen..
Als je naar beneden scrolt bij opgedeelde tweets (of wanneer je reacties wilt lezen; waarom je dat gif zou willen lezen, geen idee), kreeg je altijd wel een login popup te zien. Dit kan je voorkomen met ublock origin filter:
twitter.com##div#layers div[data-testid="sheetDialog"]:upward(div[role="group"][tabindex="0"])
twitter.com##html:style(overflow: auto !important;)
Dan lees je af en toe een tweet bedoel je? Zonder account kun je toch geen mensen volgen? Of doe je dat anders?
Ik gebruik zelf Nitter (nitter.net) als mensen naar Tweets linken omdat Twitter er enkele seconden over doet om een plaatje en 280 tekens te laten zien omdat er een zware Javascript-applicatie geladen moet worden. Nitter pakt alleen de tekst en toont dat in een Javascriptloze omgeving.

Ontzettend veel sneller en een stuk gebruiksvriendelijker, helemaal als je niet van plan bent te reageren. Nitter is nu ook kapotgemaakt, en dat vind ik heel erg jammer.

Komisch genoeg lijken de embeds in chatapplicaties nu ook kapot. Het is alsof ze willen dat je bij het platform uit de buurt blijft.
Ik heb het tegenovergestelde ervaring met Nitter. Tweets laden langzaam en soms zelfs helemaal niet (timeout na 90 seconden). Vooral tweets met video's.
Ik heb geen Twitter account, maar lees regelmatig tweets.
Ik wil niet zeggen dat ik regelmatig op Twitter kom maar ik ben net als @FicoF nooit ingelogd.
Zelfde voor Youtube.
Facebook gebruik ik niet. Daar moet je volgens mij inloggen. Net als pinterest.
Als ik een search doe en ik klik een link en het is facebook of Pinterest klik ik gelijk BACK.

edit: En nu dus waarschijnlijk hetzelfde voor Twitter. BACK

[Reactie gewijzigd door MrMonkE op 23 juli 2024 04:52]

I'm one of those people en ik ken er nog verschillende. Geen haar op mijn hoofd dat er aan denkt om een account te maken.

Maar ik moet meneer Musk eigenlijk bedanken, het is de uitgelezen moment om te detoxen van hem en zijn online idiocracy.
Jup deze dude hier. Via Reddit of andere sites wordt vaak doorgelinkt naar Twitter.
Ik ken eigenlijk niemand die twitter gebruikt zonder ingelogd te zijn.
Dan zal je uit je bubbel moeten zien te komen.
Ik log nooit in, pas er wel voor op om een account aan te maken!

Er wordt op internet veelvuldig gelinkt naar Tweets.
Sinds30 juni zie ik die inlogverplcichting.
Dan denk ik: laat maar zitten.
Wie nog tweets gebruikt moet voortaan wel een eigen parochie hebben, vanaf heden win je er geen zielen meer mee.
Het is toch echt zo dat de meeste mensen geen Twitter hebben. Ik ook niet, dus je kent er nu 1.

Als ik google en ik moet een account maken alleen om een stuk geïndexeerd Twitter te zien, dan zal ik geen account aanmaken, zoals de meesten. Twitter zal echter wel verliezen; reclame-inkomsten.
Dat valt wel mee toch? Ik ken eigenlijk niemand die twitter gebruikt zonder ingelogd te zijn.
Het probleem - naar mijn mening - is dat je nu niet meer anoniem berichten van iemand kunt lezen. Bijvoorbeeld als nieuwssites (zoals ook in dit artikel) een link naar een Twitter bericht plaatsen en je wilt erop klikken voor meer context, dan kan dat niet meer zonder in te loggen. Je kunt een bericht ook niet meer in een incognito venster openen om te lezen.
Ik heb geheel geen Twitter account, ook geen behoefte toe, maar af en toe wordt er naar een Twitterpost gelinkt en dan is het handig als je de bron kan raadplegen...
Ik heb geen Twitter account meer toen ze mij een permaban gaven over een sarcastische tweet. Maar bij calamiteiten keek ik nog wel eens op die site voor het laatste nieuws.
Ik kijk alleen af en toe op Twitter omdat iemand dat ik volg daar een status update post.

Verder blijf ik er zo ver mogelijk van weg.
Ik heb geen twitter account en ik klik wel eens op een link van iemand in het forum bijvoorbeeld.

Ik wil ook geen account want dat betekent meer tracking (vandaar ook dat bijv. Nu.nl daar zo enorm over zeurt want daar verdienen ze meer aan). En ik post toch nooit iets op twitter.
Ik gebruik Twitter altijd zonder in te loggen. Normaal gebruik ik advance search van twitter om bepaalde gebeurtenissen op te zoeken of bepaalde kanalen. Maar sinds Musk aan het roer is werkt dat niet meer
Ik lees Twitter berichten maar heb geen account.
Verwijderd @FicoF1 juli 2023 22:15
Ik heb nog nooit een twitter account gehad maar kon me wel vermaken met de onzin daar te lezen.
Nu kan elmo de echokamer nog wat vergroten natuurlijk.
Dat is anders de standaard methode voor mensen die bijvoorbeeld een status van een spel volgen die op twitter wordt gepubliceerd. Of een twitter link volgens die op een nieuwssite zoals NOS staat.

Meerderheid van de mensheid heeft geen twitter account en ook weinig behoefte om er een aan te maken alleen om iets te lezen. Je maakt een account aan als je wilt reageren.
Verwijderd @FicoF1 juli 2023 10:57
Nou, nu ken je er in ieder geval 1.
Telt het bekijken van gelinkte filmpjes als ‘gebruiken’
Verwijderd @pim1 juli 2023 11:18
Heeft minder te met met AI scrapers (waar ze ook geld aan willen verdienen).

Het probleem is dat veel mensen dat de website gebruiken gewoon geen account hebben. Twitter word overal gelinkt in nieuws artikelen, op forums etc. Mensen openen de link, zien de posting, en dat is het... of ze hangen een korte tijd rond. Maar ze maken geen account aan om de content te zien.

Probleem voor Twitter is dat men geld verdient met advertencies en data sales. Mensen dat ze niet kunnen tracken zijn minder waard dan een account met data. Musk wilt gewoon dat meer mensen een account hebben:

1. die kunnen ze tracken,
2. mensen met account zijn eerder geneigd om iets te posten (engagement) dan mensen dat eerst een account moeten aanmaken
3. het maakt de platform cijfertjes mooier als ze een "groei" hebben van users
4. Dat AI scrapers dat niet willen betalen accounts aanmaken en scrapen, well, dat is een extra "user" dat ze kunnen verkopen

Al lang geleerd dat een account voor een groot "sociaal" platform waar ze hun geld verdienen met advertencies en data verkoop, enorm kostbaar is voor hun. Het ironisch is, dat veel van die platforms kwa kosten eigenlijk enorm goedkoop zijn, het probleem zit hem dat achter die forum/subs/tweet systemen, er een ENORM data analyse systeem zit. En dat kost bakken geld, maar dat is ook wat ze kunnen bulk verkopen. Als 10% van de code is, waar je echt meer interactie hebt, dan is 90% makkelijk de data analyse.

Je zou verbaast zijn waar dat allemaal gebeurt. Job interview 10 jaar geleden bij een mobile game maker, probeerde ze me in een data analyse hoekje te duwen (niet waarvoor in interviewde) want user data was enorm belangrijk. Ondanks dat ze bakken geld verdiende met predatory lootbox/skin/progress achtige verkopen, nee, niet genoeg, user data verkoop was een belangrijke branch voor hun.

Het zit overal en de meeste platformen, zelf al zijn ze ethics in heet begin, eindigen op die manier. Wetten dat er bij Tweakers ook zo een toestanden gebeuren met je data :P Het is geld voor hun...
Je zou toch denken dat je ook geld kunt verdienen door ads te tonen aan niet ingelogde gebruikers. Dat is het hele concept van adsense.
Maar 40% blokkeert die natuurlijk (en logisch vanwege alle tracking erachter).
Als ingelogde gebruiker blokkeer ik (of uBlock Origin voor mij) die ook hoor. Dus dat maakt geen verschil.
Jawel want dan kunnen ze je nog tracken via de inlog natuurlijk. Als je niet inlogt kan dat niet.
Verwijderd @pim1 juli 2023 18:23
1. Addblocker / uBlock

2. Enorm weinig geld in statisch advertencies ... Kost je bakken om te adverteren maar dat geld blijft steken tussen de lagen, niet bij de eindsite. Is een gezegde onder men oude collega: je wilt niet de eindgebruiken of de producent van content zijn maar die dat in het midden zit want daar is het echte geld.

Als je niet je eigen advertencies platform hebt, blijft er overal zoveel geld plakken dat wat je verdient, je kosten niet dekken. Daarom dat we de wildgroei van advertencies zagen op zoveel websites. Well, als ik maar 0.01 cent verdient per gebruiker, als ik dan 2 plaat, verdubbel ik men inkomsten, of 3, of 4 ...

Data verkopen van je eindgebruikers is vaak meer lucratief want dat heb je meer onder controle. De eindgebruiker kan geen data blocken met een addblocker. Iedere actie dat men doet is data, wat dan weer inkomsten is. Heb je een account, dan is je data meer vogelvrij want je gaat dan akkoord met de EULA. Wat een ander ding is voor mensen dat een site bezoeken zonder een account / toestemming te geven.

Snap je het verschil? Iemand met een account is een inkomsten bron, iemand zonder account is meer lastig om te zetten naar inkomsten (kan je ook maar EULA issues, minder accuraat omdat 99% van de mensen geen static IP hebben en met cookie tracking een issue deze dagen).

Is geen toeval dat Twitter meer mensen op accounts wilt...

Gans dat AI bots excuus, die kan je makkelijk tegenhouden want je kan de IPs tracken, vergelijken van de browser info, captcha, ... Dat is het probleem met scrapers, die consumeren zoveel data, dat je na een tijd een patroon kan opbouwen van "bezoekers" dat mogelijk scrapers zijn.

Hell, stuur je site over cloudflare als proxy met bot protection aan. En je kan scraping bots enorm lastig maken want ze hebben bij Cloudflare een vrij goede detectie als je de boel aanzet. Geen basic http scraping, maar je moet headless browsers gebruiken (veel trager, memory intensiever, enz), je moet rate limiting doen of ze ontdekten dat je te veel request hebt van 1 IP, dan moet je veel IPs beginnen te gebruiken met load balancing over de IPs, en zoveel meer om scraping protections proberen te omzeilen. ... Rara waarom ik dat weet. _/-\o_

Daarom dat ik weet dat Twitter hun scraping bots excuse een excuus is. Ja, sommige bots kunnen dat doen door veel geld te spenderen met AWS instances maar we spreken niet over een paar honderde euros en kleine AI makers meer. En die kunnen gewoon direct van Twitter de API toegang afkopen.
crisp Senior Developer @Verwijderd1 juli 2023 14:51
Wetten dat er bij Tweakers ook zo een toestanden gebeuren met je data :P Het is geld voor hun...
Nee, dat doen wij niet...
Ooit via mailto:privacy@tweakers.net inzage opgevraagd van “mijn” data opgeslagen bij jouw servertjes :+

Uiteindelijk een “dikke” envelop ontvangen (32a4?) met uitdraai van (meta)data, info, push/messages, waarschuwingen, ban-notes :X geanonimiseerde gegevens etc etc

Vond wel netjes dat reactie kwam, inclusief inzage middels fysieke documentatie.

verzoek tot inzage data bij andere websites blijft vaak onbeantwoord.
crisp Senior Developer @himlims_2 juli 2023 00:08
Uiteraard verwerken wij (persoons)gegevens, maar waar het om gaat is dat wij die niet doorverkopen of op andere slinkse manieren zonder toestemming gebruiken voor commercieel gewin. Dat mag wettelijk ook niet, en doen wij ook niet.

En je hebt inderdaad ook recht op inzage van die gegevens, dus als je die opvraagt krijg je ze ook (tegenwoordig wel digitaal overigens) :)
Ik bezocht de site vanaf dezelfde laptop vanaf hetzelfde IP dat kunnen ze prima tracken.
Verwijderd @pim1 juli 2023 10:31
Wat is het verschil met inlog scherm dan?
Dat je geen account hoeft aan te maken?
Het kost nog steeds tijd om zoiets te implementeren. Ondertussen moet je wel de lading blijven dragen. Daarnaast kunnen huidige bots veel captcha’s omzeilen. Ik denk dat enkel een limiet per IP (vb. 100 pagina’s per minuut) zoals Google did doet mogelijk is om de bots te vertragen.

[Reactie gewijzigd door Guru Evi op 23 juli 2024 04:52]

Of een vinkje laten zetten dat je geen robot bent, schijnbaar kan AI al meer dan ons, behalve een vinkje zetten dat ze geen robot zijn :p
Al die AI-startups die nu het hele web aan het scrapen zijn. Dat kost de hosting providers en bedrijven natuurlijk extra capaciteit en dus geld. Must probeert Twitter winstgevend te maken, misschien dat dit dan voor nu net iets teveel is?
Verwijderd @StefZ1 juli 2023 09:39
Als men zo graag die data wilt neemt het maar een betaalde API af.
Zeker voor kleine partijen zijn die APIs extreem kostbaar.

De laagste tier van de Enterprise API kost 42.000 dollar per maand, de hogere tiers kunnen oplopen tot 2.5 miljoen dollar per jaar.

Zie https://www.google.nl/amp...ay-kill-smaller-apps/amp/

Dat is voor kleine ontwikkelaars gewoon een hele forse barrière.
Zeker voor kleine partijen zijn die APIs extreem kostbaar.

De laagste tier van de Enterprise API kost 42.000 dollar per maand, de hogere tiers kunnen oplopen tot 2.5 miljoen dollar per jaar.

Zie https://www.google.nl/amp...ay-kill-smaller-apps/amp/

Dat is voor kleine ontwikkelaars gewoon een hele forse barrière.
Als ze het niet kunnen betalen dan is er iets mis met hun business model.
En dat is geen excuus om dan maar te gaan scrapen.
Als je business model was 'het is gratis' en opeens kost het een half miljoen per jaar.
Dat is gewoon een kill-shot voor een kleine partij.
Je business model baseren met geld verdienen aan resources die gratis zijn is natuurlijk vragen om problemen. Zodra de resource eigenaar (in dit geval twitter) dat doorheeft zal die een deel van de taart willen.
Ironische is dat je vrij makkelijk kan stellen dat Twitter gebruik maakt van haar gratis resource: of dacht je dat Twitter die content zelf schreef?
Daarom krijgen grote contributors op veel platforms ook geld toe. Geen idee of dat bij twitter ook zo werkt.
Dacht je dat Twitter draaiend houden niets kost? Als gebruiker krijg je effectief 'gratis' hosting en microbloggingsoftware aangeboden. In ruil daarvoor mag Twitter je content commercieel gebruiken.
Dat staat is het goed is allemaal juridisch afgekaart in de bedrijfsvoorwaarden. Dat is het grote verschil.
Als je kleine partij volledig afhankelijk is van gratis data van een derde partij zonder contract, dan heb je een heel ziek bedrijfsmodel. Voor niets gaat immers de zon op. Dan had je een contract moeten afsluiten die de dienst verplicht open te blijven.
Waarom zou een kleine partij een contract afsluiten voor het opvragen van informatie die vrij toegankelijk is voor iedereen?

Of je kan jouw lijn ook verder doortrekken: als jij als bedrijf afhankelijk bent voor je inkomsten van content die door anderen gegenereerd wordt, had je dan geen overeenkomst met die derden moeten afsluiten en hen daarvoor moeten compenseren? Met andere woorden, moet Twitter zijn gebruikers die tweets plaatsen niet gaan betalen voor die tweets?
Dirk Coördinator Frontpagemoderatie @Blokker_19991 juli 2023 12:23
https://nl.wikipedia.org/wiki/Databankenrecht

Het databankenrecht geeft je het recht om data-elementen (tweets) te publiceren, zonder dat de gebruiker het recht heeft om de gehele databank of een significant deel ervan op te vragen. Scrapen mag je dus gewoon verbieden en je mag gewoon verschillende toegangs- en betalingseisen stellen voor verschillende hoeveelheden data.

Oftewel, de data-elementen zijn vrij toegankelijk voor iedereen, maar dat betekend niet dat je dan ook vrije toegang moet geven tot dezelfde data in bulk.
Genoeg websites die dmv een captcha Bots en scrapers tegenhoudt. Verder voor iedereen vrij toegankelijk.
Wat een mentale gymnastiek weer. Het lijkt me evident dat afhankelijk zijn van een externe partij met de aanname dat die partij zijn content gratis blijft aanbieden geen goed business model is, en dat staat volledig los van de vraag of het redelijk is of niet om geld te vragen voor die content (en hoeveel).
als jij als bedrijf afhankelijk bent voor je inkomsten van content die door anderen gegenereerd wordt, had je dan geen overeenkomst met die derden moeten afsluiten
Die overeenkomst is er met elke gebruiker: https://twitter.com/en/tos
Met andere woorden, moet Twitter zijn gebruikers die tweets plaatsen niet gaan betalen voor die tweets?
Dat doen ze al, door die gebruikers een platform te bieden waar die tweets geplaatst kunnen worden.
Precies om dit probleem dus, de garantie dat het blijft. Ze hadden zelf kunnen bedenken dat dit geen gewenst gebruik zou zijn.

En die tweede slaat natuurlijk nergens op. Ze bieden een platform aan en als jij stopt met tweeten is dat geen enkel probleem voor de continuïteit van Twitter.

[Reactie gewijzigd door rko4u op 23 juli 2024 04:52]

Vreemde opmerking, ik had het niet over twitter zelf, dus die volledig onterechte laagdunkende toon kan je voor je houden. Natuurlijk lijkt het model van twitter ook niet echt stabiel, maar als je het voortbestaan van je bedrijf verbindt aan een niet gegarandeerde gratis service van een ander bedrijf, is dat zeker geen gezonde situatie.
Als je business model was 'het is gratis' en opeens kost het een half miljoen per jaar.
Dat is gewoon een kill-shot voor een kleine partij.
Dus? Tuurlijk, dat is heel vervelend voor dat bedrijf en voor de werknemers.

Maar dat het vervelend is voor een bedrijf betekent niet dat ze dan maar moeten gaan scrapen. Gewoon bedrijf opdoeken, ander werk zoeken. Genoeg vacatures voor ict-ers.
Nee, scrapen mag niet. Zal wel in de TOS staan ook.
Ik wilde alleen aangeven dat sommige bedrijven begonnen zijn dit niet als kosten hebben geanticipeerd en nu nat gaan. Die kunnen niet een blik ICT'rs open trekken.
een scraper ziet die TOS niet

scrapen is niet anders dan herhaaldelijk aan de webserver vragen:
- mag ik pagina X, en die pagina toegestuurd krijgen
- mag ik pagina Y, en die paginaga toegestuurd krijgen

als men niet wil dat er gescraped wordt, dan moet men hun webserver maar configureren om volgend op de vraag van een scraper 'mag ik pagina X' die pagina niet in reply te geven
Ja dat is toch wat Musk nu ook doet? De implementatie is een beetje grof dat het voor elke pagina gebeurt, maar hij doet gewoon precies wat jij voorstelt
Ik weet hoe scrapers werken.
Als alles met een username login moet -zoals nu- dan is elke scraper een user die de TOS verbreekt.
Zoals twitter nu gedaan heeft.
een scraper ziet die TOS niet
Dat maakt helemaal niet uit, die zijn nog steeds van toepassing. Een website (en dus niet een API of iets dergelijks) is bedoeld om door een persoon van vlees en bloed via een web browser gebruikt te worden, en via die weg worden de eventuele voorwaarden gecommuniceerd.
als men niet wil dat er gescraped wordt, dan moet men hun webserver maar configureren om volgend op de vraag van een scraper 'mag ik pagina X' die pagina niet in reply te geven
Nee, dat hoeft dus niet, net zo goed als dat ik ook mijn voordeur open mag laten staan zonder dat dat voor eenieder een uitnodiging is om binnen te komen.
Het probleem is op zich natuurlijk niet het scrapen zelf, maar het gebruik van de data voor commercieel gewin waarmee lezers weg zouden kunnen worden gehouden van de Twitter site en dus geen inkomsten meer genereren voor Twitter. Dat is de regel die wordt overtreden.
AI zit momenteel in z'n "Wilde Westen"-periode, alles kan omdat er nog geen regels zijn, dus je moet zélf maatregelen nemen tegen wat anderen je aandoen.
Twitter/Reddit API was nooit gratis voor commercieel gebruik. Als je heel business model afhangt van scrapen/overbruiken van een persoonlijk gebruik API heb je geen goed business model.

[Reactie gewijzigd door Guru Evi op 23 juli 2024 04:52]

Waarom niet? Ik heb als persoon zonder Twitter account geen overeenkomst met Twitter, dus als die informatie publiek toegankelijk is mag ik die gewoon scrapen.
Ik mag 'm niet zomaar hergebruiken voor commerciële doeleinden, maar het scrapen kunnen ze niet tegenhouden zonder alle niet-ingelogde gebruikers tegen te houden
als die informatie publiek toegankelijk is mag ik die gewoon scrapen
Stel, je maakt een statische pagina met een blog, daar staat 1 advertentie op en je betaald het hosten van je pagina met de inkomsten van die advertentie als mensen erop klikken. Echter, de informatie in die blog wordt massaal opgenomen in zoek algoritmes, AI modellen en tig partijen die een alternatieve app hebben om blogs te lezen.

Je hosting kosten stijgen exponentieel terwijl het aantal gebruikers op je bron pagina gelijk blijft en dus de inkomsten uit de advertentie kliks gelijk blijven.

Scrapen of massaal gebruik maken van een openbare api heeft zowel voordelen als nadelen.

Edit:typo

[Reactie gewijzigd door david-v op 23 juli 2024 04:52]

Ik zeg ook niet dat het ideaal is, ik heb zelf ervaren dat het heel vervelend kan zijn als mensen gaan scrapen.
Maar net zoals je niet tegen kunt houden dat een gewone persoon je publieke website leest, kun je ook een LLM niet tegenhouden. Dat is juridisch en technisch onmogelijk, want het is niet illegaal, en het enige wat je zou kunnen blokkeren is IP-adressen en user agent strings, maar die eerste is te omzeilen met een VPN en die tweede is te omzeilen door die gewoon van een bestaande browser te kopiëren.
Het is technisch zeker wel mogelijk, zie de maatregel van twitter ;)

Voor content die zonder account gelezen kan worden is het zeker een uitdaging, ip blokkeren of bepaalde agents werkt maar beperkt. Je zou per cliënt sessie, onafhankelijk van het gebruikte IP adres of agent de hoeveelheid requests kunnen beperken tot x per minuut waarbij je bekende zoekmachines wel onbeperkt laat. Het blijft hoe dan ook een uitdaging.
Maar dat bedoel ik dus, je kunt niet bots/scrapers weren zonder je gebruikers ook te raken.
Zelfs van die oplossingen zoals Cloudflare's schermpje dat je browser controleert werken tegen bots én echte gebruikers. In de huidige markt zijn 2/3e van je bezoekers telefoons, en als die niet binnen een paar seconden je website te zien krijgen gaan ze naar het volgende zoekresultaat. Als ze dan eerst meerdere seconden moeten wachten tot zo'n tussenpartij klaar is en dan misschien nog een captcha in moeten vullen als extra bevestiging dan zijn ze al heel snel weg.
Ik word zelf in de praktijk vrijwel altijd tegengehouden door die systemen omdat ik een ad/script blocker heb en cookies niet toesta zonder extra toestemming, dus als ik op een link klik naar een of ander blog artikel en ik moet allemaal moeite doen om het te lezen dan haak ik ook af. Scheelt dat DuckDuckGo of Google vaak het antwoord al in het korte voorbeeld van de pagina heeft staan :)
Waarom niet? Ik heb als persoon zonder Twitter account geen overeenkomst met Twitter, dus als die informatie publiek toegankelijk is mag ik die gewoon scrapen.
Ik mag 'm niet zomaar hergebruiken voor commerciële doeleinden, maar het scrapen kunnen ze niet tegenhouden zonder alle niet-ingelogde gebruikers tegen te houden
Je zegt het al goed. Je mag het niet hergebruiken voor commerciële doeleinden. Voor zover ik weet zijn kleine bedrijven nog steeds bedrijven en commercieel.

Twitter gaat echt niet de hele site afsluiten omdat een privepersoon met zijn thuiscomputer probeert twitter te scrapen hoor.
Natuurlijk kun je scrappen tegenhouden zonder normale gebruikers te raken. 1 request per seconde per source is voor een normale gebruiker meer dan genoeg. Voor scrapers funest.

Je moet er wel iets voor inrichten, dat wel.
Er was een rate-limited kostenloze API ooit, maar die is 'verbeterd' naar een overpriced enterprise API.
Er was een rate-limited kostenloze API ooit, maar die is 'verbeterd' naar een overpriced enterprise API.
Nou, dan stop je met het gebruiken van twitter data?
Voor Twitter is het ook niet goed dat dit nu geblokkeerd is. Zoekmachines doorzoeken ook de tweets en indexeren ze, nu gebeurt dit niet dus uiteindelijk ook minder zoekopdrachten die bij Twitter uitkomen.

Deze actie is puur gericht op het pushen naar de betaalde API die al enige tijd onder vuur ligt.
42K per maand niet kunnen betalen is "iets mis met je business model"?!? Hoe groot precies denk je dat "kleine partijen" zijn? Kleine partijen genoeg die überhaupt maar 42k per jaar aan omzet hebben; niet iedereen is full-time developer en niet iedere app harkt miljoenen binnen.
Advocaat van de duivel hier, maar waarom zou de service die je benaderd via apis wel een veelvoud aan hosting kosten noemen betalen zodat je gratis gebruik kan blijven maken van het massaal ophalen van data?

Ik besef ook wel dat het een geven en nemen kwestie is, hoe meer partijen gebruik maken van je api hoe meer mensen je kan bereiken met je content of service. Het moet wel in evenwicht zijn en dat is waar het nu allemaal om draait. Wat is evenwicht herstellen en wat is het uitknijpen van je api gebruikers...
Wie heeft het over gratis? Ik vermoed dat een kleine partij ook minder API-calls doet, maar zo te lezen is het MINIMUM-bedrag 42K?

Edit: ok, er zijn blijkbaar ook niet-enterprise opties, vanaf $ 100 per maand. Ik heb alleen geen idee wat je daar mee kunt en of die optie überhaupt geschikt is voor een app.

[Reactie gewijzigd door Paul op 23 juli 2024 04:52]

Voor $100 per maand kan je via de api 3.000 tweets per maand plaatsen en 10.000 tweets per maand lezen. Je hebt ook pro access voor $5.000 per maand en dan heb je 300k tweets plaatsen en 1m tweets kiezen per maand.

Bron
Daar is ontwikkelsubsidie voor. Er zijn duizenden beginnende bedrijfjes waar eigenlijk minder binnen komt dan er uit gaat. Maar als je uiteindelijk niet voldoende kan verdienen aan je dienst dan je kosten hebt, dan is je bedrijfje niet levensvatbaar.
Wat u aangeeft is vergelijkbaar met een bakker die brood steelt bij de supermarkt omdat hij zelf nog geen klanten genoeg heeft om de kosten te dekken.
Een bedrijf dat start heeft volgens elk business model te maken met aanloopverliezen omdat er eerst investeringen gepleegd dienen te worden. Pas als de kosten niet meer voor de baat gaan kan men gaan overwegen of een API uit de opbrengsten te bekostigen valt. Een aanbieder van een API zou daarop een aangepast abonnementsmodel kunnen ontwikkelen.
Scrapen is niet per se slecht. Google en bing zouden niet kunnen functioneren zonder scraping.
Maar wanneer een site als Twitter op Google en Bing gelinkt willen worden, wordt daar een contract voor opgesteld, inclusief afspraken over hoe de data gebruikt wordt en doorlinkt naar het origineel, zodat de lezer wel doorklikt naar de betreffende site.
Zonder de details te kennen: Kleine partijen moeten ook geen enterprise licentie afnemen :+
Als je AI wil trainen heb je weinig keus, want de Basic Tier is erg beperkt.

Er waren voorheen meer geboden mogelijkheden maar dat is door Twitter allemaal geschrapt waardoor voor serieuze toepassingen je in de praktijk alleen nog bij Enterprise terecht kunt, net de genoemde prijzen.

[Reactie gewijzigd door wildhagen op 22 juli 2024 14:49]

Dat je AI wil trainen is al een keuze toch? Niemand verplicht je om AI te trainen.

Dat twitter dingen veranderd is vervelend, maar lijkt me niet een reden om dan maar te gaan scrapen. Wel om je bedrijf te herzien
No offense maar als je AI wilt trainen met Twitter comments, dan ga je een insane AI model krijgen.
Dat ligt er aan, als jij alle meningen wil (en niet alleen diegene die door de media zijn goedgekeurd), dan heb je die info nodig. Wel moet je je AI natuurlijk uitgebreid instrueren over het verschil tussen een feit en een mening.
Als je AI wil trainen heb je weinig keus, want de Basic Tier is erg beperkt
Als ik een AI aan het trainen was zou ik die heel ver weg houden van social media. Poep erin, poep eruit blijft de regel bij AI ;)
Ik zie een business model voor een grote partij die trainingsdata verzamelt, en meerdere kleine partijen die dat weer afnemen.
Dit bestaat, echter is het meestal een meerderheid duurder. Je mag niet zomaar data doorverkopen. Toen ik vroeger voor een bedrijf werkte die digitale schermen maakte gingen we ook eens vragen voor de doorgave van oa. voetbaluitslagen. Dat wordt ook door alle soorten tussenpersonen gedaan adhv de grootte van de vraag. De kost was tussen de 50 euro per locatie per maand en 250,000 euro voor 100 schermen per jaar met allerlei extra opties voor videos, samenvattingen, grafieken voorspellingen etc. En dat was voor 1 spel, wil je de tennis erbij, F1, World Cup, dan komt er nog zoveel bijliggen. Je kunt daar ook Twitter en Reddit data aankopen, het koste vroeger al veel geld maar je kon het in kleinere delen aankopen, maar als je groot genoeg bent is het goedkoper om direct naar Twitter/Reddit te gaan (als ik mij goed herinner kostte de Firehose dan ook duizenden euros per maand en moest je je eigen infrastructuur naar de Twitter datacenters met minimum 10G gegarandeerde bandbreedte inleggen).

[Reactie gewijzigd door Guru Evi op 23 juli 2024 04:52]

Klinkt als Reddit.
En dat is dus de hoofdreden waarom Twitter maar ook Reddit naar een betaalde versie gingen voor API ‘misbruik’. Omdat AI natuurlijk in opmars is en zodoende bedrijven een graantje mee kunnen pikken.

Ik verwacht meer van dit soort acties in de toekomst bij sites waar api gebruik nog gratis is.
Ik zou wel eens een onderzoek willen zien naar de daadwerkelijke kosten. Ik verwacht dat die echt niet zo hoog zijn als ze dat doen lijken.

Wat ik wél denk is dat ze als de dood zijn dat derden er met hun verkregen informatie vandoor gaan zonder ervoor te betalen. Zeg maar wat zijzelf nu bij ons, de consument, de gebruiker, doen. Naar hun toe willen ze wel gratis hebben, maar weggeven weer niet.
Ik zou wel eens een onderzoek willen zien naar de daadwerkelijke kosten. Ik verwacht dat die echt niet zo hoog zijn als ze dat doen lijken.
Dat hoeft op zich niet heel ingewikkeld te zijn, mits je volledige controle hebt over je infrastructuur landschap. Je kan aan de hand van metrieken achterhalen hoeveel requests van anonieme danwel ingelogde gebruikers komt. Ook hoeveel requests via de publieke API binnenkomen. Je kan dan een redelijke educated guess doen wat de infra kosten zijn van de verschillende onderdelen.

Ik weet vrijwel zeker dat Reddit en Twitter die cijfers hebben, maar of ze dat zomaar openbaar maken is een andere...

Een "simpele" api manager die rond de 4000 requests per seconde aankan max kost bijvoorbeeld €2500 per maand, en dat is alleen een API manager, want daarachter zit je hele workload. Als je dit bekijkt in een wereldwijde setting waarbij je over de hele keten infra moet schalen om de nodige performance te halen dan gaat dat flink in de papieren lopen.
De capaciteit van een paar bots valt in het niet bij de miljoenen gebruikers die op (embedded) tweets klikken wereldwijd.

De hosting of bandbreedte is echt zo duur niet, veel bedrijven zien echter opeens een goudmijn in de data om AI mee te trainen en willen daarom het op allerlei manieren afschermen.
Maar alle bots waren toch weg dank zij hem?
Bots die berichten plaatsen dacht ik, niet die berichten lezen.
Want die scrapers kunnen niet ff een account registreren?

(Nou goed, dan kun je juridisch nog wel wat)

Of de Googlebot user-agent faken…

Het klinkt als een bullshit reden, eerlijk gezegd.

[Reactie gewijzigd door Keypunchie op 23 juli 2024 04:52]

Laten we vooral niet vergeten dat Googlebot exact hetzelfde doet als iedere andere scraper want dat is ook gewoon een scraper.
Echter biedt de Googlebot mogelijkheden om hem buiten de deur te houden. De vraag is of de scrapers/crawlers waar Twitter last van zegt te hebben ook dat soort opties bieden, of dat die zich nergens iets van aantrekken en gewoon alles naar binnen harken. Voor dat soort doeleinden heeft Twitter een betaalde API.
Googlebot publiceert IP-adressen van hun scrapers, spoofen daarvan kun je relatief eenvoudig voorkomen als beheerder.
Accounts kan je rate limiten
Elmo en bullshit? Kan haast niet. /s
Twitter heeft al de hele middag/avond problemen: kan tweets niet ophalen
Dan zit je over je limiet voor vandaag.
To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits:

- Verified accounts are limited to reading 6000 posts/day
- Unverified accounts to 600 posts/day
- New unverified accounts to 300/day
https://twitter.com/elonmusk/status/1675187969420828672
Nee, dit is nog een ander probleem. Twitter is al sinds gisteren stuk. Gebruikers profielen laden geen tweets meer op bijna alle pagina's, For You ligt er al sinds gisteren regelmatig uit. Deze rate limits zijn pas later doorgevoerd, en zorgen inderdaad voor nog meer problemen.
Ik ervaar dezelfde problemen, maar post zelf niet.. Alleen lezen.
Het gaat om het aantal posts dat je leest, niet het aantal tweets die je maakt.
Ah, my bad.. Ik zie het.. 600 posts is wel erg karig.
Ik had 'posts' gelezen als in verstuurde 'tweets'..

[Reactie gewijzigd door Isnowiz op 23 juli 2024 04:52]

Kan mijn eigen tweets niet eens lezen.
Dag Twitter.
Dus de API zo duur maken heeft eigenlijk niks uitgehaald en het "probleem" alleen maar erger gemaakt?

Wie had dat gedacht? /s
Als je een API account hebt, heb je een login. Dus wat je hier zegt is niet van toepassing.
Nogal negatieve uitspraak die om meerdere redenen niet zomaar op gaat en je zelf helaas ook geen onderbouwing bij geeft.

Zoals @misterbennie al toont, die gebruikers die de prijs te hoog vonden worden hadden dan al een account om 'gewoon' te gebruiken. Het niet gebruiken van een account ligt dus niet zomaar aan de prijsverhoging.

Een andere situatie is dat niet iedereen die scrapt gebruik maakte van de api. De api had namelijk al niet alleen maar voordelen vergeleken met 'gewoon' scrapen. De api was al een manier voor twitter om beperkingen op te leggen, terwijl er waarschijnlijk ook veel scrapers zijn die meer een houding hebben van zo goed koop mogelijk, zo veel mogelijk, op hun eigen voorwaarden. Die gebruiken geen api, gebruiken geen account, betalen niet en nemen tot ze gestopt worden.
Maar als ze toch niet wilde betalen met een account, dan zal die prijsverhoging van de api het dus ook niet erger gemaakt hebben.

Ik vermoed dat klagen dat het aan de hogere kosten ligt dus te makkelijk is. Je gebrek aan onderbouwing lijkt dat te bevestigen.
Rate limiting was zeker te moeilijk? Vrij rigoureuze wanhoop oplossing om dan maar alles gelijk achter de login te zetten.

Mag toch aannemen dat ze geen eigen webserver software gebruiken en dus waarschijnlijk op nginx of apache zitten (of een andere). Welke je ook gebruikt, rate limiting is een feature die ze allemaal wel zullen hebben.
Doen ze ook, en geeft nu dan ook problemen.

"Sorry, you are rate limited. Please wait a few moments then try again."

https://news.ycombinator.com/item?id=36549385
Wel apart dat dat nu ineens een probleem is terwijl AI startups dit al lang doen 8)7
Wel apart dat jij aanneemt dat Elon Musk zoiets in een opwelling bemerkt en ernaar handelt.
Is dat zo vreemd als je z'n management- en communicatiestijl ziet sinds de overname van Twitter? Wat mij betreft is dit geen ongefundeerde aanname.
Als het geen opwelling was, dan hadden ze dit prima op zijn minst tegelijkertijd met de blokkade naar buiten kunnen brengen en niet pas nadat de media erbovenop sprong.
Dat de media erop springt is iets dat ze bij Twitter al weten als er een pixel verkeert staat.
Verder lijkt deze noodmaatregel prima te verantwoorden.
Nou. Als je het nieuws omtrent Elon volgt is het eerder apart dat je aanneemt dat dit een actie die in lijn ligt met een weloverwogen strategische lange termijn visie.

Wat ik begrijp is in een opwelling Twitter gekocht voor een nauwelijks marktconforme prijs waar direct een serie rechtszaken volgde om van de koop af te zien. Waarin, nota bene, met lijvige documenten werd beargumenteerd werd hoe slecht Twitter was.

Ik denk dat de analyse dat Elon hier irrationeel, ondoordacht, willekeurig en weinig empatisch tegenover Twitter userbase handelt aardig correct is.

(Helemaal gezien ik de gebruikers al eigenaar zie van de content. En Twitter de faciliteit)

[Reactie gewijzigd door Wobblier op 23 juli 2024 04:52]

Elmo die iets doet in een opwelling? Zoals 44 miljard dollar verkwanselen? Neuh.
Als iets Twitter om zeep zal helpen is het dit wel, alles bij Kwetter draait namelijk om bereik. Als mensen ontdekken dat een groot deel van het publiek niet meer leest (en een loginmuur is behoorlijk ontmoedigend), gaan ze op zoek naar wat anders.
Hebben wij hier een DonaldDuck-lezer? :)
Ik zie dat het kwetter.com domein te koop is. Je kan een bettere tegenhanger maken. :+
kwetter.com is te koop voor $4,795...
Twitter dat onbruikbaar is en dus geen reclames kan tonen is nog veel erger voor een adverteerder.
Vrije vertaling:

Iets te veel negatief in het nieuws hiermee. Al had ik nog een persteam, dan had ik aan verwachtingsmanagement kunnen doen. Dan maar een excuus eromheen breien voor het gefaalde experiment om inloggen te verplichten.

Oepsie...

Jarenlang geven online platformen er geen bal om dat ze gescraped worden. Plots zou het met AI anders zijn? Of zou het ermee te maken hebben dat de platformen ver genoeg in de enshittification-cyclus zijn beland, waarmee AI enkel het excuus van de dag is dat men gebruikt om gigantische prijzen te vragen voor zaken als API's, en waarmee third-party gebruikersgerichte oplossingen worden uitgesloten?

[Reactie gewijzigd door The Zep Man op 23 juli 2024 04:52]

Op dit item kan niet meer gereageerd worden.