Twitter komt met tijdelijke daglimieten om dataverzameling tegen te gaan

Twitter heeft tijdelijke daglimieten ingesteld waardoor geverifieerde gebruikers maximaal 10.000 Twitter-berichten per dag kunnen lezen. Gratis gebruikers kunnen 1.000 tweets per dag lezen, terwijl nieuwe gratis gebruikers 500 tweets kunnen lezen. Volgens Elon Musk zijn de limieten noodzakelijk om grootschalige dataverzameling op het platform tegen te gaan.

Twitter-eigenaar Elon Musk kondigde de daglimieten zelf aan op het platform. Aanvankelijk konden geverifieerde Twitter-gebruikers maximaal 6.000 Twitter-berichten per dag lezen. Gratis gebruikers konden dan weer maximaal 600 tweets per dag lezen, terwijl nieuwe accounts maximaal 300 tweets per dag konden bekijken. Deze limieten werden enige tijd later opgetrokken tot 8.000 berichten voor geverifieerde gebruikers, 800 berichten voor gratis gebruikers en 400 tweets voor nieuwe gratis gebruikers, maar liggen nu op maximaal 10.000 Twitter-berichten voor geverifieerde gebruikers, 1.000 berichten voor gratis gebruikers en 500 berichten voor nieuwe gratis gebruikers. Er is vooralsnog geen daglimiet ingesteld voor het plaatsen van Twitter-berichten.

Musk schreef in de oorspronkelijke aankondigingstweet dat Twitter via deze daglimiet het hoofd wil bieden aan "extreme dataverzameling en systeemmanipulatie" die zouden plaatsvinden op het socialemediaplatform. Verdere details gaf hij echter niet. De daglimieten zouden tijdelijk zijn. Musk deelde niet mee hoe lang deze limieten actief zullen blijven.

Vrijdag raakte bekend dat niet-ingelogde gebruikers voorlopig geen toegang meer krijgen tot de webversie van Twitter. Het platform vraagt niet-ingelogde gebruikers sinds die dag om in te loggen. Als men dat niet doet, worden deze gebruikers omgeleid naar de startpagina van Twitter. Volgens Elon Musk betreft dit ook een tijdelijke maatregel die naar verluidt nodig was om het scrapen van data tegen te gaan.

Door Jay Stout

Redacteur

02-07-2023 • 08:42

178

Reacties (178)

178
167
83
4
1
33
Wijzig sortering
Ik snap niet dat mensen deze smoes van Elon serieus nemen. Zelfs hier op tweakers zonder citaatje in de titel.

Elon betaalt links en rechts de rekeningen niet. Heeft een groot Google Cloud contract moeten laten vallen. Niemand koopt zijn dure API toegang. Al zijn goede engineers zijn weggelopen.

Ik vind het logischer dat hij heel die site niet in de lucht kan houden zonder dit soort maatregelen.

Smoesjes kan je Elon wel om vragen. En het verbaast me niets dat hij het aankondigt en niet zijn kersverse CEO. Ik betwijfel of zij zou liegen. Laat ook gelijk zien hoe serieus hij haar neemt.
Update in verband met dat Google Cloud contract: https://www.techradar.com...ng-for-google-cloud-again
Twitter and Google Cloud make up
Bloomberg reports that the change comes from new Twitter CEO Linda Yaccarino, who apparently, “helped get the relationship back on track.”

Yaccarino's involvement may even lead to a wider partnership between the two companies, with the report claiming Twitter is now negotiating a broader partnership that could include advertising and Google’s use of Twitter’s paid API.

[Reactie gewijzigd door David19x op 23 juli 2024 06:35]

Rare maatregel, lijkt ook beetje houtje touwtje te zijn ingebouwd:

"Twitter is DDOSing itself."
https://sfba.social/@sysop408/110639435788921057
I think that could be part of it. But I think the big reason is because they made using the API so expensive that a bunch of people switched over to scraping. The thousands and thousands of bots scraping every single tweet must have caused them some major headaches.
Dat is een redelijk goed punt. Scrapen houdt niet op. En als je dan je API's extra duur maakt, dan is de kans groot (vooral bij dit soort diensten) dat mensen andere oplossingen gaan zoeken.

Net als bij bv. supermarkten die allemaal zeggen dat het niet mag, maar tussendoor wel de diensten afnemen van scrapers die dit bij de concurrent doen.
Je mag (prijs)gegevens scrapen van winkelwebsites aangezien daar geen databankrecht op zit en de (prijs)gegevens een bijproduct zijn van de hoofdactiviteit van een winkel, namelijk het verkopen van producten (wat niet kan zonder de prijs kenbaar te maken).

Informatie over telefoonabonnementen zoals op Bellen.com scrapen mag dan weer niet, aangezien Bellen.com moeite heeft gedaan om hun databank samen te stellen en dat de kern van hun bedrijf is.
Maar de data van bellen.com is niet van bellen.com dus waarom zou je dat niet mogen scrapen maar bij t-mobile wel?
Juist daarom; Bellen.com heeft moeite gedaan om die databank samen te stellen waardoor het hun product is, terwijl bij t-mobile hun website met prijzen een "neveneffect" is van het verkopen van telefoonabonnementen.
Maar wat is de hoofdactiviteit van bellen.com? Het verkopen van abonnementen, liefst datgene waar ze zelf de meeste commissie op krijgen. De prijzen en details zijn toch ook maar een bijproduct? 😅
Nee, prijsvergelijking is de hoofdactiviteit.
Bellen.com verkoopt helemaal geen abonnementen, linkt alleen maar door naar de website waar je het wel kunt kopen.
Dat heet het compilatierecht, waardoor je een auteursrecht kunt verwerven op je verzameling publieke informatie. Je kunt alleen een ander er niet van weerhouden dezelfde data uit dezelfde bronnen te verzamelen en te publiceren.
Daarom mag je dus bellen.com niet scrapen. Dat is toch wat ie zegt?? Ja, je mag zelf hetzelfde trucje ontwikkelen en dan heb ook jij het compilatierecht.
Volgens mij is scrapen niet verboden. Er is wel een robots.txt en de eigenaar kan je ip blokkeren.
Ik heb inderdaad begrepen dat in de V.S. een rechter recent dit in een zitting bevestigend heeft.
Er staat toch letterlijk een bron bij met bewijs?
Unpopular opinion als ik de reacties zo lees: niks mis met rate-limits. Alleen je moet ze wel zo implementeren dat geen enkele normale gebruiker er ooit iets van merkt. En betalende gebruikers al helemaal niet. De patronen van scrapers zijn echt significant anders dan die van gebruikers, dus die moet je relatief makkelijk kunnen afremmen. Het hele verhaal ruikt er veel meer naar dat meneer Musk vindt dat de hele infrastructuur wel wat goedkoper moet kunnen en zijn engineers bij elkaar heeft geroepen om dat maar te regelen.
De patronen van scrapers zijn echt significant anders dan die van gebruikers, dus die moet je relatief makkelijk kunnen afremmen.
Ja, als je enkel puur scraped vanuit een enkel IP en met dezelfde headers. Laat me je introduceren op manieren dat je voorbij blocks komt:

* Veranderende TLS (een manier dat cloudflare scraping probeert tegen te houden is door TLS fingerprinting)
* Proxies / roterende IPs (en met IP6 is dat nog makkelijker of je moet ganse /64 ... whatever blocks gaan blokkeren)
* Veranderende headers dat overeen komen met de actueel browsers. Aka, je scrapt niet met een lege basis header maar een dat overeen komt met wat de site verwacht.
* headless browsers indien men JS trucjes probeert uit te halen
* Virtual Profile (virtuele clients opbouwen dat repeating zijn, aka, dat overkomen als echte clients en waar hun headers enz dezelfde blijven maar dat een patroon van topics volgen / herscrapen)
* Account profiles (see hierboven maar waarbij je accounts aanmaakt, en ieder account, iedere dag in bepaalde interesten blijft scrapen). Zeer moeilijk te herkennen buiten random checks te laten uitvoeren.
* En het lezen van de github waar mensen anti-scraping integeren in hun software en dan doe je gewoon het omgekeerde (zoals bepaalde browser hebben bugs/featires dat men kan gebruiken om scraping te verhinderen,maar als je dat weet, mimic je dat gedrag. Of je gebruikt gewoon een headless browser)

En hou rekening, eenmaal dat je de content van een site gescrapt hebt, is ga je zoeken op nieuw content, aka, je scraping word geen 10 tal miljoenen aan calls meer om alles binnen te halen. Het probleem voor sites om scraping tegen te houden, is dat men meer en meer naar special gevallen moeten zoeken om scraping bots te herkennen.

Waar een scraper, eenmaal dat men een goed systeem opgebouwd heeft, datzelfde systeem kan blijven hergebruiken op alle websites (mits hier en daar updates voor als iemand een nieuw trukje vond).

Het is een oorlog dat je automatics verliest want de scraper moet zich geen zorgen maken over het clientele. Als website beheerder moet je opletten dat je anti-scraping geen echte gebruikers plat legt zoals mensen dat niet standaard chromium browsers gebruiken of andere patroon hebben dan normaal. Waar een scraper met minder moeite te block can omzeilen.

En scraping is ook big business. Er zijn bedrijven dat zich specialiseren in scraping van content, en waar je een 500$ betaald voor miljoenen calls per maand. En die doe als de fixes als een site de boel blokkeer. De realiteit is, dat als men je data wilt, dat men het te pakken krijgt. En tegen een VEEL goedkopere prijs dan wat vele bedrijven hun API aanbieden. Ironisch is het beschermen van je website tegen scraping, eigenlijk duurder want je moet volledige pages renderen van je server, dat de scraper enkel stukjes uithaalt. Waar als je die data aanbied goedkoop via een API, dan gaat men gewoon gebruik maken van de API en je servers kreunen minder.

De realiteit is, er is een ganse industrie dat zich hiermee bezig houd en het actueel scrapen zelf is niet illegaal, het is wat je met de data doet is waar het issue is. En als die data verwerkt zit in AI modelen, veel plezier om dat te ontdekken.

De enige manier dat je scraping tegenhoud is betaalde diensten (en dan zal er ook wel een illegale dienst komt van gestolen accounts/gestolen paypal enz, dat scraping zal aanbieden). Maar betaalde diensten zijn ENORM moeilijk om op te bouwen want mensen hebben maar zoveel vrij geld iedere maand. En dan geven ze dat geld enkel aan de hoge / belangrijke diensten... Spotify, Youtube (als ze echt addblockers gaan tegenhouden), streaming diensten. En plop, geen geld meer voor andere diensten. Dat is het probleem een beetje deze dagen. Eenmaal dat alles te veel betalende word, verlies je gebruikers en gaan mensen de illegible route weer in. En ... hello scrapers.

Het is echt een cycle dat de meeste bedrijven niet begrijpen. Mensen zijn geen potjes van ongelimiteerd geld en dat is doenbaar als je als bedrijf opgebouwd hebt in een monopolie positie in een markt segment maar al de rest, tja ...
De professionele scrappers, zullen daarom ook kijken naar of een website bijvoorbeeld een api gebruikt om de gegevens aan te bieden, voor hun website. En dan is het vaak geen probleem om puur die api call te imiteren, en dan puur de benodigde data te schrapen ;)
Yep ... SPA's zijn een scraper zijn een goede vriend want je kan gewoon de jsons uitlezen, ipv de moeite te moeten doen om html tags te matching. De ironie van data naar de voorgrond te verplaatsen.

En als je denkt dat leuk is.. Zeg hello naar een scrapper best vriend: graphql ;)

Echt, ik begrijp mensen niet met zoveel logica (en data) naar de front end te verplaatsen en hoeveel ze openstellen op die manier. Vroeger moest je Sql injecties doen om gevoelige data te verkrijgen, deze dagen is het gewoon de juiste APIs ontdekken en als hun beveilig een beetje slakt en voila, de deur staat open.
Waarom krijgen geregistreerde gebruikers een limiet voor de kiezen? Je kunt prima kijken naar verbruik per gebruiker en alleen de extreme outliers aanpakken. Mocht Twitter zo opgezet zijn dat dit niet kan is er ook geen verschil tussen scrapen en 'normaal' gebruik en is het ook een onzinnige maatregel.

Verder lijkt het me raar om dit op deze manier aan te pakken als je, zover ik weet, grootste inkomstenbron advertenties zijn die drijven op aantal views/clicks. Maar ja, Musk speelt natuurlijk multi-dimensionaal schaak op snaartheorie niveau, dus ik zal wel iets missen.
Twitter blue (betaal dienst) heeft 10K views, de rest minder. Aka, betaal voor de dienst.

Het probleem is dat advertencies enorm weinig betalen. Als iemand je 1 Euro heeft per maand, dan verdien je vaak meerdere keren wat je ooit van advertencies krijgt. De middleman gaat vaak lopen met het geld, waartegen als iemand je direct geld heeft, is vaak (bijna) puur winst.

Musk wilt gewoon meer mensen op de betaalde versie. Wat in mijn mening VEEL te duur is, voor wat Twitter enz is. Idem met Youtube enz... Diensten dat leven op 3de partij content generatie, moeten VEEL goedkoper zijn voor de betaalde feature maar ze vragen geld alsof zij zelf de content genereren.
Musk speelt natuurlijk multi-dimensionaal schaak op snaartheorie niveau, dus ik zal wel iets missen.
Mensen zoeken altijd speciale moves achter domme zetten, want als we iets dom zien maar die persoon is succes, tja, dat betekend dat die persoon "multi-dimensionaal schaak" zit te doen want no way dat we een domme zet zien van een succesvolle persoon.

In de realiteit, rijke mensen maken dezelfde domme zetten als de rest van ons, verschil is dat ze een betere support systeem hebben (contacten, geld in de lade, ...) om zo een domme zetten minder pijnlijk te maken. Als gij deed wat Musk deed met je eigen bedrijf, kan je onderuit gaan. Zo een grote mannen kunnen dat beter opvangen wegens hun positie. Ga gij naar de bank dat je geld nodig hebt na een domme zet, en de bank zal is goed lachen in je gezicht. Ga gij als Musk naar de bank voor meer geld, oooo, meneer, welcome, hoe kunnen we u helpen. Zie Trump en de 10tal leningen dat gij als gewone burger NOOIT zou verkregen hebben bij dezelfde banken met dezelfde achtergrond/issues (als we de geld bedrag naar hetzelfde niveau brengen).

Beroemdheid is een bescherming voor domme zetten want mensen maken de excuses voor je...
Twitter haalde 4,4 miljard per jaar binnen met advertenties in 2021. Niet echt enorm weinig dacht ik zo, in ieder geval veel meer dan nu aan blue wordt verdient - het hoogste dat ik voorbij zag komen is nog geen 100 miljoen per jaar. Dat is een factor 40 meer voor advertenties.

Enneh, die opmerking over het schaken was sarcastisch. :)
dat geen enkele normale gebruiker er ooit iets van merkt. En betalende gebruikers al helemaal niet.
Dit is vooral het probleem.
Also, je zegt hier eigenlijk dat gratis gebruikers er wel last van mogen hebben.
Ja, waarom niet.
Je wilt een dienst wel afnemen maar niets voor betalen.
Dat is uiteindelijk onhoudbaar als niemand gaat betalen.
Dan mag je best wel een paar hobbels introduceren om iemand over te halen.
Dat kan door extra reclames, of minder instellingen mogelijk te maken, of een rate-limit.

Alleen heeft Twitter nu wel een heel strikt regime gekozen, waar ook de betalende gebruikers onder lijden.
Er schort wat met je redenering.

Indien de gebruiker die gratis gebruik maakt van Twitter tegen limieten aanloopt, is het grootste slachtoffer de betalende gebruiker. Deze zal minder exposure krijgen, omdat niet betalende gebruikers zijn Tweets niet meer gaan zien.

Als je trouwens al de neiging zou voelen om interactie aan te gaan met iemand die veel volgers heeft kan je al tegen je limiet aanlopen door 1 Tweet volledig te willen lezen.

Het effect is dus volgens mij eerder dat minder gebruikers zullen betalen en niet omgekeerd.
Naast de betalende gebruikers, ook adverteerders. Als ik geen content kan consumeren, dan krijg ik dus ook geen advertenties te zien. Het is een beetje bizar om gratis gebruikers te limiteren in hun consumptie van content wanneer die consumptie juist hetgeen is wat de gebruiker lucratief maakt.

Al met al gewoon een bizarre strategie.

[Reactie gewijzigd door JackDaniel op 23 juli 2024 06:35]

Al met al gewoon een bizarre strategie.
Ik denk dat je hier een verkeerde aanname maakt... Dat dit strategie is... Dit ruikt meer als korte termijn reacties die slecht doordacht zijn. En niet de eerste slecht doordachte reacties op allerlei 'nieuwe' ongein vanuit Twitter...

Dat scraping gebeurt al veel en veel langer, gebruik voor LMM en Neural networks al jaren! Zo een reactie nu voelt aan als een paniek reactie. Besloten door iemand die de materie niet kent/begrijpt...
Je wilt een dienst wel afnemen maar niets voor betalen.
Maar we 'betalen' er wel voor. Niet enkel zijn er ads te zien, maar ook onze data.
Jou data is geen cent waard als hij er niks aan overhoud en alleen geld verliest.
Onze data is voornamelijk minder waard als de CEO van het bedrijf actief hun klanten (adverteerders) verjaagt en vervolgens persoonlijk verbolgen telefonisch stalkt waardoor men niets met Twitter te maken wilt hebben. Dat betekent niet dat de data waardeloos is, dat betekent dat Elon Musk een waardeverlagend effect heeft. Dit komt doordat hij vertrouwen in het platform verlaagt door bijna elke actie die hij onderneemt.

2022-11-25: Twitter has lost 50 of its top 100 advertisers since Elon Musk took over, report says

2023-02-13: More than half of Twitter’s top 1,000 advertisers stopped spending on platform, data show

2023-03-24: Why advertisers aren’t coming back to Twitter: Elon Musk is still the problem.
Elon Musk en Twitter word meer en meer als een brand risk gezien naar wat ik hier en daar er over heb gehoord wat het logisch maakt dat adverteerders weglopen.
Data heeft altijd waarde, anders had hij geen dienst gemaakt die er gebruik van maakt...
Bovendien is het niet omdat Twitter verlieslatend is, dat het geen geld opbrengt, ze kunnen de dat via een ander product laten renderen.(ik weet niet in hoe ver dat mag)
Data heeft altijd waarde, anders had hij geen dienst gemaakt die er gebruik van maakt...
Bovendien is het niet omdat Twitter verlieslatend is, dat het geen geld opbrengt, ze kunnen de dat via een ander product laten renderen.(ik weet niet in hoe ver dat mag)
Elon Musk heeft NIETS gemaakt...
Het enige waar hij enorm goed in is/was is herkennen van goudmijnen, en deze te exploiteren.
Het feit dat hij er niets mee kan is zijn probleem.
Ik betaal.
Leuk ook voor betalende users dat niet-betalende users hun posts niet kunnen zien vanwege rate limits. Zal lekker werken om het platform te laten groeien, maar niet heus.
Als je een groot bereik wil hebben dan moet je zorgen dat ook gratis (met reclame) gebruikers normaal kunnen functioneren.
Dat lijkt me juist een heel mooi model, en niet alleen voor twitter. Gratis aanbieden met beperkingen, en zonder beperkingen als je betaalt. Dat is een goed alternatief voor het advertentiemodel. En bij veel software vinden we het freemium model al jaren prima. Waarom niet voor internetdiensten?
Het is een goed model voor iets dat niet zijn bestaansrecht ontleent aan de hoeveelheid gebruikers en bijbehorende bereik.

De enige reden dat Twitter populair is en blijft is juist doordat het vooral heel veel gebruikers heeft.

Als je de gratis gebruikers dus weg gaat pesten ga je wel meer abonnees krijgen maar wordt het hele platform een stuk minder interessant.

Vandaar dat juist het advertentie model zo goed past bij dit soort services.
(...) Het hele verhaal ruikt er veel meer naar dat meneer Musk (...) zijn engineers bij elkaar heeft geroepen om dat maar te regelen.
Welke engineers? Hij heeft het gros ontslagen.

Elders ging al de grap rond dat hij Twitter nu laat draaien op een stuk of 13 Raspberry Pi's... en dat men zich afvraagt waar hij díe geritseld heeft, omdat ze nog steeds heel slecht verkrijgbaar zijn.
Alleen is dat bijlange na niet het geval. Iedere gelade tweet telt mee. Is er dus bijvoorbeeld een tweet die je wilt lezen maar die niet volledig getoont wordt? Dan moet je erop klikken, zodat die nog eens meetelt, maar nu ook alle comments die eronder geladen worden ook mee tellen. Het is gewoon absurd.
De patronen van scrapers zijn echt significant anders dan die van gebruikers, dus die moet je relatief makkelijk kunnen afremmen
Scraper bouwers die passen gewoon net zo lang hun scraper aan totdat het weer werkt dan. Bij een service op de schaal van Twitter zijn duizenden of tienduizenden scrapers tegelijk actief. Het is ook geen probleem voor een scraper om dat vanaf tientallen of honderden ip adressen en accounts te doen waardoor de limieten vrij laag moeten liggen en het bijna onmogelijk wordt die gratis gebruikers niet te treffen.
Denk dat je helemaal gelijk hebt. Het zijn eigenlijk altijd de normale gebruikers die last hebben van dit soort "oplossingen" want de professionele partijen vinden wel een workaround.

En zo komen we dus weer terug bij hoe het allemaal begon: een API aanbieden die aantrekkelijk genoeg is om het scrapen overbodig te maken, en zo dan in ieder geval controle te krijgen over hoe je al die activiteit efficient verwerkt.
Het zijn Rate Limits op normale gebruikers. Het lulverhaal over scrapers slaat nergens op. Ze beperken gebruikers die actief zijn. Ik heb het gehad met leugenaar en fantast Musk. Al mijn accounts er uit geflikkerd en stel voor dat iedereen dat doet.
Al mijn accounts ? Hoeveel had je er dan wel en waarom meer dan b.v. 2 (privé en zakelijk) ?
Persoonlijk, prive, meerdere bedrijven… er kunnen meerdere redenen zijn waarom iemand meer dan twee accounts heeft.
Gisteren was Twitter onbereikbaar omdat ze blijkbaar weigeren hun factuur aan Google Cloud te betalen. Deze maatregel lijkt mij meer te passen in damage control omdat ze momenteel gewoon de capaciteit niet meer aankunnen.
Het hostingcontract liep tot gister en Twitter liep (schijnbaar als onderhandelingsstrategie) fors achter met betalen. O.a. https://www.datacenterdyn...ixes-relationship-report/

Enige downtime in een krachtmeting kan ik me dan wel voorstellen ja - zoals Amazon eerder stopte met betalen voor ads op Twitter omdat Twitter de AWS-rekening niet betaalde.
Ze hebben effectief ook zichzelf geddossed omdat de api niet beschikbaar was en de site het bleef proberen.. dat zal ook nog wel de nodige kosten opleveren.
Als de API nergens op reageert is er ook niks wat de boel kan overbelasten. Requests naar een niet-bestaande server halen niks uit.
Je kreeg wel gewoon een error terug.
En dat verkeer gaat nogsteeds ergens een datacentrum in
Zonder luisterende kant is er geen server te overbelasten. Het zou kunnen dat Google of Apple actief de communicatie met de app verpesten. Als dat blijkt waar te zijn en het bereikt het grote publiek, hebben we een interessante ontwikkeling mbt apps, ecosystemen en social media.
Maar dat stopt gewoon bij de loadbalancer aan de voorkant. Die serveert dan gewoon een 404 oid uit als de geregistreerde targets niet meer aanwezig zijn.

Die trek je niet zomaar onderuit.
Geen 404 natuurlijk... dan heb je een heel slechte loadbalancer config. Een LB is een gateway, dus krijg je een uit de serie 502-504 als ie zich netjes gedraagt.
Ahja fair. Maar voordat je die onderuit trekt ben je wel ff verder. Dat was meer het punt. ;)
Lijkt mij ook een andere oorzaak te hebben dan door hem aangegeven. Ik betaal niet maar al na 5 minuten zit ik op de limiet. Onwerkbaar zo.
Onbereikbaar? Vreemd, dat heb ik helemaal niet gemerkt terwijl ik er gisteren veel gebruik van heb gemaakt.
Vanaf ergens in de middag heb ik bijna constant geen resultaten meer gekregen. Pas later werkte het af en toe weer.
Via de website.
Reacties op tweets lade niet meer aan het eind van de dag. Verder was de dienst hier gewoon de hele dag bereikbaar via de app op iOS.

[Reactie gewijzigd door Retrospect op 23 juli 2024 06:35]

De dienst was bij mij op IOS app niet meer te bereiken gisteren. niks wilde laden. Zelfs mijn eigen profiel kon ik niet bereiken.
Vervelend, die ervaring had ik dus niet.
Nee snap ik, ik hoorde ook verschillende ervaringen om me heen.
De stroomversnelling van ontwikkeling van AI waar we in zijn terechtgekomen heeft het dataverkeer dat puur scraping is zo ontzettend verhoogd, je moet toch iets. Ik zie in de eerste reacties hier nog geen betere oplossing(en) om je platform en vergaarde data te beschermen tegen gratis professioneel gebruik door anderen.

Al deze social media platforms, Twitter, Reddit, e.a. zijn nooit gebouwd om door ettelijke 100'en partijen ettelijke 1000en keren in zijn geheel uitgelezen te worden. Voorheen was het simpelweg niet nodig om je hiertegen te wapenen omdat niet iedere schmuk met 10k euro genoeg computertijd kon huren om je hele website 3x de mangel door te willen halen omdat ze de dataset niet willen kopen, alleen de computertijd voor hun AI training.

Het is logisch dat we discussieren of het hoe, maar het wat, je wapenen tegen scraping, lijkt me een nobrainer.

[Reactie gewijzigd door TV_NERD op 23 juli 2024 06:35]

Kan Twitter niet alle gepubliceerde berichten op een soort archiefpagina gooien, welke server wordt betaald door scrapers? Dan kunnen die scrapen wat ze willen en belast dat niet de servers van Twitter zelf.
Je moet ook tweakers erbij halen die doen even hard mee met data vergaren. Want veel content staat ook achter een data wall.
Het vergaren en afschermen van gebruikers-gegenereerde data die gewoon van jou als platform is na plaatsing, middels EULA, is niet slecht in mijn betoog. Jou lijkt een andere mening toegedaan.

Ik werk zelf voor een bedrijf dat in haar industrie probeert de de facto "onderwater" (dus api) datastandaard te worden. Dat kunnen we deels omdat we, voor onze industrie, meer bestaande data hebben dan al onze concurrenten en dat kunnen we uitbuiten door daar een mooi API platform omheen te bouwen.

Concurrenten die hetzelfde proberen gaan nat omdat men de aansluitkosten niet wil betalen omdat hun basis datalake gewoon veel kleiner is.

Hetzelfde gaat nu ook gebeuren met user generated content voor AI-doeleinden, wat ik je brom.
Ik zou toch eerst bewijs willen zien dat het inderdaad scrapen was wat hier een probleem vormde. Dat is bij Twitter op dit moment namelijk nogal vaag steeds.
Als je 1000 berichten wilt lezen, elk bericht kost je 30 seconden, je neemt geen pauze, dan ben je meer dan 8 uren bezig op een dag.

Als je limiet 10.000 berichten is, je kijkt maximaal 3 seconden naar een bericht, meer dan 8 uur per dag ...

Ik denk dat het wel prima te begrijpen is dat er geen mensen zullen zijn die 1000 berichten per zullen lezen, laat staan 10.000.
Er is een groot verschil tussen lezen en skimmen (meer zoekend lezen). Dat laatste kost veel minder tijd en is op social media meer noodzaak dan luxe.
Beetje account met 1000 volgende accounts drukt op refresh en er staan 1000+ nieuwe berichten. Gisteren leek het er op dat die allemaal mee telden ook al ging je gelijk naar de eerste
Kun je meteen weten waarom de echte populaire tweeps zelden in discussie gaan.
Als je 5sec door Twitter scrolled, 'lees' je al makkelijk 10-15 berichten.
Twitter stond al stijf van de bots, dus geautomatiseerde scrapingbots die AI-chatbots voeden lijken me een voorspelbare ontwikkeling. Er is kortom bij Twitter zelf iets loos met hun software dat bots te gemakkelijk toegang biedt.
30 seconde per Tweet lijkt mij lang. Voeg eraan toe dat als jij op een link klinkt, je al snel 10+ Tweets inlaadt, en doe jezelfde rekensom nog een keertje. En dat is voordat je eens door de reacties gaat scrollen.
Hou een timer bij de hand terwijl je dit bericht leest. Ik denk dat er weinig mensen 30 seconden over deze reactie doen.
Nu neem je aan dat Twitter nog voldoende capabele programmeurs heeft om dit zo te bouwen als jij nu stelt. De realiteit is dit Twitter die niet meer heeft. En dat een tweet lezen betekende dat alle replies ook meteen meetelden voor je limiet, of je ze nou las of niet. Dus met een tiental tweets lezen was je door je limiet heen.
Omdat zoals hier boven ze ook al halve dag down waren omdat ze de google hosting niet betaald hadden als onderhandeling techniek ziet er naar uit dat musk weer ergens op wil beknibbelen omdat twitter zwaar verliesgevend is vanwege zijn eigen leningen om het te kopen.
Eerst Reddit (ik gebruikte Sync for Reddit) en nu Twitter. Ik hou straks tijd over op een dag :+

Ze hadden wel ook even de foutmelding mogen aanpassen, want ik had het gisteren in eerste instantie gemist en opeens kon ik geen Tweets meer laden.

Ik lees natuurlijk gelijk weer over Lemmy (oid) en Mastodon, maar het is gewoon te onoverzichtelijk om over te stappen en de gemiddelde Twitteraar zal er al helemaal niks van snappen. En je mist daar natuurlijk gewoon nog de gebruikers.
We komen er eindelijk achter dat dingen niet onbeperkt en gratis.kunnen zijn.
Wikipedia is onbeperkt en gratis. Mastodon is onbeperkt en gratis. Alles op archive.org is onbeperkt en gratis.

Etc., etc

Weet je wat niet gratis is? Op een eigen website die afhankelijk is van advertenties het aantal bezoekers en bezoeken beperken. Dat kost geld.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 06:35]

Wikipedia vraagt geregeld om donaties omdat ze anders moeten stoppen.
Wikipedia vraagt geregeld om donaties omdat ze anders moeten stoppen.
Klopt, maar je hoeft er niet voor te betalen en mag het oneindig gebruiken, wat het punt van discussie was.

Niet alles hoeft beursgenoteerd, commercieel en/of winstgevend te zijn.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 06:35]

Gratis gebruikers kunnen 1.000 tweets per dag lezen
Gisteren bleek uit ervaringen/meldingen van gebruikers ook dat reacties op een tweet meetellen. Had je dus één tweet met 100 reacties, teldde dat mee als 100 views ipv één view.

Is dat met deze nieuwe maatregel nog altijd het geval, of tellen nu alleen de tweets zelf mee?
Ik neem aan dat het toen ook ging om aantal reacties wat geladen wordt? Waardoor je inderdaad behoorlijk snel erdoorheen kan gaan, maar het is niet als je één populaire Tweet opent met 15000 reacties, dat je direct door je hele budget heen bent. Als je door de reacties gaat scrollen waardoor hij er meer laadt kan het snel gaan, dus het is dan zeker een hoop meer dan enkel op hoeveel Tweets je klikt om hem te openen, maar niet dat alle reacties automatisch meetellen.
Ik neem aan dat het toen ook ging om aantal reacties wat geladen wordt? Waardoor je inderdaad behoorlijk snel erdoorheen kan gaan, maar het is niet als je één populaire Tweet opent met 15000 reacties, dat je direct door je hele budget heen bent.
Daar lijkt het echter wel op. Ik zat net een paar minuten op Twitter (via de site, mijn iOS app is nog steeds rate limited) en kan nu al niks meer. Ook op de site nu rate limited na het openen van een paar tweets met veel reacties.
Ik kan niks meer, sinds die twitter storing
Het instelllen van daglimieten, niet-ingelogde gebruikers volledig blokkeren. Is een slecht business model voor een website die reclame verkoopt
Daar willen ze juist van af. Ze zoeken naar andere business modellen. Zou hier op tweakers toch moeten worden toegejuicht gezien de haat jegens reclame.
Hoezo? Je krijgt als betalende gebruiker nog steeds reclame te zien. https://help.twitter.com/en/using-twitter/twitter-blue
Ik zou het geweldig kunnen appreciëren als Tweakers eens een keer wat sceptischer omgaat met deze redenen. Eerst was het de bots, nu het is AIs. En om heel eerlijk te zijn heb ik nog nooit zoveel bots gezien als deze dagen op Twitter... Het enige wat deze maatregelen doen is normale gebruikers limiteren. Deze "scrapers" van AIs kunnen met gemak dit limiet omzeilen.
Om heel eerlijk te zijn, herken je steeds vaker door AI aangestuurde bots.
Op Reddit en Twitter, maar ook op nieuwspagina's in de reacties.

Vooral Reddit was een ramp, een bot plaatst een 'nieuw' artikel, en binnen een paar minuten zijn er enkele bots met elkaar 'in discussie'
Het aantal reposts is ernstig hoog, en "top" comments uit vergelijkende posts worden opnieuw geplaatst, op jacht naar upvotes/karma.
Tweakers is een nieuwsplatform en geen opinieplatform.
dit betekent toch simpelweg het einde van twitter?

De gratis gebruikers moeten namelijk zoveel mogelijk betaalde content kijken en dat wordt nu beperkt tot 800/1000 tweets per dag!? Dus deze maatregel betekent minder views voor de betaalde content.

nog een puntje van kritiek is dat Twitter bepaalt welke content ik te zien krijg en dus zo kan sturen richting je limiet...zodra ze je namelijk onzin laten zien scroll je snel door en ben je zo aan je limiet.

ik snap dat als je zo rijk bent als Elon je van gekheid niet meer weet wat je moet doen, maar ipv 44 miljard weg te gooien had hij ook best 0,1% daarvan mogen overmaken op mijn bankrekening dan was het tenminste nog besteedt aan een "goed" doel. ;)
En je ben nog eens verplicht om een account aan te maken, want als ik nu op de pc een linkje volg moet ik inloggen.
Ja sorry dat vertik ik om alleen iets te lezen een account aanmaken al, voorheen drukte ik nog wel eens op een twitter linkje om te kijken wat er stond. nu heeft dat geen zin meer.
Nou, het einde van Twitter was voor mij allang bereikt, toen Musk begon met het inperken van rechten en mogelijkheden voor niet betalende gebruikers.

Vergis je niet, ik ben geen gierigaard. Ik wil best een klein bedrag betalen voor een dienst zoals Twitter. Als ik dan geen reclames hoef te zien en - essentieel - er fatsoenlijke moderatie is.

Dat laatste vind ik echt wel een punt. Ik hoef al die extremistische racistische fascistische haatbagger niet te zien op een platform waar ik voor toegang betaal.

Op dit item kan niet meer gereageerd worden.