Wikimedia: AI-bots zorgen voor explosieve groei in dataverkeer

Wikimedia Foundation krijgt sinds 2024 disproportioneel veel verkeer van bots en scrapers, die gebruikt worden bij het trainen van AI-modellen. Volgens de non-profitorganisatie achter Wikipedia wordt het steeds lastiger om normale verkeerspieken op te vangen.

Sinds januari van 2024 is de totale vereiste bandbreedte voor het downloaden van multimediacontent via Wikimedia-platformen met de helft toegenomen. De organisatie schrijft: "Dit verkeer komt niet van menselijke lezers, maar grotendeels van geautomatiseerde programma's die Wikimedia Commons scrapen voor gratis afbeeldingen om AI-modellen mee te trainen." Dit zou voor een 'steeds groter wordend risico- en kostenpakket' zorgen.

De manier waarop bots en scrapers de informatie op de platformen benaderen, draagt volgens de organisatie bij aan de ernst van het probleem. "We hebben ontdekt dat ten minste 65 procent van al het 'zwaarste' netwerkverkeer van bots komt, wat disproportioneel is omdat bots slechts voor 35 procent van het totaalaantal pageviews verantwoordelijk zijn."

Het verschil in die percentages is volgens Wikimedia Foundation te verklaren door het surfgedrag van bots, die 'in bulk' zouden lezen en veel niet-gerelateerde en minder populaire pagina's bezoeken. Dit soort verzoeken is volgens de organisatie veel rekenkrachtintensiever en daardoor duurder dan wanneer mensen van de platformen gebruikmaken.

Wikimedia Foundation is naar eigen zeggen voor het aankomende boekjaar van plan om 'automatische contentconsumptie' te begrenzen, al is nog niet duidelijk hoe. De organisatie zou daarbij op zoek zijn naar een 'gezonde balans' voor het beschikbaar maken van alle inhoud die via de platformen van de non-profit aangeboden wordt.

Door Yannick Spinner

Redacteur

02-04-2025 • 20:48

51

Submitter: Aegir81

Reacties (51)

51
50
37
6
0
11
Wijzig sortering
Gezellig, verkloot je performance, jat je gegevens en gaat vervolgens ook nog eens een verdienmodel in. :-(

Alsof je beroofd wordt.........

[Reactie gewijzigd door renecl op 2 april 2025 21:04]

Las deze thread net, en toen dit bericht.
Van gemiddeld 700MB per maand naar 26GB sinds dit jaar.
Voor een wiki die al zeker 10 jaar niet meer veranderd is.
https://fosstodon.org/@jimsalter/114270715367978012
Dit is helaas een algemeen probleem. Beheer zelf ook een wiki en we krijgen enorm veel verkeer van AI bots. AI bots zijn het uitschot van het internet en hebben lak aan robots.txt, waar search bots dit wel netjes doen. En ze vragen dan vaak met unieke ip’s een pagina op en vertrekken weer. Dus zeer lastig te onderscheiden van andere kort durende bezoekers die een pagina openen en weer weg gaan.
vragen dan vaak met unieke ip’s een pagina op en vertrekken weer. Dus zeer lastig te onderscheiden van andere kort durende bezoekers
Heb je al eens gekeken naar de whois van die IP-adressen? Ik ben er nog geen tegengekomen die uit een reeks van Freedom Internet of een andere Europese ISP komt; het zijn allemaal eigen reeksen van het bedrijf dat de scraping doet, of reeksen van bekende hostingpartijen

Wil niet zeggen dat je die allemaal zomaar moet blokkeren, bijvoorbeeld op het werk surfen we ook vanaf een IP-adres van Hetzner omdat daar onze servers staan en we zo met thuiswerken toch aan de klant kunnen vertellen welk IP-adres ze mogen verwachten (privégegevens doorgeven vermijden we liever). Dan loop je bijvoorbeeld bij Reddit tegen een muur aan omdat ze bij voorbaat al denken (ook met een referrer van Duckduckgo-zoekresultaten) dat je een bot bent en mag betalen om de pagina te lezen. Wat je wel kan doen is abuse-email sturen naar de eigenaar van de IP-reeks, net als we vroegâh deden als iemand vervelend aan het doen was, en als de eigenaar z'n IP-ruimte niet schoonhoudt dan blokkeer je ze. Dat is iig hoe het zou moeten werken: ISP's/hosters houden hun IP-adressen schoon en we laten het elkaar weten als iemand een rotte appel heeft zitten. Natuurlijk zijn er veel ISP's die niet zo werken; ik zie niet helemaal in waarom we die niet wat agressiever afsluiten van onze sites. Beetje marktwerking kan daar geen kwaad
Ik weet niet of dat op deze schaal ook word toegepast, maar houd er ook rekening mee dat "residential proxies" ook een ding zijn tegenwoordig. Laatst nog een onderzoeksartikel over gelezen. Hierin installeerden onderzoekers zo'n client programma om betaald te worden hun internet verbinding te delen (natuurlijk 100% compatibel met de ToS van elke beschaafde ISP /S).

Ze kwamen genoeg verkeer tegen naar domeinen gerelateerd aan eCommerce sites, vliegtuigtickets, noem het maar op. Gek genoeg ook veel verkeer naar dating sites. En waarschijnlijk nog wel meer ellende als ze er naar zouden gaan zoeken of op grotere schaal draaien.

Dat gecombineerd dat met diensten van tussenpartijen die netwerk infrastructuur via headless browsers aanbieden, en je hebt een redelijk moeilijk te detecteren bot die op een langzaam tempo van tientallen, honderden of "duizenden" IPs een website kan leeg halen.

[Reactie gewijzigd door Hans1990 op 2 april 2025 23:59]

Yep, ik weet van het bestaan van dat alles. Naar mijn idee zou dat vallen onder wat ik zei over dat de ISP dan een rotte appel heeft zitten wat je kan melden, waarop de ISP de abonneehouder kan waarschuwen dat ze malware hebben of in ieder geval overlast veroorzaken en ze gebieden daarmee te stoppen

Wanneer de ISP zich er niks van aantrekt en ze de gebruiker toegang blijven bieden tot het internet, zou ik het IP-adres vervolgens blokkeren, of hun hele reeks als ze ook nog de klant van IP laten wisselen. Ik kan me herinneren door XS4ALL benaderd te zijn geworden over enkele fratsen die ik als tiener uithaalde. Mijn vader was daar niet zo blij mee, dus dat was behoorlijk effectief :P
Ik ben vrij rigoreus in het blokkeren. De bots verbergen zich vaak achter gewone useragents maar doordat ze geen sessies gebruiken kan ik redelijk goed zien wie de misbruikers zijn. Ik zoek dan op wie dat netblock beheert en vaak zijn het Chinezen of een grote hosting provider. De kans dat het legitieme bezoekers zijn is dan erg klein en ik blokkeer in één keer het hele subnet. Ik merk nog geen enkele daling in bezoekers dus blijkbaar werkt het. Maar als je een internationale markt bedient is dat al veel lastiger. Mijn website richt zich enkel op bezoekers uit Nederland.
als je een internationale markt bedient is dat al veel lastiger. Mijn website richt zich enkel op bezoekers uit Nederland
Je schrijft dit naar iemand die in het buitenland woonachtig is :'(
Dan val je toevallig buiten de doelgroep. Is dat zo erg? En waarschijnlijk kun je mijn website gewoon bezoeken hoor. Je hebt alleen maar kans op een ban als je de website gaat scrapen. :Y)
Dan ben ik toch wel benieuwd wat voor bijzonders er op jouw site staat waar ik nooit bij zou moeten hoeven. Gaat het specifiek over wetgeving die alleen van toepassing is als je in Nederland woonachtig bent? Ik ben namelijk vaak een vraagbaak voor familie en zou ik dus alsnog binnen de doelgroep vallen als ik iemand wil helpen. Moet je een Nederlands adres hebben om te bestellen? Ik bestel regelmatig dingen van Nederlandse webshops naar het adres van m'n ouders. Ik ben redelijk radeloos hoe je rigoureus blokkeren op basis van landsgrenzen wilt verdedigen in deze internetwereld
Je hebt alleen maar kans op een ban als je de website gaat scrapen
Het gesprek ging over dat je hele providers eruit gooit, zolang ze maar niet uit Nederland gevestigd zijn, niet over of ik specifiek zelf aan scraping doe
Is dergelijk gebruik van Wikipedia eigenlijk überhaupt toegestaan, gezien de Creatieve Commons Share Alike-licentie?
Daar hebben we nog geen definitief antwoord op. Sommigen zeggen dat dit gebruik überhaupt niet onder auteursrecht valt, anderen wel, en vele zeggen ook dat, zelfs als het dat nu niet valt, dit onethisch is en het dat zou moeten vallen. We gaan het merken in de komende jaren

Als je er meer over wilt lezen, je kan op Tweakers een aantal artikelen erover terugvinden (zoals die van Arnoud Engelfriet): https://tweakers.net/zoek...copyright+auteursrecht+ai
In hoeverre is het zinnig om wikipedia te scrapen? je kan zover ik weet gewoon een dump van wikipedia downloaden, is dat niet handiger dan de site scrapen?
De dumps zijn snapshots en worden niet live geupdate. De website wel. De scrapers willen waarschijnlijk de meest up to date/accurate wikipedia data, misschien is er zelfs concurrentie op dat punt, dus scrapen ze veel en vaak.
valt wel mee, laatste dump van de nlwiki is 2025-03-21 05:59:35. Zóveel is er sindsdien ook niet gebeurd
Dat is dus 10+ dagen, en de laatste dump van de engelse wikipedia is nu een maand oud. Er gebeurt echt een hele hoop live op wikipedia. Artikelen over hedendaagse gebeurtenissen worden live bijgewerkt, overlijdensberichten van prominente personen worden binnen minuten weergegeven.

Zelf als je dat zelf niet zo interessant vindt, dan moet je inzien hoe je heel makkelijk met de huidige AI-gekte de "hoogste kwaliteit Wikipedia dataset, elk uur up to date" in de markt kan zetten en dat mensen daar dan bakken geld voor betalen, een stuk meer dan je scrapers kosten. Er rolt zoveel venture capital rond in die wereld en men probeert van alles om een voorsprong te krijgen op de concurrentie.
Het oorspronkelijke artikel gaat over multimedia downloads. Ik weet niet of er dumps van alle multimedia artifacts zijn. Lijkt mij potentieel vrij fors :)
Dan nog moet je iedere keer de boel downloaden in in je systeem uploaden terwilj een always up to date versie online staat. Gemak dient de mens, ehm.... bot.
Dan kan je de markt van scrapen nog niet. Als die niet elke paar minuten een pagina kunnen F5'en voor veranderingen , dan doen ze iets verkeerd.

Vooral als een bot ook slimmer kan omgaan met websites waar snel nieuwe info te vinden valt. Dan kan je heel snel een lijst bouwen met pagina's die onlangs zijn bijgewerkt ipv domweg elke pagina opnieuw te blijven afgaan. Bijvoorbeeld je kan afgaan op de laatste 500 wijzigingen op Engelse wikipedia

Maar als ik zo even kijk: 500 wijzigingen, laatste timestamp is van 20:49 UTC, recentste van 20:53. Dat zijn dus 2 pagina updates per seconde. Dat is een aardige scraper die zo snel die veranderingen kan bijhouden. Plus.. dan moet je alle artikelen al hebben, dus als je vandaag begint duurt het misschien wel weken tot maanden voordat die ook nog eens zijn afgegaan.

Zie hier de omvang van dit probleem als niet een enkel persoon dit doet, maar tientallen organisaties met ook nog tientallen verschillende talen van Wikipedia. Ook de DE versie van Wikipedia heeft 500 wijzigingen in 20 minuten. Wij in NL doen er 2,5 uur over. Enzovoort.

[Reactie gewijzigd door Hans1990 op 2 april 2025 23:05]

Misschien heb je er overheen gelezen, maar dit gaat over Wikimedia. Dat is het "moederbedrijf" dat meer doet dan alleen Wikipedia.
Ook van Wikimedia Commons zijn downloads beschikbaar. Maar dit lijkt inderdaad wat lastiger met veelal oudere mirrors. Duidelijk, misschien is de oplossing dan om deze beter beschikbaar te maken.
Dat kost geld.
Misschien is het gewoon makkelijker om Wikipedia met bestaande tools te scrapen dan weer iets customs te bouwen om dumps te analyseren. Gemak dient de bot.
Ik geloof niet dat zo'n dump een groot obstakel is voor AI. ;)
Wikimedia commons bevat meer dan alleen maar de afbeeldingen die je op Wikipedia ziet.
Het is niet alleen Wikipedia. Ik had een oude server met allemaal foto-archief-websites erop die opeens steeds overbelast raakte.

Na grondige controle ondervonden dat het voornamelijk bots en scrapers waren. Na een aantal blokkeringen op user agent niveau nam het verkeer met 80% af en waren de problemen voorbij.
Alhoewel dit perfect technisch mogelijk is, is het volgensmij nu juist interessant aan "nieuwere" modellen/bots dat ze live informatie kunnen opzoeken via het internet. Dit zou natuurlijk ook lokaal kunnen gaan, maar dat is dan potentieel verouderd. Ik denk dat het de AI bedrijven vooral heel weinig interesseert.
Valt mij nog best mee ook, 86GB uncompressed voor alleen artikelteksten in het Engels lees ik.
Dat zijn alleen artikelen dus, niet de afbeeldingen in Commons. Die zullen doorgaans ook niet veel profiteren van compressie, aangezien ze al gecomprimeerd zullen zijn.
Maak een torrent van Wikimedia Commons en bied deze gratis aan. Dan betaalt de community de kosten van hosting en het netwerkverkeer. Dit is er al voor de tekst en lowres afbeeldingen van Wikipedia in de vorm van Kiwix .zim bestanden (Offline wikipedia) maar voor zover ik weet nog niet voor de rest van Wikimedia.

[Reactie gewijzigd door Tyrian op 2 april 2025 21:22]

Goed idee! Je zou bijna denken dat al die bedrijven die nu aan het scrapen zijn geslagen terug zouden kunnen geven aan de community door zelf zo'n torrent te hosten, als ze toch alle plaatjes binnengehengeld hebben. Ze hoeven niet eens meer te blijven seeden als de rest van de wereld het heeft... maar iets zegt me dat dat nog niet is opgekomen bij ook maar één van de partijen die gretig het internet kopieert voor commercieel gebruik.
Of, gekkenhuis, betaal de club lekker voor een copietje als je zo nodig je AI model wil trainen op die data. Het is toch een miljardenbusiness op AI modellen te trainen? Wellicht eerlijk om dan in ieder geval voor de overlast die je veroorzaakt een duit in het zakje te doen.
Die downloads zijn reeds beschikbaar, onder meer hier: https://dumps.wikimedia.org/backup-index.html ook inclusief Commons (de afbeeldingen en videos)
Download, ja. Via Torrents...?
Dat werkt alleen als de inhoud never nooit veranderd.
Waarom zou Wikimedia niet gebruik maken van de anti-AI-bot mogelijkheden van Cloudflare? Die werken best goed, en ze hebben nu ook een "AI labyrinth".
0.5-2 cent per GB plus x dollar per miljoen requests...
0.5-2 cent per GB plus x dollar per miljoen requests...
Ja, dat gaat in de papieren lopen, vooral vanwege de AI-bots. En zoals @Jeoh aangeeft heeft WikiMedia een eigen CDN.
Toch lijkt mij iets als AI Labyrinth wel goed om voor WikiMedia sites te zetten. Nu is het business model van de AI bedrijven om alle content, met of zonder toestemming, te scrapen. En dan mag je het later terugkopen. Een grote site als WikiPedia (en andere WikiMedia sites) kan een belangrijke rol spelen bij het vergiftigen van de trainingsdata van AI.
Wikimedia heeft hun eigen CDN en ik kan mij goed voorstellen dat ze niet afhankelijk willen worden van derde partijen.
Er zijn ook open source oplossingen, zoals Anubis. Maar ik kan me voorstellen dat Wikimedia zo'n groot serverpark heeft dat je dat er niet zomaar even voor zet.
Als je weet dat het bots zijn, kan je er ook voor kiezen snelheden van deze bots aanzienlijk te vertragen zodat ze geen ballast zijn voor de performance.

Het blijft idioot dat bedrijven met miljarden omzet de gehele Wikipedia leeg trekken, geen vergoeding betalen en er zelf weer miljarden aan gaan verdienen.
Als je weet dat het bots zijn
Daar zit het probleem. Ik ben in de afgelopen 2 maanden tegen 5 verschillende anti-bot-maatregelen aangelopen, inclusief die van Tweakers. In de vele jaren daarvoor misschien 1 keer ergens (Cloudflare niet meegeteld, maar daar zit een captcha op; ik bedoel hier echt harde blokkeerpagina's waar je niks meer kan doen)

Van Tweakers kreeg ik een nette reactie op de e-mail, maar niet echt behulpzaam: "tsja dan heb je het limiet aangeraakt, inmiddels zou de IP-ban verlopen moeten zijn". Hoe het kan dat ik na het openen van de site en aanklikken van een notificatie (mijn genomen stappen heb ik in mijn e-mail uitgelegd) opeens geblokkeerd werd voor een tijd, is niet onderzocht. Ik moet maar wachten met het gebruiken van het internet of zo. Nog altijd is dit een veel betere reactie dan die van bijvoorbeeld bol.com, waar je geblokkeerd wordt als je 2 linkjes aanklikt die iemand in een chat doorstuurt omdat ze twijfelt tussen 2 laptops. Zonder referrer of cookies lijkt dat misschien op bot requests, maar bij het 2e request al gelijk bam? Bijzonder. De helpdesk van Bol raadde me aan cookies te verwijderen, alsof dat een cookieloos request niet verdachter is dan iemand die je kan identificeren. Codeberg, bijvoorbeeld, zei dat de blokkade kwam omdat ik direct een commit opende (ook vanuit een chat aangeklikt) en niet via de homepage ben gegaan om daar een cookie op te halen. Die laatste partij gaf ook aan mijn feedback mee te nemen bij de volgende iteratie van het blokkeersysteem: zo weet je dat je een echte nerd aan de lijn hebt, die kunnen tenminste wat doen :)

Helpdesks zijn niet uitgerust om met de nieuwe anti-bot-systemen om te gaan terwijl de systemen wel constant aanslaan op gewoon menselijk gedrag

Van de andere kant host ik zelf ook een website en ik zie ook de miljoenen requests van die bots binnenstromen, bijvoorbeeld naar automatisch gegenereerde statistiekenpagina's van spelers in een online spel waar die bots toch niks aan hebben. Ik blokkeer dat niet omdat ik de site toch al robuust heb moeten maken tegen spelers die iets te fanatiek op F5 drukken en soms allemaal tegelijk op komen dagen. De server hoeft dus de bots niet anders te behandelen dan het de mensen al deed
de gehele Wikipedia leeg trekken, geen vergoeding betalen
Amazon is een van de bots die bij mij de boel leegtrekt. Zij, Google, Apple, en 17 anderen zijn zo te zien de grootste sponsors bij Wikimedia: https://wikimediafoundati...-report/donors/#section-2 (er zijn vast nieuwere cijfers te vinden dan 2020, dit was simpelweg het bovenste zoekresultaat)

[Reactie gewijzigd door Lucb1e op 2 april 2025 23:10]

Bij detectie corrupte content gaan leveren. Een mens heeft dit wel door, maar de baby die AI heet leest het misschien wel netjes in.
Dit is echt crimineel. Wikimedia foundation biedt gewoon de hele wikipedia als download ter beschikking. Als die AI bedrijven die download zouden gebruiken en verder lokaal verder trainen, dan zou deze gratis kennisbank voor de wereld geen extra kosten hebben.

Particuliere roofbouw of publieke gronden is het.
Misschien is die download minder snel ofzo
Yep, super irritant die AI bots, vooral die gene die zich niet melden via user-agent. Zou eigenlijk verplicht moeten worden ... En geld niet alleen voor Wikipedia, helaas.

Op dit item kan niet meer gereageerd worden.