Wikimedia Foundation krijgt sinds 2024 disproportioneel veel verkeer van bots en scrapers, die gebruikt worden bij het trainen van AI-modellen. Volgens de non-profitorganisatie achter Wikipedia wordt het steeds lastiger om normale verkeerspieken op te vangen.
Sinds januari van 2024 is de totale vereiste bandbreedte voor het downloaden van multimediacontent via Wikimedia-platformen met de helft toegenomen. De organisatie schrijft: "Dit verkeer komt niet van menselijke lezers, maar grotendeels van geautomatiseerde programma's die Wikimedia Commons scrapen voor gratis afbeeldingen om AI-modellen mee te trainen." Dit zou voor een 'steeds groter wordend risico- en kostenpakket' zorgen.
De manier waarop bots en scrapers de informatie op de platformen benaderen, draagt volgens de organisatie bij aan de ernst van het probleem. "We hebben ontdekt dat ten minste 65 procent van al het 'zwaarste' netwerkverkeer van bots komt, wat disproportioneel is omdat bots slechts voor 35 procent van het totaalaantal pageviews verantwoordelijk zijn."
Het verschil in die percentages is volgens Wikimedia Foundation te verklaren door het surfgedrag van bots, die 'in bulk' zouden lezen en veel niet-gerelateerde en minder populaire pagina's bezoeken. Dit soort verzoeken is volgens de organisatie veel rekenkrachtintensiever en daardoor duurder dan wanneer mensen van de platformen gebruikmaken.
Wikimedia Foundation is naar eigen zeggen voor het aankomende boekjaar van plan om 'automatische contentconsumptie' te begrenzen, al is nog niet duidelijk hoe. De organisatie zou daarbij op zoek zijn naar een 'gezonde balans' voor het beschikbaar maken van alle inhoud die via de platformen van de non-profit aangeboden wordt.