Wikipedia vraagt AI-bedrijven om niet te scrapen, maar betaalde api te gebruiken

Wikipedia heeft AI-bedrijven gevraagd om niet simpelweg pagina's te scrapen, maar de betaalde api te gebruiken. Ook wil Wikipedia dat AI-chatbots bronvermeldingen toevoegen als zij informatie van Wikipedia gebruiken.

AI-bedrijven kunnen gebruikmaken van het Enterprise Platform, meldt de Wikimedia Foundation. Prijzen daarvan staan niet openbaar online en er zijn ook aangepaste versies afgestemd op wat partnerbedrijven willen.

Behalve dat AI-bedrijven zo Wikipedia kunnen ondersteunen, zou het de servers minder belasten, zegt de stichting. Bronvermelding door chatbots is ook van groot belang, vindt de stichting achter Wikipedia. "Bronvermelding betekent dat generatieve AI de menselijke bijdragen die het gebruikt om zijn output te creëren, erkent. Dit handhaaft een positieve cyclus die de menselijke bijdragen voortzet die de trainingsdata genereren waarop deze nieuwe technologieën vertrouwen. Om mensen te laten vertrouwen op informatie die op internet wordt gedeeld, moeten platforms duidelijk maken waar de informatie vandaan komt en de mogelijkheden vergroten om die bronnen te bezoeken en eraan deel te nemen. Met minder bezoeken aan Wikipedia zouden minder vrijwilligers de content kunnen laten groeien en verrijken, en zouden minder individuele donateurs dit werk kunnen ondersteunen."

De beheerders van de online encyclopedie zeiden onlangs al dat verkeer van mensen aan het afnemen is. Daarbij doen veel bots zich zoveel mogelijk voor als mensen.

Door Arnoud Wokke

Redacteur Tweakers

11-11-2025 • 11:46

36

Submitter: Tribits

Reacties (36)

Sorteer op:

Weergave:

Je kon heel Wikipedia in 1 bestand downloaden. Waarom doen die ai boeren dat niet en hosten zelf het bestand.
Dat is lastiger dan scrapen. Ze hoeven nu maar één scraper te maken die domweg alle links die het tegen komt te volgen en met een paar weken hebben ze een kopie van het hele internet. Ze kunnen natuurlijk best de hele Wikipedia database downloaden, maar dan moeten ze weer iets inrichten om die data te beschikbaar te maken voor hun AI tijdens training en/of gebruik. Dat één keer doen is natuurlijk geen probleem, maar daarna komt de volgende site en weer de volgende, etc, en voor je het weet hebben de AI-bedrijven een dagtaak aan het bijhouden van hun dataverzameling (terwijl dat nu automatisch gaat).
vraag je toch aan de AI om die data om te vormen tot iets wat wel inleesbaar is :+
Waarschijnlijk omdat Wikipedia continue veranderd?
Omdat het vooralsnog goedkoper is. Want daar komt het op neer. Als Wikipedia hun policies aanpast dat AI scrapers verplicht zijn om te betalen, pas dan gaan ze wat anders doen.

Het zal mij niet verbazen als wikipedia gebruikt wordt voor wat testgevallen omdat je weet wat voor data er staat en bepaalde pagina's niet zullen veranderen.
Als Wikipedia hun policies aanpast dat AI scrapers verplicht zijn om te betalen, pas dan gaan ze wat anders doen.
Denk je? Volgens mij rippen die AI scrapers alles wat ze tegenkomen en negeren alle policies, precies de reden dat:
Daarbij doen veel bots zich zoveel mogelijk voor als mensen.
Ben ik pessimistisch als ik denk dat AI de doodsteek van pagina's als Wikipedia is? Het verkeer keldert als een gek naar beneden, google iets en je hoeft geen webpagina meer te openen omdat AI je al direct van een antwoord voorziet. Geen verkeer/bezoekers is funest voor Wikipedia.

Maar waar haalt AI zijn antwoorden in de toekomst vandaan als er geen nieuwe content meer wordt gemaakt?
AI hallucineert in de toekomst gewoon alles
AI gaat de doodsteek zijn voor allerlei content creators. Je hoeft de Google / Facebook etc. sites niet meer te verlaten om allerhande content te lezen, de originele schrijvers zien daar geen cent voor terug, adds op hun sites worden niet meer gezien etc.

AI sites als ChatGPT zijn wat mij betreft een veel grotere copyright schending dan The Pirate Bay ooit geweest is.
Ja bizar dat je daar eigenlijk maar weinig over hoort. Misschien omdat het geen één branche is zoals muziek of film, waarbij de lobby achter deze industrieën de copyright claim naar de voorgrond heeft gebracht destijds.
Het is denk ik ook deels omdat het voor reguliere mensen vrij te lezen is, waardoor het als gratis wordt beschouwd. Copyright is hier niet voor ingericht.
Waarschijnlijk zal de invoer anders gaan worden (als internet echt bijna dood is). Mogelijk dat bedrijven zelf dingen kunnen gaan toevoegen. Of dat AI dan al zo ver is dat het automatisch al kan kiezen wat belangrijk genoeg is en wat geheim moet blijven.
Als je iets echt uit wil zoeken ga je sowieso naar de bron. AI is hoogstens een startpunt. De details zijn door hallucinaties niet te vertrouwen.
Dat ze het niet gratis wilen doen snap ik, wan thet kost nogal wat servercapaciteit. Maar het hele 'Wikipedia steunen' verhaal is zo absurd.. Die hebben ondertussen honderden miljoenen op de bank staan vanuit hun constante gesmeek om geld, vele malen meer dan ze nodig hebben voor de kosten die ze als organisatie hebben, maar toch blijven ze vragen om 'gesteund' te worden.
Die hebben ondertussen honderden miljoenen op de bank staan vanuit hun constante gesmeek om geld, vele malen meer dan ze nodig hebben voor de kosten die ze als organisatie hebben
Heb je daar ook daadwerkelijk bronnen voor, of is dit puur een aanname?
YouTube: Wikipedia Donations Exposed. The Truth.

Vond deze video toch een eye opener en na mijn weten is Logically Answered een betrouwbare youtuber :)
Komt juist helemaal niet betrouwbaar over op mij.

Een van de eerste harde nummers genoemd in de video "300 million in the bank". Maar als je naar de https://wikimediafoundation.org/wp-content/uploads/2025/04/WMF-Annual-Report-23-24.pdf kijkt, klopt dat van geen kant.

En daarna is de video gevuld met voornamelijk "het zou kunnen dat" en "misschien is het wel zo dat".
Iemand die niet snapt wat net assets zijn denk ik... Want die 300 miljoen komt in de buurt van het net assets getal.
Iets ouder artikel maar als je google gebruikt op Wikipedia + hoe veel geld komt er aardig wat naar boven.
Grote geldstromen en commerciële tak raken aan de ziel van Wikipedia | Netkwesties Er lijkt net als bij veel van dit soort organisaties vooral heel veel geld naar "management" te gaan en niet direct naar de dingen waar het echt nodig is.

[Reactie gewijzigd door HKLM_ op 11 november 2025 11:59]

Zijn genoeg bronnen voor ja
https://wikimediafoundation.org/annualreports/2023-2024-annual-report/

Cash: 75,808,401
Short-Term investments: 132,216,667
Jaarlijkse kosten: 169,095,380

Dus als ze dit "smeken" niet zouden doen, dan zijn ze volgend jaar failliet.
Dat geld gaat alleen vrijwel niet niet naar het onderhoud van Wikipedia, wat je dus wel denkt bij de donatiemomenten. Zie een paar van de handige linkjes in de reacties zoals deze video: YouTube: Wikipedia Donations Exposed. The Truth.
Niet geheel onbelangrijk zijn de volgende zaken uit hetzelfde rapport:
  • Salaries and benefits: 106,793,960
  • Net assets at beginning of year: 254,971,337
  • Net assets at end of year: 271,555,390
Dit betekent dus dat ze daadwerkelijk reserves opbouwen, maar ook dat een groot deel van hun uitgaven "puur" salaris is. Tuurlijk, de mensen in de stichting moeten ook gewoon kunnen leven, maar de vraag is natuurlijk hoeveel bijvoorbeeld de mensen aan de top uitbetaald krijgen. Als je alleen de bedragen voor die mensen optelt, puur kijkend naar het salaris van 2023:
  • Maryana Iskander (ED/CEO): 472629
  • Amanda Keton (GC+Sec): 383048
  • Stephen LaPorte (GC+Sec): 333919
  • Rebecca MacKinnon (VPGA): 290118
  • Jaime Villagomez (CFO): 391202
  • Selena Deckelmann (CPTO): 437941
  • Margaret Novotny (SDD): 354778
  • Denny Vrandečić (HSP): 327588
  • Joshua Minor (PM): 301320
  • Tajh Taylor (VPE): 313033
  • Lisa Seitz-Gruwell (CRO/CAO): 387568
  • Totaal: 3993144
4 miljoen van in totaal meer dan 100 miljoen aan salaris is natuurlijk niet veel, dus lijkt er wel op dat ook dat bedrag niet te gortig is.
Heb je een bron/basis voor je statement dat Wikipedia zwemt in het geld?
Mooi, maar AI parasiteert nu lekker op het werk van Wikipedia. Ze scrapen hun data en gebruiken het voor zichzelf, ze worden er zelf beter van zonder er iets voor terug te doen. Diezelfde bedrijven zijn dan wél weer in staat om hun eigen infrastructuur (datacenters vol mega dure high-end chips) en stroomkosten te betalen. Je hoeft echt geen medelijden met ze te hebben en voor wat hoort wat.
En Wikepedia gebruikt ook weer de kennis van mensen die meestal niet betaald worden....

Het hele idee van copyright is bedacht om te zorgen dat het resultaat van inspanning die makkelijk over te nemen is, niet zomaar mag worden overgenomen om er vervolgens weer geld mee te verdienen.
Het mocht wel telkens weer gebruikt worden door een individu zonder daarvoor eerst weer te betalen (zo leren mensen uit boeken).
Wiki verdiend niet direct aan de content aangeleverd door vrijwilligers - dus dat zit wel goed. (Al heb ik wel bedenkingen gezien de hoogte van de salarissen...).

De AI doet dit eigenlijk ook; gebruikt gegevens zonder daaraan te verdienen [de kennis wordt niet door de AI doorverkocht] - dus de AI doet niets fout; echter de bedrijven die de AI bezitten weer wel.

Medelijden is idd absoluut onnodig; ze dienen Wikipedia te betalen voor het gebruik van die data.
Ongeacht hoeveel geld ze hebben en wat ze ermee doen biedt de betaalde API wel een mooie kans om eindelijk die sloeberige banners helemaal uit te zetten.

AI chatbots zijn misschien niet meer te stoppen, maar dat betekent niet dat de bedrijven erachter niet hun steentje bij kunnen dragen. Ze verdienen immers ook zelf genoeg met all die abonnementen.
En een groot deel gaat niet eens naar het onderhouden van Wikipedia, maar naar andere niet relevante zaken.
Geef het nog een paar maanden en 90% van die AI bedrijven imploderen (samen met de wereld economie, maar dat terzijde). Daarna hopelijk eindelijk iets van regulatie om deze idioterie aan banden te leggen.
Ha, ha…

En waar is dat op gebaseerd?
Op het feit dat er letterlijk biljoenen worden rondgesmeten op basis van dromen en luchtkastelen. OpenAI wil 1.6 biljoen investeren in AI infra. Hoe dan? Van wie dan? Hoe ga je dat ooit terugverdienen? Hun huidige jaaromzet is 'maar' 2,5 miljard en daar komt niet eens winst uit. Er liggen orders bij Nvidia die ze niet kunnen vervullen. Er liggen prognoses gebaseerd op datacentra die helemaal niet bestaan. Er worden datacentra gepland waar helemaal geen electriciteit of chips voor zijn.

En van de week klopte ze vrolijk aan bij de overheid met de vraag of ze een deel ervan wilde subsidiëren als het toch allemaal niet zo geweldig zou uitpakken 8)7

Je moet echt wel heel diep in de coolaid zitten als je niet ziet hoe niet houdbaar deze situatie is.
Heeft ChatGPT ook een bron gegeven?
Ik zeg niet dat het niet waar is, maar met deze getallen op zich heb ik geen idee of het betrouwbare informatie is.
Ergens vind ik het heel grappig om ChatGPT als bron aan te voeren, maar goed :9
En doe het nu eens voor Wikipedia, Wikimedia doet wel iets meer dan alleen Wikipedia.


Om te kunnen reageren moet je ingelogd zijn