Encyclopædia Britannica klaagt OpenAI aan vanwege het 'stelen' van content

Encyclopædia Britannica en dochterbedrijf Merriam-Webster klagen OpenAI aan. Ze stellen dat ChatGPT content van de encyclopedie en het woordenboek steelt en verkeer naar hun websites kaapt. Ze eisen dat OpenAI daarmee stopt en een schadevergoeding betaalt.

ChatGPT lift gratis mee op de 'vertrouwde, hoogwaardige content' van Encyclopædia Britannica en Merriam-Webster en kaapt het verkeer naar de eigen sites van de encyclopedie en het woordenboek, stelt Encyclopædia Britannica. Het bedrijf ziet een belangrijk verschil met zoekmachines, die alleen doorlinken naar externe websites en daardoor kliks genereren voor die websites.

ChatGPT doet dit niet, omdat gebruikers het antwoord direct in de chatbot lezen. OpenAI zou zonder toestemming of betaling op grote schaal content kopiëren van de aanklagers en van andere sites om het model te trainen en de kennisbank te vergroten. Encyclopædia Britannica hekelt ook hallucinaties en halve antwoorden, waarbij de chatbot verwijst naar de encyclopedie of het woordenboek als bron. Daardoor kan het lijken alsof de hallucinaties of halve antwoorden van die bronnen komen, terwijl ze van ChatGPT komen.

Het is niet duidelijk hoeveel schadevergoeding Encyclopædia Britannica van OpenAI eist. Het is zeker niet voor het eerst dat een bedrijf een chatbotmaker aanklaagt voor het gebruiken van content. Ook is dit een belangrijk vraagstuk rondom AI dat nog niet is opgelost. Chatbots worden immers getraind op content van derden en nemen verkeer af van die websites. Die websites missen daardoor inkomsten en lopen het risico te verdwijnen.

Maar als die websites zijn verdwenen, krijgt de chatbot uiteraard geen nieuwe content meer van die bron. Het is dan ook in het belang van chatbotmakers dat externe websites een vergoeding krijgen, al willen bedrijven als OpenAI hiervoor natuurlijk ook niet te veel betalen. OpenAI zegt tegen Reuters dat zijn modellen 'innovatie versterken, getraind zijn op publiek beschikbare data en gegrond zijn in fair use'.

OpenAI geld financiën verlies fpa

Door Hayte Hugo

Redacteur

17-03-2026 • 08:24

64

Submitter: Tribits

Reacties (64)

Sorteer op:

Weergave:

Als ik britannica.com/robots.txt bekijk, is die al redelijk uitgebreid, ze kunnen heel eenvoudig een regel toevoegen:

User-agent: OpenAI-User
Disallow:/


Om te voorkomen dat OpenAI überhaupt op hun website komt.
In theorie wel, maar er zijn helaas ook scrapers die de Robots.txt niet honoreren en gewoon de site alsnog scrapen.

Direct of via omwegen, zoals Perplexity dat doet/deed, zie https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives

Zie bijvoorbeeld ook https://www.reddit.com/r/technews/comments/1dljqo0/several_ai_companies_said_to_be_ignoring_robots/

Geen idee of OpenAI de Robots.txt wel honoreert, maar die file is absoluut geen garantie dat je site niet wordt gescraped.
Sterker nog, bij mijn werkgever (enorm drukke website) heb ik ooit een ongelinkte random string als directory opgenomen in de disallow robots.txt en wat wij zagen is dat vooral Russische bots massaal die directory gingen openen. De enige manier om te weten dat die map bestaat is in de robots.txt. Overigens waren het niet alleen Russische bots, maar wel het grootste gedeelte.
Bor Coördinator Frontpage Admins / FP Powermod @jp17 maart 2026 09:22
Robots.txt is niet meer dan een vriendelijk verzoek. Het staat je in principe vrij de inhoud hiervan te negeren en dat gebeurt dan ook met regelmaat door diverse partijen.
Natuurlijk kan het genegeerd worden, maar op het moment dat je een robots.txt hebt die duidelijk maakt dat je het niet wilt, heb je (mijns inziens) meer een punt om later te gaan klagen, dan als je geen beperkingen hebt aangegeven.
Is dat niet hetzelfde als zeggen dat iemand spullen uit mijn huis mag meenemen als ik de deur niet op slot doe? Lijkt mij de omgekeerde wereld.
Ja, precies. Ik denk niet dat het scenario “persoon X nam uw spullen mee, omdat uw deur niet op slot zat, maar u had eerst moeten aangeven dat persoon X niet naar binnen mocht” niet door de giecheltoets gaat komen.
Giecheltoets kende ik niet maar ik ga hem wel onthouden!
Stukje fatsoen, natuurlijk hebben computers geen fatsoen, want dat soort intelligentie hebben ze niet. Als ze dat wel hadden was dit nooit gebeurd. Jouw voorbeeld kan ik ook omdraaien, omdat jij een Ajax fan bent sla ik je inelkaar. Dan had je geen Ajax fan moeten zijn. Stukje fatsoen en respect voor elkaar is al moeilijk tegenwoordig. Maar we haten allemaal de Duitsers.
Die computers hebben een opdracht gekregen. Wat ze doen is bepaald door mensen. Daar doel ik op. Het beleid van die mensen is pakken wat je pakken kan en als iemand klaagt zien we het dan wel.
Nee, is niet hetzelfde. Per slot van rekening is jouw huis niet iets dat je aan het grote publiek open stelt zoals je bij een website wel doet. Als je een website op het web hangt moet je er niet vreemd van opkijken als die bezocht wordt imo.
"You may not use data mining, robots, screen scraping, or similar data gathering and extraction tools on the Services, such as artificial intelligence ("AI") for purposes of developing or training AI or conducting computer analysis, except with our express written consent."

Staat in hun terms of use. Dat gaat meer tanden hebben dan een robots.txt file. Geen idee wanneer het er in kwam.
Dat is een leuke opinie. Geen contract. En opinies tellen niet in een rechtzaak. Voor een contract heb je instemming nodig van twee rechtspersonen.

Het is een ander verhaal voor content die achter een login zit. Om een account te maken is er wel die overeenstemming over voorwaarden.
"Terms of use" -> maw, je mag de dienst niet gebruiken tenzij je akkoord gaat. Dit is in weze een contract, en afdwingbaar.
Een eenzijdig beding op publiekelijk beschikbare data is natuurlijk niet zo juridisch sterk. Ik denk dat niemand bij OpenAI die voorwaarden heeft geaccepteerd, en desondanks heeft Brittania toch hun data beschikbaar gemaakt voor OpenAI. OpenAI had zelfs niet kunnen weten dat het niet mocht, want de tools die wel beschikbaar zijn, zoals robots.txt, werd niet gebruikt.

Om nog maar eens een metafoor te gebruiken: ik zet mijn huis op Funda met de titel 'open huis', ga bij de voordeur staan om iedereen een sleutel te geven, om vervolgens te klagen dat het niet de bedoeling is dat er iemand naar binnen loopt, omdat dat in de kleine lettertjes staat op het briefje in mijn nachtkastje.

Een ander verhaal is het natuurlijk als ik met een contract bij de voordeur ga staan, en je pas binnenlaat als je tekent. Oftewel, pas jou mijn content geef als je de voorwaarden accepteert.
Dit is een beetje het idee van een kogelwerend vest aan doen nadat je beschoten bent. Je website is al in z'n geheel beschikbaar in de systemen van de LLM scraper en 9 van de 10 scrapers kan die robots.txt niks schelen helaas.
Niet helemaal waar. Elke nieuwe versie moet opnieuw getraind worden. Het is elke versie een keuze om op die data te trainen. Ze zouden dan elke keer opnieuw moeten checken of het gescraped mag worden. Zelds al is het al gescraped.
Ik zie het meer als diefstal, dat constateer je ook meestal pas achter af. Ze hebben data gebruikt zonder toestemming en tegen de voorwaarden in. En uitspraak kan zijn dat ze data er uit moeten halen. Hoe ze dat doen is probleem van OpenAI. Van mij part moeten ze hun LLM modellen geheel opnieuw trainen. Zou goed zijn dat er hier duidelijk regels overkomen en dat er opt-out mogelijkheden komen voor websites om te worden gescrapt voor dit soort doeleinden.
Hoe zie je dat juridisch voor je? Op wat voor soort wet baseer je dat? Voorziet die wet in die remedie?

Doorgaans is het enige wat je kunt eisen een schadevergoeding. Op afstand op de tweede plek komt nakoming van een (ondertekend) contract. Al het andere is extreem zeldzaam.
Hoewel je gelijk hebt, dat het kan, is dit natuurlijk de omgekeerde wereld. Het zou juist OpenAI moeten zijn die toestemming vraagt om überhaupt de gegevens te mogen inkijken. Zeker omdat ze de data kopiëren, en dat expliciet verboden is.
En waar komt de kennis van Britannica zelf vandaan? Dat hebben ze ook niet zelf bedacht maar overal vandaan geschraapt.
Ja bijeengeschraapt uit content waarvoor betaald is.
Of er voor betaald is weet ik niet, wel dat het een heel moeilijk proces is om alle gegevens bij elkaar te zoeken, je moet heel veel bronnen raadplegen. Voor die handelingen en het up-to-date houden van alle informatie laten ze zich betalen.

Dit in tegenstelling tot AI die een paar bots op pad stuurt om alle informatie (die anderen moeizaam bijeen gezocht of gegenereerd hebben) te scrapen zonder vergoeding.
Wat je dus eigenlijk zegt is dat de AI het proces wat Encyclopedia Britannica met de hand uitvoert heeft geautomatiseerd, en dat het daarom fout is? Ik zie de uitdagingen en problemen omtrent AI ook wel, maar in feite hebben we het nu over twee verzamelaars van andermans informatie die dit vervolgens herschrijven en aanbieden (al dan niet tegen betaling). Of doet EB ook echt eigen onderzoek?

Nogmaals, ik begrijp ook wel dat het niet helemaal hetzelfde is, en dat sommige dingen die we wel willen/nodig hebben op deze manier geen stand kunnen houden, maar veel van de argumentatie tegen AI laat in dit geval wat te wensen over. Ook het argument dat er voor alle kennis maar zou moeten worden betaald (en dan het liefst flink meer dan wat een consument zou betalen) vind ik uiterst zwak. Het gaat er enkel toe leiden dat alleen de grote rijke techbedrijven of de landen waar men niets om copyright geeft een AI kunnen trainen.
Interessant filosofisch vraagstuk. We vergelijken twee systemen
  • Systeem A (een groep mensen) verzamelt informatie uit diverse bronnen, voegt dat samen, en gebruikt die informatie om een nieuw artikel over het onderwerp te schrijven. Met gerichte bronvermelding, maar niet altijd.
  • Systeem B (een computersysteem) verzamelt informatie uit diverse bronnen, voegt dat samen, en gebruikt die informatie om een artikel over het onderwerp te genereren. Zonder gerichte bronvermelding (wel referenties)
Ik zie vaker reacties waarin mensen het menselijke aspect aanhalen. Ik vraag me af in hoeverre het voor de juridische kant van de zaak relevant is dat een encyclopedie een systeem van mensen is, en dat AI een systeem van computers is (even simpel gezegd)
Je moet Systeem A eigenlijk herschrijven als
Systeem A (een groep betaalde mensen) verzamelt informatie uit diverse legale, gevalideerde en betaalde bronnen, voegt dat samen, en gebruikt die informatie om een nieuw artikel over het onderwerp te schrijven. Met gerichte bronvermelding, maar niet altijd.
Ik denk dat Britannica geen rechtszaak zou aanspannen als OpenAI voor de data betaald (had) en doorverwijst naar de Britannica site linkt.

edit typo

[Reactie gewijzigd door Mars4i op 17 maart 2026 15:05]

Ik denk dat het juridisch niet relevant is dat systeem uit A betaalde mensen bestaat.
Het gaat er om of er sprake is van gerechtvaardigd gebruik. Dat hoeft niet automatisch te betekenen dat er voor betaald is, en betalen betekent niet automatisch dat het gerechtvaardigd is.

Daarom is het ook een interessante en belangrijke zaak.
Dat, en waar mogelijk geverifieerd. Wat ook heel veel geld kost.

Die data van hoge kwaliteit verdwijnt nu in de vergaarbak van de AI-industrie waar de kwantiteit zo groot is dat kwaliteit niet meer is te beoordelen
En zelf geschreven. Als jij een stuk code maakt zijn grote delen daarvan ook al eerder gedaan (for loops, while statements, lookups, etc) en niet door jou bedacht. Maar doordat jij het geheel aan elkaar plakt is het jouw code geworden. De auteurs van de Brittanica hebben beschikbare kennis en informatie samengevoegd tot artikele in de encyclopedie. Copyright dus van hun.
Dat doet de AI in feite ook natuurlijk. Het zou in principe niet direct hele stukken tekst over moeten nemen, en wanneer dit wel gebeurd is dit waarschijnlijk omdat het model "overtrained" is op die specifieke tekst.
AI herschrijft dezelfde informatie, dus niet echt.
Als je jouw thesis schrijft op dezelfde manier als AI dat doet zou dit als plagiaat tellen.
Da's niet hetzelfde als Britannica.
Is het wezenlijk anders dan een mens wat tekst A, B en C leest om tekst D te schrijven? Ergens betwijfel ik dat EB zelf proeven en metingen heeft gedaan.
Ik heb gewerkt voor een bedrijf dat reparatiegegevens verzamelde voor de universele garages. Wij hadden een uitgebreide bibliotheek en abonnementen op tientallen autotechnische tijdschriften uit vele landen. daarvoor werd betaald. Wilden we meer weten, dan kwamen onze persoonlijke contacten met monteurs indealergarages van pas. Dat is toch heel wat anders dan wat AI-training doet.
Ze hebben daar een grote redactie op zitten sinds 1768,
Feiten zijn niet beschermd. Basis concept in het auteursrecht. Alleen de manier van opschrijven is beschermd, en dat deden ze zelf.
Helaas zijn er talloze websites die grootschalig benadeeld worden door bedrijven zoals OpenAI, Alphabet (Google) en Microsoft. Eerder deze maand is RTINGS achter slot en grendel gegaan, o.a. vanwege het ongelimiteerde AI scraping, en nu moeten gebruikers een betaald abonnement afsluiten om productreviews te bekijken.

Behalve AI-reuzen aanklagen of je eigen business model omgooien, heb je weinig opties. Ik vind het jammer dat zoveel kwalitatieve websites en bronnen lijden onder AI.
Alle informatieve websites hebben hier last van. AI-antwoorden staan bijv. in Google ook al helemaal bovenaan. Op mijn website zie ik ook veel minder bezoekers dan voorheen, omdat het antwoord in Google al getoond wordt en dan hoeft men dus niet mijn website te bezoeken. Zelfs niet als deze op de eerste plek staat, onder het AI-antwoord. Natuurlijk is het niet zo zwart-wit en zoeken mensen ook anders of kijken ze meer video's dan voorheen, maar AI helpt hier zeker niet mee.
Enigszins sarcastisch zeg ik nu “lang leve seo!”
Eerst is iedereen overgehaald om aan te geven hoe je website zo efficiënt mogelijk leeg getrokken kan worden en nu is dat ook daadwerkelijk gebeurd.
Het enige dat je nu kunt doen is relevant blijven door nieuwe content te blijven maken en deze te beschermen als een moederkloek.
Zoals rtings het gedaan heeft, is wel heel erg met de botte bijl en naar mijn mening niet productief en ook niet efficiënt. Ze hebben er echter wel een duidelijk signaal mee af: dit is van ons en niet gratis.
Als de data openbaar toegankelijk is denk ik dat ze niet ver komen met een diefstal argument. Dit is gewoon weer de Google vs alle kranten zaken opnieuw.

Het argument dat als de encyclopedie niet kan blijven bestaan open ai geen data heeft is veel logischer. Maar dat is meer open ai zijn probleem en of ze die encyclopedie de moeite vinden.
Laten dit nou allemaal geen Nederlandse bedrijven zijn.... En ik kan weinig inhoud vinden in al dat legalees.

[Reactie gewijzigd door bzuidgeest op 17 maart 2026 12:19]

Laten dit nou allemaal geen Nederlandse bedrijven zijn....
Dat weet ik maar, ik kan me voorstellen dat andere landen ook zoiets hebben.
En ik kan weinig inhoud vinden in al dat legalees.
Nu snap ik dat juridische teksten (nodeloos) moeilijk zijn maar met een beetje lezen...
1. De producent van een databank heeft het uitsluitende recht om toestemming te verlenen voor de volgende handelingen:
  • a. het opvragen of hergebruiken van het geheel of een in kwalitatief of kwantitatief opzicht substantieel deel van de inhoud van de databank;
Dat soort wetgeving is van voor het internettijdperk denk ik. Hoe ga je dat afdwingen zonder authenticatie?
Dat soort wetgeving is van voor het internettijdperk denk ik.
Volgens mij 1999, maar ik mis relevantie.
Hoe ga je dat afdwingen zonder authenticatie?
Met de wet, techniek boeit voor de wet niet.
Techniek mag de wet niet boeien, maar als je wereldwijd elk bedrijf moet gaan aanschrijven/aanklagen heb je nog al een bende werk. En als je er twee aanpakt zijn er ergens anders 3 bijgekomen. En dan is het nog maar de vraag of het land waar het bedrijf zit een soortgelijke wet heeft.

Dat brengt ons meteen tot de relevantie van het jaartal. Sinds dat jaar is het internet nog al veranderd. Toen dachten ze wellicht nog dat het alleen binnen landsgrenzen relevant zou zijn. Dat is nu wel voorbij.

Dus die wet is leuk. En op zich heb je gelijk over de hoe, maar het voelt bij mij niet als een praktisch of realistisch doel.
Het is een europesche wet met nederlandse implemenatie in het auteursrecht, in principe vallen dus heel wat landen hieronder. Deze wet is juist bedoeld voor een digitaal tijdperk, precies voor dit doel. Je mag niet zomaar scrapen en dat is dus hier relevant.

Dat het internet een globaal ding is betekent niet dat we daarom maar nationaal stoppen met regels.
Nee, maar dit gaat om Amerikaanse bedrijven of Chinese bedrijven. Hoeveel voet denk je precies aan de grond te krijgen? Zelfs de Encyclopedie brittanica is een Amerikaans bedrijf. (ooit van UK, maar al lang niet meer en UK zit niet meer in de EU)
Zoals eerder gezegd:
Dat weet ik maar, ik kan me voorstellen dat andere landen ook zoiets hebben.
Tja, misschien is het een hallucinatie, maar:

Short answer: No — the United States does not have a direct equivalent to the Dutch Databankenwet or the EU Database Directive. The EU’s sui generis database right is unique; U.S. law protects databases only through traditional copyright, contract law, and limited unfair‑competition doctrines, not through a special database‑producer right.

Je voorstellingsvermogen is dus wellicht nog al misplaatst. Landen als de VS zijn heel anders dan de EU.,
Hangt denk ik af van de algemene voorwaarden/copyright? Ga je naar hun website https://www.britannica.com/ is er een Terms of Use: https://corporate.britannica.com/termsofuse.html2
Ik weet niet hoeveel waarde zo een terms of use heeft. Die kan je alleen afdwingen als je ook authenticatie hebt. En het is gewoon publiek geplaatste info. Alsof je een kist appels op de markt zet met een boordje gratis. Sommigen pakken er netjes 1 en sommigen pakken de hele kist. Beide doen niets strafbaars en tenzij je het gaat bewaken kan je er niets tegen doen.
Het hangt inderdaad af van auteursrecht. Voorwaarden zijn alleen relevant in situaties waarin auteursrecht iets verbiedt. De constructie is dan "je mag wél A mits B". Dat doet dus niets wanneer A sowieso al mocht.

AI was niet voorzien in de wet dus er is weinig verboden.
Ik wens ze veel succes toe, maar ik vrees dat OpenAI en consorten liever smeergeld betalen aan Trump en co om geen last te hebben van dat soort zaken.
Dit probleem speelt al sinds de introductie van chatgpt(2022).
Schijnbaar zijn er geen rechtzaken gewonnen tegen ai-scrapers? Want het gebeurt nog steeds.
Of hebben ze allemaal deals gesloten om betaald te krijgen.
En als je in de VS 24 mp3's deelt met kazaa dan ga je voor jaren de gevangenis in... Meta heeft ook Anna's Archive compleet leeg gelezen, dus een illegale bron gebruikt. Blijkbaar heb je in de VS als bedrijf dezelfde rechten voor de mens, maar zeker niet de plichten en is wetgeving niet van toepassing.
Als die mensen aan Trump doneren mogen ze ook alles en krijgen ze overal gratie voor.
Kazaa was P2P. De gevangenisstraf was voor de upload.

Ook het idee van "illegale bron" is een misverstand. Jij denkt aan Nederlands recht, specifiek jurisprudentie. (ACI Adam). Dat gaat ook nog eens over de thuiskopie regeling, een tweede reden dat het niet relevant is voor Meta.
Maar als die websites zijn verdwenen, krijgt de chatbot uiteraard geen nieuwe content meer van die bron. Het is dan ook in het belang van chatbotmakers dat externe websites een vergoeding krijgen, al willen bedrijven als OpenAI hiervoor natuurlijk ook niet te veel betalen.
Volgens mij denken ze al niet meer zo. Het grote geld heeft het overgenomen en de weg naar enshitificatie ingezet. Het gaat niet meer om je eigen product verbeteren maar om de grootste en liefst enige te worden.
Het maakt ze niet uit dat andere websites omvallen zolang ze hun content maar hebben binnengehaald voor iemand anders het doet. Als niemand meer weet wat waar is en goede bronteksten verdwijnen dan worden AIs alleen maar waardevoller. Enerzijds omdat alleen een computer nog door de bergen crap heen kan werken en anderzijds omdat we niet meer kunnen controleren of de antwoorden kloppen of gehallucineerd zijn.

Betalen voor informatie is op korte termijn misschien een goede oplossing maar niet op lange termijn. De bots lezen die informatie 1 keer in en onthouden "de samenvatting" (als ze het al niet integraal kopieren). Je kan alle informatie 1 keer verkopen en dan zal je nieuwe moeten "maken" en het wordt steeds moeilijker om nog ergens mee te komen dat zo'n bot nog niet weet.
Voor een bedrijf als OpenAI is het nog lastiger omdat ze moeten concurreren met de diepe zakken van de gevestigde techreuzen als MS, Google en Meta. Die kunnen dat haast oneindig volhouden en altijd meer betalen voor betere toegang tot bronnen.
OpenAI zegt tegen Reuters dat zijn modellen 'innovatie versterken'
De resultaten daarvan lijken enorm tegen te vallen.
Massive investment in AI contributed “basically zero” to U.S. economic growth last year, Goldman Sachs has calculated.
bron

Ongekend grote investeringen. Diefstal op ongekend grote schaal. En het levert onder de streep helemaal niets op. Waar zijn we dan mee bezig? Wat hadden we voor anderhalf triljoen kunnen doen wat wel meetbaar positief resultaat had opgeleverd "voor de mensheid"? Want daar is het al die AI boeren om te doen toch? De mensheid helpen enzo. Dat zeggen ze in ieder geval telkens weer als je ze hoort praten over de voordelen van AI. Lees maar na op de site van OpenAI. De eerste zin: "At OpenAI, we believe AI should help solve humanity’s hardest problems".

De hardest problems... Voor die anderhalf triljoen van de afgelopen 5 jaar hadden we iedereen die nu hongerlijdt kunnen voeden voor zo'n 300 jaar. Als je het in een potje stopt en rente trekt of investeert zou iedereen die tekort komt eten, drinken, onderdak, gezondheidszorg en scholing kunnen hebben. Voor altijd. Om maar iets te noemen.

Vooralsnog lijkt AI meer stuk te maken dan die hardest problems op te lossen. Geheel terecht dat OpenAI wordt aangeklaagd. Wel nemen maar niet geven. OpenAI voegt niets toe aan de kennis die Encyclopædia Britannica de mensheid biedt.
OpenAI voegt niets toe aan de kennis die Encyclopædia Britannica de mensheid biedt.
Klopt maar als we het hebben over de mensheid weten de meesten niet eens wat Britannica is en dat het nog bestaat.

Je zou zelfs kunnen zeggen dat de "AI" acties hun helpen mbt naams bekendheid.

Om te kunnen reageren moet je ingelogd zijn