OpenAI gaat The Guardian betalen voor gebruik van artikelen in ChatGPT

Het moederbedrijf van de Britse krant The Guardian gaat een overeenkomst aan met OpenAI. De maker van ChatGPT betaalt de Guardian Media Group voor het gebruik van artikelen om AI-modellen te trainen en om aan bronvermelding door middel van onder meer snippets te doen.

De Guardian Media Group, uitgever van The Guardian, zegt dat het een 'strategisch partnerschap' is aangegaan met OpenAI, de maker van ChatGPT. De bedrijven zeggen niet hoeveel geld er met de deal gemoeid is.

Onder de deal betaalt OpenAI een niet nader genoemd bedrag voor het gebruiken van de content van The Guardian voor het trainen van AI-modellen. Ook gaat ChatGPT bronvermelding doen en verwijzen naar The Guardian-artikelen als informatie daarvandaan komt. Dat gebeurt met behulp van korte samenvattingen en zogenaamde snippets, al zeggen de bedrijven niet hoe dat eruit komt te zien. De redactie en ontwikkelaars van The Guardian kunnen bovendien in de toekomst gebruikmaken van ChatGPT Enterprise.

The Guardian is een van de grootste media die tot nu toe een deal weten te sluiten met OpenAI. AI-bedrijven liggen veel onder vuur door onder meer uitgevers, omdat auteursrechtelijke content daarvan vaak gebruikt wordt voor het trainen van het model en omdat die informatie gratis weer wordt weggegeven aan gebruikers. Daarom proberen media afspraken te maken en betaald te krijgen door de AI-bedrijven voor het gebruik van artikelen en teksten.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Tijs Hofmans

Nieuwscoördinator

Feedback • 14-02-2025 17:13 22

14-02-2025 • 17:13

Lees meer

OpenAI en Google vragen regering VS om copyright niet te laten gelden voor AI Nieuws van 15 maart 2025

ChatGPT kan op macOS code kopiëren naar Xcode en VS Code Nieuws van 7 maart 2025

Rechter wijst verzoek van Elon Musk af om OpenAI tijdelijk non-profit te houden Nieuws van 5 maart 2025

OpenAI brengt taalmodel GPT-4.5 uit dat anders is getraind Nieuws van 28 februari 2025

'New York Times-journalisten gaan AI gebruiken voor sociale media en titels' Nieuws van 17 februari 2025

OpenAI verwerpt miljardenbod van consortium rond Elon Musk Nieuws van 15 februari 2025

Auteurs: Meta-ceo keurde het gebruik van LibGen-dataset om AI te trainen goed Nieuws van 14 januari 2025

Canadese uitgevers klagen OpenAI aan voor schenden van auteursrecht Nieuws van 30 november 2024

EU-toezichthouder 'verbaasd' dat X Grok traint op gebruikersdata en doet navraag Nieuws van 27 juli 2024

Britse kranten uiten zorgen over Apples komende AI-privacytool Web Eraser Nieuws van 13 mei 2024

Meer producten en artikelen

Politiek en recht ChatGPT Online media OpenAI

IT-banen

Meer vacatures

Reacties (22)

-Moderatie-faq

Wijzig sortering

wildhagen

Politiek en recht

14 februari 2025 17:17

En terecht, imho hoort het ook zo. Leuk dat je je model wil trainen, maar dan moet je er wel voor zorgen dat de oorspronkelijke auteur van in dit geval de Guardian wel netjes vergoed wordt.

De Guardian stopt immers geld in het maken van het bericht, en dan zou je daar als (in dit geval) OpenAI gratis op meeliften. Dat lijkt me niet helemaal netjes.

Als men een licentie neemt lijkt me dat voor beide partijen wel zo gunstig: OpenAI kan hun model verbeteren, en Guardian ziet een stukje van hun investering terug. Win-win dus.

sdziscool @wildhagen • 14 februari 2025 17:57

Dat er betaald moet worden voor copyright sure,
Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk.
Vind het een beetje vergaan dat al deze media conglomeraten (want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business) zoveel blijven vragen en zoveel mogelijk de moderne wereld in de weg zitten, zo ook toen ze miljoenen van Google en meta begonnen te eisen omdat hun nieuws "gebruikt" werd terwijl dat ze alleen maar in de hand speelde.

Voor mij is dit van the Guardian weer een poging om toch nog wat geld eruit te persen terwijl ze langzaam verdrinken, en van OpenAI een soort van copyright washing waarbij ze nu net kunnen doen alsof ze legitieme data gebruiken terwijl > 99.9999% geen cent zal zien voor het gebruik van hun data.

Mijn vraag is legitiem wat copyright voor LLMs nou redelijkerwijs zou moeten kosten, want ikzelf zie echt geen wereld waarbij copyright houders betaald krijgen wat ze denken dat hun data waard is en AI trainen minder dan honderden miljarden kost.

Auteur

TijsZonderH Nieuwscoördinator @sdziscool • 14 februari 2025 19:19

want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business

Echt waar, ik zou zo graag verdienen wat mensen die niks van journalistiek weten denken dat journalisten verdienen...

sdziscool @TijsZonderH • 14 februari 2025 23:58

Haha zo bedoelde ik het niet, gemiddelde journalist verdient niet heel goed, wordt ook vaak verkocht als een "passie beroep" waar men het meer doet voor de journalistiek zelf dan voor het geld. Jammergenoeg wordt er alsnog veel geld verdient en invloed uitgeoefend door eigenaren van media conglomeraten. Het media conglomeraat hoeft op zichzelf niet eens geld te verdienen, zolang ze maar publieke opinie kunnen sturen dan heb je al snel heel veel soft power in de pocket.

Natuurlijk geen complot niveau dingen, maar wel duidelijk dat bijvoorbeeld Jeff Bezos de Washington Post niet bezit omdat hij zon grote voorstander is van journalistiek, laat staan dat het goed verdient, of de Murdochs die alle republikeinse en adjacent media outlets bezitten, of Elon Musk die heel twitter koopt.

Journalistiek zou in mijn opinie non-profit moeten zijn.

redzebrax @sdziscool • 15 februari 2025 01:11

tja je hebt compleet gelijk, ik erger me er helaas ook aan (ik hou me eraan om alles te doorlezen, alle media , ik vind, je kan maar een opinie vormen als je alle achtergronden kent, ook degene die jezelf soms verafschuwt ), maar even Brexit in gedachte, het is van alle tijden en heel erg hoe sommige media wordt gestuurd. Echter non profit ben ik het niet mee eens, een gesubsidieerde of bevoorrechte redactie lijkt me nu ook niet zo onafhankelijk (bv Rusland en misschien nu USA) , maar nu gaan we heel ver weg van het oorspronkelijk topic, dat er eigenlijk geen enkel model betaalt voor de gewonnen data, tenzij je groot genoeg bent om hun er tot verantwoording te roepen.

[Reactie gewijzigd door redzebrax op 15 februari 2025 01:35]

DjCoke @TijsZonderH • 14 februari 2025 20:06

Met alle respect voor dit medium, maar jezelf vergelijken met journalisten van de Guardian is toch wel een heel andere koek.

Ik wil niet weten hoe groot die redactie wel niet is waarmee je jezelf nu mee vergelijkt. Bovendien zijn de media-bedrijven van de poster het over had gigantisch en zijn wel degelijk big business.

Auteur

TijsZonderH Nieuwscoördinator @DjCoke • 14 februari 2025 20:09

Zeker, het zijn enorme bedrijven, maar je wordt echt niet rijk van journalistiek, is wat ik maar wil zeggen. Ik vind de manier waarop sommige mensen heel neerbuigend doen over dat uitgevers commerciële bedrijven zijn zo raar, alsof die bedrijven miljoenen binnenharken en sigaren rokend in een Armani-pak aan de Zuidas zitten of zo.

Bux666 @TijsZonderH • 14 februari 2025 22:22

[...] alsof die bedrijven miljoenen binnenharken [...]

Maak daar maar miljarden van in het geval van Rupert Murdoch.

DjCoke @TijsZonderH • 15 februari 2025 13:35

Nee dat is wel wat genuanceerder inderdaad. Helemaal voor het Nederlands publiek lijkt me dat het geval.

Roxo @TijsZonderH • 14 februari 2025 22:46

(Verwijderd)

[Reactie gewijzigd door Roxo op 14 februari 2025 22:48]

MatthijsZ @sdziscool • 14 februari 2025 18:25

Ik denk dat je een beetje een scheef beeld hebt van “de macht van de mediabedrijven” in vergelijking tot tech.

OpenAI wordt geschat op een waarde van 160 miljard dollar, heeft 4 miljard omzet, en bijna 4000 medewerkers

De Guardian Media Group wordt geschat op 1,3 miljard dollar, omzet van 300 miljoen, en heeft zo’n 1500 medewerkers.

DjCoke @MatthijsZ • 14 februari 2025 20:06

Dan is dat toch big business 1,3 miljard?

MatthijsZ @DjCoke • 14 februari 2025 22:28

Big business, ja. Maar ik schreef “in vergelijking tot tech”.

Afhankelijk van hoe je meet is het toch 10-100x verschil. David-Goliath

fruitbakje

@sdziscool • 14 februari 2025 18:31

Dat er betaald moet worden voor copyright sure,
Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk.

Hoe kan je dat nou zeggen als je niet weet hoeveel ze daadwerkelijk krijgen. Of heb je inside knowledge?

Vind het een beetje vergaan dat al deze media conglomeraten (want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business) zoveel blijven vragen en zoveel mogelijk de moderne wereld in de weg zitten, zo ook toen ze miljoenen van Google en meta begonnen te eisen omdat hun nieuws "gebruikt" werd terwijl dat ze alleen maar in de hand speelde.

Ze dwingen niemand toch om te betalen? Je hoeft hun product toch niet te gebruiken? Hoe zitten ze de moderne wereld, of jou bijvoorbeeld in de weg? Als hier de media-conglomeraten te veel vragen van de grote AI-reuzen (die natuurlijk op hun beurt nog véél groter zijn dan die media, haha) voor hun product, dan kunnen die AI-reuzen toch prima hun eigen nieuws-content proberen te maken om hun modellen mee te trainen? Daar zitten die media-conglomeraten de moderne wereld toch niet mee in de weg?
Of vind je dat de media-conglomeraten gewoon gratis horen te werken?

Voor mij is dit van the Guardian weer een poging om toch nog wat geld eruit te persen terwijl ze langzaam verdrinken

Nou ja prima toch, laat ze lekker. Heb jij er last van?
Als die AI-reuzen er niet zo onder de indruk van waren geweest, hadden ze natuurlijk niet betaald.

en van OpenAI een soort van copyright washing waarbij ze nu net kunnen doen alsof ze legitieme data gebruiken terwijl > 99.9999% geen cent zal zien voor het gebruik van hun data.

Ja misschien wel. Dit is een heel ander onderwerp natuurlijk opeens. Al schept deze overeenkomst tussen ChatGPT en the Guardian misschien wel een precedent en zullen er steeds meer trainingsdata-makers betaald krijgen voor hun werk in de toekomst.

Mijn vraag is legitiem wat copyright voor LLMs nou redelijkerwijs zou moeten kosten

Iets wat jouw werk niet is geloof ik haha. Of als je dat hier in de commentsectie van Tweakers voor je werkgever probeert te achterhalen, dan gaat er ergens iets fout denk ik.
Ik zou die vraag vooral aan de daadwerkelijk belanghebbenden overlaten (the Guardian en ChatGPT in dit geval).

want ikzelf zie echt geen wereld waarbij copyright houders betaald krijgen wat ze denken dat hun data waard is en AI trainen minder dan honderden miljarden kost.

Oké? Niet per se jouw probleem denk ik?

Juist voor de toekomst is dit heel belangrijk. Die media-conglomeraten zoals jij ze noemt zijn hele grote bronnen van nieuwe informatie (daarom heet het ook 'nieuws'). Elke dag weer. Elke AI die wordt bevraagt over een nieuwtje in de wereld, is voor een heel groot deel afhankelijk van die media-conglomeraten. Waar halen ze anders hun info vandaan?
Ik denk dat ChatGPT het daarom ook helemaal niet erg vindt om iets te betalen aan the Guardian. Zonder het product van media-conglomeraten kan zo'n AI immers nauwelijks een interessant of accuraat antwoord geven op vragen over wat er nu in de wereld gebeurt. ChatGPT zou dan simpelweg minder waard worden.

redzebrax @sdziscool • 14 februari 2025 23:21

"Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk."
Inderdaad ook in mijn opinie ook onredelijk, maar niet omwille van jouw redenering, OpenAi gaat blijkbaar heel gemakkelijk met de Guardian mee omdat die terecht wijst op de datadiefstal door OpenAi, op deze manier ontlopen ze processen die een voorbeeld zouden kunnen zijn voor kleinere spelers, laten we wel wezen voorlopig heeft OpenAi en in uitbreiding alle andere modellen bijna nada betaald aan gerechtigden.

Als enthousiaste luisteraar van de tweakers podcast hier, wil ik deze ook meegeven "https://www.standaard.be/plus/tag/podcast-bits-atomen" Naast de walvissen zitten er toch rond ai en wat nu gebeurt een paar terechte bedenkingen over de laatste top.

[Reactie gewijzigd door redzebrax op 14 februari 2025 23:50]

Maupertus @sdziscool • 15 februari 2025 20:56

Ongeacht het motief is deze argumentatie wel heel kort door de bocht. Google en Facebook zijn onder andere groot geworden door verzorgen van snippets of newsfeeds waardoor mensen "snel geinformeerd konden worden" maar belangrijker, in de webomgeving van deze giganten bleven. Er is voldoende onderzoek geweest dat duidelijk maakt dat ze daarvoor domweg de koppen en samenvattingen van nieuws-websites hebben ge-scraped, en daar amper een vergoeding voor hebben gegeven.

Nieuws is niet gratis, goede verslaggeving is mensenwerk en ontzettend kostbaar. Helaas zijn veel mensen dat vergeten door de gratis informatie die op ze afkomt die ze klakkeloos tot zich nemen zonder er over na te denken of het correct is, of waar het vandaan komt. Grote tech bedrijven hebben een enorm aandeel gehad in die ontwikkeling.

Het argument is altijd geweest: Ja maar je hebt het gepubliceerd, en je wilt toch gevonden worden? Doe nou niet zo moeilijk en werk met Google/FB en dan zul je zien dat je traffic omhoog gaat. Dat was in de eerste jaren ook wel zo, maar zo gauw als het kon, werd het nieuws binnen die sites vertoond en kwam niemand meer op de pagina's van de media die het werk daadwerkelijk hadden gedaan.

Hetzelfde geldt voor LLM's. OpenAI doet geen reet aan kennisverwerving, nieuwsvergaring of wetenschap. Het enige dat het doet, is grote bakken data in hun database stoppen zodat het algoritme er iets van kan brouwen. Het is ronduit gênant dat dit klakkeloos kan en mag, zonder dat er zelfs ook maar een verwijzing naar originele bronnen wordt gegeven, laat staan dat de mensen die het werk hebben verricht betaald worden op basis van de auteursrechten die ze daarmee beschermen.

Ik ben voor helemaal voor een wereld waar informatie vrij is, maar ik ben ook voor een wereld waar een journalist zijn brood kan verdienen met het werk dat zij/hij doet (en dat ze dat het liefst kunnen doen zonder aan de tiet van reclame belangen te moeten hangen). Of ik nu zo broodnodig een LLM nodig heb, dat is me tot nu toe nog niet heel overtuigend duidelijk gemaakt.

blinchik @wildhagen • 14 februari 2025 22:38

Is dat zo? The Guardian biedt sommige stukken gratis aan, en andere betalend. Dus enkel de gratis, publiekelijk aangeboden artikels worden gebruikt om het model te trainen.

Geen idee hoe het juridisch zit en of er ergens anders een disclaimer bestaat, maar als je welbewust enkele of een stuk van je artikels bewust publiek zet, lijkt het me raar dat men kan klagen dat men die artikels leest of gebruikt.

SelmarSmit @blinchik • 15 februari 2025 06:10

Dat klinkt als het argument uit de jaren 2000 dat je elk plaatje dat je op internet tegenkomt gewoon ook mag gebruiken in je zakelijke presentaties

Utrecht25 @SelmarSmit • 15 februari 2025 20:52

Deze vergelijking gaat mank:

Een plaatje kopieeren schendt duidelijk copyright

Er is nog geen wet of rechtelijke uitspraak (op nivo van bv hoge raad), die zegt dat een AI model trainen op data copyright schendt.

Mocht een rechter of wetgever dit wel besluiten dan is het waarschijnlijk einde oefening voor alle LLM's, die hebben zoveel tekst nodig dat een paar uitgever deals ze niet gaan helpen. Wel een leuke marktkans voor Rusland/China dan, aangezien die copyright niet zo serieus nemen. Ik gok dat de AI bedrijven gelijk gaan krijgen.

matthieucalu @blinchik • 17 februari 2025 15:57

The Guardian biedt ALLE artikelen gratis aan, wat hen onderscheidt van andere media. Ze geloven – terecht – dat iedereen recht heeft op kwaliteitsjournalistiek.

Je kunt er wel voor kiezen om een abonnement te nemen en hen financieel te steunen. Het idee hierachter is dat wie het kan betalen, bijdraagt voor degenen die dat niet kunnen. Hun model is gebaseerd op vrijwillige bijdragen via crowdfunding. In ruil daarvoor krijg je slechts een paar voordelen: geen pop-ups met de vraag om te steunen (die je anders wel kunt wegklikken), de voldoening dat je onafhankelijke journalistiek ondersteunt, en een wekelijkse exclusieve nieuwsbrief.

Ik ben zelf een grote fan van dit model, omdat het goede journalistiek toegankelijk maakt voor iedereen. Bovendien kun je artikelen vrij delen zonder paywall-beperkingen.

Natuurlijk kun je ook de papieren krant kopen, die wel betalend is.

jannesbeterams @wildhagen • 14 februari 2025 18:19

Win-win voor de grote jongens. Die worden hiermee nog groter of zijn tenminste zeker van hun gebied. Net zoals zoveel van dit soort bewegingen en initiatieven. Persoonlijk heb ik hier niet zoveel mee merk ik, net als heel veel van dit soort gebeurtenissen.

Pak bijvoorbeeld de Google Shopping ingreep die beslist en de andere monopolisten bovenaan in Google zette. Gevolg was dat je als webshop eigenaar duurder uit werd. Of het verplicht toelaten van paywall artikelen in Google Discover, andere categorie maar wel voor de publishers, dat heeft Discover aardig vervuild.

Boost9898 14 februari 2025 19:28

Als de data openbaar was op het moment van trainen hebben ze nergens over te zeuren imo.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (22)

Sorteer op:

Weergave: