OpenAI gaat The Guardian betalen voor gebruik van artikelen in ChatGPT

Het moederbedrijf van de Britse krant The Guardian gaat een overeenkomst aan met OpenAI. De maker van ChatGPT betaalt de Guardian Media Group voor het gebruik van artikelen om AI-modellen te trainen en om aan bronvermelding door middel van onder meer snippets te doen.

De Guardian Media Group, uitgever van The Guardian, zegt dat het een 'strategisch partnerschap' is aangegaan met OpenAI, de maker van ChatGPT. De bedrijven zeggen niet hoeveel geld er met de deal gemoeid is.

Onder de deal betaalt OpenAI een niet nader genoemd bedrag voor het gebruiken van de content van The Guardian voor het trainen van AI-modellen. Ook gaat ChatGPT bronvermelding doen en verwijzen naar The Guardian-artikelen als informatie daarvandaan komt. Dat gebeurt met behulp van korte samenvattingen en zogenaamde snippets, al zeggen de bedrijven niet hoe dat eruit komt te zien. De redactie en ontwikkelaars van The Guardian kunnen bovendien in de toekomst gebruikmaken van ChatGPT Enterprise.

The Guardian is een van de grootste media die tot nu toe een deal weten te sluiten met OpenAI. AI-bedrijven liggen veel onder vuur door onder meer uitgevers, omdat auteursrechtelijke content daarvan vaak gebruikt wordt voor het trainen van het model en omdat die informatie gratis weer wordt weggegeven aan gebruikers. Daarom proberen media afspraken te maken en betaald te krijgen door de AI-bedrijven voor het gebruik van artikelen en teksten.

Door Tijs Hofmans

Nieuwscoördinator

14-02-2025 • 17:13

22

Reacties (22)

22
22
12
0
0
3
Wijzig sortering
En terecht, imho hoort het ook zo. Leuk dat je je model wil trainen, maar dan moet je er wel voor zorgen dat de oorspronkelijke auteur van in dit geval de Guardian wel netjes vergoed wordt.

De Guardian stopt immers geld in het maken van het bericht, en dan zou je daar als (in dit geval) OpenAI gratis op meeliften. Dat lijkt me niet helemaal netjes.

Als men een licentie neemt lijkt me dat voor beide partijen wel zo gunstig: OpenAI kan hun model verbeteren, en Guardian ziet een stukje van hun investering terug. Win-win dus.
Dat er betaald moet worden voor copyright sure,
Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk.
Vind het een beetje vergaan dat al deze media conglomeraten (want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business) zoveel blijven vragen en zoveel mogelijk de moderne wereld in de weg zitten, zo ook toen ze miljoenen van Google en meta begonnen te eisen omdat hun nieuws "gebruikt" werd terwijl dat ze alleen maar in de hand speelde.

Voor mij is dit van the Guardian weer een poging om toch nog wat geld eruit te persen terwijl ze langzaam verdrinken, en van OpenAI een soort van copyright washing waarbij ze nu net kunnen doen alsof ze legitieme data gebruiken terwijl > 99.9999% geen cent zal zien voor het gebruik van hun data.

Mijn vraag is legitiem wat copyright voor LLMs nou redelijkerwijs zou moeten kosten, want ikzelf zie echt geen wereld waarbij copyright houders betaald krijgen wat ze denken dat hun data waard is en AI trainen minder dan honderden miljarden kost.
AuteurTijsZonderH Nieuwscoördinator @sdziscool14 februari 2025 19:19
want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business
Echt waar, ik zou zo graag verdienen wat mensen die niks van journalistiek weten denken dat journalisten verdienen...
Haha zo bedoelde ik het niet, gemiddelde journalist verdient niet heel goed, wordt ook vaak verkocht als een "passie beroep" waar men het meer doet voor de journalistiek zelf dan voor het geld. Jammergenoeg wordt er alsnog veel geld verdient en invloed uitgeoefend door eigenaren van media conglomeraten. Het media conglomeraat hoeft op zichzelf niet eens geld te verdienen, zolang ze maar publieke opinie kunnen sturen dan heb je al snel heel veel soft power in de pocket.

Natuurlijk geen complot niveau dingen, maar wel duidelijk dat bijvoorbeeld Jeff Bezos de Washington Post niet bezit omdat hij zon grote voorstander is van journalistiek, laat staan dat het goed verdient, of de Murdochs die alle republikeinse en adjacent media outlets bezitten, of Elon Musk die heel twitter koopt.

Journalistiek zou in mijn opinie non-profit moeten zijn.
tja je hebt compleet gelijk, ik erger me er helaas ook aan (ik hou me eraan om alles te doorlezen, alle media , ik vind, je kan maar een opinie vormen als je alle achtergronden kent, ook degene die jezelf soms verafschuwt ), maar even Brexit in gedachte, het is van alle tijden en heel erg hoe sommige media wordt gestuurd. Echter non profit ben ik het niet mee eens, een gesubsidieerde of bevoorrechte redactie lijkt me nu ook niet zo onafhankelijk (bv Rusland en misschien nu USA) , maar nu gaan we heel ver weg van het oorspronkelijk topic, dat er eigenlijk geen enkel model betaalt voor de gewonnen data, tenzij je groot genoeg bent om hun er tot verantwoording te roepen.

[Reactie gewijzigd door redzebrax op 15 februari 2025 01:35]

Met alle respect voor dit medium, maar jezelf vergelijken met journalisten van de Guardian is toch wel een heel andere koek.

Ik wil niet weten hoe groot die redactie wel niet is waarmee je jezelf nu mee vergelijkt. Bovendien zijn de media-bedrijven van de poster het over had gigantisch en zijn wel degelijk big business.
AuteurTijsZonderH Nieuwscoördinator @DjCoke14 februari 2025 20:09
Zeker, het zijn enorme bedrijven, maar je wordt echt niet rijk van journalistiek, is wat ik maar wil zeggen. Ik vind de manier waarop sommige mensen heel neerbuigend doen over dat uitgevers commerciële bedrijven zijn zo raar, alsof die bedrijven miljoenen binnenharken en sigaren rokend in een Armani-pak aan de Zuidas zitten of zo.
[...] alsof die bedrijven miljoenen binnenharken [...]
Maak daar maar miljarden van in het geval van Rupert Murdoch. ;)
Nee dat is wel wat genuanceerder inderdaad. Helemaal voor het Nederlands publiek lijkt me dat het geval.
(Verwijderd)

[Reactie gewijzigd door Roxo op 14 februari 2025 22:48]

Ik denk dat je een beetje een scheef beeld hebt van “de macht van de mediabedrijven” in vergelijking tot tech.

OpenAI wordt geschat op een waarde van 160 miljard dollar, heeft 4 miljard omzet, en bijna 4000 medewerkers

De Guardian Media Group wordt geschat op 1,3 miljard dollar, omzet van 300 miljoen, en heeft zo’n 1500 medewerkers.
Dan is dat toch big business 1,3 miljard?
Big business, ja. Maar ik schreef “in vergelijking tot tech”.

Afhankelijk van hoe je meet is het toch 10-100x verschil. David-Goliath
Dat er betaald moet worden voor copyright sure,
Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk.
Hoe kan je dat nou zeggen als je niet weet hoeveel ze daadwerkelijk krijgen. Of heb je inside knowledge?
Vind het een beetje vergaan dat al deze media conglomeraten (want het zijn echt geen kleine spelers die het doen voor persvrijheid hoor, het is puur business) zoveel blijven vragen en zoveel mogelijk de moderne wereld in de weg zitten, zo ook toen ze miljoenen van Google en meta begonnen te eisen omdat hun nieuws "gebruikt" werd terwijl dat ze alleen maar in de hand speelde.
Ze dwingen niemand toch om te betalen? Je hoeft hun product toch niet te gebruiken? Hoe zitten ze de moderne wereld, of jou bijvoorbeeld in de weg? Als hier de media-conglomeraten te veel vragen van de grote AI-reuzen (die natuurlijk op hun beurt nog véél groter zijn dan die media, haha) voor hun product, dan kunnen die AI-reuzen toch prima hun eigen nieuws-content proberen te maken om hun modellen mee te trainen? Daar zitten die media-conglomeraten de moderne wereld toch niet mee in de weg?
Of vind je dat de media-conglomeraten gewoon gratis horen te werken?
Voor mij is dit van the Guardian weer een poging om toch nog wat geld eruit te persen terwijl ze langzaam verdrinken
Nou ja prima toch, laat ze lekker. Heb jij er last van?
Als die AI-reuzen er niet zo onder de indruk van waren geweest, hadden ze natuurlijk niet betaald.
en van OpenAI een soort van copyright washing waarbij ze nu net kunnen doen alsof ze legitieme data gebruiken terwijl > 99.9999% geen cent zal zien voor het gebruik van hun data.
Ja misschien wel. Dit is een heel ander onderwerp natuurlijk opeens. Al schept deze overeenkomst tussen ChatGPT en the Guardian misschien wel een precedent en zullen er steeds meer trainingsdata-makers betaald krijgen voor hun werk in de toekomst.
Mijn vraag is legitiem wat copyright voor LLMs nou redelijkerwijs zou moeten kosten
Iets wat jouw werk niet is geloof ik haha. Of als je dat hier in de commentsectie van Tweakers voor je werkgever probeert te achterhalen, dan gaat er ergens iets fout denk ik.
Ik zou die vraag vooral aan de daadwerkelijk belanghebbenden overlaten (the Guardian en ChatGPT in dit geval).
want ikzelf zie echt geen wereld waarbij copyright houders betaald krijgen wat ze denken dat hun data waard is en AI trainen minder dan honderden miljarden kost.
Oké? Niet per se jouw probleem denk ik?

Juist voor de toekomst is dit heel belangrijk. Die media-conglomeraten zoals jij ze noemt zijn hele grote bronnen van nieuwe informatie (daarom heet het ook 'nieuws'). Elke dag weer. Elke AI die wordt bevraagt over een nieuwtje in de wereld, is voor een heel groot deel afhankelijk van die media-conglomeraten. Waar halen ze anders hun info vandaan?
Ik denk dat ChatGPT het daarom ook helemaal niet erg vindt om iets te betalen aan the Guardian. Zonder het product van media-conglomeraten kan zo'n AI immers nauwelijks een interessant of accuraat antwoord geven op vragen over wat er nu in de wereld gebeurt. ChatGPT zou dan simpelweg minder waard worden.
"Maar wetende dat the Guardian waarschijnlijk minder dan ~0.00001% van alle trainingsdata is, is wat ze betaald krijgen erg onredelijk."
Inderdaad ook in mijn opinie ook onredelijk, maar niet omwille van jouw redenering, OpenAi gaat blijkbaar heel gemakkelijk met de Guardian mee omdat die terecht wijst op de datadiefstal door OpenAi, op deze manier ontlopen ze processen die een voorbeeld zouden kunnen zijn voor kleinere spelers, laten we wel wezen voorlopig heeft OpenAi en in uitbreiding alle andere modellen bijna nada betaald aan gerechtigden.

Als enthousiaste luisteraar van de tweakers podcast hier, wil ik deze ook meegeven "https://www.standaard.be/plus/tag/podcast-bits-atomen" Naast de walvissen zitten er toch rond ai en wat nu gebeurt een paar terechte bedenkingen over de laatste top.

[Reactie gewijzigd door redzebrax op 14 februari 2025 23:50]

Ongeacht het motief is deze argumentatie wel heel kort door de bocht. Google en Facebook zijn onder andere groot geworden door verzorgen van snippets of newsfeeds waardoor mensen "snel geinformeerd konden worden" maar belangrijker, in de webomgeving van deze giganten bleven. Er is voldoende onderzoek geweest dat duidelijk maakt dat ze daarvoor domweg de koppen en samenvattingen van nieuws-websites hebben ge-scraped, en daar amper een vergoeding voor hebben gegeven.

Nieuws is niet gratis, goede verslaggeving is mensenwerk en ontzettend kostbaar. Helaas zijn veel mensen dat vergeten door de gratis informatie die op ze afkomt die ze klakkeloos tot zich nemen zonder er over na te denken of het correct is, of waar het vandaan komt. Grote tech bedrijven hebben een enorm aandeel gehad in die ontwikkeling.

Het argument is altijd geweest: Ja maar je hebt het gepubliceerd, en je wilt toch gevonden worden? Doe nou niet zo moeilijk en werk met Google/FB en dan zul je zien dat je traffic omhoog gaat. Dat was in de eerste jaren ook wel zo, maar zo gauw als het kon, werd het nieuws binnen die sites vertoond en kwam niemand meer op de pagina's van de media die het werk daadwerkelijk hadden gedaan.

Hetzelfde geldt voor LLM's. OpenAI doet geen reet aan kennisverwerving, nieuwsvergaring of wetenschap. Het enige dat het doet, is grote bakken data in hun database stoppen zodat het algoritme er iets van kan brouwen. Het is ronduit gênant dat dit klakkeloos kan en mag, zonder dat er zelfs ook maar een verwijzing naar originele bronnen wordt gegeven, laat staan dat de mensen die het werk hebben verricht betaald worden op basis van de auteursrechten die ze daarmee beschermen.

Ik ben voor helemaal voor een wereld waar informatie vrij is, maar ik ben ook voor een wereld waar een journalist zijn brood kan verdienen met het werk dat zij/hij doet (en dat ze dat het liefst kunnen doen zonder aan de tiet van reclame belangen te moeten hangen). Of ik nu zo broodnodig een LLM nodig heb, dat is me tot nu toe nog niet heel overtuigend duidelijk gemaakt.
Is dat zo? The Guardian biedt sommige stukken gratis aan, en andere betalend. Dus enkel de gratis, publiekelijk aangeboden artikels worden gebruikt om het model te trainen.

Geen idee hoe het juridisch zit en of er ergens anders een disclaimer bestaat, maar als je welbewust enkele of een stuk van je artikels bewust publiek zet, lijkt het me raar dat men kan klagen dat men die artikels leest of gebruikt.
Dat klinkt als het argument uit de jaren 2000 dat je elk plaatje dat je op internet tegenkomt gewoon ook mag gebruiken in je zakelijke presentaties
Deze vergelijking gaat mank:

Een plaatje kopieeren schendt duidelijk copyright

Er is nog geen wet of rechtelijke uitspraak (op nivo van bv hoge raad), die zegt dat een AI model trainen op data copyright schendt.

Mocht een rechter of wetgever dit wel besluiten dan is het waarschijnlijk einde oefening voor alle LLM's, die hebben zoveel tekst nodig dat een paar uitgever deals ze niet gaan helpen. Wel een leuke marktkans voor Rusland/China dan, aangezien die copyright niet zo serieus nemen. Ik gok dat de AI bedrijven gelijk gaan krijgen.
The Guardian biedt ALLE artikelen gratis aan, wat hen onderscheidt van andere media. Ze geloven – terecht – dat iedereen recht heeft op kwaliteitsjournalistiek.

Je kunt er wel voor kiezen om een abonnement te nemen en hen financieel te steunen. Het idee hierachter is dat wie het kan betalen, bijdraagt voor degenen die dat niet kunnen. Hun model is gebaseerd op vrijwillige bijdragen via crowdfunding. In ruil daarvoor krijg je slechts een paar voordelen: geen pop-ups met de vraag om te steunen (die je anders wel kunt wegklikken), de voldoening dat je onafhankelijke journalistiek ondersteunt, en een wekelijkse exclusieve nieuwsbrief.

Ik ben zelf een grote fan van dit model, omdat het goede journalistiek toegankelijk maakt voor iedereen. Bovendien kun je artikelen vrij delen zonder paywall-beperkingen.

Natuurlijk kun je ook de papieren krant kopen, die wel betalend is.
Win-win voor de grote jongens. Die worden hiermee nog groter of zijn tenminste zeker van hun gebied. Net zoals zoveel van dit soort bewegingen en initiatieven. Persoonlijk heb ik hier niet zoveel mee merk ik, net als heel veel van dit soort gebeurtenissen.

Pak bijvoorbeeld de Google Shopping ingreep die beslist en de andere monopolisten bovenaan in Google zette. Gevolg was dat je als webshop eigenaar duurder uit werd. Of het verplicht toelaten van paywall artikelen in Google Discover, andere categorie maar wel voor de publishers, dat heeft Discover aardig vervuild.
Als de data openbaar was op het moment van trainen hebben ze nergens over te zeuren imo.

Op dit item kan niet meer gereageerd worden.