OpenAI sluit deal met Financial Times voor leveren trainingsdata en voor gebruik

OpenAI heeft een licentiedeal gesloten met zakenkrant Financial Times. Dat heeft de krant bekendgemaakt. OpenAI mag artikelen en beeldmateriaal gebruiken als trainingsdata en ChatGPT gaat artikelen samenvatten en van links voorzien.

De bedoeling is dat ChatGPT de site van de Financial Times van verkeer gaat voorzien door artikelen samen te vatten en er links aan toe te voegen, meldt de krant. In ruil daarvoor kan OpenAI de artikelen en foto's van FT gebruiken als trainingsdata voor het genereren van tekst en afbeeldingen.

Het is de vijfde deal van deze soort. Eerder sloot OpenAI al deals met persbureau Associated Press, de Duitse uitgever Axel Springer, Le Monde uit Frankrijk en Prisa Media uit Spanje. OpenAI heeft geen deal met uitgevers in de Benelux.

FT en OpenAI maken niet bekend hoeveel geld er gemoeid is met de deal. Google heeft voor zijn Gemini-taalmodellen geen deals gesloten met uitgevers. OpenAI is ook nog verwikkeld in een juridisch gevecht met The New York Times om uit te maken in hoeverre OpenAI artikelen online als trainingsdata mag gebruiken. Dat is juridisch grijs gebied.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Arnoud Wokke

Redacteur Tweakers

Feedback • 29-04-2024 19:17 32

29-04-2024 • 19:17

Lees meer

Google en persbureau AP werken samen voor realtime informatie in Gemini Nieuws van 16 januari 2025

Canadese uitgevers klagen OpenAI aan voor schenden van auteursrecht Nieuws van 30 november 2024

'Google is in gesprek met platenmaatschappijen over deals AI-tool' Nieuws van 27 juni 2024

OpenAI sluit deal met News Corp voor gebruik artikelen WSJ in ChatGPT Nieuws van 23 mei 2024

Gebruikers kunnen Drive- en OneDrive-bestanden direct in ChatGPT laden Nieuws van 17 mei 2024

OpenAI's medeoprichter en chief scientist Ilya Sutskever vertrekt bij bedrijf Nieuws van 15 mei 2024

Gerucht: OpenAI werkt aan AI-stemassistent die foto's kan herkennen Nieuws van 12 mei 2024

Mark Gurman: Apple en OpenAI staan op punt om overeenkomst te sluiten Nieuws van 11 mei 2024

OpenAI gaat Stack Overflow-api gebruiken voor ChatGPT-antwoorden Nieuws van 7 mei 2024

OpenAI laat gebruikers chatgeschiedenis bewaren zonder model ermee te trainen Nieuws van 1 mei 2024

Android Authority krijgt Rabbit R1-software werkend op Pixel 6a .Geek van 1 mei 2024

Mark Gurman: Apple voert opnieuw gesprekken met OpenAI over AI in iOS 18 Nieuws van 27 april 2024

'Diverse techbedrijven hebben deals met Shutterstock om AI-modellen te trainen' Nieuws van 7 april 2024

Gerucht: Apple onderhandelt met Google voor Gemini-AI in iOS 18 Nieuws van 18 maart 2024

Microsoft investeert na OpenAI in Franse AI-start-up Mistral Nieuws van 26 februari 2024

Meer producten en artikelen

Economie en maatschappij ChatGPT Journalistiek OpenAI

IT-banen

Meer vacatures

Reacties (32)

-Moderatie-faq

Wijzig sortering

NotWise 29 april 2024 19:22

Iedereen die maar data heeft gaat dat nu ten gelde maken. Ik kan mij niet voorstellen dat alle gebruikers hier blij mee zijn. Dan vraag ik mij af wanneer Tweakers haar data beschikbaar stelt.

[Reactie gewijzigd door NotWise op 23 juli 2024 07:13]

Luchtbakker @NotWise • 29 april 2024 21:04

Nope, Tweakers heeft een disallow op chatgpt in hun robots.txt

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

https://tweakers.net/robots.txt

Katsu @Luchtbakker • 30 april 2024 01:09

Genoeg webscrapers die die txt gewoon straal negeren hoor.

Ryangr0 @Luchtbakker • 30 april 2024 06:23

Dat zegt niets. Je kan ook Google daarin zetten, maar nog wel gebruik maken van ads.

Oon @Luchtbakker • 30 april 2024 08:17

Los van het scrapen neemt dat niet weg dat DPG gevraagd kan worden om alle data van al hun platformen te verkopen. In het geval van Tweakers heb ik er alle vertrouwen in dat ze daar niet zomaar mee akkoord gaan, maar uiteindelijk zijn ze gewoon eigendom van DPG

GurbieV @Oon • 30 april 2024 08:52

Waarom heb je daar vertrouwen in?

Daarnaast zouden ze ook alleen de teksten van de artikelen kunnen verkopen, en niet de inhoud van de reacties. Dat is de beste tussenweg denk ik. In combinatie met alle andere dpg titels toch een mooie inkomstenbron denk ik.

Oon @GurbieV • 30 april 2024 09:08

Omdat Tweakers over het algemeen niet gerund is door mensen die alleen op geld uit zijn, dan hadden ze op bepaalde (recente) punten wel andere keuzes gemaakt.
Ze moeten natuurlijk wel winst maken, maar ik denk niet dat de Tweakers staff zelf voorstander zou zijn van het verkopen van al 'onze' comments aan OpenAI.

Artikelen prima natuurlijk, dat is hun goed recht.

Cranslove @Oon • 30 april 2024 09:37

Je noemt het probleem zelf al. Tweakers is onderdeel van DPG. En dat is nu net een partij die wel gevoelig is voor een grote zak geld. Tweakers zal er vrij weinig tegen in te brengen hebben. Ze zullen hooguit (voor de bühne) posten dat het met tegenzin gebeurd maar ze zullen er weinig aan kunnen of willen doen. Het grote geld regeert nou eenmaal. Dat is bij DPG niet anders.

Oon @Cranslove • 30 april 2024 09:38

Daarom zeg ik ook niet dat het niet gaat gebeuren, maar dat ik er vertrouwen in heb dat het bestuur van Tweakers zelf hier niet zonder meer in mee zal gaan

- peter -

@NotWise • 29 april 2024 19:27

Ik vind t bij een medium als een krant geen probleem, dat is geen community content toch? Daar hebben ze mensen zelf voor betaald.

NotWise @- peter - • 29 april 2024 19:33

Reddit is toch ook community content? Data is door community gemaakt en vervolgens verkocht.

- peter -

@NotWise • 29 april 2024 19:35

T gaat hier in t artikel over uitgevers. Eens dat t bij communities een ander verhaal is.

Wozmro @NotWise • 29 april 2024 19:34

Inderdaad. En niet enkel mediabedrijven. Ieder bedrijf heeft een berg data: schema's, tekeningen, foto's, handleidingen, procedures, e-mails, verslagen,...

Misschien hebben we nu nog geen idee wat we daarmee kunnen aanvangen maar misschien legt de AI wel verbindingen die we zelf nooit hadden kunnen bedenken.

Katsu @Wozmro • 30 april 2024 01:11

Ik snap dit soort reacties niet. Tuurlijk weten we wat we er mee moeten aanvangen, anders hadden we deze data nooit gemaakt en bijgehouden. “AI” is niet de magische oplossing voor alles, alhoewel investeerders je dat graag doen geloven. Ik wacht geduldig tot de bubbel barst.

Ryangr0 @Katsu • 30 april 2024 06:24

Dan kun je lang wachten. Veel plezier in het verleden.

Oon @NotWise • 30 april 2024 08:16

Gelukkig is het bij vrijwel ieder platform (inclusief Tweakers) zo dat de content die je post eigendom is van het platform. In principe kan Tweakers er gewoon voor kiezen om al jouw posts, comments, reacties etc te verkopen.

djwice

29 april 2024 19:29

En nu is de vraag. Was het al duidelijk in de licentie die de journalisten afgaven dat zij instemden met dit gebruik?
Het trainen van een AI met hun schrijfstijl en bewoording. En krijgen ze die auteurs daar, door deze deal, ook een extra vergoeding voor?

Kaasje123 @djwice • 30 april 2024 07:59

Er zal wel ergens in het contract staan dat je geen eigenaar meer bent van je teksten zodra ze gepubliceerd worden.

djwice

@Kaasje123 • 30 april 2024 08:04

Er is een verschil tussen een verzameling maken en losse elementen gebruiken.
En het doel waarvoor de tekst is gemaakt is en in licentie gegeven is is ook echt anders: nieuws en achtergronden publiceren vs het namaken van de schrijfstijl en bias van de persoon.

Opvallend is wel dat de databanken wet het volgende expliciet toestaat:

Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de maker.

De databank met nieuws artikelen bijvoorbeeld. Dus er is eigenlijk geen stoppen aan, zelfs niet met de robots.txt

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

@arnoudwokke @Arnoud Engelfriet?
Gaat deze uitzondering uiteindelijk onze kennis economie omzeep helpen omdat we het hiermee expliciet hebben weggegeven?

Voorbeeld
Alle tekst artikelen van Tweakers van de afgelopen 10 jaar downloaden en samenvatten voor een AI via Common Crawl kost nog geen €10,- en is in 9 minuten gedaan via de AWS cloud.
Uiteraard vereist dat eerst iemand die wat code schrijft om het in goede banen te leiden. Daar zitten ook kosten en tijd in. Maar het is dus voor iedere techneut met programmeerkennis financieel haalbaar

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

Arnoud Engelfriet @djwice • 30 april 2024 08:46

Ik zie niet goed wat we weggeven, het extraheren van feiten en statistische analyses was nooit en te nimmer een inbreuk op auteursrecht. Een ML model trainen op een bak met teksten is volgens mij echt niet meer dan statistische analyse. Het is niet alsof je een volledige datadump hebt staan waar de AI met een slimme zoekopdracht in neust.

djwice

@Arnoud Engelfriet • 30 april 2024 09:37

Dus eigenlijk is het trainen van een AI op een databank van iemand anders zonder toestemming geen probleem juridisch gezien.

Amazon die bijvoorbeeld een samenwerking aangaat met F5 om hun klanten de F5 Firewall aan te bieden.
Dan een logging service er tussen zet (in/uit) en in 3 weken een AI traint die de F5 nabootst en daarop hun eigen Firewall introduceren tegen lagere kosten. Is dus normaal.

En ook dus normaal een website starten met een AI die getraind is op Tweakers.net artikelen die nieuws berichten en achtergrond artikelen schrijft op basis van nieuw tech nieuws. Het voelt raar dat dat mag. Noemen we de Arnoud AI ineens Yung Resource (ARN is een AWS resource number, oud wordt jong). Voelt onethisch om daar niets voor terug te geven aan Arnoud.

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

Polydeukes @djwice • 30 april 2024 12:45

Wat is het verschil tussen mensen die leren door (gratis) openbare bronnen te lezen en er daarna geld mee verdienen door nieuwe artikelen te schrijven of presentaties te geven, en en een taalmodel dat hetzelfde doet?

Arnoud Engelfriet @djwice • 30 april 2024 13:42

Het onethische zie ik. De juridische norm is ontstaan in een tijd dat verspreiden van feitelijke informatie erg moeilijk en duur was, en met name gebeurde door beschermde werken (kranten, boeken) te lezen en ze daar uit te halen. "Ik lees net in de krant dat het aandeel Shell 3 punten omhoog ging vanochtend."

Fundamenteel is er geen verschil; het zit hem in de schaalgrootte en snelheid.

moonlander @djwice • 29 april 2024 19:30

Krijg jij extra en achteraf betaald als het product meer geld oplevert dan het eerste doel was?

jdh009 FP ProMod

ChatGPT

@moonlander • 29 april 2024 19:42

Ik neem aan dat @djwice doelt op auteurs die werken als freelancers, die schrijven stukjes voor een medium onder bepaalde voorwaarden. Deze voorwaarden worden meestal vastgelegd in een contract waarin specifiek staat wat het medium met het werk van de freelancer mag doen, zoals publiceren in een krant, op een website, of gebruiken voor promotiedoeleinden. Echter, het gebruik van deze teksten voor het trainen van kunstmatige intelligentie, zoals AI-modellen, valt vaak buiten de standaard contractuele afspraken of wordt niet specifiek bij naam genoemd. Wat dus kan leiden tot (juridische) problemen, maar dat is bij deze afspraak meer het probleem van de Financial Times dan van OpenAI. Of er moet expliciet zijn opgenomen dat alle rechten worden overgedragen.

@arnoudwokke, hoewel je geen freelancer bent, heb je enig idee of artikelen op bijvoorbeeld Tweakers automatisch gebruikt kunnen worden voor dergelijke doeleinden, of zou er per freelancer opnieuw onderhandeld moeten worden? Dit met inachtneming/aanname van het feit dat het auteursrecht op de door jullie (lees: de redactie) geschreven teksten sowieso bij Tweakers ligt vanwege loondienst.

[Reactie gewijzigd door jdh009 op 23 juli 2024 07:13]

djwice

@jdh009 • 29 april 2024 23:18

Ik vraag me af of dit niet veel verder gaat dan auteursrecht. Het na maken van het werk van een auteur, zijn signatuur, nieuwe werken maken die de auteur imiteren. Of zelfs je voordoen als een andere auteur.

Dit gaat verder dan cabaret zeg maar.

Ryangr0 @djwice • 30 april 2024 06:25

Mensen doen dit ook, maar dat vinden we niet erg.

djwice

@Ryangr0 • 30 april 2024 07:15

Voor caricature niet, maar een kopie van een tas, kleding wordt weldegelijk niet gewaardeerd. Iemand napraten ook niet.
En een schilderij na maken en je voordoen als een ander ook niet.
En dit schuurt daar wel heel dicht tegenaan.

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

ErikT738 @djwice • 30 april 2024 07:42

Het probleem in dit verhaal is dat het met AI zelden om daadwerkelijke kopieën gaat, maar om het kopiëren van een bepaalde stijl of bewoording (of in het geval van afbeeldingen bijvoorbeeld een tekenstijl). Dit alles valt voor zover ik weet niet onder het auteursrecht, en het staat iedereen vrij om iemand's stijl te kopiëren.

djwice

@ErikT738 • 30 april 2024 08:00

Dat gaf ik ook aan, dat het niet om auteursrecht gaat. Het verschil is dat het een mens tijd kost om een stijl over te nemen en dat je maar een beperkt aantal stijlen tegelijk kunt leren. En ze zelden "perfecte" kopiëren worden.

Een AI kan in een paar uur - of minder - een 'betere' versie van de stijl aanleren. En maakt dan als het ware een kopie van het neuro systeem (hersen patronen) van de auteur. En kan zich daarna als die persoon voordoen.

Dus de zinnen maken in een nieuwe situatie die zeer sterk lijken op die de auteur in die nieuwe situatie zou hebben geformuleerd. Zeg maar de versie die hij zou produceren onder ideale omstandigheden.
En dat in een veel kortere tijd dan de auteur zelf. De machine kan daar specifiek op getraind worden.

ErikT738 29 april 2024 22:00

Het zal geen populaire mening zijn, maar ik vind dit een slecht precedent. Door van dit soort deals de norm te maken wordt het enkel nog voor zeer kapitaalkrachtige partijen mogelijk om AI-modellen te trainen. Deze technologie moet wat mij betreft juist zo breed en open mogelijk beschikbaar worden gemaakt, zodat iedereen er profijt van kan hebben.

MatthijsZ 30 april 2024 08:06

Ik zal ook eens contact opnemen met OpenAI. Mijn blog heeft immers ook een copyright notice op elke pagina. Ben benieuwd wat de deal met mij zal inhouden!

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (32)

Sorteer op:

Weergave: