OpenAI sluit deal met Financial Times voor leveren trainingsdata en voor gebruik

OpenAI heeft een licentiedeal gesloten met zakenkrant Financial Times. Dat heeft de krant bekendgemaakt. OpenAI mag artikelen en beeldmateriaal gebruiken als trainingsdata en ChatGPT gaat artikelen samenvatten en van links voorzien.

De bedoeling is dat ChatGPT de site van de Financial Times van verkeer gaat voorzien door artikelen samen te vatten en er links aan toe te voegen, meldt de krant. In ruil daarvoor kan OpenAI de artikelen en foto's van FT gebruiken als trainingsdata voor het genereren van tekst en afbeeldingen.

Het is de vijfde deal van deze soort. Eerder sloot OpenAI al deals met persbureau Associated Press, de Duitse uitgever Axel Springer, Le Monde uit Frankrijk en Prisa Media uit Spanje. OpenAI heeft geen deal met uitgevers in de Benelux.

FT en OpenAI maken niet bekend hoeveel geld er gemoeid is met de deal. Google heeft voor zijn Gemini-taalmodellen geen deals gesloten met uitgevers. OpenAI is ook nog verwikkeld in een juridisch gevecht met The New York Times om uit te maken in hoeverre OpenAI artikelen online als trainingsdata mag gebruiken. Dat is juridisch grijs gebied.

Door Arnoud Wokke

Redacteur Tweakers

29-04-2024 • 19:17

32

Lees meer

Reacties (32)

Sorteer op:

Weergave:

Iedereen die maar data heeft gaat dat nu ten gelde maken. Ik kan mij niet voorstellen dat alle gebruikers hier blij mee zijn. Dan vraag ik mij af wanneer Tweakers haar data beschikbaar stelt.

[Reactie gewijzigd door NotWise op 23 juli 2024 07:13]

Nope, Tweakers heeft een disallow op chatgpt in hun robots.txt
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /
https://tweakers.net/robots.txt
Genoeg webscrapers die die txt gewoon straal negeren hoor.
Dat zegt niets. Je kan ook Google daarin zetten, maar nog wel gebruik maken van ads.
Los van het scrapen neemt dat niet weg dat DPG gevraagd kan worden om alle data van al hun platformen te verkopen. In het geval van Tweakers heb ik er alle vertrouwen in dat ze daar niet zomaar mee akkoord gaan, maar uiteindelijk zijn ze gewoon eigendom van DPG
Waarom heb je daar vertrouwen in?

Daarnaast zouden ze ook alleen de teksten van de artikelen kunnen verkopen, en niet de inhoud van de reacties. Dat is de beste tussenweg denk ik. In combinatie met alle andere dpg titels toch een mooie inkomstenbron denk ik.
Omdat Tweakers over het algemeen niet gerund is door mensen die alleen op geld uit zijn, dan hadden ze op bepaalde (recente) punten wel andere keuzes gemaakt.
Ze moeten natuurlijk wel winst maken, maar ik denk niet dat de Tweakers staff zelf voorstander zou zijn van het verkopen van al 'onze' comments aan OpenAI.

Artikelen prima natuurlijk, dat is hun goed recht.
Je noemt het probleem zelf al. Tweakers is onderdeel van DPG. En dat is nu net een partij die wel gevoelig is voor een grote zak geld. Tweakers zal er vrij weinig tegen in te brengen hebben. Ze zullen hooguit (voor de bühne) posten dat het met tegenzin gebeurd maar ze zullen er weinig aan kunnen of willen doen. Het grote geld regeert nou eenmaal. Dat is bij DPG niet anders.
Daarom zeg ik ook niet dat het niet gaat gebeuren, maar dat ik er vertrouwen in heb dat het bestuur van Tweakers zelf hier niet zonder meer in mee zal gaan :)
Ik vind t bij een medium als een krant geen probleem, dat is geen community content toch? Daar hebben ze mensen zelf voor betaald.
Reddit is toch ook community content? Data is door community gemaakt en vervolgens verkocht.
T gaat hier in t artikel over uitgevers. Eens dat t bij communities een ander verhaal is.
Inderdaad. En niet enkel mediabedrijven. Ieder bedrijf heeft een berg data: schema's, tekeningen, foto's, handleidingen, procedures, e-mails, verslagen,...

Misschien hebben we nu nog geen idee wat we daarmee kunnen aanvangen maar misschien legt de AI wel verbindingen die we zelf nooit hadden kunnen bedenken.
Ik snap dit soort reacties niet. Tuurlijk weten we wat we er mee moeten aanvangen, anders hadden we deze data nooit gemaakt en bijgehouden. “AI” is niet de magische oplossing voor alles, alhoewel investeerders je dat graag doen geloven. Ik wacht geduldig tot de bubbel barst.
Dan kun je lang wachten. Veel plezier in het verleden.
Gelukkig is het bij vrijwel ieder platform (inclusief Tweakers) zo dat de content die je post eigendom is van het platform. In principe kan Tweakers er gewoon voor kiezen om al jouw posts, comments, reacties etc te verkopen.
En nu is de vraag. Was het al duidelijk in de licentie die de journalisten afgaven dat zij instemden met dit gebruik?
Het trainen van een AI met hun schrijfstijl en bewoording. En krijgen ze die auteurs daar, door deze deal, ook een extra vergoeding voor?
Er zal wel ergens in het contract staan dat je geen eigenaar meer bent van je teksten zodra ze gepubliceerd worden.
Er is een verschil tussen een verzameling maken en losse elementen gebruiken.
En het doel waarvoor de tekst is gemaakt is en in licentie gegeven is is ook echt anders: nieuws en achtergronden publiceren vs het namaken van de schrijfstijl en bias van de persoon.

Opvallend is wel dat de databanken wet het volgende expliciet toestaat:
Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de maker.
De databank met nieuws artikelen bijvoorbeeld. Dus er is eigenlijk geen stoppen aan, zelfs niet met de robots.txt
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /
@arnoudwokke @Arnoud Engelfriet?
Gaat deze uitzondering uiteindelijk onze kennis economie omzeep helpen omdat we het hiermee expliciet hebben weggegeven?

Voorbeeld
Alle tekst artikelen van Tweakers van de afgelopen 10 jaar downloaden en samenvatten voor een AI via Common Crawl kost nog geen €10,- en is in 9 minuten gedaan via de AWS cloud.
Uiteraard vereist dat eerst iemand die wat code schrijft om het in goede banen te leiden. Daar zitten ook kosten en tijd in. Maar het is dus voor iedere techneut met programmeerkennis financieel haalbaar

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

Ik zie niet goed wat we weggeven, het extraheren van feiten en statistische analyses was nooit en te nimmer een inbreuk op auteursrecht. Een ML model trainen op een bak met teksten is volgens mij echt niet meer dan statistische analyse. Het is niet alsof je een volledige datadump hebt staan waar de AI met een slimme zoekopdracht in neust.
Dus eigenlijk is het trainen van een AI op een databank van iemand anders zonder toestemming geen probleem juridisch gezien.

Amazon die bijvoorbeeld een samenwerking aangaat met F5 om hun klanten de F5 Firewall aan te bieden.
Dan een logging service er tussen zet (in/uit) en in 3 weken een AI traint die de F5 nabootst en daarop hun eigen Firewall introduceren tegen lagere kosten. Is dus normaal.

En ook dus normaal een website starten met een AI die getraind is op Tweakers.net artikelen die nieuws berichten en achtergrond artikelen schrijft op basis van nieuw tech nieuws. Het voelt raar dat dat mag. Noemen we de Arnoud AI ineens Yung Resource (ARN is een AWS resource number, oud wordt jong). Voelt onethisch om daar niets voor terug te geven aan Arnoud.

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

Wat is het verschil tussen mensen die leren door (gratis) openbare bronnen te lezen en er daarna geld mee verdienen door nieuwe artikelen te schrijven of presentaties te geven, en en een taalmodel dat hetzelfde doet?
Het onethische zie ik. De juridische norm is ontstaan in een tijd dat verspreiden van feitelijke informatie erg moeilijk en duur was, en met name gebeurde door beschermde werken (kranten, boeken) te lezen en ze daar uit te halen. "Ik lees net in de krant dat het aandeel Shell 3 punten omhoog ging vanochtend."

Fundamenteel is er geen verschil; het zit hem in de schaalgrootte en snelheid.
Krijg jij extra en achteraf betaald als het product meer geld oplevert dan het eerste doel was?
Ik neem aan dat @djwice doelt op auteurs die werken als freelancers, die schrijven stukjes voor een medium onder bepaalde voorwaarden. Deze voorwaarden worden meestal vastgelegd in een contract waarin specifiek staat wat het medium met het werk van de freelancer mag doen, zoals publiceren in een krant, op een website, of gebruiken voor promotiedoeleinden. Echter, het gebruik van deze teksten voor het trainen van kunstmatige intelligentie, zoals AI-modellen, valt vaak buiten de standaard contractuele afspraken of wordt niet specifiek bij naam genoemd. Wat dus kan leiden tot (juridische) problemen, maar dat is bij deze afspraak meer het probleem van de Financial Times dan van OpenAI. Of er moet expliciet zijn opgenomen dat alle rechten worden overgedragen.

@arnoudwokke, hoewel je geen freelancer bent, heb je enig idee of artikelen op bijvoorbeeld Tweakers automatisch gebruikt kunnen worden voor dergelijke doeleinden, of zou er per freelancer opnieuw onderhandeld moeten worden? Dit met inachtneming/aanname van het feit dat het auteursrecht op de door jullie (lees: de redactie) geschreven teksten sowieso bij Tweakers ligt vanwege loondienst.

[Reactie gewijzigd door jdh009 op 23 juli 2024 07:13]

Ik vraag me af of dit niet veel verder gaat dan auteursrecht. Het na maken van het werk van een auteur, zijn signatuur, nieuwe werken maken die de auteur imiteren. Of zelfs je voordoen als een andere auteur.

Dit gaat verder dan cabaret zeg maar.
Mensen doen dit ook, maar dat vinden we niet erg.
Voor caricature niet, maar een kopie van een tas, kleding wordt weldegelijk niet gewaardeerd. Iemand napraten ook niet.
En een schilderij na maken en je voordoen als een ander ook niet.
En dit schuurt daar wel heel dicht tegenaan.

[Reactie gewijzigd door djwice op 23 juli 2024 07:13]

Het probleem in dit verhaal is dat het met AI zelden om daadwerkelijke kopieën gaat, maar om het kopiëren van een bepaalde stijl of bewoording (of in het geval van afbeeldingen bijvoorbeeld een tekenstijl). Dit alles valt voor zover ik weet niet onder het auteursrecht, en het staat iedereen vrij om iemand's stijl te kopiëren.
Dat gaf ik ook aan, dat het niet om auteursrecht gaat. Het verschil is dat het een mens tijd kost om een stijl over te nemen en dat je maar een beperkt aantal stijlen tegelijk kunt leren. En ze zelden "perfecte" kopiëren worden.

Een AI kan in een paar uur - of minder - een 'betere' versie van de stijl aanleren. En maakt dan als het ware een kopie van het neuro systeem (hersen patronen) van de auteur. En kan zich daarna als die persoon voordoen.

Dus de zinnen maken in een nieuwe situatie die zeer sterk lijken op die de auteur in die nieuwe situatie zou hebben geformuleerd. Zeg maar de versie die hij zou produceren onder ideale omstandigheden.
En dat in een veel kortere tijd dan de auteur zelf. De machine kan daar specifiek op getraind worden.
Het zal geen populaire mening zijn, maar ik vind dit een slecht precedent. Door van dit soort deals de norm te maken wordt het enkel nog voor zeer kapitaalkrachtige partijen mogelijk om AI-modellen te trainen. Deze technologie moet wat mij betreft juist zo breed en open mogelijk beschikbaar worden gemaakt, zodat iedereen er profijt van kan hebben.
Ik zal ook eens contact opnemen met OpenAI. Mijn blog heeft immers ook een copyright notice op elke pagina. Ben benieuwd wat de deal met mij zal inhouden!

Op dit item kan niet meer gereageerd worden.