NYT: Google en OpenAI hebben YouTube-video’s gebruikt om AI te trainen

Google en OpenAI hebben getranscribeerde YouTube-video’s gebruikt om eigen AI-taalmodellen te trainen. Dat schrijft The New York Times. De techbedrijven zouden hiermee de gebruiksvoorwaarden van het videoplatform hebben geschonden.

Volgens de redactie van de Amerikaanse krant was OpenAI aan het einde van 2021 op zoek naar nieuwe bronnen met Engelse tekst om zijn AI-taalmodellen te trainen. Het onderzoeksbedrijf ontwikkelde daarom Whisper: een spraakherkenningstool waarmee audio uit bijvoorbeeld YouTube-video’s kon worden omgezet naar tekst. Het bedrijf zou met behulp van deze tool meer dan 1 miljoen uur aan YouTube-video’s hebben getranscribeerd. De tekst die uit deze video’s werd gefilterd, is naar verluidt ook gebruikt om het taalmodel achter GPT-4 te trainen. The New York Times stelt ook dat OpenAI een team had opgericht dat moest nagaan hoe deze actie de gebruiksvoorwaarden van YouTube zou schenden. Volgens de redactie van de krant mogen onafhankelijke applicaties, die niet tot het videoplatform toebehoren, de video’s immers niet zomaar gebruiken.

OpenAI was naar verluidt niet het enige bedrijf dat YouTube-video’s heeft gebruikt om AI-modellen te trainen. YouTube zou deze praktijk ook zelf hebben toegepast. Dat zeggen vijf bronnen. Het is onduidelijk op welke schaal YouTube dit zou hebben gedaan, maar volgens de krant zou het bedrijf alleszins wel zijn eigen beleid wat betreft de auteursrechten hebben geschonden. Google zou in 2023 ook zijn eigen gebruikersvoorwaarden hebben aangepast, waardoor het bedrijf wel beroep mocht doen op publiekelijke Google Docs-bestanden, Google Maps-reviews en ander online materiaal om AI-modellen te trainen.

The New York Times heeft naar eigen zeggen ook informatie over Meta kunnen verzamelen: het moederbedrijf van Facebook, Instagram en WhatsApp. Het bedrijf zou plannen hebben gehad om de Amerikaanse uitgeverij Simon & Schuster op te kopen en op die manier boeken in zijn bezit te krijgen. Die werken hadden dan gebruikt kunnen worden om de AI-taalmodellen van Meta verder te trainen.

Meta hield naar verluidt ook vergaderingen waarin de mogelijkheid werd besproken om copyrighted data van het internet te verzamelen, ook al bracht dat een verhoogd risico voor rechtszaken met zich mee. Het bedrijf zou deze handelswijze hebben overwogen omdat eventuele onderhandelingen met uitgeverijen, nieuwssector en artiesten te veel tijd in beslag zouden nemen. Het is niet duidelijk of Meta ook is doorgegaan met het verzamelen van informatie waar auteursrechten op van toepassing zijn.

The New York Times heeft OpenAI en Microsoft eind 2023 aangeklaagd voor het schenden van het auteursrecht. De Amerikaanse krant claimde toen dat de twee techbedrijven 'miljoenen' artikelen zouden hebben misbruikt om hun eigen chatbots te trainen. OpenAI beweerde in februari van 2024 dan weer dat The New York Times een bug in zijn AI-modellen had misbruikt om ze het auteursrecht van de krant ogenschijnlijk te laten schenden.

Door Jay Stout

Redacteur

07-04-2024 • 09:40

53

Lees meer

Reacties (53)

Sorteer op:

Weergave:

Ligt misschien aan mij maar ik ben vooral verbaasd dat dit nieuws is en dat het niet zou mogen volgende de gebruikers voorwaarden.

Vind het wel logisch dat YouTube videos gebruikt worden voor training. Zit een hoop relevante trainingsdata in.

Ik snap dat iedereen hier de hele dag privacy het allerbelangrijkste vind naar als je iets openbaar op het internet zet vind ik er ook wel wat voor te zeggen dat het daarna openbare informatie is die naar goeddunken gebruikt mag worden
Je moet echt nog even nalezen hoe copyright/auteursrecht echt werkt Arnoud Engelfriet heeft er een goed artikel over: https://www.iusmentis.com/auteursrecht/
Dat zijn de regels, ja. Maar aan het einde van de dag zijn regels richtlijnen en buigbaar. De praktijk is, voornamelijk ook wegens kennistekort op vele fronten, dat het auteursrecht op grote schaal geschonden wordt. En is dat erg? Discutabel. Is dat kwalijk te noemen van de schenders? Lijkt mij niet per sé het is immers publiekelijk toegankelijk gemaakt voor publiek waar naar aannemelijke waarschijnlijkheid niet veel auteursrecht-geleerden in voor komen.

Auteursrecht is leuk en aardig maar in de praktijk boeit het gewoon niet veel mensen. Pas dan je platformen aan of neem ze geheel weg, ipv blijven proberen regels op mensen te drukken terwijl zij dit nooit belangrijk zullen gaan vinden.

Min maar raak.
Vind je het ook oké als iemand een foto van jou op een groot billboard voor aambeien zalf zet? Er staat vast wel ergens een foto van je online, dan wel niet zelf geplaatst.

Yt filmpjes zijn door gebruikers en bedrijven onder bepaalde voorwaarden op het platform geplaatst. Als google die voorwaarden eenzijdig aanpast, of negeert is daar toch wel degelijk iets mis mee.
Ja maar goeddunken is wel wat overdreven maar denk dat er wel wat verschil zit in geanonimiseerde trainingsdata of iemand zin afbeelding rechtstreeks gebruikten
dat OpenAI een team had opgericht dat moest nagaan hoe deze actie de gebruiksvoorwaarden van YouTube zou schenden.
het is toch te zot voor woorden dat een bedrijf een speciaal team moet oprichten om de gebruikersvoorwaarden te kunnen lezen? Dat zegt naar mijn mening genoeg over hoe belachelijk gebruikersvoorwaarden nu zijn geworden. Hoe moet een normale gebruiker het dan snappen?
Wat is een team, en vooral hoe lang is men bezig geweest? Ik zou als bedrijf in ieder geval een klein teampje juristen even goed laten kijken. En waarschijnlijk hebben die meerdere voorwaarden van diverse platformen doorgespit om zo het team dat het trainen uitvoerde te ondersteunen.
Wat is een team, en vooral hoe lang is men bezig geweest? Ik zou als bedrijf in ieder geval een klein teampje juristen even goed laten kijken. En waarschijnlijk hebben die meerdere voorwaarden van diverse platformen doorgespit om zo het team dat het trainen uitvoerde te ondersteunen.
Irrelevant hoe groot het team is en hoe lang ze ermee bezit geweest zijn. Het punt is dat een enkele eindgebruiker moet instemmen met iets waarvoor ze zelf een team nodig hebben om te doorgronden.
Met zo zot als dat we in een wereld leven waarin veel dingen goedkoper zijn om te vervangen, dan om te repareren.

Als je je er een beetje in verdiept zul je waarschijnlijk snel zien dat het logisch te verklaren is?
Een normale gebruiker heeft hier niks mee te maken natuurlijk. Of trainen normale gebruikers hun AI met YT videos?

We hebben het hier duidelijk niet over normale gebruikers maar bedrijven die willen profiteren van bestaande data. Dat verhaal is veel complexer.
Dat is niet mijn punt, het gaat erom dat een bedrijf een dergelijk ingewikkelde gebruikersovereenkomst heeft dat een ander bedrijf een heel team van mensen nodig heeft om het door te lezen. Hoe moet een normale consument dan weten waar hij mee akkoord gaat als dit wordt voorgeschoteld? Niet voor de activiteiten benoemd in het artikel, maar in het algemeen.
Ik vind het vreemd lezen. Wil je niet doorgaans het tegenovergestelde weten? Dat het wel mag?

Hebben ze niet gewoon dat team opgericht om te kijken of ze het dusdanig konden interpreteren en verdedigen dat het wel mag? Aangezien ze het blijkbaar wel gedaan hebben.
Eigenlijk is het ook wel bizar hoe makkelijk bedrijven hun eigen TOS kunnen aanpassen als ze iets op een andere manier willen. Zoals Google die zichzelf een uitzondering geeft in YouTube data te gebruiken.
Hoezo? Hun eigen. Jij bepaalt toch ook zelf de regels in je eigen huis?
Pas je die regels dan ook achteraf aan in jou voordeel? Dus als mensen binnen zijn hun jas zakken leeg maken en dan zeggen dat het het nu in de voorwaarden staat?

Ik vind het zelf nogal twijfelachtig dat voorwaarden constant aangepast worden en van toepassing op alles zijn en anders heb je pech.
I’m shocked!. Shocked! Well, not that shocked
Wie braaf de regeltjes volgt komt nergens meer.
It's Better to Ask For Forgiveness Than Permission
Vervolgens komen er nog meer regeltjes, want in bepaalde ivoren torens denken ze criminaliteit op te lossen door criminaliteit te verbieden.
Je mag dit geen stelen of piraterij noemen.
Dat doen mensen, als bedrijven het doen dan is dat innovatief.


Van mij mogen ze alles wat op youtube staat gebruiken, dat houden we toch niet meer tegen, maar laten we copyright dan wel even ingrijpend veranderen zodat mensen, artiesten, creativiteit en cultuur voorop komen te staan, niet het financieel belang van de aandeelhouders.

Copyright voor "klassieke" vormen als boeken en muziek gaat terug naar 14 jaar.
Voor computersoftware is zeven jaar wel genoeg.
Helemaal geen copyright voor producties van AI's.
En als je geld wil vragen voor het gebruik van je copyright moet je het laten registeren en het werk laten vastleggen/kopieren (zonder kopieerbeveiliging) zodat het beschikbaar is als het copyright verloopt. Nu rot het meeste materiaal weg voor iemand het ooit mag gebruiken, als er dan (na meer dan 100 jaar) nog uberhaupt iemand weet dat het werk bestaat.
@JayStout Dit is toch "oud" nieuws in de zin dat dit publiek bekend is. De afgeleide dataset van die YouTube videos kun je hier downloaden, incl. referenties naar de videos:

https://research.google.com/audioset/dataset/index.html
Meta hield naar verluidt ook vergaderingen waarin de mogelijkheid werd besproken om copyrighted data van het internet te verzamelen, ook al bracht dat een verhoogd risico voor rechtszaken met zich mee. Het bedrijf zou deze piste hebben overwogen omdat eventuele onderhandelingen met uitgeverijen, nieuwssector en artiesten te veel tijd in beslag zouden nemen.
Ik vind dit werkelijk te bizar voor woorden als dit waar is. We verwachten dat onderhandelingen lang duren dus piraten we het maar gewoon en nemen we eventuele rechtzaken voor lief? Als je diepe zakken hebt dan maken wetten, regels en voorwaarden niet meer uit?
Dat dus…. Zo blijken die bedrijven inmiddels gewoon te werken. Ze doen wat ze willen en zien wel of er een rechtzaak komt. En komt die er dan kopen ze die af en klaar. Daarom zijn zij een zeer grote bedreiging voor de hele wereld. Geld is macht en macht corrumpeert….
Het meest belachelijke vind ik dat dit al vele jaren doorgang kan blijven vinden, het afkopen van “fouten” levert namelijk wel veel geld op voor andere “partijen”, om het zo maar even te duiden. Daarnaast gaan de ontwikkelingen veel te snel voor de politiek om er echt op te kunnen participeren met wetten, als ze dat eigenlijk al willen, mijn vertrouwen is wel weg wanneer het om miljarden gaat in de westerse eeuwige groei economieën, de ene hand wast de andere, zo is het altijd al geweest.
Ik heb mijn interne Language Model ook jaren getraind op content die vrij beschikbaar was op internet, ondanks dat die content auteursrechtelijk beschermd was.
Ik vermoed dat jou MML wat minder data bevat dan die van OpenAI - en dat niet alles is blijven hangen. Het menselijk brein kan niet in dezelfde mate inhoud reproduceren. Andere dingen kan het natuurlijk weer beter...
Alles wat op youtube staat is waar natuurlijk. Zullen ze net wat influencers gehad hebben die dik betaald worden voor iets..zijn we lekker mee dan.
Daarom moet je modellen trainen en aanwijzen wat goed en fout is.
En wat is dan goed, en wat is fout?
Gezondheids of medische adviezen door mensen die er geen opleiding voor hebben gehad. (Om maar een voorbeeld te geven)
LOL, genoeg mensen die wel zogenaamde opleidingen hebben gehad en ook complete onzin verkopen.
Die afweging zal de maker van de AI moeten maken, net als jij zou moeten doen bij het opvoeden van kinderen.

Dat maakt dingen niet goed of fout maar het vormt enkel het oordeel vanuit de AI of je kinderen.
Ik zie de relevantie van uw opmerking niet? LLM's zijn niet gelijk aan machine learning - dat is waar -, maar zijn onderliggend wel gewoon ML.

Ook ChatGPT wordt gefinetuned door middel van gelabelde data: daarom dat je bijvoorbeeld ook kan aangeven dat een antwoord slecht is (thumbs down icoontje). Dat wordt gewoon meegenomen bij een volgende finetuning fase. Dit komt overeen met wat Luchtbakker zegt.

Zelfs al was het volledig unsupervised, dan was het nog steeds ML.
Maar dat is ook het punt niet van een LLM. Kijk gewoon al eens naar waar die letters voor staan. Doel is een model van een taal te ontwikkelen, dat je op een natuurlijke manier een gesprek kunt voeren. Het gaat niet om waarheid of leugens, het gaat niet om fake of echt nieuws. Het gaat om het taal model. En het gebruik van gesproken taal, van hoe mensen in het echte leven communiceren, is belangrijk.
Het gaat om taalmodellen, dat heeft verder niets te maken.

Op dit item kan niet meer gereageerd worden.