'Nvidia scrapete YouTube- en Netflix-video's om AI te trainen'

Nvidia zou in het geheim grote hoeveelheden YouTube-data verzameld hebben om zijn AI-modellen te trainen. Dat zegt de website 404 Media aan de hand van uitgelekte documenten. Dit gebeurde naar verluidt zonder toestemming van YouTube of de videomakers.

In mails die 404 Media kon inzien, spreekt een hooggeplaatste Nvidia-functionaris van een ‘videodatafabriek die per dag een visuele ervaring ter waarde van een mensenleven aan trainingsgegevens kan opleveren.’ De verzamelde data werd gebruikt voor diverse projecten, zoals de ontwikkeling van algoritmen voor zelfrijdende auto’s en digitale avatars. Nvidia paste tactieken toe om detectie te vermijden, bijvoorbeeld door virtuele machines te gebruiken met veranderende IP-adressen. Ondanks interne zorgen over de legaliteit en ethiek keurde het management van Nvidia deze aanpak goed. Aan 404 Media verklaarde Nvidia dat zijn AI-trainingspraktijken 'volledig in overeenstemming zijn met de letter en de geest van de auteursrechtwetgeving'.

Door Andrei Stiru

Redacteur

06-08-2024 • 07:46

150

Reacties (150)

Sorteer op:

Weergave:

Mijn controversiële mening:
Als het vrij te zien is op het internet waarom mag je het dan niet gebruiken? Ik als persoon leer ook vaak iets uit een youtube filmpje en soms verdien ik er ook iets aan. Als ze niet willen dat mensen of bedrijven ernaar kijken moeten ze het maar achter een paywall zetten.
Het internet is grof gezegd naar de klote aan het gaan door de grote multinationals en hun "greed". (En nu spreek ik mezelf tegen }> )

:+ Hoe lang nog voor dat grote bedrijven een reclame bord langs een weg zetten en iedereen die erlangs komt laten betalen omdat ze een copyright afbeelding hebben gezien? :+

Persoonlijk snap ik niet waarom 20 jaar geleden alles gratis ging en nu alles betalend moet worden op het internet. bv: Hoe kan een website zoals reddit zoveel verlies maken terwijl het een mostly tekst based forum is?
Ofja ik snap het wel ... dit komt omdat de tijd van de nerd die het voor het plezier / eer doet gedaan is en de aandeelhouders niet tevreden zijn als er ergens geen miljard per jaar mee te verdienen is.

Maar ik veronderstel dat het menselijk is dat je steeds meer en meer wilt hebben. En we zijn nog niet aan de grens gekomen waarbij de gebruikers zeggen nu is het genoeg geweest ik zoek een alternatief.
Wettelijk gezien is er een verschil tussen het raadplegen van publieke data en het systematisch & moedwillig kopiëren van een substantieel deel van een publieke databank.

Ik mag niet alle video's op youtube scrapen en dan mijn eigen youtube concurrent creëren met mijn eigen abonnement en advertenties.
Als dit het probleem is dan is er volgens mij geen poot om op te staan. Wat je doet met een AI model is helemaal niet een concurrent creëren maar je raadpleegt de publieke data om een totaal ander product te creëren.
Ligt web data voor het (sch)rapen?

Een georganiseerde databank is er één waarvoor aanzienlijke investeringen zijn gedaan en die up-to-date wordt gehouden. In zo’n geval mag je de data slechts voor ‘normaal gebruik’ opvragen en/of hergebruiken.

Het scrapen van een ‘in kwalitatief of kwantitatief opzicht substantieel deel van de inhoud’ van een databank is bijgevolg geen ‘normaal gebruik’ en is dan ook verboden. Tenzij je uiteraard de voorafgaande toestemming hebt gekregen van de websitehouder.

[Reactie gewijzigd door DonCortizone op 6 augustus 2024 09:57]

Goed punt. je eerste reactie (2e zin) impliceerde dat de intentie ook onderdeel van de juridisch basis was. Je quote hierboven zet het duidelijk wat breder weg en maakt het gewoon, los van waarvoor je het gebruikt, verboden. Dat verduidelijkt het dus nogal.
Meer praktisch voorbeeld: als ik naar een bibliotheek ga en een boek leen, dan is dat prima. Als ik naar een bibliotheek ga en ik leen alle boeken, dan kijken ze je raar aan.
Al kun je bij de bibliotheek vaak maar een x aantal boeken tegelijkertijd lenen.
Je kan onbeperkt YouTube kijken, zolang je niet hoeft te werken of slapen.
Je hebt maar 24 uur per dag, terwijl op Youtube elke minuut meer dan 500 uur aan materiaal wordt geupload. Buiten een geautomatiseerde manier is dit dus lang niet volledig te bekijken. Je geraakt op 0,003% van wat dagelijks geupload wordt. Jouw 24 uur kijktijd komt overeen met het lenen van 1 boek uit een collectie van 30.000 boeken.

Gaspedaal heeft in een verleden ook een keer een tik over de vingers gehad omdat ze andere autosites scrapeden en daarvan de gegevens samenvoegden en op hun site presenteerden. Dat was ook tegen de databankwetgeving in. Het kost tijd/energie/geld om data te verzamelen. Dat je het vrijgeeft ter raadpleging betekent dus niet dat iemand anders het klakkeloos mag kopiëren en commercieel mag inzetten.
Hypothetisch voorbeeld.

Als er een video zoekmachine wordt gemaakt, zeg een google voor video, waarom zou die dan niet alle openbaar beschikbare videos mogen scrapen? Exact hetzelfde gebeurd nu ook met websites.

Tekstuele data is op veel plekken waar je het vandaan haalt ook een georganiseerde databank. Zoek maar eens op google, kan je data vinden van het tweakers forum? Of uberhoupt een plek waar data via een database gestructureerd is? Dat antwoord is heel erg duidelijk ja.

Dus wat maakt tekstuele data anders dan video data? Anders dan dat het in bytes heel veel groter is.

Je kan nu natuurlijk zeggen dat het geen "normaal gebruik" is maar ook dat is relatief. Voor een scraper van sites is het normaal gebruik. Voor video data is het daarmee ook normaal gebruik.

Als dit niet zou mogen zou een site als google (en elke zoekmachine) daarmee ook niet mogen en dat lijkt me toch niet het geval.

Daarbij hebben we hier ook een netneutraliteit dingetje. Uiteraard zal degene die scraped zeggen dat het onder netneutraliteit valt en degene die gescraped wordt zal het op fair use of auteursrecht gooien. Naar mijn idee valt dit gewoon binnen netneutraliteit, het is gewoon publiekelijk toegankelijke data. Uiteraard vindt een video site (youtube) het niet leuk als petabytes gedownload worden door 1 gebruiker maar principieel, vanuit data oogpunt gezien, is dit niet anders dan indexeren van data.

De zaak verandert als je data scraped die achter een paywall zit. Dan heb je een risico dat je data gaat gebruiken die niet publiekelijk toegankelijk is.

[Reactie gewijzigd door markg85 op 6 augustus 2024 15:00]

Omdat dat dit bv explicit niet in de voorwaarden van gebruik is toegelaten door bv een Youtube, dit staat los van de discussie over copyright. Nvidia is zich daar van bewust (althans volgens 404 Media), anders zou men niet het volgende gedaan hebben. "Nvidia paste tactieken toe om detectie te vermijden, bijvoorbeeld door virtuele machines te gebruiken met veranderende IP-adressen."
Edit: Dit heeft trouwens ook niks met netneutraliteit te maken, het is de provider die ervoor opdraait niet youtube, en ook je provider die data limits of snelheidsbeperking op bepaalde sites kan zetten.

[Reactie gewijzigd door redzebrax op 6 augustus 2024 15:54]

Als er een video zoekmachine wordt gemaakt, zeg een google voor video, waarom zou die dan niet alle openbaar beschikbare videos mogen scrapen? Exact hetzelfde gebeurd nu ook met websites.
Het is niet exact hetzelfde. Een videozoekmachine is een aanvullende dienst. Het helpt je zoeken, maar uiteindelijk kom je bij het originele filmpje uit op de originele site en ga je dat daar kijken.

Met die getrainde AI maak je indirect wel gebruik van de data, maar ga je niet alsnog al die video's kijken die de informatie leverden voor het model. Het is dus een vervangende dienst.

Voor tekst geldt hetzelfde. Dat is, lijkt mij, ook de reden dat veel zoekmachines wel een AI de resultaten laat samenvatten, maar de verwijzingen naar de originele bronnen erbij staan. Als ze die weg zouden halen zou dat wel wat rechtszaken opleveren.
Dat is natuurlijk een Europese richtlijn, in de VS en de meeste andere landen is gebruik van publieke data gebonden aan de wetten van auteursrecht en vrijheid van meningsuiting.

Dus je mag vb kunst werken niet vervreemden door te zeggen dat je zelf een werk gemaakt hebt (auteursrecht) maar je mag de data wel herwerken, voor databanken specifiek zoals instructies en lijsten rust auteursrecht enkel op de specifieke compilatie van de instructies maar niet op de data zelf. Dus als je een YouTube maakt van een receptje ligt het auteursrecht op de artistieke videografie, maar als ik dan daaronder een lijstje zet met de stappen om het receptje te maken (zonder een 20m video met reclame) dan ligt daar geen auteursrecht op. Aan de andere kant, als ik een volledig boek receptjes overneem in dezelfde volgorde, daar ligt MOGELIJK auteursrecht adhv een unieke kunst/talent dat erin gaat, maar als je ze gewoon op een overduidelijk aspect (zoals naam, land, complexiteit etc) sorteert, niet.

En volume is geen argument, want als je genoeg mensen (Mechanical Turk) kan aanwerven, kun je vb alle receptjes op YouTube om te zetten in een reeks boeken, zo ook een databank, rechtsmatig maakt dit niet uit dat een machine dit ook kan. Zo ook als ik een volledige bibliotheek versnipper en dan een database aanmaak van alle woorden in alle boeken (Google Gutenberg Project) en een wiskundige berekening maak van de afstand tussen de woorden (Google ngrams) en daarna zet ik die database om in een wiskundige berekening om andere woorden te vinden die dichtbij liggen (alle LLMs), als 1 mag en 2 mag, dan mag 3 ook. En als 1 niet mag, dan mogen bibliotheken niet bestaan en als 2 niet mag, mogen encyclopedie/thesaurus schrijvers ook geen database aanmaken van boeken/woorden en 3 is maar een wiskundige berekening waar geen auteursrecht op kan liggen.

Het argument voor copyright in LLMs is net zoals weefmachines vs gilden, vergadering/werken in het kantoor vs online en van thuis uit, bibliotheek vs Internet, email vs post - een machine kan een functie sneller dan een mens uitvoeren, daarom moet het verboden worden zodat we de huidige werkgelegenheid van de gilden niet verstoren? Van de mensen die de paardenstallen kuisen?

[Reactie gewijzigd door Guru Evi op 6 augustus 2024 17:21]

Maar ze kopiëren het niet, het systeem leert ervan. Hetzelfde met de schilder die schilderijen heeft van een vrouw met een gele kleur. Als je kunstkenners zou vragen om op basis daarvan een schilderij te maken, dan gaat nagenoeg iedereen een vrouw in een gele jurk schilderen in ongeveer dezelfde omgeving. Zolang het geen 1:1-overname is van iedere pixel, is het geen kopie. Maar ik ken de wet verre van en ben heel benieuwd wat rechters hiervan vinden.
Ze verdienen geld met het gebruik van andermans beschermde werk. Het maakt niet uit hoe vaak je het transformeert of hoe je het gebruikt. Wat als ik een model maak van honderden schilderijen van een kunstenaar en daarmee geld verdien, dan heb ik voor de rechter natuurlijk geen poot om op te staan. En om dan te zeggen 'Nee we hebben het niet van een iemand gestolen, maar van iedereen." maakt het argument natuurlijk niet beter.
Het gaat hier dan niet over een kopie maar over de stijl van iemand, jij mag gerust picaso stijl schilderen hoor.
Natuurlijk. Hoewel zijn stijl erg kenmerkend is, ook binnen zijn specifieke tak, mag je gerust zijn stijl gebruiken voor je eigen ontwerpen. Op het moment dat je er mee gaat adverteren (schilderij in Picassos stijl) wordt het misschien moeilijker, maar daar gaat deze discussie niet perse over in mijn ogen.

Het gaat er om dat iemand die zijn werk online gooit, het volste recht heeft om te beslissen waarvoor het gebruikt mag worden. ~5 jaar geleden was de consensus dat het publiceren van een afbeelding op je eigen website betekent dat alleen mensen dat kunnen zien (naast wat indexing bots).

Niemand, inclusief de maker, zou er problemen mee hebben dat jij dit download van een publieke site om te bewaren. Waar mensen logischerwijs wel mee problemen mee zouden hebben is dat jouw afbeelding wordt gedownload en er commercieel gebruik wordt gemaakt van die afbeelding. ~5 jaar geleden was dat jouw afbeelding, al dan niet bewerkt, op een product gooien of het in een video te verwerken. Het trainen is niet specifiek het probleem, het gebruik maken van jouw werk is dat wel.

[Reactie gewijzigd door EmeraldChickn op 6 augustus 2024 15:00]

Op dat moment kom je mogelijk in conflict met handelsmerken maar niet met auteursrecht. Als je het verkoopt als "een Picasso", alhoewel het geen (echte) Picasso is is het nog steeds geen kopie van een echte Picasso. Maar de familie Picasso zal (mogelijk) invloed hebben over wie er Picasso kunstproducten mag verkopen.

Echter als je zegt: het is geen Picasso, het is een Picasso-achtig of Picasso-geinspireerd of Picasso stijl (cubisme, surrealisme), er zijn veel Picasso-achtige kunstenaars te vinden vandaag en ook vroeger. Piet Mondriaan of Andy Warhol bijvoorbeeld en een leek in kunst kan zeker een Mondriaan verwarren met een Picasso.

[Reactie gewijzigd door Guru Evi op 6 augustus 2024 17:29]

Om die gegevens te kunnen analyseren moeten ze deze kopieren, anders kan je ze niet inlezen. Dat aan het einde van de rit niet meer exact het originele bestand in het geheugen staat maakt niet uit, ze hebben gegevens verwerkt waarvoor geen toestemming is verleend en derhalve het copyright geschonden.
Weet niet hoe ze het daadwerkelijk doen, maar als ze de AI door een browservenster laten kijken en analyseren, is het niet gekopieerd, maar bekeken en geanalyseerd zoals een mens dat doet.
Als ik een browservenster open, een screenshot maak, de kleurstelling een klein beetje wijzig in photoshop en mijn eigen handtekening er onder zet is het nogsteeds copyrightschending.

Het enige verschil is dat tijdens het trainen van een AI-model de ingegeven data wat verder verwerkt word. Het uiteindelijke model is wel een product van de ingegeven data en die staat onder copyright.
Dat is niet hoe AI werkt of leert.
Een AI-model traint juist op externe data... Deze data word aan het model gevoed, de data kan al wat verder verwerkt zijn zodat het model er wat meer mee kan maar aan de basis staat toch echt "ruwe" data. Ligt maar aan het type model wat voor data dat is. Als het een model is die plaatjes moet genereren, dan gaan er plaatjes in. En op die plaatjes zit gewoon copyright. Het maakt niet uit of je het plaatje rechtstreeks download, het plaatje in een browservenster laad en er een screenshot van maakt, of het plaatje laat zien op een scherm en er dan met een fototoestel weer een nieuwe foto van maakt... Als je geen toestemming hebt van degene die het originele plaatje gemaakt heeft, dan schendt je gewoon het copyright.

[Reactie gewijzigd door jaapzb op 6 augustus 2024 14:35]

Je denkt dan dat een AI niks meer is dan een verzameling van beelden die het dan wat door elkaar haalt en een resultaat geeft ?
Dat is gewoon fundamenteel verkeerd. Neen die beelden zitten daar niet in.
Als ik jou was zou ik mijn reactie nog eens goed doorlezen, want als dit is wat je er uit hebt gehaald dan heb je dat duidelijk niet echt gedaan.
maar aan de basis staat toch echt "ruwe" data.
Leg dan gerust uit wat je daarmee bedoelt, het is duidelijk dat je denkt dat foto's letterlijk in een model zetten je zegt immers:

"Het maakt niet uit of je het plaatje rechtstreeks download, het plaatje in een browservenster laad en er een screen..."

En nogmaals dat is NIET hoe AI modellen data verwerken.
Ik zeg nergens dat er foto's letterlijk in het model gezet worden. Tijdens het trainen krijgt een model simpelweg foto's aangeleverd die het gaat analyseren en verwerken. Als resultaat "weet" het model nu vanalles over de foto en kan het deze gegevens weer gebruiken om nieuwe afbeeldingen te genereren.

Aan de basis blijft staan dat het model een verwerking is van copyrighted gegevens. De afbeelding als zodanig staat niet meer in het model, maar wel allerlei gegevens die alleen hadden kunnen ontstaan doordat een specifieke afbeelding tijdens het trainen is ingelezen en verwerkt. Als andere afbeeldingen gebruikt zouden zijn, zou er een ander model uitgekomen zijn. Het uiteindelijke model is dus een afgeleide van de data die er tijdens het trainen in is gestopt.
Je zegt het nu correct zelf: een afgeleide en dat is gewoon nog steeds toegestaan.
Er is hier geen copyrightschending aanwezig
We zullen binnenkort wel zien of de rechter dat ook vind
Niet binnenkort nee, zal nog een hele tijd duren.
Welke schilder kijkt "per dag een visuele ervaring ter waarde van een mensenleven aan trainingsgegevens"?

Het is geen mens, het is software.

Als copyright did niet kan stoppen dan moet het copyright uitgebreid worden.

[Reactie gewijzigd door Wolfos op 6 augustus 2024 17:59]

Recent nog een artikel op NOS.nl over een vrouw met een gele jurk .

"Techbedrijven lijken AI illegaal te trainen met beelden van Nederlandse makers"
https://nos.nl/artikel/25...en-van-nederlandse-makers

[Reactie gewijzigd door Jantjo op 6 augustus 2024 18:52]

Dank! Dat item had ik inderdaad nog in mijn gedachten en bedoelde ik ook in mijn reactie!
Als ze niet willen dat mensen of bedrijven ernaar kijken moeten ze het maar achter een paywall zetten.
Ik ben het grotendeels met je eens, maar deze opmerking is twijfelachtig. In principe zit Youtube achter een soort virtuele paywall, namelijk reclame. Daar haalt Youtube het gros van de inkomsten vandaan (naast de abonnementen) doordat mensen er naar kijken en andere bedrijven daarvoor betalen. Op het moment dat een training farm naar de videos gaat kijken, kost het YouTube geld in de vorm van server capaciteit, maar levert het ze niks op.

Nvidia zou wat mij betreft YouTube moeten compenseren voor het gebruik van hun systemen, maar ik zie niet waarom het auteursrechten zou schenden.
Reclame bestempelen als een paywall vind ik juist twijfelachtig eerlijk gezegd. Bedrijven en creators kiezen er namelijk zelf voor om geen echte paywall te gebruiken om zoveel mogelijk klanten / kijkers te trekken.

Ik zou reclame eerder beschouwen als een ouderwetse ruil. Jij krijgt gratis content, ik krijg jouw ogen op mijn product
Heb je wel gelijk in, heb ook wel het idee dat de toonzetting van de redactie ook wel een beetje neigt naar: "AI is bad, mkay" en wat weinig naar "holy shit, het is wel behoorlijk wild dat software de stap aan het zetten is naar het creëren van content, (live) vertalen, samenvatten, interpreteren, etc. dit heet de potentie voor een volledig nieuwe interface tussen mens en computer en de potentie voor honderd en een toepassingen in ons leven!"

De root cause is gewoon angst voor verandering. Dat was er toen de machinebreakers stoommachines gingen slopen, toen koetsiers bang waren dat paarden overbodig werden door auto's en de trein en toen typisten werden vervangen door personal computers. Nu zijn het alleen tolken,notarissen, kunstenaars en stukjesschrijvers wiens werk gaat veranderen en dat vinden die mensen eng.
Dat het potentiële eindpunt mooi is, heiligt volgens jou dus de middelen om er te komen?

Wat hier gebeurt heeft niks te maken met angst voor AI (al zijn er zeker aspecten waar we enorm voor uit moeten kijken), maar alles met de manier waarop er hier zaken wordt gedaan. Er gelden regels en daar dienen bedrijven zich aan te houden, zelfs als ze ons (lees: aandeelhouders) gouden bergen beloven.

Volgens mij zijn het vooral de bedrijven die angstig zijn, en dus alle fatsoen overboord gooien om maar niet de AI-boot te missen.
Ik weet het niet. Ik hoor vaak mensen zeggen dat de regels voor bescherming van auteurs niet toereikend zijn omdat niemand ooit AI had voorzien. Dat kun je ook omdraaien. De huidige regels tegen door soort scraping beschermen volledig de belangen van de grootste monopolie bedrijven in de AI ontwikkeling en blokkeren juist de mogelijkheden van startups ook dit vlak. Is dat wat je wilt? Ik zou in de breedte beargumenteren dat geen van die regels rekening heeft gehouden met AI en dat er dus ook nooit een discussie heeft plaats gevonden wat de goeie balans is van bescherming van rechten van alle stakeholders en de afweging hiervan tegenover het grotere goed. Dat is wat genuanceerder dan het doel heiligt de middelen
En hoeveel van het content op YT is gemaakt op nvidia hardware?
Je zou het argument kunnen maken dat YT enkel content host maar niet de eigenaar is.

Dat neemt niet weg dat de content creator zelf eigenaar is en dat het gevecht tussen die twee partijen is.
En hoeveel van het content op YT is gemaakt op nvidia hardware?
Stel jij nu dat Nvidia eigenaar zou zijn van content gemaakt op Nvidia hardware? Hoe zit dat dan als er een cpu van intel bij komt? moederbord? geheugen? is de code die ik typ op mijn logitech tobo dan van logitech?
Of simpeler genomen, als jij tekst op een blad papier zet is dat dan ook van de fabriekant van dat blad? of is het dan van de pen?
Je zou het argument kunnen maken dat YT enkel content host maar niet de eigenaar is.
Je zou dat argument inderdaad kunnen maken want Youtube is niet de copyright houder van de content gehost op hun platform. Is ook niet dat ze hier geheimzinnig over doen:
You retain ownership rights in your Content. However, we do require you to grant certain rights to YouTube and other users of the Service
Dat neemt niet weg dat de content creator zelf eigenaar is en dat het gevecht tussen die twee partijen is.
Ja en Nee, zo simpel is het niet, Als het puur om copyright inbreuken gaat, heb je waarschijnlijk gelijk.
Echter is er dus wel een grote maar, namelijk het volgende:
YouTube's terms of service prohibit scraping or otherwise accessing their data in an automated way without explicit permission. However, they do allow limited scraping for non-commercial personal use cases like academic research
En voor zover ik kan zien lijkt dat niet het geval te zijn voor Nvidia.
Stel jij nu dat Nvidia eigenaar zou zijn van content gemaakt op Nvidia hardware? Hoe zit dat dan als er een cpu van intel bij komt? moederbord? geheugen? is de code die ik typ op mijn logitech tobo dan van logitech?
Of simpeler genomen, als jij tekst op een blad papier zet is dat dan ook van de fabriekant van dat blad? of is het dan van de pen?
Misschien als je quicksync gebruikt maar je RAM en keyboard doen geen video rendering.
Ja en Nee, zo simpel is het niet, Als het puur om copyright inbreuken gaat, heb je waarschijnlijk gelijk.
Echter is er dus wel een grote maar, namelijk het volgende:
Het gaat puur om copyright inbreuk.
Die 404 site geeft aan dat het van YT komt maar voor hetzelfde wordt de content tijdens het renderen al "gescraped".
Welke bewijs hebben ze dat ze YT scrapen?

Niet dat ik zeg dat dit een betere oplossing is maar ik ga niet zomaar uit van aannames.
Misschien als je quicksync gebruikt maar je RAM en keyboard doen geen video rendering.
Is niet hoe het werkt, is niet hoe het ooit gewerkt heeft.
Heb al meer dan een jaar geen reclame gezien op YouTube. :P

Heerlijk die Brave Browser.

Anyway. Of iets “gratis” op internet staat betekent niet dat je het zomaar kan gebruiken. Zeker niet voor persoonlijk gewin (waaronder inkomen) zonder vermelding van een bron. Zeker als je een duidelijke recente bron hebt.

Natuurlijk ga je niet je geschiedenis leraar refereren als bron als je iets verteld over Napoleon, maar het trainend van een AI voor het gewin van een commercieel bedrijf op auteursrechtelijk materiaal is niet eens grijs gebied. Het is er overduidelijk misbruik van maken. Zeker als wat het bericht zegt er al twijfels waren over de legaliteit, dan is het gewoon bewust doorgezet zonder juridische analyse/advies.

Daar mag best een forse straf op zitten.
>Heerlijk die Brave Browser.

Toch ook gewoon chromium?
Maar wel zonder reclame op YouTube. Probeer maar eens. Echt een verademing.

Porsche is ook gewoon een auto.

Dreft is ook gewoon afwasmiddel.

[Reactie gewijzigd door phoenix2149 op 6 augustus 2024 12:46]

Niet helemaal waar, want tenzij die training farm de reclames blokkeert, kijken ze ook gewoon de reclames en verdient YouTube er wel degelijk aan.

Advertentieaanbieders betalen namelijk per weergave.
aangezien het scrapen is en niet perse de webpagina openen, zal er geen ad geserveerd zijn. Denk niet dat nvidia dat ook als trainingsdata wou hebben.
Dat dacht ik ook, maar zou YouTube dat niet makkelijk afvangen? Beter om alles in te laden en een normale gebruiker te lijken, dan geblokkeerd te worden.
Het verklaart wel de vele "Invalid Traffic" meldingen waar sinds AI een hype werd veel creators ineens mee te maken krijgen. Als het bots zijn die de reclame tonen ziet YouTube het inderdaad als ongewilde traffic.
Nvidia zou wat mij betreft YouTube moeten compenseren voor het gebruik van hun systemen, maar ik zie niet waarom het auteursrechten zou schenden.
Ik vermoed dat de auteursrecht schending geclaimd wordt op basis van het verwerken van andermans werk voor commercieel gewin zonder daarvoor te betalen. Ik verwacht dat men wil dat Nvidia verplicht is om voor ieder werk dat ze gebruiken om de AI mee te trainen een licentie af te nemen bij de houder van het auteursrecht op dat werk en daarvoor dus te betalen als deze auteur dat wenst.
Ik ben het wel met je eens hoor. ik snap die reactie hier op tweakers bij alles rond AI echt niet. De gemiddelde tweaker hier op het forum is inmiddels volgens mij al 20 jaar geen tweaker meer maar iemand die dat vroeger was.

Iedereen heeft 20 jaar lang iedere scheet in het openbaar op het internet geplurd en dan zijn mensen verbaasd dat die informatie wellicht door iemand gebruikt wordt. Als ik begin met schilderen en mezelf dat aanleer op basis van bob ross en youtube filmpjes en ik creer over 20 jaar een meesterwerk dan kunnen die mensen toch ook niet verwachten dat ze een deel van de opbrengst krijgen? Hoezo vind iedereen dan opeens dat als je precies dat doet met AI dat het dan niet goed is?
Hoezo vind iedereen dan opeens dat als je precies dat doet met AI dat het dan niet goed is?
Omdat een AI geen mens is?

Het werkt compleet anders en de uitkomst is ook anders. Jij kijkt dat filmpje en leert hoe je zelf een schilderij moet maken, een AI kijkt geen filmpje maar kopieert data. Nu word die data niet 1 op 1 opgeslagen maar het is wel mogelijk om het uiteindelijk weer te reconstrueren.

Vervolgens kan die AI zelf ook weer gedupliceerd worden, en die zelfde data kan ook gebruikt worden voor andere AI modellen.

Het is gewoon appels met peren vergelijken.

Daarnaast is er ook een andere manier van verwerking. YouTube werkt met advertentie en sponsor deals. De mensen die daar een filmpje op zetten doen dat met de intentie dat ze daar op die manier inkomsten mee genereren. AI kopieert in principe eenmalig een video, en genereert geen cent inkomsten.

Vervolgens word die video wel duizenden keren verwerkt in de training, maar niet vanaf de originele bron.
Ik vind dat het ook tegen de voorwaarden in gaat dat je geen video's mag downloaden van YouTube. Nee, het is geen exacte kopie maar het komt er in de basis wel op neer.

Voor mij de grens heel duidelijk, de doelgroep was een mens en andere automatische verwerking is volgens de voorwaarden niet toegestaan. In principe is het een fancy kopieermachine.
Niet helemaal mee eens. Het is zoals altijd gewoon nog steeds scraping, de verwerking is alleen anders.

Als we dit gaan verbieden mag bijv google eigenlijk ook niet teksten van de website overkopieren en in zoekresultaten stoppen. :+
Dit soort onzin zijn we allang voorbij. Partijen maken afspraken over het wel of niet mogen gebruiken van bepaalde informatie.
Dat een mens het ziet of een kopieermachine boeit me geen ene moer. Viewbotten bestond al bijvoorbeeld langer dan de huidige controversie en daar krijgt men ook geen cent voor. Er zijn manieren om te herkennen dat iemand een mens is en men moet daar maar gebruik van maken.
Het verschil is dat Google bij het scrapen zegt "hoi ik ben GoogleBot" en tevens naar je instructies in robots.txt luistert, waardoor je als website-eigenaar de mogelijkheid hebt GoogleBot te blokkeren of de scrape-snelheid in te stellen. Bovendien krijg je als dank traffiek van Google naar je website.

De AI-haaien daarentegen scrapen alles wat los en vast zit, of je dat nu wil of niet, en je hebt er ook helemaal niks aan, behalve extra kosten aan infra/traffic.

Heb helaas persoonlijk ervaring met een Chinese scraper die vanop minstens 700K verschillende IP's opereert (!) en met bijna even veel verschillende user agent strings. Eén IP, één user agent, één request naar je site. En zo dan af en toe enkele duizenden op een tiental seconden. Kan je niks tegen beginnen, behalve JS challenges of heel China in de ban doen. Ja, dat kost geld aan website-eigenaars.
Het verschil is dat Google bij het scrapen zegt "hoi ik ben GoogleBot" en tevens naar je instructies in robots.txt luistert, waardoor je als website-eigenaar de mogelijkheid hebt GoogleBot te blokkeren of de scrape-snelheid in te stellen. Bovendien krijg je als dank traffiek van Google naar je website.
True, dit is helaas alleen maar voluntary compliance, er is geen wetgeving hierover. Genoeg keren ook gebeurd dat men dit negeert. Of het nou voor goede of slechte redenen is.

Overigens zou europese wetgeving hierover niet helpen tegen Chinese bots en scrapers.

[Reactie gewijzigd door Waswat op 7 augustus 2024 02:30]

[...]
Omdat een AI geen mens is?

Het werkt compleet anders en de uitkomst is ook anders. Jij kijkt dat filmpje en leert hoe je zelf een schilderij moet maken, een AI kijkt geen filmpje maar kopieert data. Nu word die data niet 1 op 1 opgeslagen maar het is wel mogelijk om het uiteindelijk weer te reconstrueren.

Vervolgens kan die AI zelf ook weer gedupliceerd worden, en die zelfde data kan ook gebruikt worden voor andere AI modellen.
Dit is toch op heel veel manieren helemaal niet zo anders als een mens? De data wordt niet 1 op 1 opgeslagen maar gebruikt om iets te leren. een patroon te herkennen en dit patroon te kunnen toepassen om iets nieuws te creëren. Dat je daarmee het origineel KAN reconstrueren vind ik niet zo spannend, dat KUNNEN in theorie mensen ook. Ik kan op basis van een bezoek aan het rijksmuseum in theorie de nachtwacht ook naschilderen. Wat ik als mens echter doe bij het bestuderen van kunst, het kijken van instructiefilmpjes en het nadoen van schilders is mijzelf de vaardigheid aanleren om iets te schilderen en daarmee iets schilderen wat ik bedenk. En zelfs dat bedenken is 100 % het gevolg van alles wat ik gezien, gehoord, gevoeld en ervaren heb, veelal dingen gecreëerd door anderen.
Daarnaast is er ook een andere manier van verwerking. YouTube werkt met advertentie en sponsor deals. De mensen die daar een filmpje op zetten doen dat met de intentie dat ze daar op die manier inkomsten mee genereren. AI kopieert in principe eenmalig een video, en genereert geen cent inkomsten.

Vervolgens word die video wel duizenden keren verwerkt in de training, maar niet vanaf de originele bron.
Ik vind dat het ook tegen de voorwaarden in gaat dat je geen video's mag downloaden van YouTube. Nee, het is geen exacte kopie maar het komt er in de basis wel op neer.

Voor mij de grens heel duidelijk, de doelgroep was een mens en andere automatische verwerking is volgens de voorwaarden niet toegestaan. In principe is het een fancy kopieermachine.
Dit vind ik een sterker argument. Juridisch gaat dit denk ik ook zeker gevolgen hebben, je ziet ook niet voor niets partijen als OpenAI hard op zoek naar overeenkomsten voor trainingsdata. Ik ben alleen wel een beetje bang dat het (in mijn ogen onwenselijke) resultaat van dit handhaven gaat zijn dat AI ontwikkeling zich zal concentreren bij juist de grote bedrijven die zelf die data al hebben (bijv google) of de diepe zakken om overeenkomsten af te sluiten en het juist open source en kleine ontwikkelaars van modellen kapotmaakt.

Daarnaast is mijn persoonlijke mening dat AI zoveel kan opleveren dat het toch wel doorgaat, is het niet door westerese ontwikkelaars die volgens onze spelregels moeten spelen dan wel door partijen in China en Rusland. Dan maar liever accepteren dat dit gebeurt maar onder onze controle en toezicht dan dat wij de deur helemaal juridisch dichtgooien en straks helemaal voorbij gelopen zijn door China.
Ach zolang dit soort zaken telkens weer afgedaan worden met het opleggen van boetes die deze grote bedrijven makkelijk op kunnen hoesten is het makkelijk en een goedkope manier om aan data te komen, daarnaast zijn die boetes aan de andere kant weer een mooi verdienmodel voor degenen die de boetes opleggen en/of de centjes ontvangen. Ook hier weer, de data hebben ze nu al bij Nvidia nu alleen nog even afwachten wat het ze gaat kosten…
als je precies dat doet met AI
Maar het is niet precies dat.
Het zou toch overduidelijk moeten zijn dat AI dat leren op veel grotere schaal doet in een fractie van de tijd die een mens nodig zou hebben en bovendien in staat is om vervolgens ontelbare potentiële meesterwerken uit te poepen. Voor een bedrijf dat daar logischerwijs heel veel geld mee denkt te gaan verdienen.

Het principe van het vergaren, bewaren en overdragen van kennis hebben ons gebracht waar we nu zijn. En AI kan erin helpen in zeer korte tijd enorm veel te ontdekken. Maar het heeft ook een keerzijde.
Want waarom zou je nog een kunstenaar betalen voor iets wat door AI uitgepoept kan worden. Hoe kun jij over 20 jaar nog een meesterwerk maken als letterlijk iedere techniek, stijl, onderwerp en variaties daarop al door AI zijn vastgelegd en een robot bij wijze van spreken aan de lopende band 'echte handgeschilderde meesterwerken' kan maken?
Wat is nog de meerwaarde van een schrijver nu het grootste deel van de bevolking ook zelf kan schrijven ten opzicht van toen 99% van de bevolking niet kon lezen en schrijven? Wat is de meerwaarde van fotografen nu iedereen een mobiele camera op zak heeft in plaats van dat alleen de select few een fotocamera had?

De moderne boer verbouwt voedsel ook op een veel grotere schaal in een fractie van de tijd en die ontwikkeling heeft de mensheid de vrije capaciteit gegeven om een samenleving op te bouwen waar mensen gespecialiseerd kunnen zijn in hersentumoren bij kinderen behandelen, machines te bouwen die machines bouwen die op 2nm chips kunnen bakken, om geschiedenis te studeren of vrijetijdskunde en om naar een pretpark te kunnen op hun vrije zaterdag.

Het is zo een bizar anti-vooruitgangsdenken. Het is juist fantastisch als de toekomst het mogelijk maakt voor iedereen om laagdrempelig kunstwerken te genereren. Hoezo moeten handgeschilderde unieke kunst echt voorbehouden blijven aan mensen die de duizenden euro's over hebben om dat er voor te betalen als we het als mensheid straks ook voor een paar tientjes aan drukkosten kunnen doen? Die niche van hoogwaardige handgemaakte kunst voor de elite blijft er toch wel. Dit betekend gewoon meer rijkdom voor heel veel mensen en meer vrije handen om andere werkzaamheden op te pakken. Die totale paniek over wat simpelweg een effectiviteit en productiviteitsgroei is simpelweg omdat het kunstenaars betreft is mij echt een raadsel.

Historisch hebben dit soort ontwikkelingen altijd geleid to meer rijkdom en meer werk, ondanks dat specifieke banen misschien wel minder werden of wegvielen. De angst voor vooruitgang is echt bizar te noemen.
De angst voor vooruitgang is echt bizar te noemen.
Het gebrek aan besef dat niet alle ontwikkelingen per definitie vooruitgang zijn is bizar te noemen.
Wat is nog de meerwaarde van een schrijver nu het grootste deel van de bevolking ook zelf kan schrijven ten opzicht van toen 99% van de bevolking niet kon lezen en schrijven? Wat is de meerwaarde van fotografen nu iedereen een mobiele camera op zak heeft in plaats van dat alleen de select few een fotocamera had?
Het is nog steeds overduidelijk dat '99%' dan weel wat letters achter elkaar kan zetten en op het knopje van de camera kan drukken maar niet het niveau of talent heeft van een ervaren schrijver of fotograaf.
Het punt is dat dat schrijven en fotograferen creatieve uitspattingen kunnen zijn, hobby's kunnen worden en verder omdat men er beter in wil worden, nieuwsgierig is wat de mogelijkheden zijn en bepaalde doelen wil bereiken.
Het fotograferen is door technologie al aanzienlijk verandert, van het daadwerkelijk nemen van een foto naar het opnemen van zoveel mogelijk rauwe data en er op de PC een mooi plaatje van maken. En je kunt je gerust afvragen of dat een wenselijke ontwikkeling is.
De moderne boer........
Geen zin om hier ver op in te gaan want het is allemaal veel te gegeneraliseerd. Als je alleen naar de ontwikkelingen in Nederland kijkt zie je al dat die verschuiving naar hoog opgeleid werk en veel vrije tijd er toe geleid heeft dat we enorm veel arbeiders uit het buitenland moeten halen. Soms heb je gewoon 'boeren' nodig.
Historisch hebben dit soort ontwikkelingen altijd geleid to meer rijkdom en meer werk, ondanks dat specifieke banen misschien wel minder werden of wegvielen.
Wederom veel te generaliserend. En die ontwikkelingen zijn tot nu toe beperkt gebleven tot mechanisering, automatisering van werkzaamheden die beter en sneller moesten omdat de hele mensheid er mee bedient moet worden.
Het is ook makkelijk praten als je alleen naar het rijke westen kijkt maar alle handarbeid is verplaatst naar 'lage lonen landen' en als die zouden automatiseren heeft de bevolking daar echt niet meer rijkdom of meer of ander werk. We hebben letterlijk het probleem verplaatst.
Die totale paniek over wat simpelweg een effectiviteit en productiviteitsgroei is simpelweg omdat het kunstenaars betreft is mij echt een raadsel.
Het is geen "totale paniek" en het gaat niet alleen om "handgemaakte kunst voor de elite" nog is het "simpelweg een effectiviteit en productiviteitsgroei". Er zijn miljoenen mensen werkzaam in 'creatieve' beroepen in de ruimste zin van het woord.
Maar het gaat zelfs niet eens over creativiteit die per definitie iets oplevert.
Die innovatie, ontwikkelingen, technologische groei hebben creativiteit, nieuwsgierigheid en de mogelijkheid om dingen te creëren als grondslag. Dingen als kunst, muziek, enz. en de capaciteit om iets te waarderen voor het werk dat er in is gestoken of voor het emotionele effect dat het op ons heeft zijn onontbeerlijk.
Het is een essentieel onderdeel van wat ons mens maakt.
gemiddelde tweaker hier op het forum is inmiddels volgens mij al 20 jaar geen tweaker meer
Ik denk dat dat vooral van toepassing is op de frontpage (comments). Op het forum zijn zeker nog wel 'echte' geeks/tweakers te vinden hoor.
Wat is volgens jou de definitie van een Tweaker dan?

Edit:
Maar om even te reageren op het artikel. Ik denk dat het vooral knelt bij het volgende:
Als jij naar andere schilders kijkt, dan doe je er ontzettend lang over om een schilderij ervan te maken.

Als een bedrijf (welk bedrijf dan ook) auteursrechtelijk materiaal gebruikt (waar voor zover ik weet ook gewoon voorwaardes aanzitten, die je moet accepteren voordat je het kunt kijken) en dat onbeperkt kunt verspreiden, dan wringt dat.

Dat is volgens mij vergelijkbaar met Google die nieuws artikelen, zonder vergoeding, aan het samenvatten was. Dat leek er voor te zorgen dat het bezoek naar die sites kelderde.

Ik denk dat nvidia er ook niet blij mee zou zijn als je stukjes van hun chip design zou gebruiken, dat zo op internet zou gooien en dan daar ook nog een onvoorstelbare bakken met geld mee verdient.

Ik beschouw mijzelf nog steeds als Tweaker. En ik maak mij er zorgen over, waarom mensen straks nog zelf content online zouden zetten, omdat ze weg worden gekopieerd door AI. Het voelt voor mij als de verdere teloorgang van het internet waar wij juist als Tweaker zo van hebben genoten.

[Reactie gewijzigd door Sandburger op 6 augustus 2024 10:45]

er is een verschil tussen de reden waarom mensen iets online zetten en het doel waarvoor die dingen gebruikt kunnen worden.
Jij vond het misschien leuk om een filmpje met oma te kunnen delen van je vakantie, niet beseffende dat die video nu 20 jaar later door een commerciëel bedrijf kan misbruikt worden om een AI je verouderingsproces te laten analyseren en uit te sluiten van bepaalde verzekeringsproducten omdat ze hebben gezien dat die moedervlek van toen eigenlijk een huidkanker was die nu uitgezaaid is, mogelijks zonder dat je zélf al weet dat je dit hebt.
ik denk dat scrapen hier de keyword is. Maar ik zat precies aan hetzelfde te denken inderdaad.
Wat als de het AI model nou alleen content kijkt, maar niet scraped. Mag het dan wel ?
In die context is kijken door AI hetzelfde als scrapen door AI. Scrapen is ergens informatie uithalen, of de AI dat doet door er naar te kijken of de bitjes te analyseren maakt helemaal geen verschil...

Wikipedia: Web scraping

[Reactie gewijzigd door watercoolertje op 6 augustus 2024 09:52]

Om het te "kijken" moet er bijna altijd gescraped worden. Anders kom je nooit aan de nodige hoeveelheid data, want legale datasets zijn zelden voldoende groot. Een model zelf doet trouwens niets, het zijn de ontwikkelaars die scripts maken en dus scrapen.

Het "kijken" en "leren", evenals de snelheid waarop dat gebeurt, is overigens niet te vergelijken met een mens. Bijkomend is het eindresultaat een commercieel product dat aan veel hogere snelheid dan de mens data dat het uit de trainingsset gehaald heeft kan herbruiken. Verder vindt er een hergebruik van auteursrechtelijk beschermd werk plaats op een manier waarop de auteur niet ingestemd heeft, net door dat duidelijke verschil (mensen die de video bekijken vs rechtstreeks software trainen.)

Dat zijn zo een aantal problemen wat velen ermee hebben.

Ik heb op zich niks tegen AI. Ik vind het geweldig wat ermee kan, en juich de ontwikkelingen alleen maar toe (mits mensen het correct leren gebruiken). Maar ontwikkel het wel op een legale manier.
Het internet is grof gezegd naar de klote aan het gaan door de grote multinationals en hun "greed".
Zo gaat alles in de wereld toch kapot? De traditionele media (radio, tv) zijn al niet bruikbaar meer doordat de helft van de tijd gevuld wordt met reclame. Die zijn ook ooit begonnen met pure informatie, zonder onzin erbij. Net als het internet. Het begon netjes schoon, en nu wordt het in steeds sneller tempo vervuild door grote bedrijven.

Het grootste deel van het internet is voor mij al niet interessant meer, of is zelfs actief mij aan het benadelen (door oa datamining). Ik open geen facebook pagina's of andere social media rommel. Ik koop niks bij monopoliserende toko's als Amazon en Bol. Eigenlijk hou ik überhaupt niet van kopen op internet en beschouw ik het als last resort wanneer iets echt niet offline te krijgen is. Ik heb privacy instellingen die af en toe pagina's kapot maken, en dat is prima, want liever de pagina niet zien dan allemaal data weggeven. Plus een dns blocklist (a la pi-hole maar zelfbouw) op de lokale router, om ook troep vanuit software te weren. Ik gebruik ook geen IoT/smarthome/cloud troep, en komt er ook niet in. Etc etc. Het klinkt wellicht een beetje opa-achtig, maar vroeger was een hoop inderdaad wel beter. Niks mis met offline voor wat dan ook. Ik rij een auto zonder enige vorm van draadloze communicatie (nou ja, op de sleutel na) en kijk niet uit naar de dag dat ie vervangen moet worden, want de huidige auto's worden steeds meer een rijdende smartphone, en ik wil geen connected troep in een auto. Zelfs een in principe goed idee zoals elektrische motoren worden meteen maar weer aan allemaal online troep gekoppeld, zoals automatische digitale betalingen en apps. Bah.

Hoe is het toch zo ver gekomen? Ik was in de jaren 90 een van de voorlopers in mijn omgeving op IT gebied. Nieuwe tech was leuk en nuttig. Ik had geen geld voor de snelste hardware, maar wel de interesse om het maximale te halen uit wat ik had. Tegenwoordig heb ik een groeiende aversie tegen alles wat met online te maken heeft. Met dank aan grote bedrijven. Die maken alles kapot wat ze aanraken voor financieel gewin. Het internet zal vanzelf wel weer eens ten onder gaan aan dit soort praktijken, net zoals de lineaire TV aan het uitsterven is. En dan komt er wel weer wat nieuws. Niks is voor eeuwig, het internet is geen eindstation maar een tussenstop. Hopelijk is er bij de opvolger beter nagedacht over misbruik door bedrijven.
Mijn controversiële mening:
Als het vrij te zien is op het internet waarom mag je het dan niet gebruiken? Ik als persoon leer ook vaak iets uit een youtube filmpje en soms verdien ik er ook iets aan.
Machine learning is geen persoon. Alleen dit al:
‘videodatafabriek die per dag een visuele ervaring ter waarde van een mensenleven aan trainingsgegevens kan opleveren.’
Stop gewoon met de vergelijking met mensen trekken. Het is niet eens AI, en al helemaal geen mens. Het is een datasysteem waar enorm veel data in gepompt word voor commerciëel gebruik, zonder de rechten voor deze data te bemachtigen.

Er is geen simpel analoog voor. Het is iets compleet nieuws waar copyrightwetgeving wellicht niet tegen bestand is (of misschien ook wel, daar verdelen de meningen over), maar in het algemeen zou ik zeggen dat als de rechtenhouder niet okee is met dit gebruik dat het niet gebruikt moet worden. Is dat niet redelijk?

[Reactie gewijzigd door Wolfos op 6 augustus 2024 11:31]

Zoals je zegt is het een volledig nieuwe vorm van datagebruik wat nieuwe wetgeving vereist, maar daarom is het dus zo debiel dat er door de anti-AI kant van de discussie constant gedaan wordt alsof er wel een wettelijke basis voor is.

Je bent heel stellig over dat een AI geen mens is, dat is ook zo. Maar het zijn wel beide computers die het zelfde doel kunnen bereiken en dat op grotendeels de zelfde manier doen. Waarom mag ik wel mensen in dienst hebben die een schilderijen in een bepaalde stijl maken, maar niet een AI hebben die het zelfde doet?

En als het product wat er uit komt te veel lijkt op de inspiratiebron, dan is het nog steeds een geval van auteursrechtenschending. Of het nou door een AI gemaakt wordt of niet.
Je mag de content niet commercieel hergebruiken. Vrij raadpleegbaar != vrij kopieerbaar.
Zo'n voorbeeld kan ik ook wel geven: Ik heb een enorme hoeveelheid oude dvd's, video-cd etc. Als ik nou mijn eigen AI software al dat materiaal, waar ik een kijklicentie voor heb (zo omschreef althans BREIN en copyrighthouders dat voor die media) laat trainen. Mag ik die AI dan eigen films laten produceren en verkopen/verhuren als ik dat combineer met mijn eigen beeltenis, of dat van mijn familie? Ik heb immers een kijklicentie! Voor zover ik het begrijp, kan AI op termijn gewoon complete films uitspuwen, gebaseerd op bestaand materiaal.
Mag men een Nieuwe boek/film/muziek/video/lied/content maken en uitgeven dat gebaseerd is op en/of gebruik maakt van (de gehele euvre) van een andere maker, zonder diens toestemming?
Mijn controversiële mening: Als het vrij te zien is op het internet waarom mag je het dan niet gebruiken?
Zo kan je ook redeneren over andere dingen, bijv "Als het vrij te zien is op straat waarom mag je het dan niet gebruiken?"

Dus jij loopt over straat, iemand neemt een foto van jou en gebruikt die in een reclamecampagne voor aambeiencrème of een middel tegen erectieproblemen (of nog erger).

Zou trouwens ook kunnen met een foto van een openbaar profiel: linkedin, facebook, e.d.

Ofwel: nee, het is fijn dat er wetten en regels zijn die dat soort dingen voorkomen.

[Reactie gewijzigd door MeMoRy op 6 augustus 2024 16:28]

Omdat ze er geld mee verdienen.

Ik mag uw reactie ook citeren en gebruiken (mits ik er mijn eigen bijdrage aan toevoeg). Maar als ik het op een T-shirt afdruk en verkoop zonder uw toestemming is het een ander verhaal.

Als AI op content wordt getraind zou er niet aan juist citeren gedaan worden en wordt de content zonder toestemming gebruikt. Nvidea verdient er ook geld aan. Dan is het geen fair use meer.

[Reactie gewijzigd door bewerkers op 7 augustus 2024 09:34]

Het RVO heeft in een artikel over databankenrecht het volgende staan:
U mag een databank gebruiken als u daarvoor toestemming heeft van de maker. Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de maker.
Nu gebruikt men bij het trainen van AI-modellen deze gegevens expliciet om patronen, trends en verbanden te ontdekken, wat suggereert dat wat Nvidia heeft gedaan (binnen Europese wetgeving) mogelijk legaal is.
Oprecht begrijp ik alle ophef niet zo zonder toevoeging van relevante informatie.
Wat was er fout aan wat nVidia deed?
Welke regels of wetten zijn overtreden?

Ik kijk ook YouTube in het geheim, niemand weet er van en ik heb niemand toestemming gevraagd. De moraliteit van het YouTube kijken staat ook niet ter discussie.

Lijkt me niet dat een artikel moet leiden tot dat ik zelf het internet op moet gaan om uit te zoeken wat er nou aan de hand is. Dus vertel me graag waarom ik ook verontwaardigd zou moeten zijn.
Wat was er fout aan wat nVidia deed?
Welke regels of wetten zijn overtreden?
Het gebruik en verwerken van materiaal dat beschermt is met copyright. Erger: voor commerciële doeleinden.

Wat is dit schijnheilige gedoe hier in de comments dat als het oké is voor een persoon om naar een video te kijken, dat dat dan direct betekent dat iedereen alles mag doen met iedere video die ze vinden?
Het is echter niet zo kant en klaar. Ten eerste is copyright van toepassing op "origineel werk", het is dan ook maar de vraag of dit het geval is met de gescrapte content van Youtube. Verder is copyright van toepassing op het eindresultaat, niet op de onderliggende materie. Dus een youtube video mag een mooi verhaal in elkaar steken over bijvoorbeeld hoe een SSD werkt, echter de copyright is niet van toepassing op de informatie zelf.

Daarnaast is copyright ook niet zo recht toe recht aan, verschillende jurisdicties, verschil in gebruik (en regio's wederom) hebben impact op het gebruik. Ook mag je je afvragen hoe we met data omgaan, stel je trained een LLM met snippets net zoals Google doet met nieuws, is dat niet toegestaan?

Uiteindelijk valt er veel van te zeggen door zowel voor als tegenstanders, ik ben zelf geen advocaat maar ik denk dat het nog wel even duurt alvorens we hier helderheid in hebben.

Side-note hoewel ik me kan vinden in copyright, vind ik het raar dat deze zolang in het leven blijft en zou het voor mij logischer zijn net zoals een patent dat deze na 15 cq 20 jaar vervalt. Disney heeft hier hard gevochten om Mickey & Co ongekend lang uit te melken, hier heeft niemand baat bij.
Over sommige (lang niet alle!) video's op YouTube kun je inderdaad discussiëren of het origineel werk is (al is het maar de vraag of hier onderscheid in werd gemaakt door de bots; ik heb zo'n donkerbruin vermoeden van niet), maar praktisch alles dat op Netflix staat valt wél onder copyright.

Daarnaast speelt hier een ander aspect in mee, namelijk het betalen van de mensen die de content hebben gemaakt. Zowel op YouTube als Netflix krijgen heel veel mensen per stream een vergoeding. Het werk van videomakers, schrijvers, acteurs, regisseurs, etc. wordt nu gebruikt door AI-modellen om nieuwe content mee te maken, zonder dat zij daarvoor enige vorm van compensatie voor terugzien.

[Reactie gewijzigd door Tc99m op 6 augustus 2024 12:35]

Het gebruik en verwerken van materiaal dat beschermt is met copyright. Erger: voor commerciële doeleinden.
Bij het kijken van LTT gebruik ik de informatie ook voor commerciële doeleinden, mijn keuze voor hardware, en advies naar familie en vrienden, etc, etc.
IA is niets anders dan het laten leren van een systeem, en nu ineens zien wij het gevaar ervan?

Straks moeten wij akkoord gaan dat de verkregen informatie niet mag worden gebruikt?
Straks moeten wij akkoord gaan dat de verkregen informatie niet mag worden gebruikt?
Nee want een mens en AI is niet hetzelfde, al kan je in AI 100% een mens namaken is het nog geen mens en gelden niet dezelfde plichten en rechten (in ieder geval op dit moment)...

[Reactie gewijzigd door watercoolertje op 6 augustus 2024 11:51]

Dat is helemaal niet hoe het werkt.
Je gebruikt de informatie uit de video om een pc te bouwen. Daar trap je helemaal niet op de copyright van LTT.

Moest je nu zelf een nieuwe video maken waarin je clipjes gebruikt uit LTT of de video helemaal nabootst zonder correcte toepassing van vermeldingen of copyright, dan ga je in de fout.

En dat is waar AI scrapen ook in de fout gaat.
Ironisch, Youtube bestaat bij gratie van de schending van door copyright beschermd materiaal.
Die opmerking slaat duidelijk niet specifiek op jouw reactie (maar op alle in dezelfde trant) en slaat ook niet op personen maar op reacties...

Dus nee hij noemt je niet schijnheilig, maar je reactie (en die van anderen) wel :Y)

[Reactie gewijzigd door watercoolertje op 6 augustus 2024 11:56]

geldboete helpt niet inderdaad. gewoon verbod op beroepsuitoefening en gevangenis straf voor directie / eigenaar
Google doet precies t zelfde en nog veel erger voor hun eigen ai.
Hoe kom je daar bij en waar kunnen we daar over teruglezen?
Hoe denk je dat het daar aan toe gaat. Dat die nog braver zijn dan nvidia?! Daar hoef je niet ergens terug te lezen het is gewoon niet meer dan logisch. Al die ai bedrijven zuigen alles op.
UIt de duim gezogen dus, prima natuurlijk maar zeg het dan niet alsof het een feit is :)
Hoe betrouwbaar is die 404media?
Het lijkt mij dat emails makkelijk na te maken zijn en heeft Nvidia ook officieel dan gereageerd?

Het artikel op tweakers is ook niet erg duidelijk met woorden als 'zou' en 'naar verluid'

Is er ook echt bewijs of is het nu nog vooral een beschuldiging en sensatie makerij van een zo lijkt het best wel kleine alt media bedrijf?

*Edit*
die hele 404 media bestaat nog niet eens een jaar en de meeste artikelen die ik kan gaat over hoe AI data scrapte van het internet.

Ik heb vooral het gevoel dat ze een scoop willen maken zodat ze weer even relevant zijn.

Ik vind het eigenlijk kwalijk dat tweakers hier een nieuwsbericht over maakt.

[Reactie gewijzigd door dutchruler op 6 augustus 2024 11:23]

404media is opgericht door een aantal medewerkers van Motherboard na het failissement van Motherboard. Dat was te vinden, de redacteuren worden bij naam genoemd en hun credentials zijn dus ook te achterhalen.

Het is ergens logisch dat dit soort berichten worden gelekt naar een organisatie die zich in het algemeen kritisch opstelt ten opzichte van AI. Dat 404 media niet lang bestaat is niet per se een reden voor wantrouwen, maar natuurlijk is er een bias die ze niet proberen te verbergen.
Ik begrijp niet waarom nieuwsartikelen dit constant brengen als iets heel schokkends. Momenteel wordt het trainen van een AI op auteursrechtelijk beschermde data, in ieder geval in de VS, nog niet als een copyright schending gezien. Het is volstrekt logisch dat bedrijven dit dan ook doen. Uiteraard kan je hier moreel van vinden wat je wilt, maar het is niet alsof deze bedrijven de wet overtreden.
Google heeft sinds oprichting ook miljarden websites gescrapet voor indexering en zoekfunctionaliteit. Content met copyright gekopieerd naar de eigen database om winst te maken. Dus het zou inderdaad onder fair use kunnen vallen.
Het internet scrapen om die informatie te verkopen, verwerkt of niet. Dat gebeurt toch al 20 jaar... Waar komt deze ophef vandaan. Is niemand hier bekend met websites als Finnik, bedrijven die marktanalyses verkopen, etc. Dit is al heel lang een normale gang van zaken, maar nu een media bedrijf zegt dat het een probleem is is het ineens een probleem. Zal tweakers niet andere nieuws bronnen lezen om met die kennis hun eigen content te maken en verkopen?
Het komt door de al dan niet terechte paniek rond AI.
Vraag me wel af hoeveel. Waarschijnlijk geen eens 1% van de video's. Zelfs met virtuele machines en wisselende ip adressen. Misschien alleen de populaire video's. Hoeveel video's erop staan is echt immens.
OK, dat Nvidia boeven waren op commercieel gebied was me al heel lang duidelijk. Maar dit gaat even een paar stapjes verder. Wel jammer dat het niks meer zal doen dan een corrigerend tikje, waar niemand iets van zal merken.

Het lijkt me eigenlijk wel een goed idee om mensen en vooral bedrijven te straffen naar draagkracht. maar goed, dit heb ik ook ongeveer 2 minuten doordacht.
Het lijkt me eigenlijk wel een goed idee om mensen en vooral bedrijven te straffen naar draagkracht.
Financieel straffen blijft een kosten-batenanalyse, ook wanneer dat naar draagkracht wordt gedaan. Niemand onder de beslissers eet 's avonds een biefstukje (of vegan equivalent) minder als het fout gaat, dus niemand voelt het.

Zie Sarbanes-Oxley. Houd de raad van bestuur persoonlijk aansprakelijk (inclusief de mogelijkheid tot celstraffen), en zie hoe bedrijven zich plots strak aan de regels houden. In de gevangenis krijg je niet elke avond biefstuk, dus men gaat op de juiste manier handelen door eigenbelang.

[Reactie gewijzigd door The Zep Man op 6 augustus 2024 08:18]

Precies dit. Het is allemaal ingecalculeerd risico. En dat is het probleem. Boetes zouden >1 x jaaromzet moeten zijn om echt impact te hebben. Maar van de andere kant... Dan gaat NVidia failliet en dat wil je ook niet met het oog op concurrentie.
Verder is het probleem natuurlijk ook dat, tenzij men er op staat dat de vergaarde data én de hiermee getrainde logica vernietigd worden, je als bedrijf nog altijd jezelf een competetief voordeel hebt verschaft. Weliswaar tegen een wat hogere prijs, maar het is niet voor niks geweest. Je hebt nog altijd een flinke streep voor op de concurrent. Dat geld komt dan vanzelf wel weer.
Precies dat! Naast een flinke boete alle vergaarde data plus de daarmee getrainde logica onder extern toezicht vernietigen. Daarmee raak je de overtreder.
Nu ja, misschien dus wél. Je kunt alleen niet zomaar achteraf de spelregels aanpassen.
Toch denk ik dat we in die richting moeten denken. Dit zet geen zoden aan de dijk.
Je zou inderdaad in percentages van de omzet kunnen denken. Bijvoorbeeld een boete van 50% van de jaaromzet + aanvullende sancties zoals het onder curatele stellen van het bedrijf voor een periode van bijvoorbeeld 5 jaar. Je zou ook kunnen kijken naar maatregelen die juist de top raken en niet de onderste laag (doordat het bedrijf om het verlies op te vangen bijvoorbeeld allemaal medewerkers gaat ontslaan).
De top en de aandeelhouders moeten het voelen, dan bereik je wat.
Ik heb ook geen pasklare oplossing, maar ik denk wel dat we veel rigoureuzer moeten optreden wil je wat teweeg brengen bij dit soort almachtige bandieten.
Lijkt me stug, de aandeelhouders gaan het toch van dichtbij zien als een bedrijf een levensgrote boete krijgt als les. Vooral als er bij de boete wordt gezegd “nu oplossen anders volgt er nog een”.
Als je kijkt naar de GDPR wetgeving in Duitsland, dan gebeurd het wel degelijk dat celstraffen mogelijk zijn.
Mocht je als beslissingsbevoegden tegen beter weten in onvoldoende maatregelen treffen om data te beschermen, dan kunnen celstraffen volgen indien er data op straat komt te liggen.

In Duitsland zijn ook strakke lijnen uitgezet wat voor een personeel of externe adviezen je verplicht bent om te hebben bij:
-Je branche
-Het type gebruikersgegevens
-Je bedrijfsgrote
-Je omzet
Er zijn dus geen smoesjes te verzinnen dat je van niks wist, want geen advies inwinnen of personeel aanstellen hiervoor = tegen beter weten in risico's nemen.
Dit gaat om personen. Wij voelen een boete direct.

Binnen bedrijven gaat het om schuiven met beschikbaar budget.
Leidinggevenden kiezen vaak de weg van de minste weerstand. Liever meer geld uitgeven dan lastige medewerkers 'nee' verkopen en te woord staan. Liever een boete voor het bedrijf die je toch niet zelf betaald ipv lastige gesprekken, morele afwegingen en juridische onderzoeken.

The Zep Man haalt terecht Sarbanes-Oxley (ik was SOx alweer bijna vergeten) aan, die hebben prima adviezen gegeven om dit probleem tegen te gaan.
Als de straf een boete is dan geldt hij alleen maar voor arme mensen.
En dat werkt ook perfect... /s

Verkeersovertredingen worden net zo vaak, misschien zelfs vaker, gemaakt door mensen met lagere inkomens... Het soort auto waar ze het mee doen verschilt, maar de overtreding niet... Houdt dat dan in wat de lagere inkomens doen minder erg is dan wat de grotere inkomens?
Als je ziet wat Nvidia verdient aan AI dan is geen enkel bedrag te hoog voor ze. Dit soort bedrijven doen het gewoon en nemen de boetes van enkele tientallen miljoenen op de koop toe.
Lijkt me niet dat YouTube en Netflix iets van enig content hebben die jij nu omschrijft. Er wordt niet geschreven dat nVidia het dark web aan het scrapen is/was.
En waar haalt Google die data vandaan denk je? De content-creators zaten misschien helemaal niet te wachten op geautomatiseerde verwerking in een AI-model..
Zou het trainen van de AI ook resulteren in "views" op youtube? En zo ja, is er dan een verschil met wanneer een persoon of een computer een view genereert?
Ik zou verwachten één enkele keer wel. Lees: bij het ophalen van de data. (En misschien dat niet eens, wanneer het zo ontwikkeld is dat de video gedownload wordt (api) ipv gescraped van een webpagina)

Die data wordt vervolgens natuurlijk niet nóg een keer opgehaald, maar voor meerdere modellen gebruikt en herbruikt. (Aannames hier, maar iets anders zou ongelooflijk inefficiënt zijn)

Of er verschillen zijn in hoe een persoon of een view zich presenteert: dat ligt eraan hoeveel moeite er is gedaan om een persoon te emuleren. De lui bij Google zijn niet gek, maar een publieke siteis uiteindelijk precies dat .. publiek. En dat betekent dat je als engineer best goed een pc kunt laten lijken op een persoon. Er zijn ui test-frameworks die zich prima in laten zetten als scraper.
Ik heb me niet goed ingelezen over hoe Nvidia data ophaalt van Youtube, maar volgensmij hebben ze gewoon heel veel Youtube videos naar een lokale drive gedownload.
Slechte deal, 1 view in ruil voor je copyright/auteursrecht. Lijkt me sterk dat die content creators daar om staan te springen.
Als dat zo is ja, dat Nvidia zelf content gaat maken die directe kopieen bevat van jouw content.
Maar volgens mij is dat niet wat er gebeurd.

Ik vind copyright/auteursrecht altijd een beetje lastige kwestie. Als je een boek schrijft, iemand leest dat en schrijft vervolgens een boek wat er een beetje/enigzins/veel op lijkt. Wanneer is het dan een schending van auteurs rechten? Hoeveel fantasy boeken lijken wel niet op het verhaal van Lord of the Rings (wat ook al niet origineel is)?

Hoeveel youtube video's lijken wel niet op elkaar? Hell, youtube maakt het zelf mogelijk bv met die Shorts, dat je andermans Short zelf namaakt (al die tiktok-achtige dansjes bv)

Generatieve AI doet iets vergelijkbaars. Voer 'm met 1000 fantasyboeken en genereer er zelf 1000 andere mee. Is dat copyright schending? Ik weet het niet.. Zolang de passages niet direct 1 op 1 overeenkomen lijkt het me van niet.

Verder zou je nog je vraagtekens kunnen zetten bij het dat "voeren" precies in z'n werk gaat. Wordt de content gedownload (en is dat tegen de voorwaarden van youtube?) of wordt de stream "bekeken" door een AI-trainer (en zou dat in de voorwaarden staan van YT, dat alleen menselijke consumptie is toegestaan?)
Van hun eigen platform
Je moet toch aardig onwetend zijn als je zo praat over de term content creator. Ja er zit troep tussen maar er staat ook ontzettend waardevol en leerzaam materiaal op.
We zijn tegenwoordig 'allemaal' content creators = data creators.
We zijn tegenwoordig 'allemaal' content creators = data creators.
In diezelfde zin zijn we allemaal lopende waterzakken. Nuance lijkt mij toch enigzins belangrijk
Nee, in dezelfde zin dat we ook allemaal gebruikers van internet zijn (en grote heoveelheden data creeren.) Net hier vele duizenden 'content creators' gepasseerd (merendeels Chinezen) in Arishiyama..die allemaal hun 'content' delen via hun 'creator kanalen' Tiktokkie, Instadamn, youtube etc etc etc

[Reactie gewijzigd door litebyte op 6 augustus 2024 14:58]

Ik begrijp je punt maar het is behoorlijk kortzichtig. Door iedereen met een camera als een content-creator te bestempelen creëer je voor jezelf de realiteit dat alle content-creators nutteloos zijn.

Het lokale amateur bandje dat speelt in het cafe om de hoek wordt ook niet vergeleken met de grote arena vullende artiesten. Zo gedragen en zien ze zichzelf misschien wel, maar dat maakt ze niet ineens een professionele wereldbekende band. Er zijn maar weinig dingen echt zwart of wit in het leven.
Kweenie wat de verhouding is. Maar in principe klopt het dat er veel troep op YouTube staat. Ik snap dat svideo het wat apart vind om iedereen over 1 kam te scheren en alles te benoemen als 'contentcreators'.
Zal vast veel interessants op YouTube staan. Maar goed.

PS: Kon het niet laten om even een linkje toe te voegen die svideos reactie wat toelicht ;)
Tssssss
Leerzaam!? en daar zijn videos voor nodig waar de 'wijsgeer' continue in beeld moet zijn?
Megalomane onzin.
3/4 vd tijd gezever over hun banale kanaal.

Hou toch op YouTube is clickbate, onzin en tijdverspilling.
Mee eens, een docent in de klas is ook onzin. Gewoon het boek openslaan en lezen. /s

Zonder dollen, dat jij jezelf beperkt tot jaren 60 stijl documentaires betuigd toch wel van een gebrek aan kennis en ervaring. Een nogal sterke mening hebben staat niet gelijk aan feiten en de realiteit.
Vrij accuraat toch? Ze maken content. Wellicht niet de content die jij wil zien sure, er zijn ook series die miljoenen hebben gekost die ik niet leuk vind. Moet ik dat dan een miljoenen project met een camera noemen? :+
Sure... wij van WC eend met Dollar tekens in de ogen en denkende aan de aandeelhouders en eigen bonussen.
Gewoon dat het om het geld gaat en niet of het nu wel of niet volgens de regels is.
Ik ga er van uit dat het hierom gaat:
Aan 404 Media verklaarde Nvidia dat zijn AI-trainingspraktijken 'volledig in overeenstemming zijn met de letter en de geest van de auteursrechtwetgeving'.
Lijkt me handig als je op 1 zin uit een artikel reageert dat je die dan ook even in je reactie quote zodat we niet hoeven te gokken waar je op reageert.

Op dit item kan niet meer gereageerd worden.