OpenAI sommeert student om te stoppen met GitHub-repo GPT4Free

ChatGPT-maker OpenAI heeft een Europese student gesommeerd te stoppen met zijn project GPT4Free. Die repo maakt het mogelijk om via sites van derden GPT-4 te gebruiken zonder OpenAI te betalen voor een abonnement.

De student is niet van plan de repo zelf offline te halen, meldt Tom's Hardware. Hij vindt dat OpenAI het verzoek moet indienen bij GitHub in plaats van bij hem. Bovendien benadert hij de api van OpenAI niet rechtstreeks, maar via sites van derden, zoals You.com en Forefront.ai. Daardoor is de repo niet in overtreding, meent hij.

Die sites van derden betalen voor een abonnement bij OpenAI en kunnen daardoor gebruikmaken van GPT-4. Dat taalmodel is vooralsnog niet officieel in een gratis versie beschikbaar. De repo kreeg op GitHub afgelopen weken enkele tienduizenden sterretjes en wint dus al enige tijd aan populariteit.

OpenAI heeft de student vijf dagen gegeven om de repo offline te halen en dreigt daarna met juridische stappen. Het bedrijf heeft geen toelichting gegeven op het verzoek. De deadline loopt later deze week af.

Door Arnoud Wokke

Redacteur Tweakers

01-05-2023 • 12:06

191

Reacties (191)

191
190
67
6
0
100
Wijzig sortering
Dat is gewoon Fair Use toch? Net zoals OpenAI die zonder toestemming van iedereen data heeft gekopieerd om het daarna aan de eigenaren terug te verkopen ook Fair Use is.

Ik begrijp nog steeds niet waarom mensen OpenAI zouden betalen, integendeel, OpenAI zou gebruikers moeten betalen voor het leveren van trainingsdata.
Dat is gewoon Fair Use toch? Net zoals OpenAI die zonder toestemming van iedereen data heeft gekopieerd om het daarna aan de eigenaren terug te verkopen ook Fair Use is.
Ik vind het maar moeilijk, in mijn ogen is ons huidige concept van "Intellectueel Eigendom" op sterven na dood, vermoord door GPT of een van de afstammelingen.

De wereld beseft het nog niet helemaal door maar zaken als auteursrecht, copyright, fair use en (in mindere mate) patenten en zelfs het concept van een persoonlijke stijl zijn eigenlijk niet compatible met GPT. De huidige wetgeving is enerzijds gebaseerd op menselijke beperkingen en anderzijds op het maken van exacte replica's. Als wij een schilderij zien kunnen we dat niet uit de losse pols naschilderen. Als wij een boek lezen kunnen we dat niet uit ons hoofd herschijven. Om van een samenvatting van een werk weer een "compleet" werk te maken moet je zelf veel creatief werk doen.
Een fototoestel of een kopieerapparaat kan het wel maar dan krijg je een exacte kopie.

Daartussenin bestaat niet zo veel. Het is ofwel een kopie (ook als er kleine, niet significante veranderingen zijn), ofwel een origineel werk. GPT past daar niet in.

Het probleem (voor de huidge wetten) is dat GPT zo goed kan imiteren dat de imitatie goed genoeg is als oorspronkelijk werk.
Er is steeds minder input nodig om een werk te maken dat niet onder doet voor het werk van een mens.
Niet altijd en niet op alle punten, maar de ontwikkelingen gaan razendsnel en je hebt weinig fantasie nodig om te voorspellen dat het nog veel beter gaat worden.

Als je GPT vraagt om het verhaal van Harry Potter te vertellen dan rolt daar zo het hele plot van die boeken uit. Vervolgens kun je iedere zin van die samenvatting laten uitwerken tot een langer verhaal. Daarna vraag je aan GPT om het verhaal te herschrijven in de stijl van JK Rowling. Dat is nog steeds geen werk dat zo prettig leest als de schrijfsel van JK Rowling maar het is een heel leesbaar verhaal.
Nog een paar jaar technologische ontwikkeling en ik denk dat het lastig gaat worden om het verschil te zien tussen het origineel en een AI-herconstructie van dat werk.

GPT laten betalen voor trainingsdata is aan de ene kant logisch en aan de andere kant niet. Mensen betalen ook voor schoolboeken. We leren echter ook heel veel passief, gewoon door deel te zijn van deze wereld en die te observeren. Niemand leert spreken uit een boekje, dat doe je door je omgeving na te doen.
Ook als GPT zou betalen voor data dan is nog maar de vraag waar dan precies voor betaalt moet worden.
Wat je ieder geval niet krijgt als je een boek koopt is een licentie op de schrijfstijl van de auteur. Toch leren we daar ook iets van als wij een boek leren en GPT ook. Sterker nog, GPT is juist niet gemaakt om feitelijke vragen te beantwoorden maar gaat juist veel meer over uiterlijk en stijl.

Ik zie dus geen mogelijkheid voor GPT om een licentie te kopen op het soort data dat het nodig heeft.
Ik zie ook niet hoe we de producten van GPT kunnen plaatsen in het huidige spectrum van 'kopie' tot 'origineel werk'.
Volgens mij gaan we dat niet opgelost krijgen met een kleine aanpassing aan de huidige wetten maar gaat er een heel andere aanpak nodig zijn, al heb ik nog geen idee hoe.
De huidige wetgeving is enerzijds gebaseerd op menselijke beperkingen en anderzijds op het maken van exacte replica's. Als wij een schilderij zien kunnen we dat niet uit de losse pols naschilderen. Als wij een boek lezen kunnen we dat niet uit ons hoofd herschijven.
Sommige mensen kunnen dit wel. Het issue is niet de wetgeving, het issue is de actie. Of je nu iets kopieert met het schilderij ernaast of geheel uit je hoofd, maakt niet uit. Indien het copyright nog niet is verlopen heb je te maken met de copyright wetgeving.

Een mogelijk issue zou kunnen zijn:
Dat gehele kopie in het hoofd van die unieke mensen? Is dat ook niet een kopie? Het enige verschil nu is dat het ene een biologisch opslagmiddel (brein) is en de andere een niet-biologisch opslag medium. Er wordt echter al heel lang gewerkt aan biologische opslagmiddelen voor computers...

Nu de (mogelijke) workarounds: Als je een kopie maak op leer (biologisch), valt dat dan buiten het copyright (nee)? Als je een kopie maakt dmv. een tatoeage, levend menselijk weefsel? etc.

En het is niet alleen die unieke mensen die een heel werk kunnen 'onthouden', maar iedereen die iets ziet verwerkt die gehele data (die ze kunnen zien), dat ze het daarna niet meer 100% kunnen herinneren is een ander verhaal...
Sommige mensen kunnen dit wel. Het issue is niet de wetgeving, het issue is de actie. Of je nu iets kopieert met het schilderij ernaast of geheel uit je hoofd, maakt niet uit. Indien het copyright nog niet is verlopen heb je te maken met de copyright wetgeving.
Cleanroom implementatie helpt hierbij bij reverse engineering. De een documenteert het, de ander implementeert het. Maar wat het equivalent voor ML zou zijn? Geen idee. Google komt er trouwens ook mee weg, met hun zoekmachine en cache.
De vergelijking met een zoekmachine gaat ten dele op. Zowel Google als OpenAI zoeken het hele web af op zoek naar data die ze naar binnen kunnen slurpen om het in een black box te stoppen waar mensen dan weer dingen uit kunnen halen.

Het grote verschil tussen die twee is dat je als eigenaar van de data met zoekmachines verkeer naar jouw site krijgt. Sommige sites zijn helemaal afhankelijk van zoveel mogelijk verkeer krijgen en doen dus juist allemaal moeite, zelfs flinke investeringen, om de data zo goed mogelijk doorzoekbaar te krijgen door Google. Een vriend van mij heeft een bedrijf waar ze zo afhankelijk zijn van zoekverkeer dat ze Google maandelijks betalen voor support omtrent hun SEO. Het is een symbiotische relatie, Google krijgt data, de eigenaar krijgt verkeer.

Met dit soort LLM's zoals OpenAI die draait heb je al eigenaar van data helemaal niets te winnen. Sterker nog, ze slurpen gratis jouw data op en verkopen doodleuk toegang tot het resultaat aan jou zelf (en aan anderen) terug. Ik kan maar heel weinig scenario's verzinnen waar dit voordelig of neutraal uitpakt voor de eigenaar of producent van de data. In verreweg de meeste gevallen is het nadelig. Het is een parasitaire relatie, Open AI krijgt data, de eigenaar ziet de waarde van de eigen data vervliegen.

[Reactie gewijzigd door Maurits van Baerle op 24 juli 2024 12:19]

Die relatie stond wel onder druk vanwege de caching en vanwege Google News. Het verschil is dat Google citeert (middels cache), terwijl GPT een derived work lijkt te zijn, maar de output is hierin niet terug te herkennen. Dat is anders als je citeert. Als je samenvat, dan mag je zoveel als je wilt vertellen. Het is dan wel netjes om je bron te vermelden. En dat mis ik bij OpenAI. Als het zo open zou zijn, dan zou men de dataset openlijk delen en ook uitleggen hoe men aan het eindresultaat is gekomen.
Sommige mensen kunnen dit wel. Het issue is niet de wetgeving, het issue is de actie. Of je nu iets kopieert met het schilderij ernaast of geheel uit je hoofd, maakt niet uit. Indien het copyright nog niet is verlopen heb je te maken met de copyright wetgeving.
Het punt is dat de grenzen aan die actie vervagen. Het is steeds moeilijker om vast te stellen waar de grens ligt tussen een kopie en origineel werk. GPT produceert werk dat volgens de (huidige) wet niet telt als kopie maar voor ons gevoel wel. Je kan GPT zelfs vragen om aanpassingen te doen om een copyrightclaim te ontlopen. Bij iedere grens die je trekt kan je GPT vragen om precies op die grens te gaan zitten. Mensen hebben veel meer marge nodig, die komen niet zo dicht bij de grenzen van de wet. Een beperking opleggen aan GPT betekent al snel dat we een nog veel grotere beperking aan mensen moeten opleggen.
Ik denk niet dat het probleem is dat de grens vervaagt. Het probleem is dat de grens ergens ligt waar sommigen 'm niet willen hebben. Een "kopie" is nu een slaafse reproductie, waarbij de kwaliteit in grote mate bepaald wordt door de mate van gelijkenis.

Daarnaast heb je nog een veel breder begrip, dat van een "afgeleid werk". Zeker in de software is dit een bekend iets; GitHub staat vol met forks die juridisch gezien afgeleide werken zijn. Hierbij kan de mate van eigen creativiteit sterk varieren, van 1% tot 99%.

AI introduceert een compleet nieuw probleem: niet-menselijke creativiteit. De AI kan geen eigenaar worden van het geproduceerde werk. Maar het is een juridisch foute aanname dat er iemand eigenaar moet zijn. Juridisch is de output van een AI gewoon Public Domain.
"Maar het is een juridisch foute aanname dat er iemand eigenaar moet zijn. Juridisch is de output van een AI gewoon Public Domain."
Volgens mij blijft AI gewoon een gereedschap, net als een film camera of een kwast. Als ik AI een opdracht geef om een plaatje te maken van een molen en een kar in de stijl van van Gogh, dan word ik de eigenaar van dat plaatje. Datzelfde geld als ik een foto maak van een schilderij van van Gogh. Ik krijg het copyright op die foto, niet de technisch geavanceerde camera (met A.I.-image-enhancement technology). Merk op dat in deze situatie het copyright van van Gogh reeds is verlopen om de situatie eenvoudig te houden.
Als ik A.I. de opdracht geef om een liedje te maken in de stijl van Ed Sheeran met een basslijn van Milli Vanilli en een melodie lijkend op "All you need is love" en een paar kreuntjes van Michael Jackson erin verwerkt, dat wordt de intellectueel eigendomsvraag natuurlijk volledig onbeantwoordbaar. Maar stel het wordt een hit en levert miljoenen op, dan denk ik toch dat ik een klein deel van de opbrengst mag houden en dat 0% ervan public domain wordt. Waarschijnlijk landt er ook een redelijk groot bedrag in de zakken van de advocaten.
Het idee van "afgeleid werk" is in de muziek al jaren een bron van copyright-debatten en claims, een simpel baslijntje van 7 nootjes in een track kan al gezien worden als copyright infringement als het aannemelijk gemaakt kan worden dat dat baslijntje een belangrijk onderdeel is in het financieel succes van de track. Het baslijntje hoeft zelfs niet 100% identiek te zijn als het er maar voldoende op lijkt zodat de meerderheid van de luisteraars de gelijkenis ervan herkennen.
Copyright draait volgens mij alleen om geld. Iedereen die denkt een deel te kunnen claimen zal dat doen.
Het is opmerkelijk dat het in the softwarewereld nog niet hetzelfde is. Libre-office bevoorbeeld lijkt voldoende op bijv. MS-Office om te kunnen claimen dat een hoop vrij essentiele user-interface ontwerpelementen / designkeuzes van MS-Office (of Apple, of Rank Xerox, ik ben geen spcialist) zijn overgenomen. Hier ligt misschien een grijs gebied van copyrights en designpatents. Naar mijn mening is er geen essentieel verschil tussen een grafisch-user-interface ontwerp en een schilderij en dus zou de ontwerper automatisch copyright moeten krijgen voor zijn creatieve keuzes.
Neem bijvoorbeeld de eerste persoon die de menubalk met file-new-open-save-saveas-print heeft gemaakt. Dit is precies hetzelfde als de baslijn van Under-Pressure; precies even creatief en financieel betekenisvol. Alleen omdat het (nog) ongebruikelijk is, wordt er niet meer geclaimd in deze UI-ontwerpwereld maar dat gaat wel komen denk/vrees ik.
Nog even mijn mening. Ik vind copyright een redelijk systeem, maar het zou sterk gelimiteerd moeten worden tot bijvoorbeeld 15-jaar na de eerste publicatie. "75-jaar na de dood van de auteur" is naar mijn mening veel te lang. Het klinkt misschien redelijk dat Disney, Mickey Mouse wilde beschermen, maar bijna-oneindig copyright lijkt me geen houdbaar systeem. Iedereen wil goeie ideeën beschermen en voor zichzelf houden, maar als ik een "gat in markt" ontdek en er in spring dan zijn er vrijhwel meteen 10 anderen die dat ook doen. Dan kan ik me ook niet beroepen op een automatisch alleeenrecht tot 75 jaar na mijn dood. Misschien is de oplossing dat de copyright-termijn afhankelijk wordt van de specificiteit van het ontwerp.
Het is echter de vraag of copyright hier wel van toepassing is. Copyright gaat om het dupliceren van werken. ChatGPT heeft de teksten en plaatjes vooral geanalyseerd. Daarvoor zijn mogelijk niet eens kopieën gemaakt. Copyright gaat niet over het bekijken en eventueel gebruik van teksten en plaatjes. In die zin is de Copyright wetgeving dus wel verouderd. Ook is het de vraag op teksten voor het publiek domein wel onder het copyright vallen. Veel zal afhangen van de copyright verklaring van de site. Bij Wikipedia vallen de pagina's onder het CC en mogen ze dus gebruikt worden.

Een plaatje of schilderij naschilderen mag gewoon. Pas als je dat als origineel van de oorspronkelijke maker aanduidt ben je in overtreding. Als je er je eigen handtekening onder zet, met "naar ...." is er niets aan de hand.
Anoniem: 80910 @Cergorach1 mei 2023 20:00
Google heeft ten tijde van Android heel Java herschreven met dezelfde constructie, (methode, parameters) hier is een rechtzaak over geweest. Met software en patenten wordt het een lastig verhaal. Sommige methodes zullen nagenoeg dezelfde inhoud hebben. Oracle, eigenaar van Java, heeft verloren. Als iets in het publiek domein wordt getoont maakt het voor de toepassing, of gebruiker toch niet uit op welke manier het kennis neemt van deze content. Waarom zou Google search niet mogen bestaan? Want Google search scraped ook het internet af. Maakt het web doorzoekbaar. Waarom denk je dat de directory public_html heet.

Ik denk dat als je netjes scraped, max. Paar request per minuut, zeg maar net zoveel als een mailserver, 20 a 30. Dan overbelast je de servers ook niet. Als je per request wil gaan betalen zul je moeten wachten op web 3.0 en overal nfts van moeten maken. Waarom denk je dat men daar op zit te wachten. Wat heeft die nft voor meerwaarde als je er niet iets aan koppelt wat daadwerkelijk iets is, huis / schoen / data .

Ik zou scrapen niet verbieden, kan ook niet als overheid. Maar kan alleen als server. De php frameworks hebben pas sinds kort een rate limiter. Het is dus aan de organisatie aangezien 60% van het web php is, dit goed te implementeren.
Het gaat niet over een kopie. het model inspireert zich. daar is op zich niets illegaal aan. mensen inspireren zich ook aan het werk van anderen.
Als je een ander werk voor je laat doen dan hoor je daar gewoonlijk voor te betalen, tenzij je iets anders afspreekt. Het gebruik gaat dus niet alleen om auteursrecht, maar ook de gemaakte kosten en tijd die je neemt.
En aangezien je bij het inhuren van een ander om iets creatiefs te produceren op basis van kennis en invloeden van ander werk al niet zomaar kan stellen dat er dan geen werk verricht is, gaat dat argument ook niet zomaar op voor dit soort diensten. Je kan hooguit vooraf afspraken maken dat de productie aan eisen moet voldoen die het origineel genoeg maken, maar dat kun je niet eenzijdig gaan opleggen alsof er dan maar gratis gebruik van kan worden gemaakt.
Je kan hooguit vooraf afspraken maken dat de productie aan eisen moet voldoen die het origineel genoeg maken, maar dat kun je niet eenzijdig gaan opleggen alsof er dan maar gratis gebruik van kan worden gemaakt.
Ik denk dat het in praktijk onmogelijk is om dat soort afspraken te maken zonder ook zo'n beetje iedere vorm van menselijke creativiteit te verbieden. Vandaar dat ik zeg dat het niet compatible is.

GPT is getrained op materiaal dat online staat en iedereen mag lezen. Je mag er geen kopie van maken volgens copyright, maar er is geen wet die zegt dat je de schrijfstijl niet mag immiteren of de feiten uit het boek van buiten leren en daar gebruik van maken. De wet gaat alleen maar om het maken van kopietjes en beetje over de vraag wie er baas is. Over hoe je zo'n werk inhoudelijk gebruikt zegt copyright niks.
De wet heet niet voor niks "copyright" en niet "useright" of zoiets. Wederom is het gewoon niet compatible. Je kan proberen de wet strak toe te passen maar niemand gaat gelukkig zijn met het resultaat.

Dat heeft allemaal niks te maken met wat eerlijk is of hoe we vinden dat de wereld zou moeten zijn. Het gaat alleen maar om de vraag hoe de wet moet omgaan met GPT/AI en de huidige wet mist gewoon het gereedschap om iets met GPT te kunnen. Het is alsof je verkeersregels voor auto's gebruikt voor vliegtuigen, dat gaat gewoon niet goed komen. Een vliegtuig kan bv niet stil in de lucht blijven hangen bij een rood stoplicht.
Je reageerde op de stelling dat het niet betalen fair use zou zijn, waarbij je kennelijk stelt dat het werk niet zo origineel zou zijn. Maar zelfs al is er twijfel over de originaliteit, daar houden we in de wetgeving al rekening mee dat je dan of vooraf zelf eisen moet stellen met wie je betaalt, of naar de rechter gaat voor een uitspraak. Het is in geen van de situaties door AI hier zomaar anders, hooguit dat het meer werk is. Het nieuws gaat er om of iemand het bedrijf vrij mag gebruiken terwijl ze wel werk verrichten. Ik lees in je reactie niet dat je nu een tekortkoming in de wet noemt waarin nog niet is voorzien. Of miljoenen personen nu de mogelijkheid hebben om andermans werk creatief te gebruiken in eigen werk, of een bedrijf dat nu doet via hardware en software, het maakt niet zomaar dat de verantwoordelijkheid anders ligt of de mogelijkheden duidelijk een onredelijk verschil maken om met leren van andermans werk daarop zelf iets te produceren wat net niet gelijk genoeg is. Anders konden heel veel schrijvers, musici, tekenaars, beeldhouwers, architecten enz allang niet meer verdienen.

[Reactie gewijzigd door kodak op 24 juli 2024 12:19]

Als je GPT vraagt om het verhaal van Harry Potter te vertellen dan rolt daar zo het hele plot van die boeken uit. Vervolgens kun je iedere zin van die samenvatting laten uitwerken tot een langer verhaal. Daarna vraag je aan GPT om het verhaal te herschrijven in de stijl van JK Rowling. Dat is nog steeds geen werk dat zo prettig leest als de schrijfsel van JK Rowling maar het is een heel leesbaar verhaal.
Ondanks de indrukwekkende resultaten tot nu toe zou ik er niet meteen op rekenen dat dit inderdaad kan over een paar jaar. Allereerst, het proces dat je eerst beschrijft met genereren van een plot en dat vervolgens uitwerken in zinnen is ongeveer net zo omslachtig als het boek zelf schrijven. Er kan je wat werk uit handen genomen worden, maar cruciaal voor het slagen van het project is toch echt dat jij GPT zeer goed coached in wat je eruit wilt hebben. Achteraf kun je dan beter zeggen dat jij het geschreven hebt. GPT is dan een hypergeavanceerde typemachine met ingebouwde rubber duck. Een stuk gereedschap dus. De creatieve keuzes zijn nog namelijk nog steeds de jouwe.
Nog een paar jaar technologische ontwikkeling en ik denk dat het lastig gaat worden om het verschil te zien tussen het origineel en een AI-herconstructie van dat werk.
Zelfs als het zover komt dat er zo een kant en klaar boek uit GPT komt rollen dat de moeite van het lezen waard is ben je er nog niet. Met een druk op de knop komen er dan ook honderd boeken uit. Of duizend. Welke van die duizend ga je lezen? Allemaal kan niet. Meer AI ertegenaan, die leert wat wat je voorkeuren zijn en die je ook nog eens wat buiten je comfort zone voorschotelt om je uit te dagen?

Het is niet onvoorstelbaar hoor, maar het zijn nog wel wat stappen extra die gezet moeten worden. Tot die tijd is menselijke bemoeienis een stuk efficienter. En zodra mensen het resultaat gaan kleuren ben je ook weer terug bij het beroepen op intellectueel eigendom, enz.
Ondanks de indrukwekkende resultaten tot nu toe zou ik er niet meteen op rekenen dat dit inderdaad kan over een paar jaar. Allereerst, het proces dat je eerst beschrijft met genereren van een plot en dat vervolgens uitwerken in zinnen is ongeveer net zo omslachtig als het boek zelf schrijven. Er kan je wat werk uit handen genomen worden, maar cruciaal voor het slagen van het project is toch echt dat jij GPT zeer goed coached in wat je eruit wilt hebben. Achteraf kun je dan beter zeggen dat jij het geschreven hebt. GPT is dan een hypergeavanceerde typemachine met ingebouwde rubber duck. Een stuk gereedschap dus. De creatieve keuzes zijn nog namelijk nog steeds de jouwe.
Nu nog wel, maar GPT staat ook niet stil, GPT4 is onder andere veel beter in lange teksten schrijven.
GPT3 schrijft nu al een paar pagina's tekst met een samenvatting van Harry Potter die prima is, zowel inhoudelijk als wat betreft leesbaarheid.

Je kan GPT ook zien als een vorm van datacompressie. Je geeft een lange tekst aan GPT en vraagt om een compacte samenvatting. Vervolgens geef je de samenvatting weer aan GPT en vraagt om er een prettig leesbare tekst van te maken.

Het maken van een samenvatting van een werk zien we momenteel niet als overtreding van het copyright, dat is gewoon toegestaan en iedere middelbare schoolleerlingen heeft wel eens een boek moeten samenvatten.

Een samenvatting is je eigen creatieve werk. Als ik mijn samenvatting van HP dan aan GPT geef om uit te werken dan komt daar gewoon het verhaal van Harry Potter uit in iets andere woorden. Dan komt het toch weer erg dicht bij wel copyright schending. Maar ja, dan vertel ik GPT wel dat hij geen inbreuk moet maken op het copyright op HP. Ik ben er van overtuigd dat GPT dat kan. GPT heeft nu ook al een ethische module die je vertelt dat genocide niet lief is en GPT je daar niet mee wil helpen.

Dat is een van de punten waar ik denk dat we er niet uit gaan komen met onze huidige copyrightwetten. In grote lijnen is er nog steeds sprake van een creatief proces maar het gereedschap past niet meer in de hokjes van de wet. Net zoals de drukpers niks inhoudelijks heeft veranderd aan boeken, alleen het proces waarmee we ze maken. Toch is dat proces zo anders dan met de hand boeken overschrijven dat hedendaagse auteursrechten gedomineerd worden door copyright.
Zelfs als het zover komt dat er zo een kant en klaar boek uit GPT komt rollen dat de moeite van het lezen waard is ben je er nog niet. Met een druk op de knop komen er dan ook honderd boeken uit. Of duizend. Welke van die duizend ga je lezen? Allemaal kan niet. Meer AI ertegenaan, die leert wat wat je voorkeuren zijn en die je ook nog eens wat buiten je comfort zone voorschotelt om je uit te dagen?
Klinkt goed. Maar wie heeft dan het copyright op die boeken?
Ben jij dat? Het is immers op jouw voorkeuren gebaseerd.
Is de programmeur van de AI het? De programmeur heeft immers gekozen hoe de AI reaggeert.
Of is het de auteur van de trainingsdata waar de AI mee getrained is (oftwel miljoenen schrijvers)?

Ik heb het antwoord niet. Als ik de bot vertel welke boeken ik heb gelezen dan kun je zeggen dat ik creatieve keuzes heb gemaakt in welke boeken ik wel of niet lees of vermeld. Als de bot meekijkt met de boeken die ik lees ,is het dan nog creatief? Ik kies nog steeds welk boek ik uit de kast pak. Als ik iets kan kiezen is er sprake van een creatief proces.

(Voor de lol kun je deze gedachtegang ook doortrekken naar het tracken van mensen en hun keuzes online.)
Het is niet onvoorstelbaar hoor, maar het zijn nog wel wat stappen extra die gezet moeten worden. Tot die tijd is menselijke bemoeienis een stuk efficienter. En zodra mensen het resultaat gaan kleuren ben je ook weer terug bij het beroepen op intellectueel eigendom, enz.
Er zijn inderdaad nog wat stappen te nemen maar in mijn ogen is het een zekerheid dat we die gaan nemen, de enige vraag is wanneer. Nu GPT de wereld heeft laten zien wat er mogelijk is gaan de ontwikkelingen keihard. GPT3 is al weer 3 jaar oud en draait op een miljoenen kostende supercomputer. Inmiddels zijn er GPT-achtige modellen die op een gewone PC draaien al hele aardige resultaten geven. Nu we een keer gezien hebben wat mogelijk is en wat belangrijk is zijn we aan het optimaliseren geslaan waardoor de software duizenden keren sneller is geworden. Geef het nog drie jaar en ik ben er van overtuigd dat er GPT-achtige systemen zijn die op je mobiele telefoon draaien. Ondertussen denderen ook de supercomputers verder en profiteren ook van de vooruitgang in efficiëntie.

Of het nu 1 jaar duurt of 10 jaar maakt voor mijn boodschap overigens weinig uit. Het gaat nodig zijn om onze auteursrechten en copyright aan te passen aan de nieuwe techniek. Misschien is het nu nog te vroeg omdat we het eigenlijk nog niet kunnen overzien, maar wetende hoe traag het wetgevingsproces gaat kunnen we maar beter alvast beginnen met nadenken. Ik zou nu allerlei (doem)scenario's kunnen schetsen maar daar heb ik geen zin in want ik zie het optimistisch in. Mijn enige waarschuwing is dat we zelf het heft in handen moeten houden en voorkomen dat er onomkeerbare zaken gebeuren voor de wet kan reageren.

De een z'n doemscenario kan overigens de ander z'n droom zijn. Zo zijn er fors uiteenlopende meningen over Disney, dat een van de drijvende krachten achter het huidige copyright is. Grote groepen mensen zouden om uiteenlopende redenen heel blij zijn als ze het copyright van Disney kunnen omzeilen. Andere groepen denken daar heel anders over.
Ik zou graag willen, maar heb even geen tijd om er verder over te praten. Maar misschien ben je wel geinteresseerd in deze post: https://stratechery.com/2...-zero-trust-authenticity/

Gaat niet helemaal over wat we nu bespreken, maar geeft wel wat interessante punten over copyright en wat toegevoegde waard nu precies betekent in tijden van AI.
Dat is nog steeds geen werk dat zo prettig leest als de schrijfsel van JK Rowling maar het is een heel leesbaar verhaal.
offtopic:
Ik vind de schrijfstijl van JK Rowling alles behalve prettig. Veel te lange zinnen, ik verdwaal erin.
Dat je moet betalen voor het gebruik van services van OpenAI staat los van of OpenAI wel of niet zou moeten betalen voor de data die zij hebben gebruikt.

Het project van deze student heeft toch geen toegevoegde waarde meer zodra GPT-4 publiekelijk beschikbaar is, maar tot die tijd snap ik enigszins wel dat OpenAI haar product moet beschermen.
Volgens mij maakt hij een statement. OpenAI kan zelf ook niet zonder grotendeels ongevraagd van internet getrokken data. Hoezo zou hij individueel een andere positie hebben?
Ik snap inderdaad de commerciële redenen, maar zoals ik al eerder aangaf gaat OpenAI er nu voor het gemak er even vanuit dat ChatGPT van hun is omdat zij het model hebben geschreven. Maar feitelijk is wat OpenAI maakt niet het geweldige model, want zo speciaal is die niet, maar het feit dat ze gewoon eindeloos data hebben vergaard op het internet met of zonder toestemming en dat is eigenlijk wat werkelijk ChatGPT zo goed maakt als het is.

De vraag is volgens mij dan ook, wie hebben dan eigenlijk echt ChatGPT gemaakt? De makers van het model of de makers van alle data die het heeft gebruikt om te leren? In het geval van het laatste zou je bijna kunnen stellen dat alle mensen van de wereld eigenaar zouden zijn.

Het is vrij hypocriet dat een bedrijf wat oneindig data zonder toestemming heeft gebruikt voor hun product nu andere gaat aanklagen die het daaruit voortgekomen product zonder toestemming gebruiken. Als zij nu echt deze aanklaag route in gaan mogen ze van mij direct hun naam in ClosedAI veranderen en mag van mij betreft meteen juridisch getest gaan worden of hun product wel op legale wijze gefabriceerd is. Theoretisch kan je zelfs stellen dat als het getraind is op teksten die door kinderen geschreven zijn er gebruik is gemaakt van kinderarbeid.

[Reactie gewijzigd door ro8in op 24 juli 2024 12:19]

Er lopen hier zoveel dingen door elkaar dat er nauwelijks een normale discussie over te voeren is.

Als ik post op internet, geeft dat niet automatisch het recht om dat dan maar overal door te zetten. Zelfde als met tv rechten. Dat er toestemming was om iets op tv uit te zenden, betekent niet dat je het meteen ook mag streamen.

Nu weet ik niet of openai zelf algoritmes heeft bedacht, of alleen geimplementeerd heeft. De specifieke implementatie zou natuurlijk van hen zijn. Als ik het moet doen met python en een zooi academische literatuur, kom ik niet ver. Dus dat ik hen moet vergoeden daarvoor, lijkt redelijk.

Nadat 'mijn' input door hun model is gegaan, is het niet te ontkennen dat hun toegevoegde waarde is vergroot omdat hun antwoorden beter zijn geworden. Misschien moet ik delen in de opbrengst, als mijn kennis geraakt is door een query? Ik weet het niet en dit is een lastig punt.

Het draait op hun hardware, en los van de vorige paragraaf mogen ze daar sowieso vergoeding voor willen.

Als ik met hun software 'praat' en geef feedback over de kwaliteit, is dat dan ern input die eigenlijk vergoed moet worden, omdat ik in feite bijdraag aan de kwaliteit van hun product?
Het is nog iets ingewikkelder. Grofweg heb je voor de ontwikkeling van een chatbot als ChatGPT drie componenten nodig:
  • Het taalmodel zelf, oftewel de software van de AI. Dit is door OpenAI zelf ontwikkeld, maar is wel gebaseerd op wetenschappelijk onderzoek dat voor het grootste deel door de fundamentele AI tak van Google is gepubliceerd.
  • De data waar je het taalmodel mee voedt. Dit is door OpenAI overal en nergens vanuit "openbare bronnen" bij elkaar geharkt. Of die openbare bronnen daarvoor gecomenseerd zouden moeten worden is een enorm lastige vraag in theorie, maar in de praktijk eigenlijk sowieso onuitvoerbaar.
  • Het trainen van het taalmodel. Dat kan op verschillende manieren, maar is voor ChatGPT op een heel arbeidsintensieve manier gedaan en dat lijkt op dit moment ook de manier die de beste resultaten geeft. Dit is ontzettend duur, zelfs met de laagbetaalde krachten die dit voor OpenAI gedaan hebben. Dat heeft OpenAI dus heel veel geld gekost.
Het is dus zeker het geval dat OpenAI sterk leunt op werk dat anderen hebben geleverd, zeker voor de eerste twee punten. Maar ze hebben er ook zelf erg veel in geïnvesteerd en dat is niet iets dat (bijvoorbeeld) een student op een zolderkamer ook even uit z'n mouw kan schudden. Daarnaast kost het ook nog enorm veel rekenkracht om het model te gebruiken en daarmee zijn de hosting-kosten dus ook erg hoog.
Voor de volledigheid: de "software" van OpenAI is gebaseerd op PyTorch van Meta (Facebook), niet TensorFlow (Google). En dat staat los van wetenschappelijk onderzoek. Het wetenschappelijke onderzoek achter LLM's is niet specifiek aan één bedrijf toe te rekenen. Maar Google heeft zeker een bijdrage geleverd aan de wetenschap achter Transformers.

Copyright wetgeving verbiedt sommige soorten acties, maar "AI's trainen" is juridisch nog niet gereguleerd. Er is dus ook geen juridische grondslag voor een vergoeding. Los van de vraag of er een vergoeding voor zou moeten zijn, zonder die grondslag krijg je't vermoedelijk niet eens langs de accountant. Betalen voor iets wat gratis is, dat is nogal twijfelachtig.
maar "AI's trainen" is juridisch nog niet gereguleerd.
Wellicht niet in de copyright wetgeving. Maar persoonsgegevens van internet plukken voor een doel waarvoor ze niet zijn verstrekt is duidelijk een overtreding van de GDPR.
Als ze dat zouden doen, dan heb je gelijk. Maar dat geldt specifiek voor verwerking van persoonsgegevens in de GDPR zin van het woord.

Simpel gezegd zijn is een gegeven niet automatisch een persoonsgegeven, ook als ze over een persoon gaan. Simpel voorbeeld: je dierenarts heeft een online formulier, en jij vult bij "naam" per ongeluk jouw eigen naam in in plaats van de naam van je dier. Een dierennaam is geen persoonsgegeven, en dus is jouw eigen naam in die context nog steeds geen persoonsgegeven.

Op dezelfde manier verwerkt OpenAI tekst zonder bijzondere interpretatie als persoonsgegeven. Slechts een heel erg klein deel van hun input is een beschrijft een persoon, en OpenAI heeft geen idee welk deel.

Dit is érg opzettelijk vanuit de AVG. Als bedrijven persoonsgegevens zouden moeten uitfilteren, dan zouden zij alleen daarvoor persoonsgegevens moeten verwerken met alle complexiteit van dien.
Simpel gezegd zijn is een gegeven niet automatisch een persoonsgegeven, ook als ze over een persoon gaan.
De definitie van een persoonsgegeven is heel duidelijk:
https://autoriteitpersoon...-privacy/persoonsgegevens
Bij persoonsgegevens gaat het om alle informatie over een persoon. Ook gegevens die indirect iets over iemand zeggen, zijn persoonsgegevens.
Of iets een persoonsgegeven is, is niet afhankelijk van wie of wat het gegeven verwerkt. Dat staat er volledig los van.
Op het moment dat een AI een persoonsgegeven verwerkt, maar totaal niet in de gaten heeft dat het een persoonsgegeven verwerkt, dan blijven het gewoon persoonsgegevens.
Een tekst bestand met namen word niet ineens pas een lijst met persoonsgegevens wanneer een mens het opent en herkent als een lijst met namen.
Nee, die logica is echt veel te simpel. Volgens die logica bevat Pi alle persoonsgegevens, ook al weten we niet precies op welke decimale positie elk persoonsgegeven begint.

Het is volstrekt onvoldoende dat je een bak met bitten hebt die misschien geïnterpreteerd kunnen worden als een persoonsgegeven. Als je dat feitelijk doet, handmatig of geautomatiseerd, dan heb je vanaf dat punt pas persoonsgegevens.

Die lijst met namen is geen toeval, en dus van origine een lijst persoonsgegevens.
Volgens die logica bevat Pi alle persoonsgegevens, ook al weten we niet precies op welke decimale positie elk persoonsgegeven begint.
Ik heb werkelijk geen flauw idee hoe je dat uit mijn reactie denkt te kunnen halen.

Als ik jouw eerdere reacties goed begrepen hebt is jouw argumentatie is dat wanneer er persoonsgegevens in een stuk tekst staan, maar de AI niet herkent dat het persoonsgegevens zijn, dat het dan geen verwerking van persoonsgegevens volgens de GDPR is.

Nogmaals: de GDPR kijkt op geen enkele wijze hoe iets of iemand de persoonsgegevens in een set data interpreteerd. Of er wel of niet persoonsgegevens in die set data zitten is los staand feit. Of die data vervolgens door een mens of door een AI word bekeken heeft geen enkele invloed op dat feit.
Simpel. Als jij denkt dat de bytes 77 83 97 108 116 101 114 115 een persoonsgegeven zijn, dan bevat Pi een persoonsgegeven. Ergens in de binaire representatie van Pi zitten die bytes.

Als jij niet denkt dat die bytes een persoonsgegeven zijn, dan is het dus pas een context die de bytes tot een persoonsgegeven maakt (en wel concreet de context "table users, column username, ASCII encoding" in plaats van "ergens in Pi")

Mijn interpretatie is de laatste.
Simpel: Jouw interpretatie komt niet overeen met de GDPR.

Het is niet de context die bepaalt of het een persoonsgegeven is.
Als die bytes ergens in jouw data een persoonsgegeven zijn en jij verliest die specifieke bytes dan heb jij een datalek.
Dat ik wanneer ik die bytes 'vind' dan daarin geen persoonsgegeven herkent doet niets af van het feit dat jij een datalek hebt.

Het maakt uiteraard de impact van het datalek kleiner. Maar het blijft een datalek.
Internet staat vol met persoonsgegevens. Je kunt vaak ook prima met Google naar persoonsgegevens zoeken. Als je GDPR zo strict interpreteerd moet je meteen bijna alle zoek-engines op internet verbieden.
Anoniem: 80910 @MSalters7 mei 2023 17:14
Het grappige is, dat er dan een databestand moet komen met die persoons gegevens die eruit gehaald moeten worden
Dit herken ik.

Daarom ik vind het juist zo irritant als allerlei mensen allerlei kanten op schieten met 'mag niet', 'gratis', enzovoort.

De diverse lagen worden naadloos over elkaar heengegooid.

Overigens, aan de inputkant, waar jij over praat, ligt ook veel (algemeen) onderzoek ten grondslag.

Om over de output / feedbackkant nog maar te zwijgen
Nadat 'mijn' input door hun model is gegaan, is het niet te ontkennen dat hun toegevoegde waarde is vergroot omdat hun antwoorden beter zijn geworden.
Hoezo 'beter'? Makkelijker toegankelijk, lijkt mij de juiste beschrijving. (D.w.z. dat lijkt beoogd. Of men daarin slaagt is maar de vraag, gezien het ding ook net zo makkelijk onzin uitkraamt.)

Dat makkelijker toegankelijk maken is grof vergelijkbaar met wat zoekmachines doen. En die komen al in de problemen wanneer ze teveel van de bron tonen op hun eigen pagina. OpenAI vermeldt de bronnen helemaal niet. Dat is een vorm van doorzetten die, zoals je zelf al opent, echt niet zondermeer ok is.
Het draait op hun hardware, en los van de vorige paragraaf mogen ze daar sowieso vergoeding voor willen.
Dus? Dat staat hier niet ter discussie. Die vergoeding vragen ze ook, naar eigen inzicht, van hun gebruikers, waaronder de in het artikel als 'derden' aangeduide partijen.
Ik ga helemaal mee met je eerste regel. Ik denk dat, als ik alle argumenten lees, een rechter de grootste moeite zal hebben met het doen van een uitspraak. Toen de eerste stappen werden gezet was het geschreven programma nog de belangrijkste factor, maar naarmate er meer input van buitenaf komt, lijkt mij dat dit programma veruit ondergeschikt wordt aan de door het programma gebruikte data. Hierdoor zal een rechter waarschijnlijk vandaag een ander vonnis kunnen produceren dan over pak weg drie jaar.

[Reactie gewijzigd door Aldy op 24 juli 2024 12:19]

Nadat 'mijn' input door hun model is gegaan, is het niet te ontkennen dat hun toegevoegde waarde is vergroot omdat hun antwoorden beter zijn geworden. Misschien moet ik delen in de opbrengst, als mijn kennis geraakt is door een query? Ik weet het niet en dit is een lastig punt.
Dit is natuurlijk wel interessant, bedrijven zoals Google,Apple, Microsoft, Meta en TikTok gebruiken jouw data-input maar geven in ruil toegang tot gratis software, waar er door een soort symbotische relatie ontstaat. Het product wordt waardevoller en beter als er meer mensen gebruik van maken.

Op het moment dat Google bedragen gaat vragen voor een zoekopdracht, is het denk ik ook heel snel afgelopen met hun populariteit.
Het resultaat is de som van de arbeid om de code in elkaar te zetten en de data die, vermoedelijk, standaard publiekelijk toegankelijk is te gebruiken om dit te creëren. De toegevoegde waarde is dus de code, ofwel legio aan formules die gebruikt worden om tot een gevraagd resultaat te komen. Ik heb het idee dat je dáár best geld voor mag vragen. Ook het internetverkeer (en alles daaromtrent) heeft ook haar kostenplaatje. Ergens lijkt het mij meer dan redelijk.
Er bestaat altijd het idee dat als jij iets het publieke domein ingooit dat een ander er maar mee mag doen wat ze willen. Maar dat is helemaal niet zo! Je mag gewoon de voorwaarden stellen dat de wat jij publiceert enkel gebruikt wordt met het doel waarvoor jij het publiceert. Jouw auto staat ook op straat en ik mag er naar kijken en de kleur bewonderen, maar ik mag er niet met een een schroevendraaier een mooie tekening op maken. Als ik langs de weg ga staan met een camera systeem en alle auto's die langs komen rijden ga registreren zal ik ook de vraag krijgen wat ik aan het doen ben. Daar moet ik toch echt een vergunning voor aanvragen. Datzelfde geld ook op de digitale snelweg.

Gewoon het internet afgaan en alles scrapen om je AI op te trainen zal echt niet de bedoeling zijn geweest van veel van de data die ze hebben gebruikt. En dan nog kan je de vraag stellen waarom is ChatGPT zo goed en wie zijn werk is daar meer van belang voor geweest? Ik ben van mening dat het werk wat verricht is aan de data een veel groter aandeel bevat dan het werk dat aan het model is gedaan. WIe heeft dan eigenlijk echt ChatGPT gemaakt?

[Reactie gewijzigd door ro8in op 24 juli 2024 12:19]

Nee, als jij iets het publieke domein (Public Domain) ingooit, dan impliceert dat al dat je afstand van al jouw rechten doet (voorzover je die al had). Dat is een term met een specifieke juridische betekenis.

Jouw auto op straat is niet in het Publieke Domein. Zelfs het ontwerp is dat niet - dat is van de fabrikant. Je mag wel foto's van die auto maken, maar verkoop ervan kan problematisch zijn (Is de foto het hoofdonderwerp van de compositie of een irrelevant detail in de achtergrond?)

Het registreren van alle auto's die voorbijkomen is simpelweg verboden; jij hebt geen AVG grond. En een vergunning is geen optie; de AVG heeft een uitputtende lijst van redenen. (De politie mag het wel, reden 5 uitoefening openbaar gezag in het bijzonder snelheidscontrole. Dat is dus niet op basis van een verleende vergunning)
Ja maar iets op internet openbaar toegankelijk maken betekent niet dat jij het ook vrij geeft. Daar zit echt een juridisch verschil in hoor. Dit artikel van Tweakers is niet nu mijn eigendom omdat ik het kan lezen. Ik mag niet nu met dit artikel doen wat ik wil. Tweakers heeft dit gepubliceerd met als doel hun site van informatie te voorzien en voor mij als persoon dat te lezen. Juridisch mag ik het dan ook alleen binnen deze context gebruiken. Als jij echt denkt dat als iets publiekelijk toegankelijk is daarmee alle eigendomsrechten van de publiceerder vervallen heb je het echt mis. Ik kan deze tekst van dit Tweakers artikel zelfs opslaan op mijn computer, maar juridisch gezien mag Tweakers gewoon aan mij vragen om dit te verwijderen. Als ik vervolgens andere dingen met dit artikel ga doen dan waar Tweakers het voor bedoeld heeft staan hun volledig in hun recht om hiervoor een vergoeding te eisen.

Je kan op je kop gaan staan en een grote voorstander zijn van vrije informatie uitwisseling. Dat is een ander verhaal. Maar wettelijk is dit niet zo! Jij rijd met je auto over de A4 dat is gewoon publiek toegankelijke informatie. Maar toch mag ik niet langs de weg gaan staan en dit allemaal registreren, want jij rijd daar niet met als doel mij van informatie te voorzien, dus heb ik jouw toestemming nodig!

[Reactie gewijzigd door ro8in op 24 juli 2024 12:19]

Als jij echt denkt dat als iets publiekelijk toegankelijk is daarmee alle eigendomsrechten van de publiceerder vervallen heb je het echt mis.
Er zit een gigantisch verschil tussen iets dat publiekelijk toegankelijk is en iets dat "publiek domein" is.
Je moet die termen niet door elkaar gebruiken, want "publiek domein" is een specifieke term in het auteursrecht.
https://nl.wikipedia.org/wiki/Publiek_domein

Zoals MSalters terecht aangeeft betekent die term specifiek dat je afstand hebt gedaan van de rechten, of dat die verlopen zijn of er nooit op hebben gezeten.

Maar waarschijnlijk bedoelde jij niet die term uit het auteursrecht.
Bedoelde inderdaad niet publiek domein, maar publiekelijk maken.
Ik mag niet nu met dit artikel doen wat ik wil. Tweakers heeft dit gepubliceerd met als doel hun site van informatie te voorzien en voor mij als persoon dat te lezen. Juridisch mag ik het dan ook alleen binnen deze context gebruiken.
Onjuist. Het auteursrecht bepaalt wat jij er niet mee mag doen. Wetten verbieden specifieke dingen aan eenieder die niet de auteurs is, c.q. een licentie van de auteur heeft gekregen.

Maar de wet zegt niets over AI trainen, en dús is dat niet verboden. Er is geen eigendomsrecht voor AI trainen, en dat kan dus ook niet vervallen.

Ook als jij dit artikel zou opslaan op jouw computer is dat legaal. Dit keer is het niet vanwege een wettelijke omissie, maar juist vanwege een wettelijke bepaling (artikel 13a, incidentele aard/geen zelfstandige economische waarde)
Je vergist je echt! De wet werkt niet in dat elk specifiek gebruik apart vermeld wordt. Per definitie is het verboden en zijn daar specifieke vermeldingen van uitzondering bij. AI trainen is inderdaad niet specifiek vermeld dus valt het onder de algemene wet waarbij jij toestemming moet hebben alvorens jij de data mag gebruiken anders dan het doel waarvoor deze gepubliceerd is.

Nogmaals in het algemeen dat jij iets kan zien, maakt het nog niet dat je ook vrij mag doen ermee wat je wil. Ook opslaan mag niet zomaar, alhoewel wij in Nederland wel een specifieke uitzondering in de wet hebben over het opslaan van data wat van een ander is. Daarom is er bijv ook ooit de thuiskopie heffing ooit geïntroduceerd om belanghebbenden te compenseren en deze uitzondering jouw vrij maakt om data van een ander voor ENKEL thuis gebruik op te slaan. Maar in beginsel mag dit gewoon niet en helemaal niet als bedrijf met een commercieel belang. Deze thuiskopie heffing is niet alleen voor muziek of films, maar voor elke vorm van data. Dus ook een geschreven tekst, zoals een ebook etc.

[Reactie gewijzigd door ro8in op 24 juli 2024 12:19]

Het is zelfs een Europees grondrecht dat de wet alleen datgene verbied wat specifiek verboden is. Al het andere is sowieso toegestaan.

Daarom heb je vrij in het begin van de auteurswet twee brede verboden. Daar komen dan weer uitzonderingen op ("Fair Use" op z'n Engels, en de beperking in tijd). Maar AI training valt niet onder artikel 12, 13 of 14. Als jij naar de rechter stapt om te klagen, dan moet jij een wetsartikel noemen. Dat is er dus niet, dus je zaak is niet eens ontvankelijk.
Anoniem: 80910 @MSalters7 mei 2023 17:21
Is dat ook niet kopieheffing etc
Er bestaat altijd het idee dat als jij iets het publieke domein ingooit dat een ander er maar mee mag doen wat ze willen. Maar dat is helemaal niet zo!
....
Als ik langs de weg ga staan met een camera systeem en alle auto's die langs komen rijden ga registreren zal ik ook de vraag krijgen wat ik aan het doen ben. Daar moet ik toch echt een vergunning voor aanvragen. Datzelfde geld ook op de digitale snelweg.
Dat zeg je wel, maar welke wet zegt dit? Het kan best zijn hoor dat daar een wet voor is; Maar geld deze wet wereldwijd? Voor het hele internet? Of alleen in bepaalde delen / gevallen? Hoe kan je daar onderscheid in maken?

Je hebt in principe een punt hoor, maar dat is het hem nou net; In principe. In een perfecte wereld, maar daar leven we niet in. Dat is, in ons huidige tijdperk, me de technologie die we nu hebben en, belangrijker nog, de technologie waar we toegang toe hebben, niet mogelijk om dit op een legaal correcte wijze aan te pakken.

Dit stipt wel duidelijk de legio problemen aan die we hebben met betrekking tot wetgeving en het internet.
Een individu kan toch ook een brief naar OpenAI sturen met het verzoek haar persoonlijke data te verwijderen en anders dreigen met juridische stappen?
Geen idee, maar ik betwijfel het. Volgens mij is de halve oorzaak van de wereldwijde AI-explosie het kunnen verbergen van profilerings-activiteiten en data-diefstal achter een complexe functie.
Ja dat kan. In Duitsland is er iemand die vroeg of zijn data verwijderd kon worden. En die kreeg te horen dat dat wel kon maar moest er wel voor betalen.

Die is naar de rechter gestapt.
Ten eerste is OpenAI natuurlijk een soort parasitair bedrijf die de hele wereld een dikke middelvinger geeft. Ik verwacht niet dat ze coulant om zullen gaan met zo'n verzoek. Je bent geen miljardair dus je doet er niet toe.

Maar veel belangrijker, het schijnt technisch verdomd moeilijk om LLM's data te laten ontleren. Bovendien, dan zou een bedrijf als OpenAI ook bij moeten houden welke data ze waar vandaan halen. En er zijn redelijk wat vermoedens dat ze geen index hebben van wat ze van waar gekopieerd hebben. Ze zouden dus ook niet zomaar eigenaren schadeloos kunnen stellen omdat ze geen lijst met eigenaren van de data zouden hebben.
Daarmee heeft het bedrijf mogelijk ook zijn eigen graf gegraven: als het bedrijf stelt niet te kunnen voldoen aan het verzoek van de rechter om om gestolen data volledig te kunnen verwijderen, dan moet het hele model dus verwijderd worden.
Maar veel belangrijker, het schijnt technisch verdomd moeilijk om LLM's data te laten ontleren
Het volgende is wat ze nu toegezegd hebben naar de Italiaanse privacy autoriteit om toch OpenAI weer toe te staan in Italië
- introduced mechanisms to enable data subjects to obtain erasure of information that is considered inaccurate, whilst stating that it is technically impossible, as of now, to rectify inaccuracies
Ontleren kan dus blijkbaar wel, maar corrigeren niet.
Hoewel dat bij mij ook wel vraagtekens oproept.
Ja, het laatste woord is hier ook niet over gezegd en ik verwacht dat OpenAI nog redelijk wat GDPR gebaseerde schermutselingen in Europese rechtbanken gaat krijgen.
Je kunt de brief wel sturen, maar het probleem is dat OpenAI niet structureel persoonsgegevens verwerkt. Het zit niet in een gestructureerde, reguliere database, waarbij duidelijk is welke gegevens precies persoonsgegevens zijn.

Volgens AVG artikel 11.2 is OpenAI niet verplicht om extra data bij te houden waarmee persoonsgegevens terug te vinden zijn temidden van andere gegevens.

Ook het recht op vergetelheid (artikel 17) heeft een uitzondering voor technische mogelijkheid. Aangezien deze persoonsgegevens niet geïsoleerd zijn in de gewichten van het neurale netwerk, is het niet mogelijk om sommige gewichten daarop aan te passen.
Jij begrijpt dat artikel van de AVG totaal verkeerd.
Ten eerste gaat het over 11.1
Indien de doeleinden waarvoor een verwerkingsverantwoordelijke persoonsgegevens verwerkt, niet of niet meer vereisen dat hij een betrokkene identificeert, is hij niet verplicht om, uitsluitend om aan deze verordening te voldoen, aanvullende gegevens ter identificatie van de betrokkene bij te houden, te verkrijgen of te verwerken.
Ten tweede gaat dat over een situatie waarbij de betrokkene niet geidentificeerd kan worden in de data.
Bv. als jouw gegevens in een anonieme enquete zijn meegenomen.

Welke gegevens precies van jouw zijn is niet meer vast te stellen, en daarom kun je de data van de betrokken niet vinden en dus niet verwijderen.

Bij OpenAI is dat niet het geval, zoals duidelijk word uit hun antwoord naar de Italiaanse toezichthouder:
https://www.garanteprivac...eb-display/docweb/9881490
- introduced mechanisms to enable data subjects to obtain erasure of information that is considered inaccurate, whilst stating that it is technically impossible, as of now, to rectify inaccuracies;
OpenAI geeft hier dus duidelijk aan dat ze jouw persoonsgegevens kunnen identificeren en kunnen verwijderen.
En daarmee is artikel 11 dus niet van toepassing.
Dat zou kunnen, maar eigenlijk hadden zij deze informatie in beginsel helemaal niet mogen hebben. Dit is de omgekeerde wereld. Eerst de misdaad begaan en dan rechtzetten als iemand erover klaagt. Dat lijkt mij niet bedoeling van onze wet!
Als de wereld zo zwart-wit was, zouden verkeersboetes ook niet bestaan (of wel bestaan, maar nooit worden opgelegd). Helaas werkt het niet zo.
Ik begrijp nog steeds niet waarom mensen OpenAI zouden betalen
Omdat developers, serverruimte, servers en allerlei andere infra niet gratis zijn? Tenzij je verwacht dat investeerders (zoals Microsoft) alles moeten betalen. Op een gegeven moment moet dat terugverdiend worden. Die investering doen ze niet voor de lol.
Dat is toch het probleem van OpenAI, toch niet van de gebruiker? Ze moeten beginnen met het betalen aan iedereen wiens data ze zonder te betalen hebben gebruikt. Daarna kunnen ze beginnen met het betalen aan mensen die nieuwe data en prompts aanleveren.

Als OpenAI geen legaal werkend businessmodel kan bouwen dan hebben ze een fout gemaakt.

Voorlopig beschouw ik alle resultaten en de broncode van het model Public Domain. Het is een Europese student dus mag OpenAI aan een Europese rechter uitleggen wat de juridische grondslag voor hun praktijken is.

Helaas zal het wel uitlopen op dat GitHub het offline haalt omdat Microsoft eigenaar is van zowel OpenAI als GitHub. Laten we hopen dat het opduikt op een Europese server. Misschien een self-hosted repository met Gitea of Forgejo.

[Reactie gewijzigd door Maurits van Baerle op 24 juli 2024 12:19]

Ze hebben toch gewoon een businessmodel waar ze geld mee verdienen?
Jouw enige vraag is waarom er mensen zijn die willen betalen?
Omdat ze het gebruik van de software die paar euro waard vinden misschien.

Ze vinden verder dat die repo onrechtmatig gebruik maakt van hun software, prima. Laat een rechter daar maar over beslissen. Dat is hoe het werkt.
Junks die gestolen fietsen verkopen hebben ook een businessmodel waar ze geld mee verdienen. En er zijn mensen die twee tientjes voor een gestolen fiets over hebben omdat het erg competitief geprijsd is vergeleken met verkopers die hun fietsen op een legale wijze moeten inkopen.

Waar het mij om gaat is dat het een principekwestie is. Ik heb inmiddels genoeg van bedrijven wiens businessmodel in feite het overtreden van democratisch ingestelde regels ter bescherming van de samenleving is (zie ook: AirBnB, Uber) onder de vermomming van "innovatie". Het is dezelfde soort innovatie als dat inbreken een innovatieve manier van winkelen is. Het is geen innovatie, het is schijt aan iedereen hebben.

Juridisch is het lastiger maar ethisch zie ik geen probleem om dan ook schijt aan dat soort bedrijven te hebben. Als morgen iemand bij OpenAI inbreekt en de hele source code lekt zal ik er geen enkele traan om laten. Sterker nog, het komt innovatie zeer waarschijnlijk ten goede.

[Reactie gewijzigd door Maurits van Baerle op 24 juli 2024 12:19]

Ik moet de eerste junk met een kvk inschrijving als fietsenwinkel nog tegenkomen die me netjes een factuur stuurt..

Verder quote ik mezelf:
Laat een rechter daar maar over beslissen. Dat is hoe het werkt.
Wat jij ethisch vind is niet zo relevant, juist het lastige juridische deel is dat wel.

Ik zou er overigens ook geen traan om laten en ik ben het volledig eens met je principiële kant van het verhaal. Ook dat is alleen niet zo relevant.
Een KvK inschrijving of factuur sturen zijn niet relevant. Er zijn voldoende bedrijven met KvK inschrijving die factureren en ook regels overtreden of zelfs strafbare feiten plegen. Het geeft hooguit een betrouwbaardere indruk.

En inderdaad, ik ben geen partij in deze zaak dus mijn ethiek is niet relevant. Juridisch wordt het waarschijnlijk een stevige kluif die de student niet gaat winnen zonder veel steun uit diverse hoek.
Wat hebben deze studenten met OpenAI te maken dan? Misschien moeten ze de naam van de repo aanpassen, dat is eigenlijk de enige link. Verder gebruiken ze gewoon een open API van derden. Als OpenAI wil dat hun klanten niet optreden als doorgeefluik van hun eigen API, dan moeten ze dat in hun voorwaarden zetten en de klanten die dat wel doen erop aanspreken.
Deze studenten maken contractbreuk erg makkelijk. Dat die studenten geen partij in dat contract zijn is daarvoor juridisch irrelevant.

Nu is dit in isolatie geen sterk argument - er zijn een heleboel dingen die contractbreuk makkelijk maken. Maar dan moet je juridisch kijken naar legitiem gebruik. Heeft dit een andere legitieme toepassing náást contractbreuk?
.oisyn Moderator Devschuur® @MSalters1 mei 2023 16:16
Wélke contractbreuk dan precies? Want de betreffende partijen bieden hun (of eigenlijk OpenAI's) diensten aan aan het grote publiek.
Dan zijn ze toch een heel stuk makkelijker op te pakken dan de junk met de fiets. Niet dat onze politie dat doet, maar dat is het volgende faalpunt in de keten :+
Probleem met de rechter is dat dit soort bedrijven met zakken vol geld bij de rechtbank komen en deze student met lege zakken. Dat geld wordt verdient met de praktijken waar de rechtszaak over gaat - maar dat is dus al verdient.

Wie zal de advocaat kunnen betalen die de zaak gaat winnen denk je?
Dat is eerder kritiek op de rechtsstaat.

Met geld is (bijna) alles te koop, daar hebben we met z'n allen naartoe gewerkt.
Jij krijgt betaald voor je werk omdat je bepaalde kennis hebt gekregen van derden (en vaak ook zonder daar zelf voor te hebben betaald). Waarom zou jouw werkgever jou moeten betalen?
Geimpliceerde toestemming op publieke fora. Betaalde opleidingen. Geen scraper om van miljoenen mensen de data zonder toestemming te verzamelen en op te slaan. Dit is op geen enkele manier met een persoon te vergelijken.
Vrijwel alle fora hebben voorwaarden die neer komen op "auteursrecht blijft bij de auteur, het forum heeft een distributierecht". Zie ook Tweakers, artikel 10 AV. En als je doorkijkt naar 10.4:
Door het plaatsen van Content op de Website;
[...]
verleent het Lid toestemming aan andere Leden en bezoekers van de Website om deze Content te raadplegen en daarvan kopieën te maken voor eigen gebruik;
Dat is dus positieve toestemming voor eigen gebruik, zelfs voor eigen gebruik dat anders verboden zou zijn onder de auteurswet.
Je beschouwt maar wat je wil, maar juridisch is valt die code (software) onder het auteursrecht. Zelfs de EU heeft daar geen zeggenschap over; dit ligt vast in tientallen handelsverdragen die de EU heeft gesloten.

De output valt overigens wél in het Public Domain.
Oh uiteraard. Ik ben geen partij in deze zaak en zelfs als ik dat wel was dan is mijn persoonlijke mening natuurlijk amper relevant en zeker niet doorslaggevend.

Wat ik eerder wil proberen te zeggen is dat er voor mij gradaties zijn in hoeveel medelijden ik heb met bedrijven. Ik zal zelf niet bij OpenAI inbreken en hun code publiceren maar als iemand dat we doet dan vind ik dat een stuk minder erg dan als hetzelfde zou gebeuren bij pak-em-beet Guerrilla Games of Atlassian. OpenAI is absoluut een schimmig bedrijf en mogelijk ook een wetsovertredende en op mijn sympathie hoef je niet rekenen.

Ik probeer in mijn bedrijven fatsoen en eerlijkheid centraal te stellen en als anderen niet zonder schofterig gedrag hun bedrijf kunnen runnen dat reken ik ze dat aan.
Ik denk dat je de vraag wel kan stellen of persoonlijke gegevens wel gratis te gebruiken moeten zijn voor het maken van dit soort tools.
Dan moet je die niet delen op het internet?
Je voordeur open laten staan betekent niet dat mensen onuitgenodigd binnen mogen wandelen. Je persoonlijke data (of welke content dan ook) online zetten betekent evenmin dat anderen daar zonder toestemming gebruik van mogen maken.
Waarschijnlijk heb je daar zelf toestemming voor gegeven. En het is niet jou data, maar data over jou.
En daarmee mijn data.
Deze gedachtenkronkel dat data over iemand niet onder diens privacy/persoonlijke levenssfeer ligt ook ten grondslag aan alle privacyissues en perikelen die we op het ogenblik hebben.

Gelukkig hebben we helemaal niets, maar dan ook echt helemaal niets geleerd van het verleden. Sterker nog, we doen het nog veel slechter, maar over 4 dagen kunnen we de gevolgen daarvan weer mooi gaan herdenken.
Wat is/gebeurt er over 4 3 dagen?
4 en 5 mei, maar wel mooi dat je mijn punt volledig bevestigd dat we echt totaal niets geleerd hebben.
(Niet persoonlijk bedoeld)
Als je't hier over hebt: https://www.holocaustreme...e/4-and-5-may-netherlands
Ik ken niet alle buitenlandse herdenkingsdagen, excuus... :X

Ik zou dan persoonlijk in deze context ook eerder verwijzen naar de nacht van 9 op 10 november...

[Reactie gewijzigd door chrieke op 24 juli 2024 12:19]

Ja, maar specifiek het feit dat de nazi`s in nederland een systeem aantroffen waarin de geloofsovertuiging van mensen werd vastgelegd. Onder het motto, wat kun je daar nou mee?

Als de nazibeweging de toegang had tot de data van nu, dan was er geen jood overgebleven. Wat we ook vergeten is dat data dus vreselijk misbruikt kan worden, hoe onbenullig het nu ook lijkt. Of hoe goed beschermt.
Bovenstaande data werd "veilig" opgeborgen in gemeentearchieven............
beetje kromme vergelijking als je het mij vraagt. Ik zou eerder zeggen dat dit gelijk is aan je inboedel op straat neer zetten. Betekent dat anderen daar zonder toestemming gebruik mogen maken? Misschien niet, maar het wordt een stuk lastiger om te bepalen of iemand die er wel gebruik van maakt dit doet onder een fair use of dat ze dit om malafiede redenen doen.
Dus als iemand een foto van jou deelt zonder dat jij het weet en daardoor andere het gebruiken is het volgens jou "fair use"?
Dan moet je die niet delen op het internet?
Wat een slappe argument zeg.
Dit snap ik niet. Wat heeft persoonlijke gegevens te maken met de ontwikkeling van dit soort tools? :? :?
Omdat ai trainen met gebakken lucht niet werkt. ;)
Anoniem: 584966 @CH4OS1 mei 2023 14:18
Wat heeft ai trainen te maken met de ontwikkeling van de ai zelf? Dat zijn twee verschillende dingen
Waarom zou trainen van de ai geen onderdeel zijn van de ontwikkeling? :? Zonder die training krijg je weinig zinnigs uit elke ai.

[Reactie gewijzigd door CH4OS op 24 juli 2024 12:19]

Anoniem: 584966 @CH4OS1 mei 2023 18:29
Omdat ik meestal ai met mensen vergelijken. Kinderen opvoeden hoort ook niet bij het proces om kinderen te maken.
Tja, dat geld natuurlijk voor elk systeem wat je bouwt. Dat hoeft echt niet per se ai te zijn.
Moet je het ook eerst voorkoken. :+

[Reactie gewijzigd door Euronitwit op 24 juli 2024 12:19]

Dit soort tools heeft heel veel data nodig om getraind te worden, voor het kan functioneren.
In dit geval dus gigantisch veel tekst.

Ze kunnen natuurlijk boeken gebruiken, maar dat kost geld. En je hebt dan geen spreektaal te pakken.
Dus zijn ze lekker het internet af gaan struinen en hebben daar gigantische bergen data vanaf geplukt, zonder om toestemming te vragen.
Daar zitten ook veel persoonlijke gegevens bij die niet op internet geplaatst zijn met als doel ze als AI training in te zetten. (En persoonlijke gegevens mag je niet gebruiken voor een ander doel dan waarvoor ze zijn gegeven)
Dat doen de mensen achter de sites die de API van OpenAI gebruiken toch al?

Deze repo is enkel een soort proxy dat gebruikt maakt van een lijst van websites die de API van OpenAI gebruiken. Geen gelekte API keys o.i.d.
Dat snap ik, maar daar ging de comment niet over. Ik quote het specifieke gedeelte zelfs nog: dat ging over de vraag waarom mensen überhaupt OpenAI zouden betalen, en daar ging mijn antwoord over.
Net zoals OpenAI die zonder toestemming van iedereen data heeft gekopieerd
sinds wanneer mag je een openbare website op github project niet inzien? de data wordt gebruikt om te trainen en niet om een copy/paste actie van chatgpt uit te voeren.
Je mag van alles inzien, zeker als het openlijk gepubliceerd is. Je mag niet zomaar van alles scrapen, gebruiken voor je eigen product en dan commercieel verkopen.

OpenAI heeft, zonder toestemming, grote delen van het internet gescraped (inclusief persoonlijke data, namen, telefoonnummers, emailadressen) om het te gebruiken voor hun trainingsdata. Dat is juridisch drijfzand en daar gaan ze nog forse problemen mee krijgen.

Zie het zo: jij mag alle artikelen van Tweakers.Net inzien. Jij mag niet een scraper bouwen die alle artikelen van T.Net binnenhaalt, enkele woorden in de tekst vervangen door synoniemen, en het dan verkopen door het achter een betaalmuur te plaatsen.
En waarom zou je niet een automatiserings script mogen bouwen die alle artikelen van tweakers binnenhaalt. volgens mij mag het wel namelijk. en tweakers zou een barrierre in moeten bouwen dat ze bijvoorbeeld max. 1000 producten kunnen inzien per dag.
Dat zou misschien nog kunnen, hoewel er volgens mij wel beveiliging tegen scrapers is ingebouwd. Als het voor je eigen gebruik is dan kom je er juridisch gezien mogelijk wel mee weg. Als je het vervolgens gratis doorgeeft aan anderen wordt het al iets lastiger omdat T.net reclameinkomsten misloopt. Als jij vervolgens geld gaat verdienen door T.Net content aan anderen te verkopen dan is het juridisch een uitgemaakte zaak, dat wordt een hele korte rechtszaak.
Je haalt één punt van een opsomming van 3 punten er uit. Als je de andere 2 punten ook meeneemt dan zie je dat er met het scrapen weinig mis is maar met het aanpassen en verkopen van diezelfde data wél iets mis is.
Volgens mij mag ik best alle artikelen van tweakers lezen en er dan in mijn eigen worden nieuwe artikelen van maken, die op mijn eigen site plaatsen en daar dan geld voor vragen. Ik vraag me wel af hoe het dan zit als ik dat in eigen woorden herschrijven van die artikelen over zou laten aan chatgpt?
Dat gaat alsnog ontzettend lastig worden.

De vraag is ook: hoe erg schijnt het origineel door jouw teksten heen. Met alleen in eigen woorden herschrijven ben je er niet; je zal ook echt zaken dan moeten toevoegen
Grappig reactie, aangezien er met regelmaat artikelen op T.net staan die regelrecht (al dan niet slecht) vertaalt zijn.
Hoezo? Is dat niet letterlijk wat elk tweakers nieuws artikel doet? Betaald tweakers dan in dit geval ook tom's hardware?
Nee. Wat jij doet is een afgeleid werk maken (artikel 10.2)
Je mag niet zomaar van alles scrapen, gebruiken voor je eigen product en dan commercieel verkopen.

OpenAI heeft, zonder toestemming, grote delen van het internet gescraped (inclusief persoonlijke data, namen, telefoonnummers, emailadressen) om het te gebruiken voor hun trainingsdata. Dat is juridisch drijfzand en daar gaan ze nog forse problemen mee krijgen.
Momenteel is Apple precies hetzelfde aan doen.
En Bing en Google deden het in het verleden.
Tweaker scraped technieuws.
Dat lijkt allemaal te kunnen. Waarom zou AI het dan niet mogen?
OpenAI heeft een geregistreerd handelsmerk in de VS op de naam 'GPT-4'. Deze repository heeft een naam die gezien kan worden als 'GPT-4 Free'.

Als de repository hernoemd wordt (en mogelijk verwijzingen naar 'GPT-4' weggehaald) is er verder niet echt een probleem.

Het jammere is dat mensen verschillende soorten intellectuele-eigendomsrechten door elkaar halen... leidt tot veel verwarring.
Goed punt. Het zal zaak zijn om te kijken of ze GPT-4 ook in de EU als trademark hebben geregistreerd, zo te zien hebben ze dat in maart van dit jaar gedaan. Dan hebben ze via die weg wel een poot om op te staan (hoewel ze nog in de notification period zitten dus iemand die al iets had dat op GPT-4 lijkt in de relevante 'classes' kan het trademark van OpenAI blokkeren). Dan zou een kleine naamswijziging voldoende kunnen zijn.
Als de repository hernoemd wordt (en mogelijk verwijzingen naar 'GPT-4' weggehaald) is er verder niet echt een probleem.

Het jammere is dat mensen verschillende soorten intellectuele-eigendomsrechten door elkaar halen... leidt tot veel verwarring.
ja want dit is vooral het probleem, niet dat er misbruik gemaakt wordt van licenties die door anderen betaald worden. Kan je nog ff je netflix account en paswoord hier neerzetten, kwestie dat alle tweakers gratis kunnen kijken omdat jij betaald hebt. |:(
.oisyn Moderator Devschuur® @dasiro1 mei 2023 15:51
En gaat Netflix dan de gebruikers aanspreken die dat account gebruiken, of de eigenaar van het account?
moesten ze weten wie dat zijn waarschijnlijk wel, maar sommige analogieën moet je niet te hard doordenken, want daarmee ga je voorbij aan het initiële feit |:(
.oisyn Moderator Devschuur® @dasiro1 mei 2023 15:57
Nou, nee. Het initiële feit is dat het absurd is dat OpenAI hier achter een partij aan gaat die niets van OpenAI zelf gebruikt, maar publiekelijk beschikbare API's van derde partijen die requests doorrouten naar een betaalde service van OpenAI. Als OpenAI vindt dat dat niet mag, dan moeten ze toch echt bij hun eigen klanten zijn die die diensten aanbieden.

[Reactie gewijzigd door .oisyn op 24 juli 2024 12:19]

als de gebruiker (zijnde de betaler) een licentie heeft om een api aan hun klanten aan te bieden, en ze vinden een misbruiker (gpt4free), waarom zouden ze die daar dan niet op mogen aanspreken? ik snap dat je hun rebelse karakter deelt omdat je hun oorspronkelijke trainingsmodel of manier van zakendoen niet wil steunen, maar dan moet je hun gedrag niet proberen goed te praten (en ook geen gebruik maken van de tools die er op leunen).

[Reactie gewijzigd door dasiro op 24 juli 2024 12:19]

.oisyn Moderator Devschuur® @dasiro1 mei 2023 16:08
als de gebruiker (zijnde de betaler) een licentie heeft om een api aan hun klanten aan te bieden, en ze vinden een misbruiker (gpt4free), waarom zouden ze die daar dan niet op mogen aanspreken?
Waaruit blijkt dat het een misbruiker is? Als ik zo even een steekproef doe op de sites die ze ondersteunen dan zijn die allemaal open voor publiek. In denk serieus dat OpenAI, afgezien van het gebruik van de geregistreerde handelsnaam "GPT-4", niet echt een poot heeft om op te staan.
ik snap dat je hun rebelse karakter deelt omdat je hun oorspronkelijke trainingsmodel of manier van zakendoen niet wil steunen,
Je lijkt een hoop aannames te doen. Er klopt iig weinig van.

[Reactie gewijzigd door .oisyn op 24 juli 2024 12:19]

Omdat gpt4free geen klant, gebruiker of misbruiker is van een service van OpenAI.
Het is een klant/gebruiker van diensten van derden, die op hun beurt klant zijn van OpenAI.

GPT-4 van OpenAI wordt niet onbehoorlijk zonder betaling aan OpenAI aangeboden door gpt4free, OpenAI wordt betaald door de derde partijen die betalen voor toegang tot de dienst van OpenAI, en die op hun beurt gratis API toegang bieden aan klanten.

Gpt4free heeft deze derde partijen geagregreerd, en maakt het voor de doorsnee persoon makkelijker door op een centrale plaats deze reeds gratis toegangkelijke diensten van derden te benutten.

Het is een beetje alsof KPN boos is op een ontwikkelaar, die een app gemaakt heeft die openbare hotspots van cafe's en dergelijken gebundeld heeft, zodat je practisch overal gratis wifi hebt zonder voor KPN's eigen hotspot dienst te betalen. De cafe eigenaren etc. hebben gewoon een geldig contract met KPN waarvoor betaald wordt.

[Reactie gewijzigd door wild_dog op 24 juli 2024 12:19]

Tja, Tweakers gebruikt ook het nieuws van anderen en heeft een community, Reddit idem, Twitter idem, 4chan idem, Google idem. Je kunt hun service downplayen, je kunt het argument gebruiken om het in perspectief te zetten. Maar om te zeggen ze leveren geen dienst? Dat gaat mij te ver. En voor een dienst kun je geld vragen. Het probleem hier is het aloude netwerk effect. Deze wekt centralisatie in de hand.
ChatGPT heeft 'slechts' een geavanceerde statistische analyse gemaakt van de input. Geen kopie. Het verkoopt dan ook niet de originele data terug naar de resultaten van de analyse.

Hoe die analyse juridische eigendom van de originele auteurs zou zijn kan ik niet volgen.
Is jk Rowling eigenaar van het gegeven hoeveel maal het woordje 'the' in de Harry Potter boeken voorkomt?
"Dat is gewoon Fair Use toch?"

Ehh.. nee ...
Ik zou precies dezelfde Fair Use definitie gebruiken die OpenAI zelf hanteert (“het stond op het internet dus ik mag het gebruiken”). Dan past het wel.

[Reactie gewijzigd door Maurits van Baerle op 24 juli 2024 12:19]

Waarschijnlijk niet. In de clausule staat vast iets van dat het verboden is diensten/API eraan te knutselen.
Zal er vast staan, maar op welk moment gaat de maker akkoord met de voorwaarden van OpenAI?
Ze sturen calls naar een API van een derde. Dit zal ongetwijfeld in clausule van deze 3de partij staan dat dat verboten is.

Je hoeft verder geen voorwaarden te accepteren. Men omzeilt de FUP van een 3de partij zodat er niet betaald hoeft te worden.

[Reactie gewijzigd door kabelmannetje op 24 juli 2024 12:19]

Zoals ik het begrijp vraagt partij A aan partij B om iets aan partij C te vragen.

Partij B heeft een licentie om dingen aan partij C te vragen en partij A heeft niets met partij C te maken, en partij A heeft ook niets nodig met afspraken tussen partij B en C.

Als partij C het er niet mee eens is dan moet die klagen bij partij B dat die haar bevoegdheden dusdanig ter beschikking stelt dat partij B daarmee de voorwaarden overtreed.
Partij C heeft geen overeenkomst met zowel A als B. Toch neemt partij C bij A een dienst af via B.

Klinkt als stiekum afval in de container van de buurman kieperen, die ervoor betaalt. Buurman verhaalt overtreding van gebruik niet op jou. Dat doet het afvalbedrijf middels sancties, op tips van buurman.
Partij C neemt geen dienst af bij partij A, partij C gebruikt alleen de voorzieningen van partij B.

Je vergelijking is ook fout want in dit geval geeft de buurman jou toestemming om afval in zijn container te dumpen, wat de buurman dan voor afspraken heeft met de afvalophaaldienst is geenszins jouw probleem.
Het is wettelijk niet toegestaan om afval bij de buurman te dumpen en hem op kosten te jagen. Je neemt immers geen dienst bij hem af. Hij heeft jou ook geen toestemming gegeven of aangegeven dat hij de extra kosten accepteert.
Dumpen is het onbeheerd en buiten de regels om achterlaten van afval, wettelijk gezien is er niets mis mee om afval bij de buurman in de kliko te doen zolang je zijn toestemming daarvoor hebt.
Hij heeft jou ook geen toestemming gegeven of aangegeven dat hij de extra kosten accepteert.
Partij C heeft een account en overeenkomst met partij B Want dat is de enige manier om hun services te kunnen gebruiken. Vertel ons anders even welke regels partij C overtreed bij partij B...
Het is niet toegestaan om jouw afval in de container van de buurman te stoppen. Want, hij wordt aangeslagen voor jouw afval. Dat heet dumping.
Doe niet zo eigenwijs als je geen idee hebt van de regels....

Willekeurige afvaldienst:
"Het is namelijk niet toegestaan om ongevraagd afval bij iemand anders in de container te stoppen."
https://www.tilburg.nl/in.../controle-afvalscheiding/
Hoe kan ik er geen verstand van hebben als je bijna letterlijk quote wat ik zeg?
Als je het vertikt om te lezen dan houdt het op.
Bijzonder. Waarom heb ik het niet gelezen?

"Hij heeft jou ook geen toestemming gegeven of aangegeven dat hij de extra kosten accepteert."

Dus, dat is ongevraagd afval dumpen.
B en C hebben een overeenkomst.

Het staat er toch echt in het Nederlands.
Hebben geen overeenkomst dat de een het in de ander zn container gooit.
ja, het is niet toegestaan ongevraagd afval bij een ander in container te dumpen.

Hbe je het ook gelezen?
Zucht....

Einde discussie en fijne dag verder.
Ok, het is dus wel degelijk toegestaan afval in een ander z'n container te mikken en de ander voor jouw afval te laten betalen?
Dat is gewoon Fair Use toch?
Fair use is een begrip uit Copyright in de Verenigde Staten. Daar zal dit niet onder vallen.

Hier gaat het om een systeem waarin je via een omweg tegen de wil in van een partij gebruik maakt van het systeem van een ander, daarbij mogelijk bepaalde (lichte) beveiligingsmaatregelen omzeilt, waardoor die andere schade oploopt en jij winst maakt (je krijgt hierdoor iets wat normaal geld kost). Daar zou ik heel erg op mee passen want dit zou zowel in een civiele zaak als in een strafzaak weleens heel vervelend voor je kunnen worden uitgelegd als je dit gebruikt of zo'n systeem maakt.

Zelfs als je uiteindelijk gelijk krijgt dat je dit mag doen kan het weleens een nare rechtzaak worden.

[Reactie gewijzigd door kftnl op 24 juli 2024 12:19]

Oh, het zal absoluut geen simpele zaak worden nee, al helemaal niet omdat er conflicterende jurisdicties zijn. En ik denk dat iemand diepe zakken moet hebben om het tot een goed einde te brengen en niet te zwichten voor het bij de rechter komt. En GitHub zal het wel snel verwijderen.

Wellicht kan de auteur hulp krijgen van een reeks belangenorganisaties, toezichthouders en beschermers die actief zijn op dit gebied. Ik denk dat strategie moet zijn om OpenAI reputatieschade te laten oplopen, plus een soort Streisand-effect, dat ze uiteindelijk opgeven.
Nou nee, deze repo lijkt bewust gemaakt te zijn om het betalen voor toegang tot GPT-4 te omzeilen. Het voegt verder niets toe aan het gpt-4 language model (of AI in het algemeen).

Het 'gebruikt' allerlei externe APIs, zeer waarschijnlijk zonder toestemming van die platforms, om aan deze behoefte te kunnen voldoen. De developer heeft dus niet eens zelf een abonnement bij Open AI afgesloten.

Dit was een leuk hobby project geweest voor deze student als hij het voor zichzelf had gehouden (of alleen binnen zijn vriendengroep had gedeeld), maar niet bedoeld voor het hele internet.
Nee, fair use is niet van toepassing hier; dit is het meeliften via een andere website zonder te betalen. De websites die de ontwikkelaar gebruikt hebben geen toestemming (gegeven, en mogen ze niet geven) om derden toegang te geven tot de tech die ze bij OpenAI in licentie genomen hebben.

Vergelijkbaar, je mag niet zomaar wat je op Netflix aan het bekijken bent streamen op het internet (beschikbaar maken aan derden). Dat is geen fair use meer. Fair use is een fotootje maken oid en op Facebook gooien.
Dit is helemaal niet "Fair Use". Eerst en vooral is dat een Amerikaanse doctrine die niet de rest van de wereld bestaat. Ten tweede valt het exploiteren van betaalde services om het betalen van die servcie te omzeilen héél expliciet niet onder Fair Use.

OpenAI steunt, net als alle andere, helemaal niet op het princiepe van Fair Use om zijn data te verzamelen. Net als alle andere crawlers op het internet...

Het probleem met heel deze onzin over "maar OpenAI gebruikt ook data van derde" is dat je praktisch klaagt over iets waar jezelf al decenia lang gebruikt van maakt. Wat OpenAI met data doet is niet veel anders dan wat iedere search engine doet met andersmans data. Ze sturen het alleen nog eens door een extra systeem in plaats van het 1:1 terug te geven zoals Google dat doet.

Grappig genoeg kan er juist een argument gemaakt worden dat wat Google en andere search engines doen juist problematischer is dan wat AIs zoals GPT doen. Google stuurt je namelijk alles terug zoals die het gevonden heeft. GPT en andere LLMs tonen nog enige creativiteit (lees: transformeren) bij het geven van een antwoord.

Leuk dat je een Amerikaanse term kent, maar kom niet af met dat argument als je niet weet wat het eigenlijk betekend.
Dan is er natuurlijk ook het fysieke aspect. Het is niet alsof hun software draait op een Raspberry Pi, ze hebben moeten investeren in dure serverfarms die flink wat stroom gebruiken. Dat moeten ze ook betalen.
Jij deelt toch zelf die data publiekelijk.
Het is mijn inziens niet eens "fair" use. het is gewoon "use". Het zijn namelijk You.com en Forefront.ai die toegang tot GPT-4 aanbieden. Mijns inziens is het dus niet de repo van de student die iets fout doet, het is eerder dat You.com en Forefront.ai eventueel hun gebruikersovereenkomst met OpenAI schenden.

Ik heb het eens gevraagd aan ChatGPT-3.5
user X's tool simply provides an alternative way of accessing GPT-4 through the public API of third-party sites Y and Z, which have valid subscriptions to GPT-4. It does not change anything in the underlying code or functionality of GPT-4.

Under these circumstances, it is less likely that user X's tool would be considered a transformative use of GPT-4, as it does not add any new functionality or features to the tool. Instead, it simply provides a way to access the tool through a different platform.

The legality of using user X's tool to access GPT-4 would depend on the terms of service and licensing agreements of GPT-4 and the third-party sites Y and Z. It is possible that using user X's tool could be a violation of the terms of service of GPT-4 or the third-party sites, and could result in the suspension or termination of user accounts.
Ik ben benieuwd wat voor juridische stappen ze willen gaan nemen. Dit is overduidelijk misbruik maken van de diverse websites die hier niet voor bedoeld zijn, maar die websites zijn degenen die achter dit project aan zouden moeten gaan. Die websites betalen OpenAI gewoon voor hun API-calls, dus ik kan niet zien wat voor schade OpenAI zou zijn aangedaan.
De naamgeving van de github repo. Trademark, mogelijk misleiding, etc.
Het handelsmerk is, in elk geval in Amerika, vooralsnog afgewezen omdat het proces blijkbaar te veel moeite was voor OpenAI. Het lijkt me dan ook sterk dat ze op handelsmerk een rechtszaak kunnen starten.

Met de explosie aan AI-tools en de zeer selectieve actie die OpenAI onderneemt om hun nog-niet-geregistreerde handelsmerk te verdedigen denk ik dat tegen de tijd dat er daadwerkelijk een rechter bij komt kijken, de term "GPT" al in de jacuzzi-situatie terecht is gekomen.

Misleiding lijkt me nogal sterk, ik zie geen enkele claim van verbondenheid aan OpenAI in de beschrijving, noch in de naam.

Wellicht dat ze een SLAPP-poging kunnen doen om een student het leven zuur te maken, maar ik denk dat ze daarmee eerder het Streisand-effect over zichzelf heen zullen roepen dan dat ze er iets mee winnen. Zodra gpt4free dood is, staat ai4free op, en zodra die dood is staat nomoney4chatbot op. Tenzij hun partners hun slechte implementaties repareren, is dit nogal een nutteloze opgave.
OpenAI heeft een foute naam, het is allesbehalve Open noch Vrij.
Dat was al aangekaart toen het bedrijf opgestart was, het begon als open source project maar toen ze door hadden dat ze er heel veel geld mee konden verdienen veranderde hun toon.
De basis is OPENbare data :-)
Ik krijg het idee dat het 'product' ChatGPT veel te vroeg door OpenAI op de markt is gebracht. Dit soort gelazer, maar ook het ontbreken van een business abo welke je data van 'hergebruik' kan onttrekken, wat me toch wel een essentieel punt lijkt! En er naar hint dat dit niet het geval is bij de andere (betaalde abo's)...*

Wat het kan vind ik prachtig! Maar OpenAI komt niet over als een heel professionele toko met al van dit soort acties...

Een van de redenen dat ik nog niet de $20/maand heb neergelegd voor ChatGPT Plus is dat geheel onduidelijk was wat de voorwaarden zijn. Nu met wat extra google werk kom ik wel het een en ander tegen, maar zeer lastig te vinden vanaf de OpenAI pagina!

*Je kan dus wel een verzoek voor "User Content Opt Out Request" aanvragen, maar dat gaat wel heel erg onprofessioneel via een Google Forms...
In dat form staan tenminste ook de privacy (or lack thereof) policy en de terms of use...
One of the most useful and promising features of AI models is that they can improve over time. We continuously improve the models that power our services, such as ChatGPT and DALL-E, via scientific and engineering breakthroughs as well as exposure to real world problems and data.

As part of this continuous improvement, when you use ChatGPT or DALL-E, we may use the data you provide us to improve our models. Not only does this help our models become more accurate and better at solving your specific problem, it also helps improve their general capabilities and safety.

We know that data privacy and security are critical for our customers. We take great care to use appropriate technical and process controls to secure your data. We remove any personally identifiable information from data we intend to use to improve model performance. We also only use a small sampling of data per customer for our efforts to improve model performance.

We understand that in some cases you may not want your data used to improve model performance. You can opt out of having your data used to improve our models by filling out this form. Please note that in some cases this will limit the ability of our models to better address your specific use case.
Bron:
https://help.openai.com/e...0777-what-is-chatgpt-plus
https://openai.com/policies/privacy-policy
https://openai.com/policies/terms-of-use
https://docs.google.com/f...PCt3d8XqnKOfdRdQ/viewform
ChatGPT is geen product (denk ik), maar een tech demo. Google, Bing, en de duizenden bedrijven met een chat-klantenservice zijn de klanten die hun tech uiteindelijk in licentie gaan nemen.
Je kan dit gewoon uitvinken in je instellingen. Linksonder op je e-mail klikken > settings > show data controls > chat history and training.

Ik kan het in ieder geval in mijn plus abbo.
Ik zie de humor er wel van in ChatGPT gebruikt ook gratis content om aan hun antwoorden te komen. Ik hoop dat hij voet bij stuk houdt. Al zal hij waarschijnlijk wel moeten zwichten als hij een torenhoge rekening krijgt.
Anoniem: 584966 @TheDudez1 mei 2023 12:33
Dat heb ik ook met kranten. Al die journalisten die interviewen mensen op straat zonder te betalen en verwachten dat ik dan per maand betalen om een krant artikel te kunnen lezen. Lachen
Dat is fundamenteel anders. De geinterviewde doet willens en wetens mee. Dat is niet stiekem op massieve schaal gegevens scrapen en er dan een product mee maken wat je gaat verkopen.
Hoezo stiekem? Doet Google niet iets vergelijkbaars door alle content van websites doorzoekbare te maken en daar vervolgens miljarden mee verdienen?
Stiekem schrapen? Jij zet toch zelf die data publiekelijk online zonder enige robots.txt oid.
Als ik dit zo lees moet OpenAI vooral bij de sites van derden aankloppen. Ik denk alleen wel dat het faciliteren van iets wat waarschijnlijk ook niet via die sites van derde partijen kan/mag wel een geldig punt is. Waar is de ICT jurist als je hem nodig hebt? ;)
Die geest krijgen ze niet terug in de fles. Ik denk dat ze beter af zijn door GPT-4 en de API an sich vrij te geven voor educational use. De meest mensen zijn in AI aan het hobby'en, bind die aan je zou ik zeggen.

Ik heb zelf Plus abbo genomen, daar bleek de API niet bij te zitten. Ik heb toen maar een Chrome plugin en Python combo gemaakt, zodat ik de de web based client als API endpoint kan gebruiken. Vooral omdat ik het interessant vind, niet vanwege commercieel gebruik.

[Reactie gewijzigd door CrimsonRider op 24 juli 2024 12:19]

Die geest krijgen ze niet terug in de fles. Ik denk dat ze beter af zijn door GPT-4 en de API an sich vrij te geven voor educational use. De meest mensen zijn in AI aan het hobby'en, bind die aan je zou ik zeggen.
Dat zal financieel niet haalbaar zijn.

En net zoals ze bij bv. Teamviewer ondervonden, mensen gebruikte de gratis versie voor werk. Nu heeft men een bagger model waarbij mensen die het daadwerkelijk niet voor werk gebruiken alsnog worden geblokkeerd.

Daarnaast is ChatGPT al gratis te gebruiken, als het niet te druk is, betalende klanten gaan voor.
> Die geest krijgen ze niet terug in de fles.

Het is volgens FUP vast niet toegestaan APIs te bouwen aan online diensten.
Die geest krijgen ze niet terug in de fles.
Dat zeker niet, de hoeveelheid gratis / goedkopere / open source alternatieven die effectief dezelfde tech ontwikkelen / het truukje herhalen springen ook nu al links en rechts op; OpenAI heeft nog een klein voordeel dat het een first mover is, maar binnen een jaar zijn ze slechts een van vele spelers - en ze moeten concurreren met gratis.
Je doet net alsof het gratis is om de service aan te bieden. Laat mensen maar mooi betalen voor gebruik.
Bovendien benadert hij de api van OpenAI niet rechtstreeks, maar via sites van derden, zoals You.com en Forefront.ai. Daardoor is de repo niet in overtreding, meent hij.
Groot gelijk, want het is zijn verantwoordelijk niet... De sites wel, ze moeten hem sommeren om te stoppen als ze een take down verzoek van OpenAI hebben gekregen. Blijkbaar hebben ze het nog niet ontvangen, best wel vreemd.

[Reactie gewijzigd door Dark Angel 58 op 24 juli 2024 12:19]

En dus moeten ze bij die websites die een API aanbieden zijn, en niet bij de maker van deze tool.
Ziet eruit alsof er op elk punt data afgetapt kan worden. Heel erg makkelijk zo. Gebruik het niet is mijn advies. Je privacy gaat eraan.

Op dit item kan niet meer gereageerd worden.