OpenAI gaat verbod op crawling in robots.txt respecteren

OpenAI's crawler gaat een regel in de robots.txt-file van websites respecteren als daarin staat dat de crawler niet welkom is. Dan zullen de modellen van OpenAI niet getraind worden op de teksten van die site. Data die al eerder opgehaald was, blijft in de modellen.

De crawler van OpenAI, de maker van ChatGPT, liet al webpagina's met paywalls, persoonlijke informatie en 'voorwaardenoverschrijdende content' met rust, maar het is voor het eerst dat de crawler ook weggehouden kan worden bij andere content.

Webmasters kunnen de tekst toevoegen aan robots.txt, het tekstbestand dat onderdeel is van webstandaarden en instructies geeft aan niet-menselijke bezoekers. Een gangbare toepassing voor deze file is om zoekmachines te vertellen dat ze de content van pagina's niet mogen opslaan voor previews van zoekresultaten. Nu kan de file ook gebruikt worden om de useragent GPTBot buiten de deur te houden. Het opvolgen van de instructies gebeurt vrijwillig.

OpenAI traint zijn large language model op teksten op internet. Dat model is vervolgens de basis voor de informatie die ChatGPT zelf kan begrijpen in vragen van gebruikers en die het kan vervaardigen in zijn antwoorden daarop. Reddit en Twitter hebben zich kritisch geuit over het crawlen van OpenAI; ze vinden het niet kunnen dat er geld verdiend wordt met de content op die sites terwijl OpenAI daar niets voor teruggeeft. In reactie daarop stellen ze paywalls en dergelijke in, zeggen ze. Deviantart had al zijn eigen 'noai'-flag om crawlers tegen te houden, zo somt The Verge op.

Door Mark Hendrikman

Redacteur

08-08-2023 • 09:53

204

Lees meer

Reacties (204)

204
204
76
4
0
99
Wijzig sortering
> Data die al eerder opgehaald was, blijft in de modellen.
> Het opvolgen van de instructies gebeurt vrijwillig.

Het blijft mij verbazen waar deze bedrijven allemaal mee wegkomen. Als developer hoef je maar één foutje te maken op de AVG/GDPR-wet, en je hebt (terecht) een groot probleem.

Data verwijderd krijgen is echt een groot probleem. Heb het bij Archive.org gezien, whois databases/archives van domeinen, en ook bij Google. Wil je dat namelijk, dan mag je alsnog allemaal persoonlijke stuff opsturen, en dan nog is het de vraag of ze het verzoek gaan oppakken (en hoelang dat dan duurt). Ik gebruik zelf geen sociaal netwerken, maar ook daar is het een probleem, vooral op het gebied van (persoonlijke) haat.

Maar het grootste probleem is en blijft, je kunt dus zeggen NEE, maar alsnog wordt de data gewoon opgezogen, want de robot hoeft het verzoek niet te respecteren.
OT: Bij archive .org is het wel makkelijk wat te laten verwijderen (ALS je familie bent!!)

Anyway.. data verwijderen uit een model kan niet zo makkelijk. Het is alsof je tegen iemand zegt dat hij moet vergeten wat jou naam is. Dat kan die persoon/model niet tenzij je alles reset naar het punt voordat hij jou naam wist. Maar dan weet hij al het andere dat hij daarna had geleerd niet meer en moet dat allemaal opnieuw leren.

[Reactie gewijzigd door MrMonkE op 22 juli 2024 18:24]

Het was veel beter geweest, als ze eerst robots.txt hadden ondersteund vóór de release en/of zouden werken met een block/allowlist.

Nu is het probleem dat je er mogelijk al in staat, met alle gevolgen van dien.
Dat was wel netter geweest, maar dat had ook een flinke beperking ingehouden.
Misschien eens tijd om robot.txt eens een wettelijke status te geven.
Dat zou erg 'net' zijn geweest, maar robots.txt is geen verplichting.. het is een 'vriendelijk verzoek'.
Ik ben het met WillySis eens dat robots.txt misschien toch maar bij wet verplicht moet worden gerespecteerd te worden.
Zouden we prima op Europees niveau kunnen doen voor domeinen binnen de EU.
Zou meteen ook een énorme boost geven aan Europeese domeinen want ongetwijfeld zullen buitenlandse bedrijven ook wel graag daarvan mee willen profiteren. :)
Ik heb in de tijd de domein moeten overkopen, voor al een 'chance' "maar" 100eur, omdat archive.org voor hun archief kijkt naar de HUIDIGE robots.txt file om te bepalen of je de historiek moogt raadplegen...

Domein was aslpage dot be, kennis van me, gestorven aan hersentumor, die site was zijn levenswerk, en door mijn "donatie" van die 100eur, en jaarlijkse verlenging, houd ik zen legacy toch een beetje levend.

RIP Kim :'(
@Sinnergy FYI, die website werkt hier niet...
Weet ik, moet op archive org zien he 😅

Als ik dat domein niet overgekocht had, kon men die historiek niet meer raadplegen
Anyway.. data verwijderen uit een model kan niet zo makkelijk.
Maar is dat een argument om het dan maar niet te doen?
Wie zijn probleem moet dit eigenlijk zijn?
Precies! Dit is natuurlijk grote BS, eerst zorgen dat je populair/ krachtig bent en zoveel mogelijk aan je laars lappen en onethische praktijken er op na houden (zoek zelf maar op), en eens dat gedaan is geleidelijk aan aan de regels voldoen, maar intussen heb je wel een krachtig getraind model.

Ik vraag me af of ze hen zouden kunnen verplichten om hun getrainde modellen echt volledig te verwijderen en volledig opnieuw te doen rekening houdend met robots.txt (ik weet het, het is geen verplichting en je mag het negeren...), ethisch training, ... Volgens mij zijn ze per direct failliet en/of de modellen een pak minder krachtig.

Edit: waarschijnlijk niet direct failliet, zie kost van het trainen van het model ergens anders vermeld in deze comments. Maar toch..

[Reactie gewijzigd door Katanatje op 22 juli 2024 18:24]

Rekening houdende met robots.txt is niet genoeg. Dan moet ik als beheerder dit gaan instellen op alle websites?

Nee, een opt-in zou op dit (maar ook op zoekmachines en weet ik wat) een wettelijke verplichting moeten worden zodat wanneer er weer eens iets nieuws bedacht gaat worden, ze niet zomaar alles kunnen gaan weggraaien.

Daarnaast moet het dan supersimpel worden om, mocht een bedrijf zich hier toch niet aan houden, een flinke compensatie te krijgen. Dan gaan dit soort (in mijn ogen criminele) organisaties misschien eens nadenken over hun praktijken.
Aan de andere kant is alles op internet wat niet afgeschermd is openbaar. Dat is de kern van internet.
Als je niet wilt dat je website wordt opgenomen in searchengines kun je gewoon * gebruiken als user-agent match in robots.txt.

Echter ChatGPT is geen searchengine. robots.txt is inderdaad vrijwillig, maar alle grote search engines volgen die instructies op. Omdat veel websites al een robots.txt bestand hebben, is het volgen van de robots.txt instructions een snelle manier voor zowel ChatGPT om te weten welke websites niet geindexeerd willen worden en website beheerders kunnen ook snel bijvoorbeeld ChatGPT blokken, maar Google wel toestaan...
Leuk dat je het openbaar noemt, maar dat wil niet zeggen dat een willekeurige "lezer" die informatie ook mag gaan (her)gebruiken. Dat is in de basis iets wat hier gebeurd.

Met iets op internet zetten, op je eigen website, geef je niet de toestemming voor hergebruik.

Het toestemming moeten vragen om WEL iets te mogen (zoekmachine / ChatGPT e.d.) is een veel betere methode dan maar verwachten dat je aangeeft iets NIET te willen.
Data die al eerder opgehaald was, blijft in de modellen.
Ik denk dat ze bedoelen dat het model niet opnieuw getraind wordt? Of bedoelen ze dat de data onderdeel van de trainingset zal blijven? Dat eerste zou ik nog begrijpen, een model trainen kost heel veel geld. Maar dat tweede slaat natuurlijk nergens op... dus wat wordt hier bedoeld?
Ik ben er altijd huiverig over, hoe is Europa over 30 jaar of in de toekomst , ik moet me niet voorstellen als ik een dochter of zoon had die op social media anno 2023 zat .. en later in een 2060's Europese dictatuurschap zit , hoe makkelijk het dan zal zijn om het verleden en persoonlijkheid op te zoeken zal zijn voor " her-training " of " " sociale krediet "
Ik vraag me echt af wat er overblijft van AI nadat de hype is overgewaaid.

https://upload.wikimedia....artner_Hype_Cycle.svg.png

Edit:
Op aanraden van @RobbieB de link naar gartner.
https://www.gartner.com/e...e-2022-gartner-hype-cycle

[Reactie gewijzigd door Ivolve op 22 juli 2024 18:24]

Alleen is dit niet zomaar een hype. Ik werk in het veld als onderzoeker en heb er ook formele studieachtergrond in. Ze zijn al met AI bezig sinds eind jaren 50, (zowel met de filosofie als de theorie), maar de computationale kracht ontbrak om er veel mee te doen. Wel had je toen al veel investeringen in automatisch vertalen, vooral Engels-Spaans en Engels-Russisch (koude oorlog), wat je ook AI kan noemen. Automatisch vertalen (Google Translate) bestaat al ja-ren - ook AI, al lijkt iedereen dat te vergeten en toch gebruiken we het allemaal. Generative modellen zitten al langer op veel plaatsen (denk ook aan automatische voorspelling op je telefoon), het is dus al lang geen hype meer.

Als je naar die afbeelding van jou kijkt, lijkt het me dat we al lang in de "production" state zitten (AI zit al in enorm veel producten en al voor erg lange tijd), maar dat er tegelijkertijd ook een upward trend is naar meer innovatie. Sommige zaken worden opgepikt, anderen ietwat minder (voice assistants zijn nooit echt goed doorgebroken), maar de integratie van goede AI-systemen blijft wel groeien.

[Reactie gewijzigd door BramVroy op 22 juli 2024 18:24]

In de context waar @Ivolve op reageert, lijkt het mij duidelijk dat in zijn comment AI geinterpreteerd moet worden als het toegankelijk worden van GPT voor de consument. Als je daar de curve op los laat, zie ik inderdaad wel wat Ivolve bedoeld.

De artikelen die rondom de livegang van Chat-GPT 3 online werden gezet, waren een stuk lovender en minder terughoudend met hun statements dan dat ze nu gepubliceerd worden. In die zin zou je kunnen zeggen dat we in de Trough of Disillusionment zitten.
Tgoh, ja daar ben ik het met jullie eens. Er is zeker een hype, en de gebruikers zullen wel stilaan weer afnemen. Maar de adoptie in daadwerkelijke producten komt er toch wel erg snel. Zo is natural language prompting al geintegreerd in Adobe producten, zit generative AI in sommige zoekmachines, en de Office Suite krijgt het ook nog eens mee. Gaat toch wel echt snel! Of het allemaal zo veel gebruikt zal worden in de komende jaren door de gemiddelde gebruiker, dat is de vraag.
Het wordt nu al massaal gebruikt door scholieren en studenten. Die gaan straks ergens werken en nemen hun gereedschap dan gewoon mee.
Ik werk in het onderwijs en in eerste oogopslag lijkt het of de kwaliteit is toegenomen. De zinnen zijn beter geschreven, er worden duurdere woorden gebruikt en de structuur van producten zit vaak ook beter in elkaar. Maar inhoudelijk vind ik het zeker niet beter, en als je dan in gesprek gaat met een student snappen ze zelf vaak niet wat ze hebben geschreven. Ik vind het behoorlijk zorgelijk, ook omdat we op onze hogeschool nog geen goede manier hebben gevonden om hier mee om te gaan. Er is bijvoorbeeld geen tijd om met elke student in gesprek te gaan om te zien of die ook snapt wat er is geschreven.
Maar dat is het resultaat van competentie gestuurd onderwijs. Dan moet je op papier aantonen wat je geleerd hebt. En (vanuit de ervaring die ik bij mijn kinderen gezien heb) gaat het (naast de inhoud) vooral om de vorm.
Dan wordt alles teruggevouwen naar taal. Vervelend als dat nou net niet je sterke punt is, waardoor je op de vorm wordt afgerekend. Dan is het logisch dat ze naar chatGPT grijpen.

En je laatste zin vind ik raar. Je hebt wel tijd om alle verslagen te lezen. Zou je die niet beter aan een gesprek met de leerling kunnen besteden? Want zoals je zelf aangeeft, hetgeen wat op papier staat komt blijkbaar niet overeen met wat de student weet.
Tijd gespendeerd aan het lezen van een verslag vertaald zich alleen niet 1 op 1 met tijd gespendeerd met een leerling om hetzelfde verslag inhoudelijk te bespreken.

Maar ben het wel met je eens. Ik heb mijn afstudeerstage gedaan op het verbeteren van een pipeline met machinelearning. Ik kon dan ook prima vertellen hoe het SVM gebeuren werkte, maar de kern van mijn afstudeerstage was filtering van de resultaten bovenop wat het model teruggaf en verbeteren van de input (PDF to text werkte heel slecht met griekse karakters en laat je die nou net nodig hebben met eiwitten). Technisch had ik dan ook zeer goede resultaten en heb ik er echt veel van geleerd. Mijn verdediging was ook echt een goed verhaal. Een serieuze business case met een goed eindcijfer. Het verslag daarentegen … die heb ik nog een keer mogen doen. Niet omdat de inhoud zo moeilijk was, maar omdat het gewoon heel lastig is om dingen op papier uit te leggen die semi parallel worden gedaan in de praktijk.

ChatGPT had voor mij toen een goed hulpmiddel geweest om mijn gedachten beter op papier te zetten.
Tijd gespendeerd aan het lezen van een verslag vertaald zich alleen niet 1 op 1 met tijd gespendeerd met een leerling om hetzelfde verslag inhoudelijk te bespreken.
Mijn ervaring: Je moet vooral proberen op te schrijven wat de leerkracht wil horen. Daar schuilt het probleem, omdat (zoals je aangeeft) er ruimte zit tussen wat je gedaan en ervaren hebt en hoe je dat verwoord. Je verslag opnieuw schrijven veranderd niks aan je kennis en ervaring.

Voor mijn werk schrijf ik regelmatig documenten en het is mij al heel lang duidelijk:
1. Het schrijven kost heel veel tijd
2. Het is heel lastig om het vanuit de ontvangende kant te schrijven, omdat iedereen een ander niveau van kennis en ervaring heeft. Ik verwacht dus ook van de professionele lezer dat men in staat is de kern te zien.
Tsja. Weet je. Dit was ook al weer 7 jaar geleden xD. Ondertussen weet ik ook beter, maar nog steeds vind ik het raar dat een “learning experience” zoals een stage niet wordt afgerekend op verworven kennis en kunde (ik heb ontzettend veel geleerd van de code reviews bijvoorbeeld), maar op hoe goed je papers kunt samenvatting in je literatuur onderzoek en een beetje in de rondte kunt filosoferen in je discussie.
Dan is er een mondelinge toets nodig om te controleren of de student wel snapt wat hij/zij opgeleverd heeft. Deze valt dan snel door de mand.
Op zich vind ik dat dit altijd al nodig was, want toen AI nog niet bestond kon je e.e.a. ook al uitbesteden.
Dat is mijn favoriete manier om te examineren, maar als je bv. 500+ studenten hebt per vak in het eerste jaar is dat niet haalbaar
Dus 1 leraar heeft 500 leerlingen? Beetje veel
Vind 500 eigenlijk niet heel veel. Stel dat een leraar 6 lessen per dag geeft en dat 5 dagen in de week. Meeste lessen krijg je 2 keer per week. Dus dan heb je 15 klassen en zit je op 33 leerlingen per klas. Heb je een vak die maar 1 keer gegeven wordt per week, heb je 30 klassen en amper 17 leerlingen per klas.

Nou vind ik 15 klassen nog wel logisch op een grote school maar 33 leerlingen wel een de vele kant. Maar bedoelde meer dat de aantallen snel oplopen als je veel verschillende klassen hebt :)
Want? In het middelbaar onderwijs ben je als leraar vaak betrokken bij meerdere jaarlagen en geef je een klas 1 a 2 keer in de week les.

Zoals @Vinnie.1234 al voorrekent heb je dan niet heel veel leerlingen per klas nodig om aan de 500 te komen.

Ga je naar hogescholen en universiteiten kijken dan zijn hoorcolleges met 100+ man niet eens heel raar. Doe dat een paar keer in de week en presto.
Op een universiteit niet ondenkbaar in het eerste jaar bij populaire studies. Ik had er 200+ in mijn 'klas' het eerste jaar informatica.
Nee, dat is waar.
Misschien moeten we het dan maar uitbesteden aan een AI! ;)
Dat is niet te doen. Laten we uitgaan van een kleine klas van 30 studenten. Je hebt dan toch al snel 30 minuten per student nodig want je moet de vragen die je wil stellen aan een student ook kunnen voorbereiden. Dat betekent dat je per klas al 2 werkdagen nodig hebt voor aanvullend nakijkwerk. Stel je hebt maar 5 klassen dan ben je 2 volle werkweken bezig met mondelingen. En binnen het hbo is het heel gebruikelijk dat docenten met een been in het bedrijfsleven staan, wat wil zeggen dat ze niet fulltime docent zijn. Dus dan kan het zomaar zijn dat een docent 4 weken geen les kan geven omdat er mondelingen moeten worden afgenomen... daar is echt geen tijd voor.

Veel docenten werken 's avonds onbetaald door om de overgebleven essays na te kijken, maar een mondeling is veel meer geregel en kost veel meer energie, dus dat ga ik absoluut niet in mijn vrije tijd doen.
Dat is wel een probleem dan. Studenten kunnen frauderen bij het leven.
Misschien moeten we de AI mondelinge examens laten afnemen. :+
Als je onderscheid kan maken tussen de studenten die de stof wel daadwerkelijk snappen is het toch niet al te negatief? Maar gaat dus inderdaad veel meer werk kosten
Je zit te praten over ai zoals een wiskunde docent over rekenmachines lol.
Met een rekenmachine moet je ook eerst bepaalde basisvaardigheden onder de knie krijgen voordat je het op een rekenmachine mag invoeren. Daarnaast klopt de output van een rekenmachine altijd. Bij een taalmodel als Chatgpt is dat niet zo. Die kan gaan hallucineren en je moet al een bepaald niveau hebben om de fouten eruit te kunnen pikken. Dus die vergelijking met een rekenmachine gaat niet helemaal op.
Gisteren nog maar gezien: stack overflow is year-on-year 50% van zijn traffiek kwijt en de gemiddelde programmeur werkt momenteel dubbel zo snel. Er zijn verschillende, onafhankelijke rapporten die dit beamen.

Om te beweren dat dit een hype is en weer over zal waaien lijkt mij extreem vergezocht en eerlijk gezegd zelfs een beetje naief.
Dit lijkt me ook wel een beetje met een korrel zout genomen. Een 'gemiddelde' programmeur werkt twee keer zo snel als wat? Wanneer? In vergelijking met tien jaar geleden vast. Maar of dat komt door AI of door meer tools, frameworks etc lijkt me heel lastig te onderscheiden. Zelf ervaar ik bij lange na niet dat AI mijn workflow of hoeveelheid werk die ik kan opleveren twee keer zo veel/snel maakt. Het maakt het (soms) makkelijker, zeker, maar sneller durf ik echt niet te zeggen.

Heb je een paar van die onafhankelijke rapporten? Ik ben daar wel erg benieuwd naar:)
Werkt dubbel zo snel? Of vergeet dat ie geen reistijd meer heeft en pakt gewoon per ongeluk een paar uurtjes extra tijdens thuiswerken? Want dat laatste hebben we met de lockdowns wel gezien.

Daarnaast zijn er nog veel meer zaken in de wereld die productiviteitsverbeteringen hebben gegeven de afgelopen jaren. Zoals betere CI/CD oplossingen, snellere laptops, betere frameworks met betere developer experience en bijvoorbeeld het feit dat Infra tegenwoordig veel makkelijker te beheren is.
klopt, en de producten waarbij het gaat helpen (productivity) zijn allemaal in de pijplijn.
BingChat, Integratie in Word, etc. Ik maak er ook al gebruik van in Grammerly om mij te helpen met teksten of met het inpluggen van cijfers ter onderbouwing (vaak al wel ergens gelezen, maar weet ik zelf gewoon niet meer waar).
Ik verwacht eigenlijk ook dat Alexa, Google en Siri hier op de achtergrond gebruik van gaan maken.
De meeste gebruikers van AI zullen niet eens merken dat het op de achtergrond helpt met de service die ze aanroepen.
ik hoop dat die Alexa, Google en Siri daar eens gaan mee beginnen werken... trekt nu op niks als je ziet wat chatGPT kan.
Volgens Google VP Peeyush Ranjan & Director of Product Duke Dukellis zou Google er al mee bezig zijn om Assistant uit te breiden met generative AI.
OK misschien is de term AI te generiek in deze context. Wat nu hot is zijn de LLM's en image generation. Deze zitten wat mij betreft wel echt in de peak.
Ik verwacht ook wel dat deze ontwikkeling echt een plaats gaat krijgen in de samenleving en ben gewoon benieuwd hoe dat eruit gaat zien.
Ik zie niet in waarom het volgens jou op de piek zit. Het mooie aan de algoritmes is toch juist dat ze continu beter worden? Met name afbeeldingen genereren is het afgelopen jaar echt drastisch verbeterd, waarom zou dat komende jaren anders zijn?
Toch is het volgens mij niet gek om aan te nemen dat er een plateau is, of op z'n minst een punt waarna de ontwikkeling minder snel gaat.

ChatGPT is een LLM, het is nu met name zo goed omdat OpenAI in staat is geweest om (1) een goed algoritme te maken en (2) dit te trainen op enorm veel informatie. Echter, er is een limiet aan hoeveel informatie er beschikbaar is en het algoritme is al vrij goed.

Het is dus m.i. niet onmogelijk dat de ontwikkeling afzwakt en dat er idd sprake van een hype is.
ChatGPT is niet de enige. Er zijn meerde (opensource) LLM's die zich perfect kunnen meten met GPT4, en op sommige vlakken zelfs beter presteren.
Welke open source modellen kunnen zich meten met GPT4?
Ik hobby aardig met LLM's, maar ik heb er nog geen gevonden die net zo "goed" is als ChatGPT-4. Als er open source varianten zijn die dat wel zijn, zeker met API toegang, hoor ik het graag. Tot nu toe is het net meh.
Het gaat niet zozeer om de techniek maar om de verwachtingen van de toepassingen. We verwachtten nu dat genaratieve AI straks van allerlei taken van mensen over kan nemen. Maar is dat ook daadwerkelijk zo?

AI werkt per definitie op kansberekening en geeft dus het antwoord dat het meest waarschijnlijk klinkt, ongeacht of het waar is. Voor sommige toepassingen is dat misschien geen probleem, bij andere wel.

Bijvoorbeeld: je kunt nu misschien verwachten dat AI op basis van beschrijving van symptomen een diagnose van een patiënt kan geven. Als je een AI model kunt trainen dat 99 % accuraat is dan klinkt dat als heel veel. Van de andere kant betekent dat dat het bij elke 100 patiënten 1 keer fout gaat. Is dat genoeg?

Dat bedoel ik dus wanneer ik zeg dat ik benieuwd ben wat er overblijft na de hype cycle.
En een mens doet dat niet met zijn hersenen? Ik zie het verschil niet om eerlijk te zijn. Ons brein doet precies hetzelfde met alle input die we in ons leven hebben gekregen. De meeste AI modellen scoren al veel beter dan mensen in de medische wereld, denk aan opsporing van bepaalde soorten kanker.

Een AI kan veel meer informatie over een specifiek onderwerp tot zich nemen dan ons brein, en het ook sneller toepassen.

Kun jij me uitleggen wat het verschil is tussen de parameters die jij met je zintuigen oppikt, en daar vervolgens wat mee doet, en hoe een AI getraind wordt, en waarom een mens dan beter zou zijn?

[Reactie gewijzigd door OriginalFlyingdutchman op 22 juli 2024 18:24]

Ik kan me inderdaad voorstellen dat veel huidige ML modellen beter zijn in sommige dingen dan de gemiddelde mens.
En uiteraard moet er bij medische toepassingen altijd menselijk toezicht zijn! Tuurlijk gaan we al die algoritmes niet 100% vertrouwen, maar voor veel toepassingen waar dat minder uitmaakt zijn ze ontzettend handig om tijd te besparen
Tuurlijk gaan we al die algoritmes niet 100% vertrouwen, maar voor veel toepassingen waar dat minder uitmaakt zijn ze ontzettend handig om tijd te besparen
En daar zit nu ook de valkuil. Veel mensen zullen begrijpelijkerwijs wél 100% gaan vertrouwen, hetzij door werkdruk ofwel door onwetendheid
Dat gebeurt nu al, ontzettend veel, op het internet. Nog een reden waarom dit een belangrijk onderwerp op school zou moeten zijn
Ik draai het toch graag eens om. Gaan we nu echt een mens vertrouwen ? Die kan een slechte dag hebben of net iets minder geslapen hebben en dan schiet hij voorbij.

Zelfde met auto's besturen, mijn reactie tijd en die van een computer zijn zelfs niet in de zelfde range.
@svennd dat ligt aan de context. Een computer kan oneindig sneller rekenen en is nooit moe. Een LLM gaat niet verder dan de consensus in de training dataset.

Een mens kan echter concluderen dat de consensus niet correct of onvolledig is. Een LLM getraind op de kennis tot 1925 zou zelf niet tot het huidige standaard model van de deeltjes fysica komen. Waarom zou een LLM met data tot 2022 getraind ineens zelfstandig tot nieuwe inzichten komen die nu nog onbekend zijn? Denk het niet.

Precies dit bedoelt @Ospo : leer mensen omgaan met de beperkingen en mogelijkheden van een LLM en AI in het algemeen. Maak het tot een tool en geen magische saus

[Reactie gewijzigd door divvid op 22 juli 2024 18:24]

“Het mooie aan de algoritmes is toch juist dat ze continu beter worden?”
Dit is bijna de definitie dat je in hype fase zit. De nadelen en obstakels worden niet gezien, genegeerd of zijn nog niet bekend. Dan lijkt er inderdaad niks in de weg te staan en is iedereen overenthousiast.
Op een gegeven moment wordt men realistischer. Voor nieuwsartikelen lijkt het bijv dat er nog significant werk aan de winkel is.
Je hebt gelijk in de zin dat ik even de obstakels vergeet. Maar uit mijn bericht kan je niet opmaken dat ik níet in de veronderstelling ben dat de verbeteringen zo snel blijven komen. Wat ik meer bedoel is dat er uiteraard een hype is nu, daar ben ik het mee eens, maar dat het ook ontzettend veel beloofd voor de toekomst. Met de kennis van nu weten we niet of de hype enigszins terecht is of niet.
(Een onterechte hype hoeft niet te betekenen dat er niks is om enthousiast over te zijn)

[Reactie gewijzigd door Ospo op 22 juli 2024 18:24]

Ik geloof er niks van dat we op de piek zitten, het wordt constant beter, en langzaamaan wordt het ook beter gebruikt. Als bedrijven er beter mee om kunnen gaan, zullen ze ook meer manieren vinden hoe het te gebruiken.
Er zijn een aantal dingen waar AI nu al flink handig is, zoals voor selectie van voorwerpen in Photoshop, en het invullen van achtergronden etc. daar.

Als het gaat om het from scratch genereren van dingen zal het toch een human-assisted iets blijven.

Ik denk dat het een beetje zal zijn zoals autonomous driving; dat is nu bij Tesla echt heel erg goed aan het worden (in de VS) maar je hoort er niet zo veel meer over.

En dát is juist hetgeen waar Generative AI kan uitblinken; als je er volledig van op aan kan dat het een bepaalde voorspelbare uitkomst heeft. Als dat kan dan gaat de impact groot worden, bijvoorbeeld voor personalisatie van content, maar op dit moment zijn we er nog niet.
Google translate is geen AI maar machine translation, al zou je dit kunnen zien als een vorm van AI. Google begon met Statistical machine translation(SMT), later Neural machine translation (NMT) DeepL is een beter voorbeeld van AI voor vertalingen, vanaf het begin gebruikte DeepL deep-learning gebaseerd op grootschalige neurale netwerken.
Veel gebruikers en experts prijzen DeepL's vertaalkwaliteit, vooral voor Europese talen. Het is vaak natuurlijker en vloeiendere dan andere vertaaldiensten.
Machine translation is een subdomein binnen AI. "Neural" machine translation staat voor deep learning ("diepe neurale netwerken"). Zowel DeepL als Google als Microsoft gebruiken gelijkaardige architecturen om dit te bereiken (tegenwoordig transformers). Je kan echt niet DeepL AI noemen en Google Translate niet - ze zijn onderliggend beide gebaseerd op neurale netwerken (~deep learning) en zijn zeker en vast wel een onderdeel van AI.

[Reactie gewijzigd door BramVroy op 22 juli 2024 18:24]

Andere hebben vroeger begonnen met NMT, Google en Bing Translator als sinds 2016, DeepL start in 2017 als bedrijf
Ik denk dat je te dicht op de materie zit om de 'big picture' te zien. Als onderzoeker maak je de hele cycle mee, en dat vertekend je beeld. Ik denk dat we nu wel een sprong gemaakt hebben van 'narrow AI' naar 'less narrow AI' om het zo maar te noemen. De generatieve AI die nu een hype is lijkt me zeker nog niet op 'productivity' te zitten. 'Narrow AI' zoals we die kennen van automatische vertalingen en assistenten wel idd. Maar vanwege de sprong vooruit is dit een losstaande cycle. En volgens mij moet 'disillusion' nog komen. De getekende cycle is ook voor generieker publiek dan voor de mensen in het vakgebied.
Daarom zit er denk ik teveel filosofie 'in de AI' omdat er zo lang abstract mee om is hoeven gaan zonder het te kunnen implementeren. Het is nu gewoon een tool. Zodra het pretendeert meer te zijn begin ik een beetje te kotsen. :r

-over assistants-

[Reactie gewijzigd door MrMonkE op 22 juli 2024 18:24]

Volgems mij gaat het leiden tot totale controle over informatie-stromen en computers door autoriteiten, om te voorkomen dat de hele media-markt in elkaar stort omdat iedereen alles via een niet-transparant kanaal kan binnenhalen inclusief copyrighted materiaal Dan is het klaar met alle van reclame afhankelijke produktie.
Niet alleen door dat: met relatief simpele internet tools als facecrap/metastink, whatsapp, fuck zelfs IRC, ... kan er een (globale) militante bende met de juiste cultaanhang/triggerwoordjes vliegensvlug gemobiliseerd worden om keet te schoppen. Waarvoor de politiek dan weer een duidelijk repressieve lik-op-stuk reactie voor wilt geven (peilingsdrang) en verdere militarisering van onze politiediensten veroorzaakt. Dat groeiend ongenoegen van de jongere klasses, de klimaatproblematiek en de onmacht van de politiek om de problemen echt aan te pakken zijn genoeg redenen om een gefaalde controlestaat te krijgen die zichzelf weer en meer en opnieuw voed in zijn eigen zelf voorspelde geschapen ondergang.

Getekend, iemand die schrik heeft, heel veel schrik !
Ik denk binnen een jaar een verbod op "vrije" computers en communicatie,in combinatie met een import-stop van alles met een processor en gebruikers-controle uit China.
Over de tijd zijn er al meerdere "AI summers" en "AI winters" geweest, waar in de "summers" inderdaad veel onderzoek en ontwikkeling werd gestoken in AI, vaak getriggerd door bepaalde nieuwe ontwikkelingen of technologieën; en waar in de "winters" in de mainstream vrij weinig werd gedaan met AI, inderdaad omdat de beloftes tijdens de zomers niet waargemaakt konden worden. Het lijkt bijna een soort natuurlijke cyclus te worden, maar ik verwacht inderdaad dat we binnenkort zodanig teleurgesteld zullen zijn met AI dat we weer een winter ingaan.
Ik denk dat we uberhaubt niet eens nabij de piek zijn. Als je kijkt naar MidJourney voor de grap had ik het 6 maanden terug geprobeert en was het gewoon slecht, fast forward 6 maanden en nu genereerd het best wel goede content. De ontwikkeling in dit soort producten gaat zo gigantisch snel en er is een wedloop wie het snelste/beste kan leveren, dat ik denk dat we nog heel veel nieuwe dingen gaan zien in de nabije toekomst.

Met betrekking tot OpenAI, mooi dat ze nu robots.txt gaan respecteren maar ook wel weer raar dat ze oude data waarvan de eigenaar dit niet graag gedeeld had, gewoon in gebruik blijft. Op z'n minst zouden ze hun crawlers bij een verandering in robots.txt oude data al dan niet kunnen verwijderen.
AI is nu zeker een hype, maar de ontwikkeling is ook nog in volle gang. AI is zeker een blijvertje en zal op zich op vele plekken gaan nestelen.
AI is niet nieuw. ChatGPT en alternatieven zijn voornamelijk nieuw in hun taalmodellen. Het begrijpen en genereren van teksten is lang onmogelijk gebleven omdat de computerkracht daarvoor ontbrak. Juist die taalmodellen maken AI nu veel breder inzetbaar. Voor de leek lijkt het of de computers nu eindelijk echt kunnen communiceren.
Op dit moment zullen veel mensen en bedrijven AI proberen. Een aantal zullen afvallen, maar er zijn ook talloze mensen en bedrijven die de kat nog even uit de boom kijken en later op de trein springen. Het plateau van de grafiek zal niet vlak zijn, maar nog lange tijd licht hellend blijven.
Het is vooral nu een marketing hype. De ontwikkeling gaat natuurlijk gewoon door en zal terzijnertijd mooie resultaten geven....

Doordat het zoveel media aandacht krijgt is het proces misschien wel iets sneller versneld, maar of dit ook ten goede is gekomen van de kwaliteit is de vraag.
AI gaat gewoon door, Large Language Models zullen wel een keer plaatsmaken voor een beter model.
Dit wordt via zeer toegankelijke media uitgerold en gepusht. Namelijk via zoekmachines en andere "hoofdpagina's". De schade zal veel groter zijn.
Same. Ze hebben een model dat wel mooi is maar er is een soort AI-rush momenteel. Er kunnen dingen bedacht worden die opeens alle andere partijen overvleugelen. Ik hoop het. Want alles is nu al Big Tech Owned of niet?
Heel veel zinnige dingen die nooit meer weg gaan. Denk aan de mogelijkheid om een AI gegenereerde game te spelen, je eigen persoonlijk gegenereerde muziek stream en een show die precies bevat wat je wenst waarvan mensen de beste shows delen.

Al die onzin waar het niet nodig is om investeerders te trekken zal verdwijnen, maar het is z'n grote toevoeging met namen op het gebied van content generatie dat dat niet weg zal gaan.
Als je dan toch naar de hype cycle verwijst, verwijs dan meteen naar de AI cycle van Gartner zelf:
https://www.gartner.com/e...e-2022-gartner-hype-cycle

Daar zie je dat ‘AI’ veel breder is dan alleen ChatGPT.

Sterker, sommige AI is allang over het plateau heen. Maar heel veel moeten er nog naartoe.
Goede toevoeging!
Ik denk dat je een onderscheid moet maken tussen LLM’s en echte AI. Echte AI zie ik wel een toekomst hebben, als Silicon Valley het veld niet te veel om zeep heeft geholpen door al het geld naar flauwekulprojecten te zuigen.

LLMs hebben denk ik maar een beperkte toekomst. Sowieso denk ik dat het onmogelijk is om AI te bouwen met LLMs, daarnaast werken LLMs natuurlijk alleen in het taaldomein. Je zal er nooit een voertuig mee kunnen besturen, een operatie mee uitvoeren of een vloeistofstroming mee kunnen voorspellen.

[Reactie gewijzigd door Maurits van Baerle op 22 juli 2024 18:24]

Een "hype"? Misschien even inlezen wat dit nu al betekent? De revolutie in beeldbewerking/herkenning, zelfrijdende/noodstop autos, medische wetenschap, klimaatmodellen, astrofisica, quantummodellen, spraakherkenning/vertaling is een ... "hype"?

Waarom denk je dat dit allemaal weer teruggedraaid gaat worden?

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 18:24]

En nu de training ongedaan maken gebaseerd op data die verkregen is toen robots.txt genegeerd werd.
Helaas is het praktisch onmogelijk om data te "on-leren". De data zit niet zomaar als een text file in het model, maar abstracte eigenschappen van de data zitten verspreid over het hele netwerk. Je kan die dus niet zomaar terugvinden laat staan eruit halen.
Je kunt het model gewoon weggooien en opnieuw beginnen. Er is dus helemaal geen probleem met ontleren.
Het trainen van GPT4 kostte zo'n 60M dollar alleen al aan elektriciteitskosten. Dan komen de hardware kosten voor 16,000 A100 GPU's er nog bij. Dus opnieuw leren gaan ze echt niet doen.
Onzin. Ze brengen met enige regelmaat nieuwe modellen uit. GPT4 moest ook opnieuw getrained worden.
De enige reden waarom ze het niet zullen doen is omdat anders hun model een stuk minder krachtig zou worden en ze eerst zouden moeten gaan werken aan een nieuwe dataset. Maar dat zullen ze in de toekomst hoe dan ook moeten gaan doen.
Dat zijn geen nieuwe modellen, dat zijn modellen die gefinetuned zijn. Dat is iets heel anders dan iets ontleren wat al geleerd is.
Ik dacht dat GPT4 gewoon opnieuw is getrained. Er zijn wel gefinetunede versies van GPT3 zoals GPT3.5
Ja klopt, maar GPT4 krijgt ook updates. Dacht dat je dat bedoelde.
Nee. :)
GPT5 moet ook getrained gaan worden.
Lijkt me dan niet onredelijk om als maatschapij te eisen dat ze met een nieuwe, cleane, dataset beginnen.
Ja, maar dat is een totaal ander probleem dan gevoelige data waar GPT 3/4 al op getraind is te verwijderen uit het model. Dat probeer ik duidelijk te maken.
Je zegt "Het trainen van GPT4 kostte zo'n 60M dollar alleen al aan elektriciteitskosten. Dan komen de hardware kosten voor 16,000 A100 GPU's er nog bij. Dus opnieuw leren gaan ze echt niet doen. "

Pardon? Dat is een wonderlijke, nee foute redenering. Dus omdat het zoveel heeft gekost, GAAT men het maar niet doen? Dat is een vorm van machtsmisbruik. Zet eerst maar heel veel middelen in, en zo snel mogelijk, en dan moet "de wereld" dat maar accepteren?

Dat is feodaal. Het doet denken aan een huizenbouwer die illegaal bouwt. In een beschaafd land mag hij dat dus keurig weer afbreken. Omdat de kiezer en de rechtsstaat dit bepaalt.

Ik zie hier opnieuw het bekende probleem dat voor de giganten op internet andere regels gelden dan in onze rechtsstaat. Hun gedrag is anti democratisch, ze vormen een staat over de hele wereld met zijn eigen regels maar zonder kiesbaar parlement en bijna geen verhaal te halen. Terwijl daar wél intussen honderden miljoenen mensen zowat hun hele leven in leiden.
Pardon? Dat is een wonderlijke, nee foute redenering. Dus omdat het zoveel heeft gekost, GAAT men het maar niet doen? Dat is een vorm van machtsmisbruik. Zet eerst maar heel veel middelen in, en zo snel mogelijk, en dan moet "de wereld" dat maar accepteren?
Je kunt ook overdrijven he? Ik zeg, ze gaan niet opnieuw trainen puur omdat sommige databronnen nu een 'robots.txt' bestand op hun website hebben staan (of de nieuwe regel er aan toegevoegd hebben). Aldus het artikel:
Nu kan de file ook gebruikt worden om de useragent GPTBot buiten de deur te houden. Het opvolgen van de instructies gebeurt vrijwillig.

[Reactie gewijzigd door langestefan|IA op 22 juli 2024 18:24]

Beste Langestefan,

'Koelpasta' schreef "Je kunt het model gewoon weggooien en opnieuw beginnen. Er is dus helemaal geen probleem met ontleren."

Toen reageerde jij met: "Het trainen van GPT4 kostte zo'n 60M dollar alleen al aan elektriciteitskosten. Dan komen de hardware kosten voor 16,000 A100 GPU's er nog bij. Dus opnieuw leren gaan ze echt niet doen. "

Je zegt dus letterlijk dat er niet opnieuw wordt geleerd omdat er al zoveel kosten zijn gemaakt. En op die uitspraak reageerde ik. Ik denk dus niet dat je kunt beweren dat ik overdrijf.

Algemeen, aan iedereen dus: een forum is hier niet voor geschikt, dit is me te moeizaam, honderden specialisten waarschuwen, maar iemand vertelt mij dat ik niet de waarheid over Facebook mag zeggen (een ontregelaar misschien??), en de helft hier wil niet verder kijken dan "het is maar techniek". Dat noem ik nogal gewetenloos. Een kleine slangekuil en ook een klein beetje trollerig gedrag hier en daar. Dus ik stop er nu mee.
Er wordt inderdaad niet opnieuw geleerd omdat de kosten te hoog zijn. Als de kosten laag waren dan hadden ze dat wel kunnen doen. Wat begrijp je daar niet aan?
Ik denk waar men op doelt is het hele getrainde model weggooien en opnieuw trainen met schone data. Dat je niet zomaar de foute data er uit kan vissen is nogal wiedes.
Het is praktisch wel degelijk mogelijk, als we praktijk beschouwen als alleen een ontwerp gebruiken wat aan de regels voldoet en daarop aangepast kan worden.
Het is pure onwil om geen gegevens uit datasets te negeren en het onmogelijk te maken en houden daar niet aan te doen. Men heeft geen zin geld en tijd te verliezen door hun eigen onwil en tekortkomingen.
Het probleem is dat het aanpassen niet kan zonder opnieuw te trainen. Er zijn wel wat onderzoekers mee bezig om dit mogelijk te maken: https://www.wired.com/sto...n-learn-can-they-unlearn/
Het bedrijf heeft dat probleem zelf gemaakt, wat op zich al onredelijk is. Het stelt namelijk het eigen (winst)belang boven dat van de personen en bedrijven van wie ze ongevraagd de gegevens zijn gaan scrapen en verwerken. Het hele verdienmodel en de handelswijze is gemaakt om op anderen te parasiteren en in stand te houden.
Tsja, daar vel ik geen oordeel over. Ik reageer alleen op dit:
Het is praktisch wel degelijk mogelijk, als we praktijk beschouwen als alleen een ontwerp gebruiken wat aan de regels voldoet en daarop aangepast kan worden.
Het schijnt verdomd moeilijk te zijn om data die eenmaal is opgezogen door die systemen er weer uit te krijgen.

Daar zit ook een beetje een knelpunt met EU regelgeving waar individuen een ‘Right to be Forgotten’ hebben.
Maar je kan toch je training doen op je nieuwe dataset? Dan is het resulterende model weer 'clean'. Ik denk dat ze dat niet doen omdat de grote platformen ze gaan weren, en dat is precies data die je wilt hebben voor een taalmodel, namelijk discussies op twitter/reddit/facebook etc.
Er zullen ook wel "time and money" mee gemoeid zijn. De geschatte kost voor het trainen van een van de modellen die ze aanbieden (enkel GPT-3) is 4 miljoen dollar.Ze zullen er dus wel alles aan doen om deze kosten niet nogmaals te moeten uitgeven. (Geen sterk argument in mijn ogen, maar het blijft een bedrijf.)

[Reactie gewijzigd door BramVroy op 22 juli 2024 18:24]

Maar van wie is dat probleem? Als ik mijn data niet gebruikt wil hebben, want copyright en het recht om vergeten te worden. Zeker als ik heb aangegeven in mijn robots.txt dat ik niet wil dat mijn data niet gebruikt mag worden door robots.

Dan zou ik zeggen jammer voor OpenAI zonde van de miljoenen maar pech voor hun. Sorry maar geen sorry. Eigen schuld, hadden ze er van te voren maar over naar moeten denken.

Ik kan zo ook jarenlang data pakken dat discutabel is of het wel zuivere koek is. Dan daar een bedrijf mee beginnen en als je dan groot genoeg bent, dan ineens wel luisteren na de wensen van server beheerders (via robots.txt) en doen of er niets aan de hand is.
Ik ben het zeker met je eens hoor. Dit maakt het voor mij als onderzoeker soms ook zuur. Ik ben een enorme voorstander van open access, open source, open data. Ik maak mijn data en modellen dus gratis beschikbaar, net zoals mijn bevindingen in papers. En ik weet dat grote bedrijven al die gratis data maar al te groot opsoeperen. Je krijgt er niets voor terug. Geld hoef ik niet, maar enige erkenning voor je werk (zoals citaties bv.) krijg je ook niet. Voelt dus wel ietwat als eenrichtingsverkeer. Gelukkig is de basis versie van ChatGPT nog gratis. Dat zie ik dan maar als een indirecte "terugbetaling". Maar ik ben het volledig met je eens dat we zelf zouden moeten kunnen beslissen of onze data wel dan niet gebruikt kan worden.
Ik heb dat ook een beetje. Er is een reeks data die ik nooit aan een enkele LLM zal geven omdat dat vrijwel direct zal concurreren met mijn eigen bedrijven. Ik heb echter ook een reeks data die ik graag publiekelijk beschikbaar stel. Alleen niet aan LLMs die vervolgens geld vragen aan gebruikers.

Er is ooit wel eens een ballonetje op gegaan dat Mozilla een eigen LLM zou bouwen waarbij zowel het model als de data open source zou zijn. Als het gebruik daarvan vervolgens gratis is en blijft dan pomp ik graag een deel van de data die ik heb rechtstreeks dat systeem in als dat de algehele vooruitgang van de mensheid kan helpen.
Trainen van die LLM's gaat niet zoals je huis tuin en keuken modelletje thuis op je gaming GPU. Daar gaan dagen, weken over heen met enorme hoeveelheden rekenkracht.
Ja, en? Moeten we ze daarom gewoon hun gang laten gaan?
Nee mijn punt is dat ze echt geen GPT3 of GPT4 model opnieuw gaan trainen met data waar die robots.txt wel gebruikt word. Dat is te kostbaar.
Onzin. Het is niet te kostbaar. Ze hebben zat investeerders.
Vind ik ook, maar dat zien zij denk ik toch anders. Het gaat om miljoenen om een model te hertrainen die dan eigenlijk al outdated is, als daar geen prikkel voor is vanuit de overheid gaan ze dat gewoon niet doen. Of wij vinden dat dat wel zou moeten is niet relevant. Ze gaan voor toekomstige modellen deze robots.txt hanteren en daar hebben wij het maar mee te doen.

Het is belachelijk en ik verbaasde me er eigenlijk ook over dat ze initieel die hele robots.txt niet respecteerden, want over het algemeen probeert OpenAI wel een "good citizen" van het internet te lijken (of dat lukt is een ander verhaal), daar is robots.txt toch wel een belangrijk onderdeel van.

[Reactie gewijzigd door jaapzb op 22 juli 2024 18:24]

Dat snap ik, maar dat is het risico dat ze namen om het eerst ongevraagd te doen. Mis gegokt, dus helaas, je zal die kosten opnieuw moeten maken.
Als ik een plaatje gebruik zonder dat ik weet of er rechten op zitten en de rechthebbende komt klagen, dan moet ik of stoppen met het gebruik of compenseren. En als je die keuze al krijgt kom je er goed vanaf. (is maar een voorbeeld, ik ken de exorbitante fees en copyright trolls ook wel)
Nou het lijkt er anders op dat ze helemaal niks moeten momenteel. Dat wij dat wel graag zo zouden zien veranderd daar niet zoveel aan. Ik zie nergens dat ze door een overheid gemaand worden om meteen de modellen die robots.txt niet respecteren offline te halen, of iets dergelijks. Zo lang dat niet het geval is gaan ze ook geen modellen hertrainen met schoongemaakte data.
De "Right to be Forgotten" is niet het recht om alles wat je ooit gezegd hebt te verwijderen, maar om alle naar persoon herleidbare data te laten anonymiseren :+ . De meeste LLMs anonymiseren al alle data bij het verzamelen, dus hoewel er genoeg problemen zijn met hoe de AI data verzameld momenteel, specefiek die wet zal niet het probleem zijn vermoed ik.
Je hebt ook nog zo iets als Copyright.

Als jij een waargebeurd verhaal schrijft op je website en OpenAI gebruikt dat verhaal om te trainen. Waardoor in theorie jouw verhaal "verzonnen" kan worden door hun tools. Dan heb je een lastige discussie.

Terwijl jij wel netjes hebt aangegeven in je Robots.txt had geen crawlers. Is toch jouw werk en dus copyright gebruikt zonder dat jij toestemming er voorgegeven hebt.

@Arnoud Engelfriet heb jij enig idee hoe het jurdisch zit met copyright & datacrawlen en dan via een LLM het verhaal opnieuw vertellen.
Dat is nogal ingewikkeld omdat auteursrecht niet gemaakt is voor dit soort dingen.

De hoofdregel is dat je ideeën en concepten mag hergebruiken, maar niet andermans uitwerking. Dus als ik een verhaal wil maken over een jongen die naar toverschool gaat en daar wedstrijden bezemsteelvliegen moet doen en ondertussen moet achterhalen wie zijn ouders vermoordde, dan is dat prima. Harry Potter deel 9 schrijven mag niet.

Wat generatieve AI doet, is schrijven in stijlen, niet letterlijk iemands verhaal navertellen. Ik denk dus dat daar geen auteursrechtinbreuk uit komt.
Klopt. Dat ben ik ook helemaal met je eens. Maar ik zei ook al dat er wel genoeg problemen zijn ;) . Enkel dat "The Right To Be Forgotten" niet per se de wet is die die problemen brengt. Die "Right To Be Forgotten" wordt imho nog wel vaak verkeerd begrepen en te pas en te onpas geroepen. Daar ging mijn comment meer om.
Nou ja, je kunt natuurlijk allemaal data over personen vinden in de bekende publieke LLMs, daar hoeft iemand niet eens een bekende naam voor te zijn. Een LinkedIn en Tweakers.net profiel is waarschijnlijk al genoeg.
Ik heb het toch ook nooit over bekende versus onbekende personen gehad? Er zit een verschil tussen herleidbare data over personen, en dingen die je online getyped hebt. Data die naar jou als persoon herleidbaar zijn, zoals namen, adressen, etc. moeten geanonimiseerd worden. Random comments en berichten waaruit zonder context niet te halen is dat jij het bent mag blijven.

Dat is hetzelfde dat Tweakers op aanvraag je account moet anonimiseren, maar niet al je comments gaat verwijderen. Zo zal zo'n LLM dat ook moeten op verzoek, mits die LLM onder de GDPR valt. Maar de meeste chat diensten anonimseren afaik al tijdens het crawlen. Zoekdiensten hebben de door jou publiek gezette data staat daarin. Die zou, op jouw verzoek, geanonimseerd moeten worden.

Maar ook dan kom je op haken en ogen. Want als die LLM nou eens in de US staat en zich compleet niet richt op de EU? De GDPR geld op services in Europa of zich richtend op Europese markt. Maar bijv. een Weibo (een groot Chinees social media) hoeft bijvoorbeeld niet aan de GDPR te voldoen, zelfs als ik daar een account op maakt. Dat is immers een Chinese website in princiepe enkel gericht op mainland China. Die hoeft die publieke info mogelijk weer niet zomaar wel te halen. Maar daar kan ook iemand een screenshot maken van mijn LinkedIn en die posten. En dan zit die nog buiten de GDPR. Dus als je openbare info compleet wil aftimmeren, dan kom je in een complexe situatie waar natuurlijk alle hoepels van de wet in opgezocht gaan worden.

Vergelijkbaar probleem bestaat met de privacy van federated networks die technisch gezien iets vergelijkbaars doen om te federeren.

[Reactie gewijzigd door Cambionn op 22 juli 2024 18:24]

Bij het verbod van ChatGPT in Italië rustte het verbod op een aantal zaken, waaronder het Right to be Forgotten. ChatGPT needs ‘right to be forgotten’ tools to survive, Italian regulators demand

Net zoals ik het recht heb om verwijzingen naar mijzelf uit de Google Search database te laten halen heb ik dat recht ook om data over mijzelf in ChatGPTs database te laten verwijderen of corrigeren. OpenAI is toen overstag gegaan en heeft zaken aangepast (* maar wat is mij onduidelijk) om ChatGPT aan de Italiaanse (en dus EU) wet te laten voldoen.

* misschien is het zo makkelijk als een filter op de output te zetten zodat volledige namen van mensen die verzocht hebben zich te laten verwijderen niet meer in de output kunnen zitten. Maar dat lijkt me een risico juridisch hebben voor OpenAI dat het maar ten dele werkt.
Klopt. Maar nu gaan er dingen door elkaar. Zoals ik zeg moet je je aan de GDPR houden als je op de EU markt richt, en OpenAI deed dat niet. Maar dat is wat anders dan data "uit de AI halen". Met AI is er over het algemeen een trainings-dataset, een neuraal netwerk, en output van dat neurale netwerk.

Dat neurale netwerk heeft geen directe data, enkel algoritmes. Die algoritmes zijn ingesteld om zo dicht mogelijk bij example-output van de trainings-datasets te komen, maar bevatten geen kopie van de data. Het heeft enkel met data die laten zien is zijn settings zo gezet dat hij zo dicht mogelijk komt. Daar valt dus ook niks te verwijderen, want er is geen data.

De trainings-data en output zijn data, maar deze kunnen geanonimiseerd worden. Je zou de "Right To Be Forgotten" hierop kunnen toepassen. Dat is ook niet zo lastig. Met een filter op de output en het verwijderen uit input zou je aan de GDPR's "Right To Be Forgotten" voldoen. Dat is op technisch vlak niet zo'n knelpunt. Dat OpenAI daar niet aan voldoet, tja. Hoe veel Big Tech breekt wel niet graag de regels als er geld mee gemoeid is? Maar dat is meer onwil dan een knelpunt.

De reden dat al geleerde data niet uit de AI kan, is omdat die uberhoubt geen kopie van de data heeft, maar ervan geleerd heeft. Er is een algoritme aangepast op de data, maar er staat geen directe herleidbare data in, dus valt er niks uit te halen/te laten "vergeten". Dan kom je op de vraag of algoritmes conclusies mogen trekken met herleidbare persoonsdata erin, maar dan ben je "Right To Be Forgotten" zelf dus al voorbij en zit je met een ander issue.

Copyright valt op een vergelijkbaar knelpunt, maar omdat dat over gebruik gaat ipv enkel data mogelijk moeten anonimiseren, gaat het probleem wel mogelijk verder.
Goed verhaal, dank!

Maar, als ik een chatbot vraag om een ranglijst van films met Sophia Loren gerangschikt van beste naar slechtste (sowieso een subjectief iets maar dat terzijde) dan moet er toch data in zitten met de naam 'Sophia Loren', de namen van alle films waar ze in gespeeld heeft, en data waar een kwaliteitswaarde uit te destilleren is.

Is dat in jouw voorbeeld dan die trainingsdata waarbij het neurale netwerk in real-time in duikt voordat het mijn vraag beantwoord?
Traininsdata wordt na training niet meer gebruikt in het algoritme zelf, maar puur voor het vormen (het zogenaamde "trainen") van het algoritme.

Het algoritme is geen data. Die kent geen semantiek. Als je zegt Sophia Loren, weet die niet wat een Sophia Loren is. Sterker nog, eigenlijk begrijpt een algoritme niks. Ze zijn eigenlijk heel dom. Enige wat hij doet is de input pakken, daar wat mee doen, en het resultaat laten zien. Een grote wiskundige berekening. En daarin niet anders dan andere code.

Enige verschil met een neuraal netwerk vergeleken met een "normaal" algoritme (tussen aanhalingstekens wat een neuraal netwerk is ook gewoon een algoritme), is dat ipv te programmeren "if dit then doe dat", programmeer je een stel functies en een algoritme dat die functies mag gebruiken en "beloond" wordt als daarmee dichter bij de traininsdata kan komen, en "gestraft" als het er verder van af komt. Daarmee kan hij leren dat als jij "Beste Sophia Loren films" als input geeft, hij X en Y als berekeningen moet uitvoeren daarop het antwoord uit spuwt. Maar dat gaat op een veel lager level dan semantische input. Wat beste, een film, of Sophia Loren is? Dat weet hij niet. Heel simpel gezegd, hij weet enkel hoe hij bites moet husselen en geeft dat terug. Maar een manier van bites husselen is geen persoonsdata op zichzelf, zelfs als hij daarmee persoonlijke data genereerd (en dat is dan weer de output, die gefiltered zou moeten worden).

En als er dan ook nog eens een knop zit om te zeggen dat het antwoord goed of slecht is? Dan "beloon" of "straf" je hem daarmee verder. Als je hem bestraft, gaat hij volgende keer bites anders husselen tot hij weer beloond wordt. Als je hem beloond, gaat hij nog sterker husselen in de richting dat hij op ging.

Je maakt dus eigenlijk een algoritme dat algoritmes schrijft, en dat geschreven algoritme heeft niet de data die het eerste algoritme heeft gebruikt hem te schrijven. Trainingsdata verwijderen zorgt dat het eerste algoritme het niet verder gebruikt om het 2e verder te schrijven, maar gezien dat 2e algortime zelf geen data heeft, valt er ook niks te verwijderen.

Net zoals dat wanneer je een robot die een stift vast houd programeert om een cirkel te tekenen die geen benul heeft van wat een cirkel is of dat hij dat moet maken, maar slechts weet welke motoren op welke sterkte moeten draaien, heeft het algoritme van een neuraal netwerk geen benul wat je input of output betekend. En op dezelfde manier is dat algoritme dat de robot aanstuurt geen cirkel. En als je alle cirkels moet verwijderen, kan het algoritme nog gewoon bestaan want het is geen cirkel. Enkel moet elke output weer verwijderd worden, want dat zijn wel cirkels. En dan maakt het niet uit of dat algoritme is ontstaan omdat jij het hebt geschreven, of omdat een neuraal netwerk het heeft geschreven met heel veel voorbeelden van cirkels.

[Reactie gewijzigd door Cambionn op 22 juli 2024 18:24]

Aa. De e e kant snap ik dat volledig, want neurale netwerken als deze zijn nou eenmaal gebouwd om te trainen, niet om fijnmazig aan te passen.

Aan de andere kant is dat toch echt het probleem van AI-bedrijven. Zij hebben zelf een dataset gepakt waarvan ze dondersgoed wisten dat die tot deze situatie zou leiden en een algoritme gemaakt dat zich niet aan de EU-wetgeving kán houden.

Deze bedrijven gaan er natuurlijk van uit dat ieder land zegt "oh, helaas, dan geldt de wet niet voor jullie", maar wat mij betreft behandelen we dit soort dingen op dezelfde manier als ieder ander dataverzamelend bedrijf.
Er staat in het artikel al dat dit niet gaat gebeuren:
Data die al eerder opgehaald was, blijft in de modellen.
Schande.
En bovendien doet dit bedrijf alsof dit een prachtig-fantastische maatregel is.

De werkelijkheid is: ze hadden dit vanaf het begin moeten doen én het is maar 1 aspect van heel veel. Met andere woorden: onvoldoende.

Het is bovendien een mooie illustratie dat die grote groep specialisten gelijk heeft. Zij zeggen dat het fundament al niet deugt en dat dat een totale blunder is, en dat je dat niet oplost door achteraf wat dingetjes bij te sturen. Dat is onmogelijk.

En zo rommelen we maar wat aan. Het zal niet wegebben, een groep deskundigen leert ermee omgaan, maar een veel grotere groep zal hier heel veel last van krijgen. Last van een omvang die je mag vergelijken met de schade door Facebook en andere vreselijke media. Verslavende, verstorende en beschadigende media.

[Reactie gewijzigd door Farmeur op 22 juli 2024 18:24]

Ze rommelen niet maar wat aan. En waarom zou het een schande zijn? Je doet nu net alsof data met robots.txt verborgen moet blijven voor de rest van de wereld en men een soort van hackpoging doet door dit te negeren, maar dat is niet waar het oorspronkelijk voor is bedoeld.
Robots.txt heeft voornamelijk het doel om ervoor te zorgen dat mensen via een zoekopdracht niet direct op een subpagina terecht komen ipv op de hoofdpagina, maar omdat het hier puur om de inhoud gaat is dit niet van belang.

Ik denk dan ook eerder dat het vooral ten koste gaat van de kwaliteit van bijvoorbeeld ChatGPT als deze pagina's niet meer worden gelezen.
Ja maar ja, de point is dat mensen niet willen dat er vanalles met je gegevens gedaan wordt.

Misschien kan de robots.txt uitgebreid worden met een "do not search" / "do not use for training LLM" / "do not use at all" / "copyrighted" policies?
Je hebt niet mijn hele verhaal gelezen, pakt er iets uit.

Zelfs de CEO's hebben gezegd dat het allemaal experimenteel is en ze zeiden zelfs zoals iets als: "dat gaan we via de gebruikers uitvinden". Of woorden van die strekking. Maar ongeveer zo hebben ze dat gezegd, pak me dus aub niet op woordjes.

Ik stop in deze draad, dit is een eindeloze discussie. En niet zo heel erg geschikt voor een forum.
Als ik je op woordjes had willen pakken, dan had ik wel iets gezegd over je opsomming van loze en ononderbouwde kreten als

".....met de schade door Facebook en andere vreselijke media. Verslavende, verstorende en beschadigende media".

Nou mag jij dat natuurlijk vinden dat is niet het probleem. Dat dergelijke frames en bashing hier op Tweakers ook nog worden beloond, daarover maak ik me meer zorgen.
Wat ik zeg over Facebook (Meta) is bewezen en overal bekend. En ze worden erop aangepakt.

Ik vind het eigenaardig wat je nu zegt.
Je haalt meningen en feiten door elkaar.
Je kunt dat niet zonder op DAT punt opnieuw te beginnen trainen. Dus nee. Dat zal nooit gebeuren.
Het respecteren van robots.txt en dergelijke parameters zou verplicht moeten zijn. Een bordje 'Verboden toegang Art. 461' dien je ook te respecteren. Dit is niet anders.
Het is gewoon onbeschoft en diefstal wanneer je dergelijke signalen negeert.

Maar ja... het leed is geschied... de crawl kan niet meer ongedaan gemaakt worden. Wellicht dat OpenAI (en andere crawlers) uit zichzelf een mooie donatie kunnen doen aan Reddit en X (het voormalige twitter) en andere sites die ze tegen de regels in belast hebben en waar ze nu veel geld mee verdienen.
Dat zou mooi zijn O-) , maar ook ijdele hoop, vrees ik. :|
Maar dan ben je dus ook verplicht om er uberhaupt naar te kijken naar de robots.txt.
Een "verbod om iets niet te doen" versus een "verplichting om iets wel te doen" is nogal dicterend.

Bovendien, waarom discrimineren? openbaar == openbaar. punt uit.

[Reactie gewijzigd door Mushroomician op 22 juli 2024 18:24]

Bovendien, waarom discrimineren? openbaar == openbaar. punt uit.
Dat iets openbaar is wil niet zeggen dat je er alles mee mag doen. Een gemeentehuis b.v. is ook een openbaar gebouw, maar dat wil niet zeggen dat je daar zomaar over de balie mag gaan pissen. Daar zijn ook regels aan gebonden. Niet in de laatste plaats die van fatsoen.

Dat geldt hier ook. De data is openbaar met een bepaald gebruik in gedachten. Met een robots.txt wordt zelfs expliciet aangegeven dat crawlen niet de bedoeling is. Dan dien je dat te respecteren. Punt uit !
tja, er zou zoveel gerespecteerd moeten worden zoals specifieke webstandaarden, maar genoeg mensen hebben daar lak aan omdat ze het er niet mee eens zijn en iets anders willen. Genoeg developers die nooit zelfs van robots.txt gehoord hebben. En overigens zomaar een bordje planten wil nog niet zeggen dat het ook 'rechtsgeldig' is. In principe is het heel simpe, wil je niet dat systemen het zomaar kunnen inzien, dan moet je het maar achter een (pay)wall zetten.

Ik als mens ga toch ook niet die robots.txt zitten lezen, ondanks dat wij mensen toch ook niets meer zijn dan biologische robots.

[Reactie gewijzigd door SuperDre op 22 juli 2024 18:24]

In principe is het heel simpe, wil je niet dat systemen het zomaar kunnen inzien, dan moet je het maar achter een (pay)wall zetten.
Die (pay)wall is er ! Dat is precies wat de robots.txt is.
Nee, robots.txt is geen wall. Das net zo'n beveiliging als je deuren open te laten staan met een briefje op de deur, verboden toegang voor jan, kees en klaas.
Gelukkig is dat niet verplicht zeg. Zou archive.org bijvoorbeeld veel minder interessant maken.
Voor al diegenen die roepen dat het "schandalig" is dat ze de verwerkte data niet uit de modellen halen: de manier waarop dit in het artikel gesteld wordt moet wellicht verduidelijkt worden, want de data zelf zit niet in de modellen, zo werkt dat niet.

De data is in het verleden verwerkt bij de training van het model (wat een constant proces is) en daar zijn bepaalde verbanden uit "geleerd". Het is die "kennis", niet de data zelf, die in het model zit. Je hebt zelf dit artikel gelezen en hebt daar dingen van geleerd. Het artikel zelf zit niet in je hoofd, maar wat je er van geleerd hebt wel ;)

En net zoals dat bij ons niet zomaar te vergeten is, is dat ook zo voor deze modellen. Ja, je kunt helemaal vanaf 0 beginnen, maar dat is alsof jij ook terug naar je geboorte moet. Deze modellen worden al jaren getraind en die bouwen ze niet constant vanaf 0 op.
Je hebt gelijk, maar dat klinkt als het probleem van OpenAI en niet van mij.
Dat je de data niet byte voor byte in het mod kunt terugvinden, betekent niet dat de informatie er niet in zit. Hetzelfde zou je kunnen zeggen over een ZIP-bestand, of misschien realistischer, een JPEG.

Met de juiste query krijg je problematische informatie weer terug uit het model. Beschouw het als een soort lossy tekstopslag. De vergelijking tussen mensen en computers raakt kant nog wal (mensen zijn geen computers, computers zijn niet zelfbewust, neurale netwerken en het menselijk brein lijken helemaal niet zoveel op elkaar, dat is puur een leuke naamgeving) maar dat maakt ook niet uit, natuurlijk; al wordt de data opgeslagen in een accuraat gesimuleerd menselijk brein, de data staat nog steeds op een computer opgeslagen en is onderhevig aan de daarover geldende wetgeving.

Of de data nu wordt opgeslagen in een database of op een andere manier moet voor de wet natuurlijk niet uitmaken. Dat zou een hele mooie workaround zijn voor iedere data broker die gegevens van mensen verkoopt zonder de GDPR te hoeven navolgen.

Misschien moet het trainen vanaf het begin af aan beginnen als de technologie niet klaar is zich aan de nodige wetgeving te houden. Dat zou heel jammer zijn. Aan de andere kant is dat het probleem van de AI-bedrijven, niet dat van de wet. Als ik een auto maak waar onmogelijk airbags of remmen in te bevestigen zijn, kan ik niet claimen dat ik me niet aan de wet hoef te houden vanwege technische beperkingen; dat probleem los je maar op voordat je je product verkoopt.
Dat je de data niet byte voor byte in het mod kunt terugvinden, betekent niet dat de informatie er niet in zit. Hetzelfde zou je kunnen zeggen over een ZIP-bestand, of misschien realistischer, een JPEG.

Met de juiste query krijg je problematische informatie weer terug uit het model. Beschouw het als een soort lossy tekstopslag.
Uh, nee, die vergelijking kun je helemaal niet zo maken. Een ZIP bestand of een JPG kun je terugleiden naar de originele pixels, met een neuraal netwerk kan dat niet, hooguit fragmenten daarvan. Dat hangt volledig af van wat, en hoe, er getraind wordt.
De vergelijking tussen mensen en computers raakt kant nog wal (mensen zijn geen computers, computers zijn niet zelfbewust, neurale netwerken en het menselijk brein lijken helemaal niet zoveel op elkaar, dat is puur een leuke naamgeving) maar dat maakt ook niet uit, natuurlijk; al wordt de data opgeslagen in een accuraat gesimuleerd menselijk brein, de data staat nog steeds op een computer opgeslagen en is onderhevig aan de daarover geldende wetgeving.

Of de data nu wordt opgeslagen in een database of op een andere manier moet voor de wet natuurlijk niet uitmaken. Dat zou een hele mooie workaround zijn voor iedere data broker die gegevens van mensen verkoopt zonder de GDPR te hoeven navolgen.
Tuurlijk moet iedereen zich aan de regels houden (en waar zij zich niet aan hebben gehouden is de "gentleman's agreement" van robots.txt), maar dat is het punt juist: de data wordt verwerkt en er worden verbanden uit gehaald, maar de data in z'n geheel wordt niet 1 op 1 opgeslagen, ook niet in gecomprimeerde vorm. Ik zal als voorbeeld een spam filter nemen, waar één van de oudste methodes een zogenaamd Bayesian filter is (en geinig genoeg iets dat lastiger is met een volwaardig NN :P). Om zo'n filter te trainen gooi je er een hoop spam en "ham" (non-spam) in, waarbij je dat vooraf bepaald hebt. Wat je binnen je classifier doet is de ingevoerde tekst analyseren: aantal tekens, lengte van woorden, verhouding tussen letters en leesteken, gemiddelde woord lengte, zin lengte, enzovoort. Allemaal metadata. Waar je vervolgens daadwerkelijk data op slaat is als je bijvoorbeeld telt welke woorden heel vaak in spam voorkomen, maar vrijwel nooit in ham. Zo zal "viagra" de spam score van een bericht dramatisch verhogen. De rest van de tekst doe je echter geen reet mee en gooi je weg na ze geanalyseerd te hebben. Als je dus al data op slaat, zijn dat kleine fragmenten.

Met neurale netwerken is dat niet zo heel erg anders. Het risico dat je bij beide loopt is dat er gevoelige gegevens aangemerkt worden als relevant - maar dat is waar je de analyse/parameters op aan moet passen. Je kunt zelfs de data door een ánder NN gooien om te kijken of het iets gevoeligs is (kijken of iets NSFW is, of een adres is).
Misschien moet het trainen vanaf het begin af aan beginnen als de technologie niet klaar is zich aan de nodige wetgeving te houden. Dat zou heel jammer zijn. Aan de andere kant is dat het probleem van de AI-bedrijven, niet dat van de wet. Als ik een auto maak waar onmogelijk airbags of remmen in te bevestigen zijn, kan ik niet claimen dat ik me niet aan de wet hoef te houden vanwege technische beperkingen; dat probleem los je maar op voordat je je product verkoopt.
Nogmaals, volledig mee eens, maar dat is niet waar het hier om gaat. We weten niet wát ze verwerkt hebben en hóe ze dat doen - als op janlul.nl een volledig adres, telefoonnummer en BSN staat, kan het best zijn dat ze dat weten te herkennen en dus niet gebruiken als trainingdata. Zo te horen is dat overigens wel het geval.

Als janlul.nl niet in robots.txt aangegeven heeft dat een crawler (waarbij ik die term heel erg losjes gebruik; wat mij betreft zou dat ook moeten gelden voor menselijk misbruik) dat niet mag bekijken is dat wat mij betreft z'n eigen fout. Het internet is niet privé, het is een openbare bibliotheek (vergeet niet dat ze niet je emails hebben zitten bekijken, enkel publieke data). Waar OpenAI hier mis heeft gezeten is dat ze robots.txt blijkbaar nooit respecteerden, tot op heden. Dát hadden ze vanaf dag 1 in orde moeten hebben. Het is geen wet en "slechts" een gentleman's agreement op het web, maar toch zitten ze daar fout.

Of ze verder iets verkeerd doen met de gegevens die ze scrapen laat ik me niet over uit, dat weet ik niet - dat weten alleen zij :)
Uh, nee, die vergelijking kun je helemaal niet zo maken. Een ZIP bestand of een JPG kun je terugleiden naar de originele pixels, met een neuraal netwerk kan dat niet, hooguit fragmenten daarvan. Dat hangt volledig af van wat, en hoe, er getraind wordt.
Van een ZIP-bestand wel, maar van de gemiddelde JPEG zullen toch de meeste pixels afwijken. Comprimeer een PNG-foto als JPEG en vergelijk de pixels één voor één; ze lijken enorm op elkaar maar zijn verre van gelijk. Dat is geen probleem voor plaatjes, net als het bij MP3 geen probleem is dat grote delen van de originele audio weggegooid worden; je hersenen zijn slim genoeg om de imperfecties te negeren en terug te brengen naar wat er met het originele plaatje werd bedoeld

Bayesian filters zijn niet complex genoeg, maar Google's Copilot heeft ons getoond dat grote LLM's makkelijk volledige stukken tekst uit de trainingsset kunnen reproduceren. Hun fiks was een lijst van gehashte woorden die niet mogen worden genegeerd, zoals scheldwoorden en "Q_rsqrt". Ook hele blog pagina's met naam en emailadres zijn uit Copilot gekomen door een "about me"-pagina te laten aanvullen. Later hebben ze nuttigere fixes ingebouwd, maar de eerste controverse was naar mijn inzien genoeg om aan te tonen dat er wel degelijk informatie in zo'n model zit opgeslagen, al dan niet onbedoeld.

Niet alle trainingsdata zal in het model worden opgeslagen en niet alle informatie wordt volledig bewaard; het is een erg lossy proces. Wat wel en niet wordt opgeslagen is lastig te achterhalen en zeer lastig te voorspellen. De hoop is dat het netwerk genoeg informatie te verwerken krijgt dat het "concepten" leert (wat een slechte naam is, want het is geen bewust leerproces, slechts een statistische correlatie) maar als dat zo zou zijn, zouden namen en informatie gelinkt aan personen niet zo direct naar voren kunnen komen.

Omdat deze modellen vaak een opgevoerde autocorrect zijn, kun je soms informatie alleen krijgen als je je vraag op de juiste manier stelt, maar die informatie staat er wel in. Dat is ook hoe onderzoekers trojans in modellen hebben kunnen krijgen, door de dataset zo te bewerken dat er een gewenst effect optreedt dat niet direct zichtbaar is in de dataset zelf.
Als een bedrijf (dus niet een persoon) ongevraagd en zonder verantwoording gegevens van anderen gebruikt, dan is het (tussen)resultaat net zo verwerpelijk als het gaan gebruiken. De enige reden om het prima te vinden lijkt het hoe dan ook willen profiteren van de gegevens. Profiteren om tijd en geld, en dus het blijven achterstellen van de belangen op wie ze parasiteren.
Dat was mijn punt helemaal niet :)

Ze hadden zeker vanaf dag 1 robots.txt gewoon moeten respecteren, dat staat geheel los van mijn opmerking. Mijn punt was enkel dat de gegevens zelf niet rechtstreeks in de modellen zitten.
Je punt is niet slechts het verschil. Je geeft als argument dat er verschil is en dat het verschil een argument is om resultaten op basis van die gegevens te blijven gebruiken.
Nogmaals: het is niet zo dat ze de gegevens blijven gebruiken. Wat ze er van geleerd hebben blijven ze gebruiken.
Een bedrijf is geen persoon. Het is geen leren zoals bik mensen, het ontworpen gebruik en hergebruik in andere vorm. Ze hadden die gegevens al niet horen te verwerken, dan horen ze wat daar op gebaseerd is ook niet te verwerken. Want zonder het daarop te baseren haddens ze het resultaat niet gehad, wat hun bewuste keuze is.
Het is geen leren zoals bik mensen, het ontworpen gebruik en hergebruik in andere vorm.
Dit is dus niet helemaal waar. Een neuraal netwerk is júist ontworpen om te leren zoals naar onze kennis het menselijk brein dat doet. Daar komt de naam ook vandaan. Zeker niet dat die gewoon "gebruik en hergebruik" doet.

Daar zit ook de complexiteit, gezien in wetten veelal hier geen rekening mee houden en de wettelijke lijnen blurry worden. Wat jammer is, want het is nou niet echt een nieuwe techniek ofzo. Het is puur nu pas op deze schaal populair. Maar het bestaat al decades. Er was tijd zat dus om dit voor te zijn.

Ethisch is het wellicht meer een klare zaak, maar dan: dit soort bedrijven doen wat ze doen nou niet omdat ze zo veel om ethiek geven. En als mensen er wat van vinden, tja, dat maakt ze pas uit als dát ze meer verlies dan winst oplevert :+ .

Maar zolang ze technisch gezien geen wet breken, al is het omdat de wet niet voldoende is om het onderwerp te omvatten, kun je ze relatief weinig maken. Iets met technisch correct is de beste vorm van correct.

[Reactie gewijzigd door Cambionn op 22 juli 2024 18:24]

https://eenvandaag.avrotr...se-een-wereldverbeteraar/
Een basisinkomen voor elke wereldburger, met als enige tegenprestatie een scan van de iris in je oog. Het is het nieuwe project van de oprichter van ChatGPT, Sam Altman. Onomstreden is het niet: "Ik denk dat er terecht veel privacyzorgen over zijn."

Het inkomen wordt uitgekeerd in Altmans eigen cryptomunt: Worldcoin. Op verschillende plekken ter wereld duikt het project 'The Orb' op: een bol ter grootte van een voetbal, waarin mensen hun oog laten scannen. Wie daar aan meedoet, krijgt nu al direct 15 euro aan Worldcoin.
Ik krijg een steeds raarder gevoel bij deze organisatie...

[Reactie gewijzigd door DeDooieVent op 22 juli 2024 18:24]

Hoe is dit bij mensen?
Als je werkt voor een werkgever "leer" je ook. Moet een mens dit verplicht vergeten wanneer het dienstverband erop zit? Kan een eigenaar van IP iemand opdragen iets wat geleerd is te ontleren?
Ik ontwikkel een programma voor een bedrijf. In C++. Bij wie ligt het copyright. Dat het niet uit mijn geheugen kan verdwijnen is niet van belang.

Inderdaad mag ik bij een nieuw bedrijf niet dezelfde oplossing gebruiken voor hetzelfde probleem. Dus ja, een IP eigenaar kan en mag eisen dat ik het geleerde (oplossing van probleem x) niet meer gebruik.

AI moet ook gewoon bepaalde feiten niet meer kunnen gebruiken. Omdat de informatie fout is, onterecht is, of omdat er een copyright op rust.
Kan een eigenaar van IP iemand opdragen iets wat geleerd is te ontleren?
Dat is hier helemaal niet aan de hand en het is raar dat je hier een computerprogramma vergelijkt met een mens.
Die trainingsdata die ze hebben staat in een database. Met een paar knoppen kun je die verwijderen.
Bij mensen worden dit soort zaken van tevoren middels contrakten vastgelegd.
De trainingsdata kan dan verwijdert worden maar de model-weights zijn definitief. Daarmee is "het geleerde" in feite een extrapolatie van welke woorden er statistisch gezien moeten komen als output.
En dat is niet anders dan een mens op de wereld zetten en deze te leren leren. In dit geval een elektromechanisch machine ipv een biochemisch mens, maar het principe is hetzelfde.

[Reactie gewijzigd door Mushroomician op 22 juli 2024 18:24]

Dat neemt niet weg dat je een LLM kunt 'ontleren' door het model weg te gooien (is eigenlijk ook wat ik hierboven bedoelde. :) )
Bij een mens gaat dat niet.
Wat dat betreft is het dus heel anders dan bij een mens.
Dan claim je dus dat, ondanks dat jij onderdeel bent van het universum, je het alleenrecht heb op jouw subproductie. Je ontneemt het reverse engineren van het universum waar jouw tekst onderdeel van is. Want dat zijn de AImodellen: statistische voorspellingen (extrapolaties). Modelgewichten zijn niets anders dan reverse engineeren van een subproducties van het universum.
Dan claim je dus dat, ondanks dat jij onderdeel bent van het universum, je het alleenrecht heb op jouw subproductie.
Ja, net zoals ik claim dat jij niet mijn huis in mag komen om de manuscripten van mijn nieuwe boek mee te nemen of mijn brein te scannen.

En als ik jou zo hoor dan is iemands leven dus eigenlijk niks waard en is elke vorm van ethiek onterecht. Immers, alles in het universum is een subproduct van dat universum en alles dat in het universum iets produceert heeft een subproductie van dat universum. Zodoende is alles eigenlijk hetzelfde en kun je alles pakken wat je wilt.
Ik kom anders vanavond even bij je langs om informatie over jouw pincode te reverse engineeren uit jouw subproductie, vind je dat goed? :*)
Mijn pincode is niet openbaar. We hadden het over openbare subproducties.Zoals dit gesprek.

[Reactie gewijzigd door Mushroomician op 22 juli 2024 18:24]

En wie ben jij dan om te bepalen wat een openbare subproductie is of niet? Als je er bij kan, is het dan niet openbaar? En het is toch allemaal een onderdeel van het universum? :P
Als je erbij kunt zonder het beschadigen van blokades is het openbaar.
Een robots.txt negeren is geen blokade omzeilen.
Tja, 'blokkade' zul je dan eerst goed moeten definieren in universele termen. Voor een hacker met een exploit is er ook geen blokkade. Dus in zekere zin zijn computerbeveiligingen geen blokkade als je ze kunt omzeilen. Mag je dan een exploit gebruiken om aan je data te komen? Alles mag zolang je het maar kan?
Ja dat is inderdaad een goed punt.
Als je een server om informatie vraagt en die server geeft daar antwoord op, dan is dat een fout van de server. Daarom ben je bij een datalek ook altijd eindverantwoordelijke en digitaal inbreken bestaat eigenlijk niet want je komt nergens binnen. Het is communicatie. Wet van Darwin zou bepalen wat dan overeind blijft en wat niet.
Data die al eerder opgehaald was, blijft in de modellen.
Doorzichtig hoor, ze hebben zelf hun data binnen en nu gaan ze braaf doen. Ik verwacht dat de volgende stap is dat ze gaan zeggen dat ánderen niet na mogen doen wat ze zelf hebben gedaan. Zo kun je lekker je eigen positie verzekeren.
Ik vraag me of het verkeerd implementeren van een Robots.txt hiervoor dezelfde risicovolle gevolgen kan hebben als het voor zoekmachines heeft.

Het wordt over het algemeen afgeraden om een Robots.txt te hebben die zegt 'je mag wel indexeren in directory X maar niet in Y' als er gevoelige informatie in Y staat. Dat is omdat Robots.txt ook maar een fatsoensregel is en niemand zich daar gedwongen aan moet houden. Je wijst met bovenstaande regel dus iedere bot die overal schijt aan heeft op het bestaan van die directory Y. Voor gevoelige informatie dus niet verstandig.

Maar, je kunt met een disallow /Y/ op User-agent: GPTBot dus ook aan andere AI of LLM bots die aan het data stofzuigen zijn en die het niet zo nauw nemen precies vertellen waar de waardevolle data staat.

Daar moet je dus goed over nadenken voor je het implementeert dat je het precies goed doet.
Wat jammer dat ze het zoekmachine-vinkje gebruiken. Het gebruiken van data is mijns inziens heel wat anders dan het opnemen van een url in een zoekmachine. Dus als ik niet wil dat mijn data gebruikt wordt om ai te trainen, moet ik voor lief nemen dat zoekmachines mijn website niet meer tonen in zoekresultaten. Of zie ik dit verkeerd?
Even los van je eerste stuk, je kunt je robots.txt gewoon inrichten op het niet toestaan van User-agent: GPTBot en het wel toestaan van User-agent: Googlebot om zo gewoon zichtbaar te blijven in de zoekresultaten.
Maarja, dan moet je dus wel alle User-agents kennen, en niets let mij om mijn AI trainer GPTBot als User-agent te geven, of uberhaupt een eigen specifieke User-agent.
Robots.txt leunt sowieso op vrijwillige medewerking. Je hoeft met je bot die entries ook helemaal niet te honoreren. Het is geen firewall die alle requests dropt als er GPTbot in staat.
Je leest het verkeerd.

In het bestand Robot.txt moet je aangeven wat er voor een bepaalde user agent toegestaan is en wat niet.
Open AI zal daarin zoeken naar wat de rechten zijn voor GPTBot en zich aan de rechten houden.

Je kunt andere (search)bots wel rechten geven en OpenAI alle rechten ontnemen.
En wat als ik mijn ai-trainer helemaal geen specifieke user-agent geef? Niets verplicht mij om mijn applicatie een eigen User-agent te geven.
Dan zal jouw applicatie gewoon door kunnen gaan met het opzuigen van informatie.

Het hele artikel gaat er juist over dat Open AI dat wel gaat respecteren (in de toekomst). Niet over wat wel of niet moreel of juridisch is toegestaan.

En daar ging de vraag van KabouterSuper ook niet over.

Op dit item kan niet meer gereageerd worden.