'Nederlandse bronnen voor trainen van chatbots staan bol van privégegevens'

De Nederlandse sites die het vaakst gebruikt worden voor het trainen van chatbots, staan bol van auteursrechtschendingen, privégegevens en nepnieuws. Dat concludeert De Groene Amsterdammer na eigen onderzoek. Docplayer.nl zou de belangrijkste bron voor chatbots zijn.

Voor het onderzoek keek De Groene Amsterdammer naar de tweeënhalf miljoen unieke Nederlandse en Belgische websites waar Google teksten uit verzameld heeft voor de mC4-dataset, een 'opgeschoonde versie' van de Common Crawl-webcrawldataset, schrijft de site. Daarin bevindt zich vrijwel elke tekst van het internet.

Omdat veel bedrijven niet prijsgeven welke bronnen ze gebruiken voor het trainen van hun chatbots, valt niet met zekerheid te zeggen of ze de mC4-database gebruiken. DGA schrijft dat voor GPT-3 in ieder geval de Common Crawl-dataset als basis gebruikt wordt, maar dat OpenAI daar nog een eigen 'strenger' filter overheen legt. Dat kwaliteitsfilter werd vergeleken met het filter dat Google gebruikt voor het opstellen van de mC4-dataset 'en we zagen geen belangrijke verschillen'. De Groene Amsterdammer schrijft in zijn verantwoording daarom dat de bestudeerde Nederlandse websites 'een zeer aannemelijke kans hebben' om in de ChatGPT-trainingsdata te zitten.

Naast de websites zelf is voor elke site ook berekend hoe groot het aandeel was in de collectie. "Dat deden we op basis van het aantal woorden in de collectie, dat we, vanwege de omvang van de dataset, relatief simpel berekenden door de teksten te splitsen op basis van spaties."

Hieruit kwam naar voren dat docplayer.nl met een aandeel van 3,6 procent de de belangrijkste Nederlandse bron voor chatbots is. Deze hostingsite verzamelt allerlei documenten, waaronder bestanden met persoonsgegevens zoals evaluaties van sollicitanten, en kwam in 2017 in opspraak omdat het die verkrijgt door andere sites te scrapen. Er werd door de Nederlandse overheid uiteindelijk besloten om geen stappen te ondernemen tegen die site.

Top 10 Nederlandse bronnen voor AI-chatbots
De top 10 Nederlandse sites met het grootste aandeel in de mC4-dataset

Daarnaast valt het De Groene Amsterdammer op dat veel websites over games en technologie hoog staan in de lijst. Zo staat Tweakers op nummer vijf. De site verklaart dat door het feit dat dergelijke sites veel Engelse termen gebruiken. Omdat het filter vooral is afgesteld op Engelstalige teksten, zouden dergelijke sites daarom de voorkeur krijgen van het filter.

Verder zou er ook een 'neonazistische complotwebsite' in de top 200 staan, namelijk Stormfront. Omdat deze site slechts een plek lager staat dan RTL Nieuws, concluderen de onderzoekers dat chatbots van beide sites ongeveer evenveel leren. Daarnaast noemt DGA het ook zorgelijk dat sites als Marktplaats in de lijst staan, omdat gebruikers daar bijvoorbeeld hun telefoonnummer op achterlaten. "Die informatie is of was weliswaar publiekelijk beschikbaar, maar nooit eerder werden zoveel gegevens op deze manier aan elkaar gekoppeld – door een systeem dat er ook nog eens van wil leren en er nieuwe teksten van maakt."

De Groene Amsterdammer zegt dat Nederlandse sites slechter gefilterd worden dan Engelse sites omdat ze vooral dienen als 'bijvangst' voor de Amerikaanse chatbots. Slechte kwaliteit in Nederlandse teksten zou door het kwaliteitsfilter amper herkend worden.

Eerder deed The Washington Post een soortgelijk onderzoek naar Engelstalige websites. Ook bij dit onderzoek werd gebruikgemaakt van de mC4-dataset. Hieruit bleek dat patents.google.com de grootste site was, gevolgd door de Engelse Wikipedia en scribd.com. Ook zaten er sites in de top 100 die een database met kiezersgegevens hosten, evenals propagandawebsites als het Russische RT.com en de extreemrechtse vdare.com.

Door Kevin Krikhaar

Redacteur

07-06-2023 • 19:54

72

Reacties (72)

72
70
27
4
0
34
Wijzig sortering
Maar die privegegevens staan dan toch online en daarmee zijn het geen privegegevens meer?
Nee, zo werkt het dus niet. Door iets op een site te plaatsen geef je die site toestemming dat te doen, voor een bepaald doel. Een scraper heeft die toestemming niet. Het zijn nog steeds jouw gegevens. Wat jij nu zegt is zoiets als "maar het staat op de pirate bay dus er rust geen copyright meer op".
De eerste zit op een grijs gebied, omdat het gaat over een openbaar gebied.

Ik snap je tweede redenering niet echt wat heeft Pirate Bay ermee te maken? Er zit een verschil tussen data lekken door een derde persoon of zelf iets online zetten in het openbaar
Het eerste is zeker geen grijs gebied. De avg is daar heel helder in.
Jij geeft de site toestemming eventueel je persoonlijke gegevens te laten zien, andere commerciële sites mogen dat niet zomaar overnemen zonder toestemming en goede reden waarom ze die gegevens overnemen en opslaan/gebruiken.

Zie ook een oudere post van @Arnoud Engelfriet https://blog.iusmentis.co...gevens-vallen-gewoon-avg/
Het is leuk en aardig om te zeggen dat als het op site A staat, het niet zomaar betekent dat het door iedereen mag worden overgenomen. Prima, helemaal mee eens. Maar dat is net zoiets als in een druk café aan iemand een geheim vertellen en erop vertrouwen dat de persoon naast je het niet opvangt en doorvertelt. Zoiets is overigens al vaker gebeurd met iemand in de trein die een (vertouwelijk) gesprek voert aan de telefoon en zomaar dingen zegt die een journalist een stoel verder opving. Ja, mag misschien niet, maar het is wel een beetje naïef om te denken dat als je iets ergens op internet plaatst, het alleen maar gebruikt wordt voor het doel waarvoor het op de site is gezet. Zo werkt het in de praktijk dus niet, wet of geen wet.
Je kunt daar gewoon niet op vertrouwen. Je telefoonnummer op Marktplaats zetten is wel het domste wat je kunt doen. Ik zet alleen mijn woonplaats erop en als ik een deal met iemand heb, krijgen ze een adres. Maar als je je telefoonnummer, emailadres en weetikwat erop zet, kijk dan niet gek op als je ineens helemaal gek gespamd wordt. Dan heb je helemaal niets meer aan dat wetje of regeltje dat ze dat niet mogen doen. Daar is een wet of regel niet voldoende voor. Internet is geen schoolkrant die alleen maar door je klasgenootjes gelezen wordt...
Er is een wezenlijk verschil tussen als privépersoon een vertrouwelijke conversatie kunnen meeluisteren omdat iemand slordig is, en als bedrijf structureel vertrouwelijke conversaties binnen te harken zodat je daar later geld mee kunt verdienen. Als ik honderd werkstudenten dagelijks in de trein laat zitten, met instructie "in de eerste klasse, naast de mensen in pak met laptop op schoot en transcribeer hun conversaties" dan zouden we dat een gek bedrijfsmodel vinden lijkt me.

Ik ben het met je eens dat je vandaag de dag enorm voorzichtig moet zijn, maar ik denk dat we nog best kunnen verwachten dat wetten worden gehandhaafd tegen bedrijven die in Europa willen opereren. En natuurlijk blijven er dan vage fly-by-night operaties die alles blijven doen, maar dat betekent niet dat we dan de wet maar moeten afschaffen en iedereen voor zich het laten oplossen.
Natuurlijk, die wetten moeten er zijn, maar ze zijn niet voldoende, is wat @mphilipp zegt.
Net als je een robots.txt op je site zet omdat hij niet geindexeerd mag worden ... wilt niet beteken dat het absoluut niet gebeurd, het is maar aan de bots of ze dat daadwerkelijk honoreren.

Wetjes en regeltjes zijn voor de legitieme partijen. Giganten zoals ChatGPT mag je best in de gaten houden met dit soort dingen. Maar ondertussen zijn er tig bots in Rusland en China die exact hetzelfde doen, en die komen er wel mee weg.

Als je je persoonsgegevens op het internet zet, moet je er gewoon van uitgaan dat dit publiekelijk beschikbaar is en overgenomen zal worden. Ongeacht wat de wet zegt.

Dusja, een trein met studenten, eerder een veld vol met studenten met richtmicrofoons die mee zitten te luisteren net over de grens waar je ze niets kan maken. Nog steeds even gek bedrijfsmodel, maar wat wou je eraan doen dan?
Dat je er vanuit kan gaan dat anderen de situatie gebruiken is juist waarom de onderzoeksresultaten belangrijk zijn: aantonen welke bedrijven of organisaties persoonlijke gegevens verwerken die ze publiek verzamelen, terwijl ze daar kennelijk geen toestemming voor hebben van de personen om wie het gaat, zonder duidelijkheid hoe die personen er redelijk in meeverdienen in plaats van ongevraagd op verliezen bij dit soort verdienmodellen.
Ja, gek bedrijfsmodel, maar toch...je privégegevens 'ergens' op internet zetten, grenst wel aan slordigheid. Ik begrijp gewoon niet dat iemand daar niet even wat langer over nadenkt.
en hoe staat de AVG daar dan in ten opzichte van een bedrijf uit China ? Jammer dan die geven geen ... om de AVG.

Dit is nu juist waar het over gaat met moderne AI die zomaar alle sites op internet scraped en als source gebruikt voor de waarheid.
Scrapen is niet verboden. Om persoons gegevens er uit te filteren heb je twee lijsten nodig. Een met alle voornamen van de wereld en een met alle achternamen van de wereld, dan kan je die woorden zoek en vervangen. Dit is ook het kip en ei probleem om ongewild persoonsgegevens te scrapen. Hoe anders kan de scraper zien dat het om persoon gegevens gaat?
> Maar die privegegevens staan dan toch online en daarmee zijn het geen privegegevens meer?

> Er zit een verschil tussen data lekken door een derde persoon of zelf iets online zetten in het openbaar

Ik vind Pirate Bay juist een super goed voorbeeld voor dit artikel over gebruikte bronnen.

Het probleem is dat de bronnen met privégegevens die hier genoemd worden ook heel veel privégegevens bevatten waar nooit toestemming voor is gegeven om deze online te zetten. Er staan bijvoorbeeld belastingaangiftes bij van mensen die geen idee hebben hoe dit online gekomen is.

1 Vandaag noemt dit vanaf ongeveer minuut 2:30
https://eenvandaag.avrotr...k-zijn-de-bronnen-van-ai/

Het feit dat deze gegevens zonder toestemming online gezet zijn en nu door AI gebruikt worden om te trainen is heel tricky. Bij Google heb je tenminste het recht om vergeten te worden en te zorgen dat dit niet naar voren komt bij een zoekresultaat. Hoe ga je dit voor elkaar krijgen als je erachter komt dat jouw persoonlijke gegevens naar voren kunnen komen in een antwoord van ChatGPT? En beter nog, hoe kom je erachter dat dit in de trainingsset zit?
Beetje grijs gebied lijkt volgens mij. Search engines doen dit ook al sinds de jaren 90 en daar wordt ook geen probleem van gemaakt.
Is het niet zo dat Common Crawl robots.txt respecteert? Hierin kunnen websites zetten of scrapers toegestaan zijn of niet.
robots.txt is voor indexeren, niet voor scrapen. Linken naar een pagina (zoals wat een zoekmachine doet) is niet hetzelfde als pagina's structureel dataminen. En het lijkt me sterk dat een site als marktplaats niet geindexeerd zou willen worden, alleen omdat er toevallig hier en daar mensen hun telefoonnummer achterlaten.
Verwijderd @kozue8 juni 2023 11:37
Het is maar net wat de crawler interessant vind, het laadt allebei de pagina. Wellicht is de ene meer geïnteresseerd in meta data, maar vergeet plaatjes en lappen tekst niet. Hoe denk je dat een zoekmachine iets vind ? Door de website te indexeren / scrapen. Een sitemap.xml is optioneel.
Je hebt natuurlijk gelijk. Maar in de praktijk is alle informatie die je zonder een website te breken kan uitlezen met een scraper publieke informatie. Het ergste dat kan gebeuren is dat je geblokkeerd wordt door de site die je scrapt.
ChatGPT probeert de persoonsgegevens niet uit te lekken door middel van DP, maar dan krijg je dus onbruikbare verzonnen persoonsgegevens als resultaat. Ik heb daar op het forum een stukje over geschreven:
“Ik denk dat dit een stukje Doorgeslagen Differential Privacy (DP) is… Hoe lager de epsilon (ε) waarde in DP, hoe beter de privacy van Persoonsgegevens die dus niet per ongeluk wordt uitgelekt, en hoe hoger de ethiek-waarde wordt, maar hoe minder bruikbaar het eind-resultaat dus wordt voor de eindgebruiker met totaal verzonnen gegevens!”


Dus stel je wilt graag de contact gegevens van een dokter bij een medisch noodgeval en je krijgt alleen verzonnen dokters die niet echt bestaan vanwege AI privacy overwegingen en overlijdt vervolgens: wat heb je daar nou weer aan?

[Reactie gewijzigd door Weicool op 22 juli 2024 21:28]

Dus stel je wilt graag de contact gegevens van een dokter bij een medisch noodgeval en je krijgt alleen verzonnen dokters die niet echt bestaan vanwege AI privacy overwegingen en overlijdt vervolgens: wat heb je daar nou weer aan?
Niets. Klinkt dan ook alsof de onderzoekers aan de bak mogen om kunstmatige intelligentie te gaan maken, die daadwerkelijk verbanden kan zien; kan redeneren; en geinformeerde besluiten kan nemen over wanneer gegevens te gebruiken cq. vrij te geven en wanneer niet.

Ipv wat we nu hebben: een getraind taalmodel wat eigenlijk alleen 'weet' hoe taal werkt en meer niet.
Een stukje kunstmatige stupiditeit dat feitelijk niet anders is als een miljoen-zijdige magic 8-ball.

[Reactie gewijzigd door R4gnax op 22 juli 2024 21:28]

Dus stel je wilt graag de contact gegevens van een dokter bij een medisch noodgeval en je krijgt alleen verzonnen dokters die niet echt bestaan vanwege AI privacy overwegingen en overlijdt vervolgens: wat heb je daar nou weer aan?
Die heb je helemaal aan je zelf te wijten... Dood door schuld, je had 112 moeten bellen.
Deze AI taalmodellen zijn al in robots zoals Ameca ingebakken en zullen straks in nog veel meer verzorgingsrobots als straks de enigste verzorger van zeer oude mensen ingebakken worden, waarbij die oude mensen helemaal niet zo mobiel en in staat zijn zoals als jij en ik om zelf 112 te bellen… Dan is nog maar de vraag of dit de hoogst mogelijke ethische uitkomst is, zoals wetenschappers met de stand van zaken nu blindelings vanuit gaan…

[Reactie gewijzigd door Weicool op 22 juli 2024 21:28]

Het lijkt me dat een robot die bedoeld is voor verzorging wel fatsoenlijk een alarmnummer kan bellen. Een gehandicapten WC heeft ook een rood touwtje net zoals een ziekenhuis een zuster alarmsysteem heeft.
ChatGPT moet als inexact model en niet-realtime model sowieso antwoorden dat dat soort antwoorden van het systeem inherent onbetrouwbaar zouden zijn en mensen de noodnummers moeten bellen en de officiële websites en hulpbronnen moeten gebruiken waar ze die zelf nog niet weten. Al het andere is domweg gevaarlijk, je moet mensen ontmoedigen om dit voor verantwoordelijke zaken te gebruiken, totaal er ander soort, meer realtime AI beschikbaar komt ipv taalmodel.
Dan gebruik je de bot dus verkeerd.

Te veel mensen die er van uit gaan dat het waarzeggers zijn, een betere zoekmachine, dat is het niet! Gebruik het dus ook niet als dusdanig. Dat de bot onbruikbare data geeft is je eigen schuld, je vraagt hem iets waar hij niet voor is gemaakt.

Wat je wel kan doen, een prompt opstellen waar je de bot vraagt een essay te schrijven over het bereiken van hulpdiensten en levert daarbij zelf een lijst aan relevante contactinformatie aan die de bot mag verwerken in de tekst. Dan heb je een proper stuk tekst met echte data in, zoals je hem hoort te gebruiken.

Dus privacy data uit de resultaten filteren zou geen probleem moeten zijn.
Het zijn taalmodellen die dmv kansberekening responses opstelt, dit absoluut niet per se op feit gebaseerd. Het produceert teksten die er geloofwaardig genoeg uitzien dat het door een mens geschreven zou kunnen zijn. En met name dus uitzien, het ziet er geloofwaardig uit, maar inhoudelijk heeft de bot geen idee wat hij zegt, kan regelrechte onzin zijn. De feiten dien je namelijk zelf aan te leveren, anders gaat de bot zelf iets verzinnen.
Dat jouw fiets niet op slot staat op straat, wil nog niet zeggen dat een ander em mee mag nemen.
Nee maar het gebeurt wel 8)7 Overigens ook als de fiets op slot staat. :Y)

[Reactie gewijzigd door BruT@LysT op 22 juli 2024 21:28]

Klopt. En dan is het dus een misdrijf wat vervolgt kan worden.
Mijn punt is dat ondanks dat het een misdrijf betreft én het vervolgd kan worden dit geen garantie is dat probleem daarmee wordt opgelost of dat ik me daarom maar geen zorgen hoef te maken. Mijn fietsen zijn al 20x gestolen en heb nog nooit eentje teruggezien en de daders zijn nooit opgepakt. Punt is dat het gewoon gebeurt en ik maar beter simplele 20 euro omafietsen kan gebruiken want dan heb ik minder stress en kan ik gewoon accepteren dat het af en toe gebeurt zonder me daar verder heel druk om te maken. Net zoals mijn persoonsgegevens op internet, die zijn gewoon bekend en zijn al lang verspreid. Spam mail en spam telefoontjes zijn gangbaar en zoals zoveel vevelende dingen zijn ze gewoon onderdeel van het leven, regeltjes doen er niet toe. Dat een AI bot bepaalde zaken dus niet zomaar zou mogen inzien/gebruiken houdt dus geen stand, dit gebeurt absoluut wél en daar gaan we ook niets aan veranderen.
Ik kan je volgen. Mijn punt is dat, hoewel het gebeurt, het daarmee nog niet legaal of gewenst is.
Maar legaal maakt geen hol uit als men het over de grens doen. Is leuk dat we in de brave landen dan ons beperken in het gebruik van AI onder het mom van privacy enzo. Maar een paar meter over de grens doen ze dat gewoon zonder dat ze ergens wat om geven ...

Moeten we privacy dan maar helemaal vergeten? Nee, natuurlijk niet. Maar besef wel dat wetgeving niet zo veel uithaalt tegen louche bedrijven, en dat maatregelen weinig tot niets zullen uithalen, laat staan dat het te handhaven is, kunnen ze af en toe es een boete geven aan Meta of OpenAI of whatever, maar daar blijft het dan wel bij.
Dat is een goed punt en vaak hebben gebruikers toch al toestemmnig gegeven aan 'gelegaliseerde spyware' zoals facebook (schuilnaam meta) om allerlei data te verzamelen, te evalueren, op te slaan en al dan niet in stukjes beschikbaat te stellen/gebruiken.

Het gaat erom dat al die (derden)data die verzameld is maar waar geen toestemming voor is gegeven ook wordt gebruikt/misbruikt door bedrijven als facebook om hun (eigen) ai bot te creeren.
Het zijn en blijven nog steeds jouw privegegevens. Volgens de AVG moet de eigenaar van *iedere* site waar ze staan jouw toestemming hebben.

Het IMHO wezenlijke verschil dat nu ontstaat bij het trainen van AI, is dat je niet kunt aantonen dat jouw privegegevens/auteursrechtelijk beschermde teksten gebruikt zijn bij het trainen van die AI. Behalve de trainers zelf weet niemand wat er precies gebruikt wordt; de rest van de wereld moet er maar op vertrouwen dat die trainers de waarheid vertellen over wat er gebruikt is.
Helemaal wazig wordt het als languagemodels verhandeld of gecombineerd gaan worden, of als gegenereerde content gebruikt wordt voor training van andere AI.
Is er geen chatgpt die enkel put uit het staatsblad en juridische verslagen en rechterlijke uitspraken?
Is er geen chatgpt die enkel put uit het staatsblad en juridische verslagen en rechterlijke uitspraken?
Dan kan de dienst geen handige HTML, Php, Java, of tig andere programmeertalige scriptjes meer voor je bouwen, kan het geen boekverslagen voor je schrijven, en nog tig voorbeelden.

Je kan prima putten uit bronnen, zolang je het ook traint op wat persoonlijke data zijn en hoe je deze kunt filteren.
Dat kun je toch ook aan chatgpt vragen?
Er zijn steeds meer oplossingen te vinden zoals deze, waarmee je eigen documenten kunt gebruiken als brondata.

Als je er ook een interface bij wil hebben: klik.
Zo werkt het niet helemaal. Je moet het zien als een baby. Wanneer je deze alle juridische documenten geeft, zal die er een beetje op kauwen en er niets van snappen. Een basismodel als GPT4 is ontstaan omdat hij heeft geleerd van vele miljarden gegevens op een niveau dat we ons bijna niet kunnen voorstellen. Het beredeneringsvermogen en andere intelligentie-kwalteiten zijn enkel tot uiting gekomen door een bepaalde base-level van ontelbaar veel informatie. Zonder dit base-level had er geen intelligentie kunnen ontstaan.

Je kunt enkel een extra (vector) database hangen aan het al bestaande intelligente model en deze instructies meegeven dat hij zich moet beperken tot het gebruik van de juridische verslagen etc. Maar dit is geen garantie dat hij volledig in deze rol blijft, hoewel het vaak wel goed genoeg zal zijn.
Zou ook geweldig zijn voor politici die selectief vergeetachtig zijn....waarom hebben we met chatgpt nog politici (vooral die liegen als kunst verheven hebben) nog nodig?
En nu ze hun bronnen uitgeput hebben, willen ze snel dat er regels en wetten komen zodat niemand ze in de toekomst na kan doen.
De bronnen zijn nooit uitgeput. Er zijn nog wel wat generaties nu en in de toekomst die hier ook mee te maken gaan krijgen. Daarbij zijn dit soort onderzoek nodig om duidelijk te maken wat de praktijk is, want die bedrijven zijn daar zelf kennelijk niet zo heel open over naar de personen wie dit betreft of kan betreffen.
Hoe kan die docplayer.nl website in Nederland blijven bestaan ?? Het staat helemaal bol van gestolen werk en je kan niet eens een take down verzoek doen...
Het enige Nederlandse er aan is dat .nl. Er zijn vzv ik weet geen beperkingen voor buitenlanders om een .nl domein te registreren. Docplayer.nl is geregistreerd door een Rus, Vladimir Nesterenko via de Engelse registrar marcaria.com. De NS zit bij bij Google domains. Het is momenteel gehost bij Hetzner in Duitsland. Dat laatste kan een aanknopingspunt zijn als iemand er zijn tanden in wil zetten, maar waarschijnlijk verhuist het dan zo naar een andere hoster buiten de EU.

Het werkelijke probleem is dat je dankzij Google geld kan verdienen met een site vol advertenties naast gejatte content of zelfs volledig random woordenbrij.

Een collega van me vatte het in 2001 al zo samen: "Internet was leuk, tot iemand het woord e-business uitvond. Toen kwamen alle ratten uit hun holen".
Daar kan meneer Grapperhaus je wel meer over vertellen (of tweakers.net ook):

nieuws: Minister: geen actie tegen scrapingsite van Rus met 4,3 miljoen besta...

Dit verhaal is toch gewoon oud nieuws?
Aannames kunnen gevaarlijk zijn bij onderzoek naar de gevaren van AI omdat ze de objectiviteit en nauwkeurigheid van het onderzoek kunnen beïnvloeden. Hier zijn een paar redenen waarom aannames problematisch kunnen zijn:

1 Vertekende conclusies: Als onderzoekers bepaalde aannames doen zonder voldoende bewijs of rationele basis, kunnen ze tot onjuiste conclusies komen. Dit kan leiden tot misvattingen over de werkelijke gevaren van AI, waardoor belangrijke aspecten mogelijk over het hoofd worden gezien.

2 Verkeerde prioritering: Aannames kunnen ervoor zorgen dat onderzoekers zich richten op de verkeerde aspecten of risico's van AI. Als bepaalde gevaren als vanzelfsprekend worden beschouwd zonder grondige analyse, kan dat leiden tot het negeren van andere belangrijke en potentieel gevaarlijke aspecten.

3 Bevestigingsbias: Aannames kunnen het gevolg zijn van bevestigingsbias, waarbij onderzoekers onbewust geneigd zijn informatie te zoeken die hun bestaande overtuigingen en hypotheses bevestigt. Dit kan leiden tot een gebrek aan objectiviteit en het verwaarlozen van tegenstrijdige informatie, wat de validiteit van het onderzoek in gevaar kan brengen.

4 Onvoorspelbare consequenties: Aannames over de mogelijke gevaren van AI kunnen leiden tot het missen van onverwachte risico's of gevolgen. AI is een complex en snel evoluerend gebied, en het is moeilijk om de exacte uitkomsten en effecten van AI-systemen volledig te voorspellen. Het maken van ongegronde aannames kan leiden tot het negeren van potentiële gevaren die later opduiken.

Om een betrouwbaar en nauwkeurig onderzoek naar de gevaren van AI te garanderen, is het belangrijk om aannames kritisch te benaderen en te baseren op solide bewijs en rationele argumenten. Het is essentieel om open te staan voor verschillende perspectieven en om voortdurend nieuwe informatie en inzichten te integreren in het onderzoek.

/chatgpt over dit onderzoek
Grappig, deze zouteloze woordendrek was binnen een alinea te herkennen als ChatGPT.
Ik ben het anders volkomen eens met deze 'zouteloze' opsomming. Zeer goed, en laat direct zien hoe waardeloos een onderzoek als deze kan zijn, want in mijn ogen suggereert het dat het mogelijk gevaarlijk kan zijn dat ChatGPT zoveel nepnieuws, onzin en complottheorieën door zou spitten, terwijl het natuurlijk van groot belang is dat het zoveel mogelijk tegenstrijdigheden tot zich neemt om zo tot betere conclusies te kunnen komen. Als we een bot enkel zouden trainen op geverifieerd nieuws, zou het geen weet hebben van nepnieuws. Het is net als de mens zelf, wij moeten ons ook blootstellen aan grote diversiteit om betere inschattingen te kunnen maken. Echter ook mijn mening hier is totaal gebaseerd op onderbuikgevoel en mijn eigen logica en zegt niets over de daadwerkelijke gevaren die AI met zich mee brengt of hoe ChatGPT uiteindelijk om zal gaan met al deze data. Eén ding weet ik wel, en dat is dat er mensen zijn die graag sturing willen geven aan waar AI op getraind wordt. Reken maar dat men bang is dat AI op den duur 'waarheden' zal gaan spuwen die bepaalde groeperingen niet willen horen, maar deze zo goed kan onderbouwen dat er geen ontkennen meer aan is. Nog even en AI is de grootste complotdenker waar wij mensen niets van aan mogen nemen, het grootste gevaar voor de samenleving etc. etc. dit duurt niet lang meer.
Het lijkt mij volkomen onzinnig dat een mens zich zou moeten blootstellen aan nepnieuws om zich een betrouwbaar beeld van de wereld te vormen. Je gaat een kind ook niet eerst leren foute rekensommen te maken, of uitgebreid inleiden in de flat earth 'theorie' of de Tweede Wereldoorlog onderwijzen en dan een potje holocaustontekkening er achteraan doen voor de balans. We slaan dat allemaal over en beginnen direct bij wat we als waarheid beschouwen.

Voor een LLM maakt dat allemaal niet uit, die heeft niet eens een concept van 'waarheid' en spuugt alleen maar woorden uit die enigszins plausibele zinnen lijken te vormen. 'Verbeter' je ChatGPT met iets dat kant noch wal raakt, biedt het ding zijn excuses aan en geeft het je direct gelijk.

Je moet er ook maar eens op letten hoe vaak het ding 'X of Y' of 'A en B' gebruikt, hiermee, dat bedoel ik met 'zouteloos' –het is alsof er wat meer concepten bij worden geharkt om de kans te vergroten dat een mens er iets zinnigs uit denkt te kunnen halen.
Ik denk dat dit soort opsommingen onnatuurlijk zijn als normale reactie…
Die opsomming ook. GPT doet dat altijd zo :) En meestal dan de titels van elk punt vetgedrukt. Viel me ook al meteen op zoals @Weicool zegt.

Het is ook wel vervelend als ik een gewone vraag stel en je dat soort dingen steeds terug krijgt. Ook vind ik hem heel erg wollig. Als ik vraag: Wat is de inhoud van een zaklamp van diameter X en lengte Y? Dan gaat hij helemaal beschrijven hoe ik dat uit moet rekenen. Ehm ja daarom vroeg ik dat juist, omdat ik geen zin heb om dat zelf te doen :P

[Reactie gewijzigd door GekkePrutser op 22 juli 2024 21:28]

Het is een LLM. Zonder plugins doet dat aan language en niet aan wiskunde.

Je kan trouwens aanpassen hoe de reactie wordt gegenereerd om bijvoorbeeld van opsommingen af te komen. Zie deze instructies.
Ik heb de indruk dat ChatGPT ook LinkedIn data gebruikt en toegang heeft tot een deel van de ActiveDirectory informatie op Azure van bedrijven.

Wellicht is dat onder het mom van "verbeteren diensten" / "gerechtvaardigd belang" zo gebruikt?

De reden dat ik dat vermoed is dat er een functienaam over mij in ChatGPT voor komt die alleen intern in de AD en het HR systeem heeft gestaan, nooit in andere communicatie. Idem voor bepaalde zinsneden op LinkedIn.

Ik gebruik bewust bepaalde verschillen in teksten per publicatie om zo de bron van (ongevraagd) "hergebruik" te kunnen herleiden.
Ik heb de indruk dat ChatGPT ook LinkedIn data gebruikt
Ik sta al jaren op LinkedIn maar GPT kent mij niet. Ik heb wel mijn profiel behoorlijk dicht staan, dat dan weer wel. Misschien als je je linkedin profiel publiek (zonder login) zichtbaar maakt, dan wellicht. Maar dan kan ook google en iedereen er bij.
en toegang heeft tot een deel van de ActiveDirectory informatie op Azure van bedrijven.
Dit lijkt me heel sterk. Ik werk zelf met Azure AD en als dat met derden gedeeld wordt, hadden we er toestemming voor moeten geven. Nou is Microsoft inderdaad een grote geldschieter van OpenAI maar het blijven aparte partijen. Bovendien is dat pas dit jaar gebeurd en de trainingsdata is van 2021.

En ook: GPT kent mij niet en ik stond al in Azure AD in 2021. Sterker nog: Ik stond zowel in die van het werk als die van mij prive (eigen tenant).

Dat Microsoft dat soort data gewoon in een chatbot gooit, nope, dat geloof ik niet. Azure AD bevat veel te gevoelige informatie daarvoor.
Ik gebruik bewust bepaalde verschillen in teksten per publicatie om zo de bron van (ongevraagd) "hergebruik" te kunnen herleiden.
Waren die artikelen op LinkedIn publiek zichtbaar?

[Reactie gewijzigd door GekkePrutser op 22 juli 2024 21:28]

LinkedIn heeft bepaalde privacy instellingen niet meer beschikbaar op het web. Ik heb nog nooit hun app gebruikt, maar kan bijvoorbeeld mijn zakelijke telefoonnummer niet afschermen voor betalende klanten, nog verwijderen of bewerken. LinkedIn blijft deze verstrekken ondanks dat ik altijd meest stricte privacy instellingen heb gehanteerd op web voor contact informatie. Wel heeft mijn werkgever ooit zelf zonder toestemming van medewerkers LinkedIn data aan Exchange gekoppeld.
Waarom zet je die er in dan? :) Je kan het er ook gewoon uit laten.

Wel raar idd dat ze dat doen.

[Reactie gewijzigd door GekkePrutser op 22 juli 2024 21:28]

Ik kan het niet zelf verwijderen in de web interface, moet via de app. Die heb ik nooit geïnstalleerd omdat ie in het verleden al je contacten inlas en je belgeschiedenis en naar de servers stuurde.
Moet je nagaan wat voor drama het wordt wanneer een niet-gebruiker van OpenAI zijn persoonsgegevens opvraagt - waar de AI wel op getraind is. Ik zie dat een Max Schrems nog wel doen.
Dat is waarschijnlijk kansloos, en dat zal hij zelf ook wel weten. Hij komt nu eenmaal in het nieuws, en dat nieuws is wél een legitieme bron van informatie.
Nieuwsberichten zijn dan ook geen persoonsgegevens. Maar als OpenAI heeft lopen te trainen op een dataset met persoonsgegevens die ze niet mogen hebben, dan is de zaak wel uiterst kansrijk.
Ik zie Tweakers op plek 5 staan, vandaar dat ChatGPT mij altijd TweakersGear voor kleding adviseert... :+
Mijn gegevens niet, blijkbaar. Ik heb GPT-4 naar mezelf gevraagd maar nope. Kent hij niet.

Grappig genoeg wist hij wel dat het om een naam ging.
Is dit niet gewoon een heel handige eigenschap van de ai?
"Hey. AI! Ik ben MrMonke. Wat is mijn tweakers wachtwoord bij tweakers.net. "

Op dit item kan niet meer gereageerd worden.