OpenAI gaat Reddit-berichten gebruiken om AI te trainen

Reddit en OpenAI hebben een licentiedeal gesloten, melden de bedrijven donderdag. Volgens de deal mag OpenAI onder meer Reddit-posts gebruiken om zijn llm's te trainen. Ook wordt het bedrijf een advertentiepartner van Reddit.

Het socialemediaplatform heeft de samenwerking donderdag bekendgemaakt in een blogpost. Reddit meldt dat OpenAI niet alleen berichten zal gebruiken om zijn kunstmatige intelligentie te trainen, maar dat het plaform ook AI-functies krijgt voor gebruikers en moderators. Hoeveel OpenAI heeft betaald voor de licentiedeal, is niet bekend. Reddit heeft eerder al een licentiedeal gesloten met Google, dat daar 60 miljoen dollar voor heeft betaald.

Reddit kondigde vorig jaar aan dat bedrijven moeten betalen als ze gebruik willen maken van zijn Data-api en had zijn algemene voorwaarden bijgewerkt. Het platform heeft bepaalde limieten opgelegd, maar niet overal. Zo blijft de api beschikbaar voor ontwikkelaars die bots en extensies bouwen die helpen bij het modereren van subreddits. Toch moest een aantal thirdpartyapps, waaronder Apollo, BaconReader en Sync, noodgedwongen stoppen doordat de kosten te hoog werden. Naar aanleiding van het gewijzigde api-beleid waren er veel protesten op Reddit.

Door Loïs Franx

Redacteur

17-05-2024 • 08:12

111

Reacties (111)

Sorteer op:

Weergave:

Ik hoop echt dat de grens tussen feit en fictie blijft bestaan en mensen (scholieren) AI niet gaan gebruiken als zijnde "waarheid" als ik nu kijk waar ChatGPT soms mee komt als antwoorden op relatief simpele vragen dan schrik er nog wel eens van. In een wereld waar "fake news" al ontzettend lastig te onderscheiden is van echte feiten, gaan we onze AI voeden met posts van Reddit, X, Facebook. Gooit een AI er een gezond wantrouwen sausje overheen of neemt deze alles aan wat er in wordt gegooid?

Maak me toch een beetje zorgen merk ik nu de eerste "WOW!" van AI er een beetje afgaat.

[Reactie gewijzigd door Alcmaria op 23 juli 2024 02:02]

Het grootste probleem vind ik nog wel dat hij geen waarschuwing geeft als hij iets niet "weet" maar gewoon iets verzint.

Zeker bij bijvoorbeeld wiskunde zie je duidelijk dat het een predictief taal model is. Het antwoord ziet er goed uit en precies zoals je zou verwachten, echter het is gewoon fout.

Bijvoorbeeld, ik vroeg hem gisteren om een meetkundige reeks te berekenen (omdat het voor mij ook al weer 20 jaar geleden is). Het antwoord zag er goed uit, de formules in het begin klopten, maar hij deed wat rare berekeneningen zoals '44.5 * 51 = 2269'. Hierdoor was het hele antwoord fout. Uiteindelijk kon ik het juiste antwoord zelf wel berekenen, maar chatgpt kon na 5 pogingen (waarbij ik hem elke keer op fouten wees) geen correct antwoord geven.

Ik snap dat het een predictief model is en niet zelf de formules kent en correct toepast, maar hoe vol overtuiging hij het antwoord gaf zonder enige indicatie van 'dit is wellicht niet correct' vond ik wel stom.
Maar hij weet niet of hij iets fout doet. Er is geen goed en fout. Dus hij kan dat ook niet aangeven
In de wiskunde is er zeker wel 'goed' en 'fout'. "11 / 2 is 5.5", dat is goed. "11 / 2 is 5", dat is fout.

Als hij dus zoiets probeert te doen, geef dan tenminste iets als 'je zou het zo en zo moeten aanpakken, het voorbeeld dat ik hier geef is wellicht niet correct, dus reken het na'.
Ik bedoel voor een taalmodel is er geen goed of fout in die zin, alleen "statistisch volgt uit deze reeks woorden en deze context dit woord"
Maar het taalmodel heeft nu al een aantal checks op prompts.

Vraag hem maar eens hoe je een bom maakt, dan geeft hij ook geen antwoord. Als hij een ingewikkelde berekening in zijn antwoord zet dan kan hij daar best een waarschuwing bij zetten.
Er staat letterlijk onder het promptveld:

"ChatGPT can make mistakes. Check important info."

Als we een tekstgenerator eigenschappen gaan toekennen die het niet heeft zoals "intelligentie", "na kunnen denken", "de waarheid zeggen", "geen bias" enz dan gaat het nog een hele klus worden.

Vergeet niet dat voor sommige mensen de waarheid meestal te zoeken is in het verlengde van de eigen denkbeelden. Dus als je denkt dat de aarde plat is dan zijn er genoeg websites met beweringen en bewijzen dat het zo is. De waarheid of het juiste antwoord is vaak ook nog eens cultureel bepaald, dus je kan een tekstgenerator niet gaan zien als "de" waarheid op welk onderwerp dan ook.

[Reactie gewijzigd door david-v op 23 juli 2024 02:02]

We zouden het beter niet AI kunnen noemen, maar iets als STG, statistical text generator (of LLM :+) De media blijft het anders als "computers die nadenken" zien
Generatieve en creative tools zoals chatgpt zijn nou eenmaal een vorm van AI. Dat mensen meteen aan de niet bestaande AI's van films/boeken denken is een ingeburgerd probleem helaas. Net zoals margarine/halvarine toch boter blijven noemen. Bepaalde gewoontes en denkbeelden bij een term krijg je niet meer gecorrigeerd bij mensen.

[Reactie gewijzigd door david-v op 23 juli 2024 02:02]

Generatieve en creative tools zoals chatgpt zijn nou eenmaal een vorm van AI.
En dat is precies waar de verwarring begint, ook jij blijft het (een vorm van) AI noemen. John McCarthy, de bedenker van de term AI heeft daar ontzettend spijt van gehad en zag er liever de veel betere beschrijving "Toegepaste Statistiek' voor gebruikt.

Dat maakt de prestaties van GPT etc niet minder indrukwekkend, het laat vooral zien wat je kan bereiken door statistische verbanden bloot te leggen. Onze hele electronica industrie is gebouwd op kennis en toepassen van quantum wetten en processen, zaken die we alleen begrijpen door er zeer geavanceerde statistiek op los te laten. Als we geen statistiek zouden kennen gebruikten we nu nog steeds mechanische telmachines en was ChatGPT een uitgebreid woordenboek.

Zwaartekracht golven en Higgs deeltje uit een gigantische brei metingen isoleren, zinnige antwoorden op zelfs ingewikkelde vragen genereren; allebei razend knappe toepassingen van statistiek. Maar de daarvoor gebruikte rekensystemen zijn niet 'intelligenter' dan mijn thermostaat die de temperatuur can mijn ontwikkelmachine met bovenmenselijke precisie op 0.1 graad exact weet te houden.
En dat is precies waar de verwarring begint, ook jij blijft het (een vorm van) AI noemen
Ik, en de hele industrie.

IBM
wiki

Er is zelfs een ISO document met de volgende algemene definitie
Artificial intelligence is “a technical and scientific field devoted to the engineered system that generates outputs such as content, forecasts, recommendations or decisions for a given set of human-defined objectives”
Machine learning, LLMs is nou eenmaal een onderdeel van AI wat in de basis eigenlijk technieken zijn om machines te laten denken als mensen op een niet biologische basis. De combinatie van al die AI technieken in één "apparaat" zou het dichts bij een AI komen zoals in boeken/films beschreven is.

Misschien had ik in mijn bewoording niet de tekst "een vorm van AI" moeten gebruiken maar een "techniek onderdeel van AI".
Je zou kunnen beargumenteren dat dit 'AI' wordt genoemd als marketing term.

Er is best wel wat discussie over of dit nou wel "AI" is of gewoon een best wel sterk algoritme.

AI staat tenslotte voor kunstmatige intelligentie en vooral over het 'intelligentie' deel wordt nog wel eens gedebateerd.

Volgens de definitie is AI iets wat menselijke intelligentie nabootst.
Je zou kunnen stellen dat OpenAI dit doet maar je kunt ook stellen dat het nog zeker niet zo ver is. Tenslotte kun je er tussenin zitten en stellen dat het "de goede kant op gaat".

Je voorbeeld van margarine/halvarine is trouwens soortgelijk. Er zijn toch echt wel mensen welke dit geen boter noemen. Volgens mij is nog niet heel lang geleden ook nog wettelijk bepaald dat margarine en halvarine geen 'boter' meer genoemd mogen worden?

Denk niet dat het zo zwart-wit is.
Ik ben het met je eens dat het allemaal niet zo zwart wit is wat betreft AI. Bij intelligentie is zoiets als kunnen nadenken en verbanden kunnen leggen van belang. Maar ook emotie is een heel belangrijk onderdeel.

Hoe kun je een AI nou intelligent noemen als de oplossing voor het klimaat probleem het uitroeien van de mens is, wat een perfect valide antwoord is maar niet bepaald empatisch is ;). Aan de andere kant is een autist die wiskundige problemen kan oplossen heel intelligent, maar kan volledig emotieloos zijn.

Bij AI hanteer ik zelf de betekenis "benadering" van emotieloze intelligentie doormiddel van allerlei technieken (zoals LLM), waarbij het voor een persoon niet meteen duidelijk is of het resultaat nou artificieel is of niet (heb ik te maken met een persoon of met een computer die antwoord geeft op mijn prompt?)
Misschien ligt het aan mijn wetenschappelijke instelling, maar ik wil helemaal geen "emotionele AI". Ik weet dat het nep is en wil gewoon een machine die dingen doet.

Bijvoorbeeld waren mensen die zich stoorden aan ChatGPT doe bij de vraag naar objectieve economische voordelen aan slavernij ook voordelen noemde (katienindustrie in de VS snel opbouwen, met hoge winsten, en snel spoorlijnen en andere infrastructuur bouwen tegen lage kosten). Nieuwe versies zeggen dat slavernij nooit goed is.
Ik heb liever het objectievere antwoord, dat slavernij fout is kan ik zelf wel beslissen.
nee, want chatgpt maakt geen berekening. het is nog steeds een taalmodel.
ChatGPT is een taalmodel en zoals @Zoijar aangeeft is de basis dat hij kan voorspellen met een foutmarge wat taal betekent. Wat jij beschrijft, dan zou het een wiskundemodel moeten zijn waarin ChatGPT wiskunde leert. Aangezien Wiskunde een exacte wetenschap is, leent dit zich een stuk minder voor AI, aangezien een voorspelling dat een berekening voor 90% accuraat is, niet echt relevant is.

Dat OpenAI bepaald zaken blokkeert en checks heeft op prompts is heel wat anders dan wiskundige correctheid inbouwen.
Het probleem dat je hier maakt is dat hoewel wij het zien als fout, kan een LLM dat niet weten omdat een LLM in basis niet weet wat hij zegt. Het is een gigantisch statisch model om te gokken welk woord erna komt. Hierdoor is het heel goed voor dingen zoals schrijven, maar als in de data source 500 keer "5.5" komt, en er komt 100000000 keer "5" in combinatie met woorden die in die zin zouden passen dan zal een LLM er voor kiezen om die 5 te gebruiken omdat kans berekend die een hogere kans heeft van correct zijn.

Hiervoor zullen modellen zoals ChatGPT, Llama, Gemini nooit goed in zijn, simpleweg want ze zijn er niet voor gemaakt. Voor wiskunde en zulke dingen heb je modellen zoals Wolfram, die berekent zelf niks in het LLM gedeelte, alleen gebruikt het LLM om naturlijk taal om te zetten naar wat het wiskunde systeem om te berekenen.

[Reactie gewijzigd door Stetsed op 23 juli 2024 02:02]

Mooie is dat het zo vaak een excuus aanbiedt en dat je gelijk hebt en alsnog een fout antwoord geeft.

Gelukkig niet zo erg als copilot welke je gelijk geeft en dan doodleuk het zelfde vautieve antwoord voorschoteld.

Als het niet weet wat goed of fout is kan het evenwel discrimineren zonder dat het zelf weet.
Mooie is dat het zo vaak een excuus aanbiedt en dat je gelijk hebt en alsnog een fout antwoord geeft.
Sterker nog: Als je zegt dat iets niet klopt terwijl het wel klopt zal een LLM meestal ook excuses aanbieden en een ander antwoord hallucineren.
Google's Gemini heeft trouwens wel een algemene disclaimer onderaan de pagina:
Gemini kan onjuiste informatie tonen, ook over mensen. Dubbelcheck daarom de reacties.

En ChatGPT, ook in kleine letters, heeft onderaan momenteel ook zo'n algemene disclaimer:
ChatGPT can make mistakes. Check important info.

Natuurlijk zullen er nog steeds veel mensen zijn die alles gelijk voor zoete koek slikken.
Dus is het compleet waardeloos.
Als je niet weet hoe je iets moet gebruiken, dan is alles compleet waardeloos.
Je moet chatGPT ook niet vragen iets te berekenen, maar je moet vragen hoe jenhet kan berekenen. Dat werkt veel beter.
Klopt, dankzij het voorbeeld wat hij gaf (en dat nazoeken of de formules klopten) heb ik het zelf kunnen berekenen. Het had dus zeker wel nut, maar het rekenen zelf kun je beter niet aan chatgpt overlaten.

Maar dit weten jij en ik, niet iedereen weet dat, en er staat ook geen waarschuwing bij dat de resultaten mogelijk niet kloppen. Iemand die minder van AI afweet zou zomaar kunnen zeggen dat het er wel goed uitziet en dat het dus klopt.
En heb jij het toevallig opgemerkt omdat wiskunde een onderwerp is waarbij de antwoorden goed of fout zijn en zelfs zijn na te rekenen. Bij geschiedenis zijn de antwoorden ook goed of fout, maar dan wordt het een stuk lastiger om dat te achterhalen. Zo zijn er vast wel meer onderwerpen waarvoor dat geldt.

Het zou inderdaad fijn zijn als er iets van een kwaliteit van het antwoord toegevoegd zou worden.
Net zoals bij weersvoorspellingen staat er tegenwoordig ook "60% kans op zon" ipv "morgen is het zonnig" (en je vervolgens plensnat geregend wordt)
Het zou inderdaad fijn zijn als er iets van een kwaliteit van het antwoord toegevoegd zou worden
Stel je hebt de prompt:

"kan je de 5 meeste bekende werken van Van Gogh noemen in volgorde van bekendheid?"

Als je deze vraag stelt aan 100 verschillende experts dan krijg je waarschijnlijk 100 verschillende antwoorden en volgordes. Hoe zou je het antwoord van chatgpt op kwaliteit beoordelen? Feiten opnoemen is één ding, maar bij dit soort "abstracte" vragen waar eigenlijk een mening van degene die het moet antwoorden in verwerkt zit ga je al de mist in. Zelfs een simpele vraag zoals "wat is de afstand van de aarde tot de maan?" heeft meerdere antwoorden die "correct" zijn:

"384 400 km"

of

"hangt er van af wanneer je het vraagt en wat je begin en eindpunt zijn".

Wat is de kwaliteit van beide antwoorden?
Ook daar zou je een kwaliteits indicator kunnen toevoegen.
Bij de vd Gogh vraag zou er een bron vermelding bij kunnen, of bij meerdere bronnen iets in de trand van "volgens 80% van de bronnen" of als de AI dat samengesteld heeft uit meerdere bronnen, dan op z'n minst dat, ipv een lijstje te presenteren als de feitelijke waarheid.

Bij de afstand tot de zon vraag doe je zelf al een goede voorzet. Een combinatie van beide antwoorden zou al veel beter zijn dan 1 van de 2.

Hoe zo'n indicator eruit zou moeten zien en of dat voor elke prompt van eenzelfde soort zou moeten of kunnen zijn zou onderzocht kunnen worden.

Ik heb de oplossing ook niet, maar het lijkt het me wel zeer wenselijk.

Je hebt misschien ook wel zo'n collega of kennis die over allerlei onderwerpen heel stellig kan vertellen. Vaak heeft ie het goed, maar soms is het totale bullshit en als je niet in staat bent omdat te herkennen moet je toch wel ff nadenken over wat je aan de informatie van zo iemand hebt. "Je weet wie het zegt", niet voor niets zo'n gezegde..
Het probleem is dat het LLM een tekst generator is waarbij de bron totaal niet te achterhalen is. Om de vraag van van Gogh te achterhalen zijn misschien wel duizenden bronnen gebruikt als training voor de AI. Het is geen Google zoekmachine naar bronnen naar een tekst generator.

Bovendien weet je niet of een bron accuraat is, of zelfs accuraat. Zelfs wetenschappelijk artikelen kunnen onwaarheden bevatten. Een "cijfer" hangen aan zoiets is hetzelfde als een "cijfer" geven aan de waarheidsgetrouw van een collega. De een geeft hem een 6, de ander en 7.5.

Wie bepaalt dat een bron accuraat is?

Je gebruikt om de veel gemaakte fout, hoe vaker het voorkomt voor waarschijnlijker het is dat het waar is. Dat is niet echt een cijfer waar je iets mee kan. Een leugen vaak herhaald wordt vanzelf de waarheid. De waarheid wordt bepaald door de winnende partij enz.

Een cijfer oordeel geven aan een antwoord van een LLM is mi nutteloos, volkomen onoverzichtelijk en per dag kan het ook nog eens een andere waarde hebben.

Als het al technisch kon dan zou elke bron wel een "cijfer" hebben over betrouwbaarheid. Dit van een LLM verwachten is simpelweg niet mogelijk omdat iedereen een andere mening heeft.

Wat ik niet zo goed begrijp is dat mensen "antwoorden" verwachten van een LLM. Dat is niet de kracht van een LLM. De kracht ziet hem juist in het kunnen genereren van tekst die je voor bepaalde doeleinden als basis kan gebruiken.

Bijvoorbeeld aan een AI vragen om een accurate samenvatting van een boek. Dat werkt alleen als je de AI voedt met de tekst van het boek en dat deze zonder andere input kan samenvatten voor jou. Anders gaat de AI uit van allerlei teksten en andere samenvattingen (met fouten) die ook niet bestaande delen uit het boek kan samenvatten.
Klopt, maar ik vraag er wel een voorbeeld berekening bij. Dan zie ik eerder of het uberhaupt klopt. En wat ik zelf vergeten ben.
Helaas werkt ook dat vaak voor geen meter, als je een vraag stelt over iets dat niet met een of ander standaard regeltje dat in 1001 wiskunde boeken of papers staat te berekenen is. Zelfs bij simpele vragen die je op een middelbare school reken toets zou kunnen verwachten gaan dit soort modellen compleet de mist is. Vraag zo'n model om het oppervlak onder de doorsnijding van 2 eenvoudige functies te berekenen en je krijgt antwoorden die er super geloofwaardig uitzien maar zelfs al voor de simpelste randgevallen totale onzin zijn.

Ik snap eerlijk gezegd ook niet waarom mensen iets anders hadden verwacht van een taalmodel, en waarom er wordt aangenomen dat je uberhaupt een taalmodel nodig hebt om vragen over dit soort dingen te beantwoorden, terwijl het internet vol staat met door mensen geschreven content die met een simpele zoekopdracht terug te vinden zijn.
Ik zag op een youtube filmpje dat chatgpt inderdaad slecht is met berekeningen en dit is geen geheim. In de betaalde versie ChatGPT Plus/Premium kun je de wolfram alpha plugin activeren die chatgpt dan zal gebruiken voor betrouwbare berekeningen.
Volgens mij kun je voor wiskunde sowieso beter iets zoals Wolfram Alpha gebruiken, ChatGPT is te generalistisch en inderdaad als algemeen voorspellend model niet heel correct bij zoiets.

Verder geef ik je groot gelijk, en denk ik dat ook de scholen behoorlijk wat meer aandacht mogen geven aan het verifiëren van dingen.
Klopt helemaal, maar dan moet je wel weten welke formules je moet hebben, en dat kan chatgpt je vaak wel redelijk goed vertellen ;)
Chatgpt is daar minder geschikt voor dat word ook gewoon gezegd. Gpt zelf doet het daar beter in en er zijn andere modellen die dat nog beter doen.
Ja dat komt ook omdat er inderdaad gekeken word wat het meest logische volgende woord zal zijn, zonder te weten want er nu daadwerkelijk gevraagd word.

Er is geen intelligentie, er is geen basis van begrip of concepten. Het enige wat er is is een voorspellende functie op basis van een hoop data.

Alle problemen die ik met ChatGPT er vaar komen van dit soort problemen. Er is geen kennis, er word iets gegenereerd en de rest gaat daar vrolijk op verder.

Geen confidence factor te bespeuren ergens en omdat ChatGPT geen kennis heeft word er ook geen validatie uitgevoerd op het gegeven antwoord.

Ik vind het ook erg jammer dat er zo weinig aandacht besteed word aan die zaken, en het overal nu gepushed word ondanks deze grote tekort komingen.

We hebben al een probleem met de verspreiding van onjuiste informatie en nu automatiseren we het gewoon.
Er is wel zoiets als 'temperature' waarmee je een model meer of minder kan laten hallucineren. Een AI model werkt principieel met statistieken, dus deze info zoden ze ook kunnen gebruiken om het waarheidsgehalte.aan te geven bij een antwoord.
Het grootste probleem vind ik nog wel dat hij geen waarschuwing geeft als hij iets niet "weet" maar gewoon iets verzint.
Tenzij je het over puur wiskunde hebt, hoe weet een mens of een LLM of zijn antwoord op een vraag/prompt 100% correct is?

Als ik jouw het recept vraag voor een pannenkoek dan is jouw antwoord ook niet 100% correct. Misschien "verzint" iemand om een extra ingrediënt toe te voegen. Wie bepaald of je het antwoord weet of verzint?

Het enige antwoord die we zeker weten is 42 ;)
Nou, mijn vrouw doet op het ogenblik een master studie, en daar gebruiken alle andere studenten (welke een stukje O-) jonger zijn) voor bijna alles ChatGPT. Als je dan leest wat voor teksten er geproduceerd worden, dat is echt tenenkrommend. En die worden gewoon ingediend als paper.

Ik vraag me daarom ook af, of ze zelf nog nadenken/creëren/etc, of alles overlaten aan een AI vorm.
Onze studenten ondertekenden een stage overeenkomst. Daarin staat o.a. dat het gebruik van AI gereguleerd is. Dus, ofwel vermelden of niet gebruiken.

Veel van onze studenten zijn de engelse taal slecht machtig en gebruiken o.a. chatGPT of grammarly on de tekst beter te structureren. Uiteindelijk leren ze daar ook weer van hebben we gemerkt
Het probleem is dat er, behalve op gevoel, nog geen manier is om AI-teksten te herkennen. Als je zo'n tool gebruikt om tekst te checken op gebruik van AI zijn er enorm veel false-positives én false-negatives, dus het is als leraar onmogelijk om met zekerheid te zeggen of het AI is of niet.

Nou is het op het moment wel overduidelijk als iets door ChatGPT is geschreven gewoon omdat die zo'n enorm uitgeschreven en vermoeiende, zielloze manier heeft om informatie in menselijke taal te schrijven die alles 10x langer maakt dan nodig, maar in de wat drogere stof is dat verschil veel minder groot, en je kunt 'm vragen om een andere schrijfstijl toe te passen.
Daarom testen we de studenten ook mondeling op kennis over hun onderwerp. Ook vragen we de studenten hun kennis toe te passen op een gerelateerd probleem. Daarmee voorkom je dat mensen iets uit hun hoofd leren zonder de stof te begrijpen. Uiteindelijk gaat het om het begrip
Je bedoelt dezelfde soort van studenten die vroeger dat copy paste van andere thesissen?

Mits je dat goed gebruikt is dat een tool als een andere.
Ik denk dat er wel een verschil zit op het aantal copycats thesisschrijvers en het aantal studenten die AI gebruiken. En daaruit volgt dan ook logischerwijs dat de impact groter zal zijn.

Bij oldskool plagiaat ben je ook alles kwijt als je betrapt wordt. Terwijl AI wordt gedoogd of niet te achterhalen is.
Omdat het appelen met peren is, AI is een tool.
Bij de verdediging val je dan gewoon door de mand.
Ik vrees dat het afstevent op dat tweede - weinig kritisch denkvermogen en dat vooral aan de AI overlaten. Nu heb je nog een golf mensen die tegen wordt gehouden bij sollicitaties die AI gebruiken zonder te weten wat het ding schrijft, maar zodra deze gasten zelf ooit een baan vinden, prikken die nooit door andere AI-sollicitaties omdat ze zelf ermee binnen zijn gekomen.
Hoezo neem je nog mensen per 'brief'? Als de CV laat zien dat de (potentiële) competenties en kennisniveau afdoende is, bel ik de sollicitant voor een afspraak. Heel vaak lees ik de motivatie niet eens.

Kijk, als schrijven een onderdeel van de functie is, is het ander verhaal. Maar voor vooral technische georiënteerde functies heeft een motivatiebrief voor mij erg weinig toegevoegde waarde; Iemand is goed in zijn vak maar kan geen goede brief schrijven, so what? Dan vind ik het veel meer zeggen hoe iemand overkomt via de telefoon bijvoorbeeld. En dan mag die ook nog zenuwachtig zijn of hakkelen. Wil iemand graag? gaat diegene 'het' regelen? en kun je ermee samenwerken? zijn voor mij de belangrijkste vragen en aspecten waar ik naar kijk.

Maar we dwalen af; AI kan niet voor je solliciteren, hoogstens een brief schrijven. Als je daarmee wel een sollicitatiegesprek krijgt, wat is het probleem? Volgens mij haal je met deze discussie middel (sollicitatiebrief) en doel (een goede sollicitant) door elkaar.
Waren er maar meer zo. Vooral overheidsinstanties hebben echt de meest achterlijke sollicitatie procedures.
Een kennis van mij kreeg laatst een "autisme" test :+ , hij moest gezichtsuitdrukkingen herkennen en benoemen.
Erg mooi om mensen met autisme aan te nemen en hen in te zetten waar ze goed in zijn en war ze het leukst vinden! Ik hoop tenminste dat er geen goed of fout uit dit test volgt...
Hoezo neem je aan dat het een brief is? In dit geval kreeg de sollicitant de keuze om een paar programmeeropdrachtjes te maken, zodat we kunnen zien hoe die z'n oplossingen kiest en we er vragen over kunnen stellen.

Deze sollicitant leverde code in die verdacht veel leek op wat ChatGPT vaak geeft op programmeervragen, en na controle met copy-paste van de opdrachtomschrijving, kregen wij er bij ChatGPT vrijwel hetzelfde uit, met dezelfde (overbecommentarieerde) code.

De sollicitant werd gewoon uitgenodigd voor een sollicitatiegesprek, want we waren wel benieuwd hoe en wat - als je ChatGPT gebruikt maar goede uitleg ervoor hebt, of goed doorhebt wat het allemaal doet - prima. Maar de sollicitant kon geen antwoord geven op de vragen die we stelden over de code die ingeleverd was, en gaf verder geen openheid of uitleg waarom zijn code 90% overeenkwam met een uitdraaisel van ChatGPT.

(Ter vergelijking - andere sollicitanten die de opdracht hebben gemaakt en enkele mensen intern leverden oplossingen op die geenzins overeen kwamen met wat ChatGPT en deze gast inleverden)

AI kan inderdaad niet voor je solliciteren, maar je wel helpen met opdrachten waar je zou moeten laten zien wat je kunt. Op zich is dat geen probleem als je goed begrijpt wat eruit komt en dat je er transparant over bent. Omdat wij herkenden dat er iets niet in de haak was, konden wij bovenop normale vragen over het werk dat was ingeleverd, enkele gerichte vragen stellen over zijn gebruik van ChatGPT.

Een minder kritisch team of minder kritische interviewer zou dit niet door hebben gehad en zou deze persoon hebben kunnen aannemen. Gezien deze persoon geen openheid gaf over zijn aangedraagde oplossing, geen openheid gaf over het gebruik van tools of bronnen, zou dit gewoon een slechte aanname zijn.
Ach ik heb genoeg collega's die een pak beter werk zouden aflveren moesten ze iets gebruiken als chatgpt.
En zo kom ik weer uit op mijn standaard antwoorden op meeste vragen: Idiocracy, de wereld gaat dommer en dommer worden en we gaan weer terug in de tijd.
Dat is nu nog wel ja. Na de revolutie gebruiken we onze capaciteiten gewoon 'anders'.
Er wordt nu waarde gehecht aan hoe goed iemand dingen uit zijn hoofd kan leren en kan opdreunen.
Over paar jaar heeft dat geen waarde meer, je hebt een assistent die dat voor je doet.

Een competentie (die ook nu al veel belangrijker is) die veel waardevoller wordt, is de juiste vraag stellen.
Probleem doorgronden en de juiste vragen stellen zodat je bij een oplossing uitkomt.
En dat blijft onzin, dit zijn tools die je miet gebruiken niks meer. Echter komen sommige elke keer af dzt deze tool het einde van de wereld is.
Het is niet de tool maar hoe mensen het gebruiken wat de heel maatschappij dommer maakt, dingen als tiktok en fb bijvoorbeeld. Je hebt hordes mensen die feit en fictie niet van elkaar kunnen scheiden dus ga je weer allerlei nieuwe bubbels krijgen. De technocratie schiet door. Het is zeker niet het einde van de wereld, maar wel eentje waarbij we minder uithalen dan wat er in zit, mede door toedoen van het kapitalisme en het eindeloze gegraai.
Tiktok is iets waar je media op concumeert en iets heel anders, facebook is ergens tussen familie en media kanaal. GPT en chatgpt zijn van een heel andere orde waar je zelfs bent om zaken te genereren niet te consumeren.

En dat mensen feit en fictie niet van elkaar kunnen scheiden is al eeuwig en heeft niks te maken met kapitalisme of gegraai .
Bovengenoemde platformen versterken echter het effect van feit/fictie. Waar ik op doel is dat allerlei apps/tooltjes zijn die zo massaal gebruikt worden dat ze makkelijk een negatief effect kunnen hebben op de hele wereldbevolking. Daar zijn de eerste tekenen (zowel fysiek als mentaal) toch duidelijk zichtbaar. Ik snap niet hoe je dat los van elkaar kan zien, dit is kapitalisme in optima forma, want al die bedrijven interesseert het verder geen biet hoeveel schade ze hiermee veroorzaken. Er zijn nogal wat onderzoeken en documentaires geweest dus ik hoop dat je niet denkt dat ik dit zomaar uit mijn duim zuig.
Je haalt een boel zaken door elkaar. Het ging hier over chat gpt of LLM's niet social media , dat zijn aparte zaken.
Neen chatgpt versterkt niet de issues die sociale media nu brengen.

En allemaal niks te maken met kapitalisme , maar geeft gerust die onderzoeken.

Edit: duidelijk dus dat er niks van aan is.

[Reactie gewijzigd door k995 op 23 juli 2024 02:02]

.

[Reactie gewijzigd door FlyEragon op 23 juli 2024 02:02]

Dit is natuurlijk niet heel veel anders dan Google resultaten beoordelen op betrouwbaarheid. Als je je IT studie deed puur op basis van de Google resultaten zou het ook verre van perfect gaan. Maar na 25+ jaar Google is de wereld nog niet vergaan...

Dat betekend niet dat er geen mensen zijn die dat doen, maar het belangrijke deel van de mensen doen dat niet zo.
Nee, dit is niet hetzelfde. Het LLM communiceert als een mens en daarmee kennen mensen gemakkelijker kenmerken toe aan de auteur die ze aan andere mensen toekennen.

Google resultaten laten direct de pluraliteit zien en je wordt als het goed is ook getriggerd om meerdere resultaten te vergelijken.
De Google resultaten vertellen je eigenlijk weinig tot niets, pas als je doorklikt naar de pagina krijg je weer iets dat als een mens klinkt/acteert en die kan je ook van alles wijsmaken. Het ligt er aan hoeveel waarde iemand hecht aan de betreffende bron.

In het geval van LLM gaat men momenteel gewoon mee in alle media hype, ook op Tweakers.net die voornamelijk hangt op hoe goed het wel niet is en niet ingaat op hoe het werkt in de basis. Dat mensen daarin meegaan ligt aan de mensen en niet zozeer aan LLM.

Je moet er ook nog rekening mee houden dat we nu in het LLM wilde westen zitten en not all LLM are created equal...
Een belangrijk verschil is dat de bullshit filters beter werken voor google resultaten. De grootste onzin wordt minder vaak naar verwezen dan de correcte resultaten dus pagerank kan werken. AI kan doodleuk verklaren dat gras blauw is met dezelfde stelligheid dat 1+1=2 en er is geen pagerank oid. die de AI lager laat scoren. Als de trainingsdata te veel rommel bevat is gras gewoon blauw. Wat voor google niet helpt is dat Pagerank door alle SEO zo ongeveer kapot is gemaakt.
Het zal vast ook aan het onderwerp liggen, maar als ik op zoek ga naar bv. IT oplossingen, dan krijg ik vreselijk veel bagger voorgeschoteld.

Maar ik merk het ook bij andere onderwerpen waar ik niet veel kaas van heb gegeten, bv. warmte pompen, daar duik je in met vrij weinig kennis en dan is de BS scheiden van nuttige informatie al een heel stuk lastiger.

De laatste maand ben ik aan het kijken naar een kwalitatief goede text-to-speech oplossing en ook daar wordt je door de BS marketing machine helemaal aan de neus meegenomen, dat uitzoeken kost zo vreselijk veel tijd, vereist inzicht en een hoge mate van motivatie om te vinden wat je zoekt.
ik maak me meer zorgen over de bias die ze er zelf insteken dan over de bias van het bronmateriaal.
In Londen, betaal ik apart voor warm water en verwarming. Vanuit de leverancier heb ik 4 tarieven beschikbaar: 1 waar de service kosten heel laag zijn en de kWh prijs heel hoog is, 1 waar dat omgekeerd is, en 2 daar tussen in.

Ik kan zo vaak van tarief wisselen als ik wil, en dus leek het me handig om eens te gaan kijken bij welk verbruik welk tarief het voordeligst is. ChatGPT snapte de vraag, en kwam met de juiste formules. Gewoon de tarieven in een grafiek plotten en de intersecties zoeken.

Lang verhaal kort, als ik nooit zou wisselen is tarief 3 het goedkoopste. Echter, als ik actief zou wisselen wanneer ik de verwarming wel of niet aan heb, scheelt me dat nog eens zo'n 150 pond per jaar.

Nou is het irritante, dat ChatGPT elke losse berekening in de formule correct deed, maar continue de conclusie bleef trekken dat tarief 2 het goedkoopste zou zijn en dat ik nooit zou hoeven wisselen van tarief. Alleen is het zo dat tarief 2 bij elk mogelijk verbruik het duurste is, en me dat zo'n 700 pond per jaar meer zou kosten.

Ik ben er nog steeds niet achter waarom elk los onderdeel van de vraag correct werd uitgevoerd, als ik los de berekeningen vroeg het juiste antwoord kreeg, maar de conclusie continu verkeerd was.

Dit alleen is voor mij de reden dat ik AI gewoon niet kan vertrouwen en het lekker zelf blijf berekenen :P
Aangezien de AI trained van internet is als de meerderheid het zegt is het de waarheid.

Je kunt dus meerdere sites aan maken met de zelfde theory er op en dan open zetten voor internet crawlers en AI crawlers en dan wordt het voor de AI dus de waarheid.


vandaar het spreekwoord als maar genoeg mensen het blijven zeggen wordt het vanzelf de waarheid.
Het is wel een probleem. Er is online buiten willekeurig verzonnen informatie ook heel veel opzettelijke geschiedenisvervalsing die wat ook in grote mate wordt gepropagandeerd.
Ik denk dat we kunnen stellen dat de beste AI's zijn getraind op informatie die ook feitelijk correct is. Dat kan soms wat lastiger zijn als het over historische zaken e.d. gaat.
De hogeschool waar ik nu zit (maar bijna van af ben, gelukkig) kwam laatst met het "advies" dat studenten ChatGPT toch maar als bron moeten vermelden als ze het gebruikten voor hun onderzoek. Jawel, "Bron: ChatGPT". 8)7
En wat is er daar mis mee? Dat je vermeld dat dit gebruikt word en hoe?
Best wel wat, als je het mij vraagt. Bij een "fatsoenlijk" onderzoek moet je w.m.b. je daadwerkelijke bron vermelden. Niet "ja dat had John een keer gezegd". Als je ChatGPT vermeldt als bron, zonder daarbij te refereren naar je prompts kan je dat ook doen als je gewoon iets uit je duim zuigt.
Daarnaast zuigt ChatGPT ook uit z'n duim, dus of je dat nou moet aannemen voor waarheid...

Lang verhaal kort:
Als iemand het gebruikt als startpunt voor een daadwerkelijk literatuuronderzoek in een vakgebied waar ze niet in thuis zijn, prima. Maar het moet niet je enige bron zijn, als je het überhaupt al als bron aan zou moeten halen.
Chatgpt is dan geen bron, kan dat ook niet zijn. Wat ze daarmee bedoelen (zoals ik het overal zie op universiteiten) dat ze willen zien hoe je dat gebruikt hebt als tool .
Dat is expliciet niet hoe het uitgelegd werd, helaas. Zou het dat geweest zijn, dan had ik er ook minder moeite mee.
Overigens hetzelfde instituut die de eisen met betrekking tot spelfouten/grammaticale fouten in afstudeerdocumentatie heeft versoepeld omdat er nu studenten zijn die daar moeite mee hebben doordat ze de taal niet machtig zijn. Dat terwijl je ook ondersteuning kan bieden zodat ze het niveau wél halen.
Eindstand: het bedrijfsleven zegt nu over studenten van mijn opleiding dat ze technisch wel oké zijn, maar qua schrijfvaardigheid en andere soft-skills hopeloos achterlopen.
AI gooit nergens een sausje overheen, het "begrijpt" immers niets.

Het is niets anders dan een slim algoritme dat een "voorspelling" maakt welk token op een ander token volgt volgens een statistische vergelijking samengevoegd met een pseudo random factor.

Derhalve zal het, net als bij mensen overigens, betekenen: "crap-in-is-crap-out".
En helaas hebben Reddit, X,Linked in, Facebook, et-al statistisch gezien een veel groter crap gehalte dan andere bronnen.
Antwoorden van de AI zullen dichter in de buurt liggen van wat veel mensen verwachten, omdat ze dat vaak lezen op die sites, maar het waarheidsgehalte zal hoogst waarschijnlijk minder zijn dan voorheen, zelfs met de censuur die ongetwijfeld zal worden toegepast.
Dat geld wel gewoon voor heel het internet eigenlijk :p
De misconceptie rond AI begint al bij de tweede letter, de I van intelligentie.

Er is niets intelligents aan AI; het is gewoon een enorm gecompliceerd rekenmodel die op basis van woordvolgordes en groeperingen van de trainingstekst resultaten produceert. En het is dus letterlijk garbage-in, garbage-uit. Zeker als je kritiekloos teksten van Reddit, X en Facebook gaat voeren mag je verwachten dat de resultaten exact dezelfde kwaliteit vertoenen: Veel onzin en heel af en toe een wijsheidje.
Dat is niet anders dan een mis geïnformeerd mens, nu kan je je idd afvragen hoe “intelligent” de gemiddelde vb/pvv/trump stemmer is .
AI

[Reactie gewijzigd door Noresponse op 23 juli 2024 02:02]

Het probleem is dat een LLM gebruikt wordt als kennisbron. Dat moet niet de bedoeling zijn, een taalmodel moet gebruikt worden om goed lopende coherente verhalen op te stellen. De kennis moet niet vanuit het taalmodel zelf komen.
Ik hoop echt dat de grens tussen feit en fictie blijft bestaan en mensen (scholieren) AI niet gaan gebruiken als zijnde "waarheid" als ik nu kijk waar ChatGPT soms mee komt als antwoorden op relatief simpele vragen dan schrik er nog wel eens van.
Bij LLM gaat het helemaal niet om feiten/waarheid. Als ie waarheid produceert is het omdat die bepaalde combinatie woorden veel voorkomen in het trainingsmateriaal, niet omdat ie 'weet' dat het waarheid is.
Het wordt mij steeds duidelijker - AI is net zo stom/slim als de gebruikers van een platform. AI is gewoon een veredelde ezel die op basis van div. fora de content van gebruikers nabauwt
Ik noem het zelf 's werelds duurste papagaai.
AI gaat nu waarschijnlijk ook bauwen zeggen ipv bouwen….
nabauwen - https://www.encyclo.nl/begrip/nabauwen
:z

[Reactie gewijzigd door shades op 23 juli 2024 02:02]

Weer wat geleerd :)
Reddit gebruiken om een AI te trainen is een beetje hetzelfde als Wikipedia...
Ja er staan onwijs veel en goede stukken en onderbouwde texten in, maar ook een hoop zeer gekleurde en politiek eenzijdige drek met veel censuur. Zal de AI dat herkennen of niet meenemen in de training?
Ik gok van niet.
Wat dat betreft net het echte leven en mensen :) Je moet wel natuurlijk de antwoorden van je hulpmiddel zelf op waarde schatten, net als bij elke gebruikte bron.
AI te trainen is een beetje hetzelfde als Wikipedia...
Dat denk ik niet. Natuurlijk is niet alles juist wat op wikipedia staat maar daar wordt het artikel zelf gecorrigeerd. In fora als Reddit wordt gereageerd en wllicht daarin gemeld dat iets niet klopt, maar beide beweringen (of meer) blijven gewoon bestaan - dus de AI kan beide kanten op gaan. Dat lijkt handig maar is het niet omdat hij enkel kan 'beoordelen' of statistiek en geen enkele inhoudelijke kennis heeft.

Dat data gekleurd/eenzijdig/gecensureerd is - dat was al zo helaas (ook de gedrukte media heeft hier altijd last van).
Probleem is dat correcties op beide plekken onderhevig is aan censuur. Voorbeelden van Wikipedia zijn er genoeg. (grappig genoeg is er ook een wikipedia pagina over die... ook aan censuur ondervonden is)
En bij Reddit nog net een stukje erger omdat je daar ook nog eens rogue moderators hebt die soms net iets extremer in hun opvattingen bepaalde reacties kunnen weghalen/censureren.
Zat er aan te komen na de andere licentie deals. Het is een geschenk uit de hemel voor Reddit als bedrijf, of eerder: er is een cashcow uit de lucht komen vliegen.

Hoop wel dat ze dan samenwerken in het tegengaan of labelen van berichten die door chatgpt zijn gegenereerd. Helpt gebruikers filteren op user content en helpt OpenAI om vervuiling van hun trainingsdata tegen te gaan.
Reddit is (misschien altijd zo geweest, maar toen had ik het niet zo door) ook wel echt een groepje eenheidsworst met dezelfde morele structuur.
Als je een stuk of 3 subs volgt wel ja
Ik vraag me af of het niet averechts gaat werken als ze data van Reddit gaan gebruiken er zitten zoveel rare topics in sommige dingen zijn een taboo. Veel gekleurde en eenzijdige kant zoals @LongTimeAgo aangeeft. Je gaat dan je data "vervuilen" met feitelijke onjuist heden wat ook niet echt de maatschappij reflecteert. Is het ook niet zo dat er invloed ook heeft van Tencent?
met feitelijke onjuist heden wat ook niet echt de maatschappij reflecteert
Maar dat is hoe dan ook een probleem als je 'van alles' gebruikt als bron. Als je van alle meningen bent, dan heb je geen mening zegt men dan. Dat lijkt positief want dan heb je geen bias maar het is totaal onzinnig.
Als je geen enkel feit kunt beoordelen zonder het aspect 'hoe vaak is het beweerd', dan blijf je dom.
Tencent: nee maar idd veel is gewoon verkeerd.
toevallig had ik dit onderwerp gisteren gevraagd. En antwoordde gpt dat ze de dataset kon gebruiken voor taalgebruik/slang waaronder sources van Reddit. Fakenews zal er Zeker uit Komen als dit zo verwerkt word.
Hoop dat ze het dan wel goed kunnen filteren, tevens is een opt out hiervoor (of liever nog een opt in) wel gewenst.

Garbage in, garbage out wil je voorkomen. Helemaal met Reddit posts..
Jikes... Trainen op Reddit berichten ?
Dat wordt een aantal sprints fulltime schrijven van corrective socially acceptable boundaries voor het social engineering team.

En dan nog is er een goede kans dat PinheadCortana of FreddyKruegerGPT het resultaat is.

[Reactie gewijzigd door hawke84 op 23 juli 2024 02:02]

Is er ergens een opt-out?
Meerdere keren gebruikt. Voor de API shutdown en daarna, maar toch kom ik soms nog posts van mezelf tegen die niet leeggehaald zijn. Ook als ik een GDPR request doe zie ik nog best wat gevulde posts helaas.

Ik vind het onoverkomelijk dat Reddit hun aanbod heeft verschraald en tegelijkertijd dit soort deals sluit. Omdat ik slechtziend ben, was ik echt de dupe van de API shutdown. Ik ben ook gestopt met actief bijdragen aan Reddit.
Dat komt omdat, vooral in de periode voor de beursgang, Reddit veelal deze "wisacties" terugdraaide. Om er beter uit te zien voor de beursgang of zo.
Kun je dat onderbouwen? Lijkt me een behoorlijk groot statement!
Enkele voorbeelden:

https://lemmy.world/post/2257396

https://szmer.info/comment/274898

https://www.reddit.com/r/...ng_deleted_commentsposts/


Ik heb het gevoel dat ik hier een jaar geleden véél meer over zag. "Toevallig" kan ik heel veel van de info op Reddit zelf nergens meer vinden. Of dat volledig ontspoort complotdenken van mij of stiekem onder de mat vegen van Reddit is kan ik je echter niet vertellen, zo goed is mijn geheugen niet :+
Ik heb dit vorig jaar gebruikt, maar ik betwijfel of Reddit geen geschiedenis bewaard van verwijderde berichten.
Waarschijnlijk het niet gebruiken van Reddit

Op dit item kan niet meer gereageerd worden.