Kunstmatige intelligentie GPT-3 schrijft aflevering Nederlandstalige podcast

Vaste luisteraars van de populaire Podcast Over Media waren dit weekend in de war toen ze de meest recente aflevering luisterden. Kunstmatige intelligentie GPT-3 schreef de tekst van de aflevering. Die moest wel in het Nederlands worden vertaald.

Presentatoren Ernst-Jan Pfauth en Alexander Klöpping behandelden in hun Podcast Over Media dit weekend zoals vaker onderwerpen zoals technologische ontwikkelingen, media en zelfontwikkeling. De podcast begon over smarthome-beveiliging, ging door over de toekomst van kranten en online media zoals Facebook, maar oplettende luisteraars merkten rare dingen op aan de dialoog tussen de presentatoren. Een daarvan had het bijvoorbeeld over zijn betovergrootvader die astronaut was en het veiligheidsharnas uitvond, en sommige passages bevatten wartaal over het verschil tussen het heden en toekomst. Dat kwam door de AI die de podcast schreef. Het transcript staat hier.

Pfauth en Klöpping lieten met hulp van een luisteraar een deel van de podcast opstellen door GPT-3, een kunstmatige intelligentie-api van de OpenAI Foundation die zelf teksten kan genereren op basis van oudere teksten. De luisteraar laadde verschillende secties van eerdere podcast-edities in en liet de AI daar een nieuw script van maken. Dat werd later handmatig door Klöpping wat bijgewerkt, al ging het volgens hem om minimale wijzigingen.

Het script moest ook eerst vertaald worden naar het Engels en de uitkomst weer terug naar het Nederlands, omdat GPT-3 zelf nog niet goed is met Nederlands. Het tweetal las het script zelf voor. Pfauth zegt in de aflevering dat hij onder de indruk is van hoe realistisch het algoritme niet alleen de onderwerpen, maar ook de stijl van praten tussen het tweetal wist te vangen.

GPT-3 is een taalmodel dat ontwikkeld is door wetenschappers van OpenAI. Dat bedrijf werd opgericht door enkele prominente figuren uit de techindustrie die er fundamenteel onderzoek mee wilden doen naar kunstmatige intelligentie. Inmiddels heeft Microsoft een licentie om GPT-3 te gebruiken in zijn producten.

Door Tijs Hofmans

Redacteur

19-10-2020 • 09:33

48 Linkedin

Reacties (48)

Wijzig sortering
Misschien goed om bij dit soort lovende artikelen ook de schaduwkant van dit soort algoritme's te noemen:

"I'm shocked how hard it is to generate text about Muslims from GPT-3 that has nothing to do with violence... or being killed..."

https://twitter.com/abidlabs/status/1291165311329341440

Dit soort bias komt typisch voort uit slechte trainingsdata, maar heeft wel enorme impact. Aangezien hier feitelijk een getraind model wordt aangeboden, krijg je de bias er "gratis" bij. Naar mijn mening is het de ontwikkelaar (OpenAI) wel aan te rekenen dat ze dit niet aanpakken; daar zijn namelijk diverse technieken voor.

Tot slot weet ik dat de architectuur van het algortime openbaar is, maar juist de getrainde variant zal veel gebruikt gaan worden; het trainen kost immers veel tijd en moeite.

[Reactie gewijzigd door Morrar op 19 oktober 2020 09:40]

Maar hoezo is dit nu gelijk een bias? Hoezo is het gelijk perse fout. Dat het zeer ongewenst gedrag is, dat het zeer pijnlijk is, beschamend, xenofoob en nog veel meer ben ik misschien wel met je eens. Maar dat zegt toch niets over de AI? Als dit nu eenmaal de teksten zijn die beschikbaar zijn...

Die AI is een stuk eerlijker dan jij en mij. Als de data resulteert in geweld etc in combinatie met het woord moslim dan is dat de data. Kan je wel gelijk de AI gaan aanpassen maar dat is natuurlijk idioot. Dus 2 dingen.

1. Je zorgt voor een bredere dataset en kijkt dan of het probleem nog steeds bestaat.
2. Media moet zorgen voor een betere bias
Goede punten; het is bias omdat het grootste deel van de moslims vreedzaam leeft net als de meeste andere mensen. Er zijn echter extremisten die met geweld disproportioneel vaak het nieuws halen, tegenover een grote vreedzame meerderheid die nooit het nieuws haalt. De "kennis" van moslims die het model heeft wordt dus zwaar bepaald door de extremisten, terwijl (de meeste?) mensen wel weten dat er een grote vreedzame meerderheid is (hopelijk). Het beeld van het model klopt dus niet met de werkelijkheid.

Je kunt dat probleem inderdaad oplossen met een bredere dataset; het nieuws focust inderdaad sterk op negatieve gebeurtenissen en dit is een oorzaak van de bias. Dit hadden de ontwikkelaars van het (getrainde) model dus ook zeker moeten doen naar mijn mening.

Of je de focus van de media kan / moet willen veranderen is wellicht een andere discussie; belangrijkste is denk ik dat je nieuws niet als belangrijkste bron van trainingsdata neemt
Maar wat is voor het gros nu werkelijkheid? In de basis is dat toch 'het nieuws'?

Werkelijkheid in een dataset bestaat niet, geen data, geen nieuws, geen informatie is groot genoeg om werkelijkheid te omvatten, omdat simpelweg er niets bestaat die toegang heeft tot deze informatie.

De tegenstrijdigheid alleen al bij het principe van homofobie onder de moslim bevolking heeft geen enkele nieuwsite of dataset een absoluut antwoord op, je weet simpel niet elke mening van deze bevolking, al helemaal niet hun 'acties' tegenover homo's. Het vervolgens sturen van deze data naar een in jouw opzicht 'netter' beeld is weinig anders dan cijfers manipuleren richting een bepaalde visie in politieke vorm.

Als een kleine groep al zeer lang tot extreme acties gaat bij bepaalde situaties zelfs tot vanuit het geloof/overtuiging, moet dit dan weg gemoffeld worden onder motto 'bias'?
De meeste moslims zijn in principe wel vredig. Het zijn gewoon mensen die een goed leven willen en dit andere mensen ook prima gunnen.

Maar het probleem is niet dat het terrorisme disproportioneel vaak het nieuws haalt. Maar dat van al die aanslagen in de wereld, deze disproportioneel vaak uitgevoerd worden door moslims.

Dat is namelijk het daadwerkelijke probleem.

Let wel even dat er niet zo heel veel meer moslims zijn dan christenen. Als christenen elke maand honderden mensen de vergetelheid in helpen, zou het christendom ook een negatief beeld krijgen. Wat volkomen logisch is.

Men maakt zich druk om die ene christelijke idioot in Australië of Noorwegen. Dat in diezelfde maand als in Australië er in Afrika even 120 christenen in een middagje om zeep zijn geholpen door moslims, hoor je hier in het nieuws niets van.

Door de data "verkeerd' te beschouwen, door maar te gooien dat het komt door negatief aandacht of door vooroordelen van mensen... Bereik je niets constructiefs mee. Wegkijken is geen oplossing en zorgt er voor dat het onderwerp taboe blijft. Het geweld en terrorisme vanuit de moslim wereld is disproportioneel vergeleken met het geweld dan andere geloven veroorzaken.

Toen christenen op dezelfde wijze dood en verderf verspreidde, was er nog geen internet. Logisch dat die AI dan zo'n beeld krijgt.
Het grootste deel van de moslims nag dan wel ‘vreedzaam’ leven maar het is ook gewoon een feit dat het grootste deel van de moslims misogynist en homofoob zijn. Daar is niks racistisch aan om dat te zeggen want het is gewoon waar. En de waarheid is niet links/recht socialistisch of racistisch.

Niks voor niks dat min of meer nog steeds alle vrouwen en homo’s en vele andere elke dag als stront worden behandeld in islamitische landen en culturen.

[Reactie gewijzigd door er0mess op 19 oktober 2020 10:25]

There are also things that GPT-3 has learned from the internet that OpenAI must wish it had not. Prompts such as “black”, “Jew”, “woman” and “gay” often generate racism, anti-Semitism, misogyny and homophobia. That, too, is down to GPT-3’s statistical approach, and its fundamental lack of understanding. Having been trained partly on text scraped from the internet, it has noted that words like “woman” are often associated with misogynistic writing, and will mindlessly reproduce that correlation when asked.
Als je jouw train of thought volgt is dat niet echt een moslim/islam probleem maar een internet (en daarmee wereld?) probleem. Het is flink offtopic, maar ik zou voor de grap eens opzoeken hoe goed Europa het doet (in de statistiek) qua bijvoorbeeld vrouwengelijheid en LGBT rechten. Zie hoe enkele "moslimlanden" (als dat al een term is) het beter doen dan enkele landen binnen Europa.

Bron van bovenstaande quote: https://www.economist.com/science-and-technology/2020/08/06/a-new-ai-language-model-generates-poetry-and-prose
[...]


Als je jouw train of thought volgt is dat niet echt een moslim/islam probleem maar een internet (en daarmee wereld?) probleem. Het is flink offtopic, maar ik zou voor de grap eens opzoeken hoe goed Europa het doet (in de statistiek) qua bijvoorbeeld vrouwengelijheid en LGBT rechten. Zie hoe enkele "moslimlanden" (als dat al een term is) het beter doen dan enkele landen binnen Europa.

Bron van bovenstaande quote: https://www.economist.com/science-and-technology/2020/08/06/a-new-ai-language-model-generates-poetry-and-prose
Sorry maar ik hoor NOOIT dat er homo's van daken gegooid woorden in westerse landen, maar wel van landen waar de meerderheid moslim is, sorry het is algemeen bekend dat buiten het wersten het voor de homo's, lesbians, en vooral mensen die zich verkleden en opmaken als het ander sex, heel moeilijk is en veel vermoord woorden, en nee dat is zeker geen fabeltje.

https://www.mirror.co.uk/...-isis-video-shows-7708759
https://www.foxnews.com/w...b-pelts-corpse-with-rocks
https://www.mixedtimes.co...thrown-from-roof-in-syria
https://www.jihadwatch.or...in-accordance-with-sharia
https://www.ynetnews.com/articles/0,7340,L-4631819,00.html
https://en.wikipedia.org/..._and_bisexual_men_by_ISIL
https://apnews.com/bc4cf1...ys-brutal-public-killings

En dit is maar het puntje van de ijsberg, nee sorry in westerse landen hebben het Alfabet groep het juist heel goed de laatste 20+ jaar, wanneer het in islamitische landen het juist heel slecht gebleven is.

[Reactie gewijzigd door AmigaWolf op 19 oktober 2020 14:04]

We gaan nog verder offtopic...

Al je linkjes gaan over IS/ISIS. Een groep, geen land. Ook een groep die door iedereen als terrorristengroepering is aangemerkt. In Rusland of zelfs Polen ben je als LGBT-persoon (als dat de juiste term is) ook niet net zo veilig als in NL. Moet ik dan ook maar concluderen dat alle landen met een orthodox christelijke meerderheid of katholieke meerderheid (Brabant? :+ ) per definitie gevaarlijk of fout zijn? Nee toch.... waarom doe je dat dan wel doen voor landen waar de meerderheid moslim is... (Over bias gesproken, jij bent bereid hele landen en samenlevingen weg te zetten over wat een terrorgroep jou heeft laten denken)

De sameneleving en haar problemen zijn niet zwart of wit, en daarmee helaas ook niet in te delen in "jij bent goed" of "jij bent fout" groepen.

[Reactie gewijzigd door Flo op 19 oktober 2020 15:49]

Sorry maar ik hoor NOOIT dat er homo's van daken gegooid woorden in westerse landen
Kom op, je bent nu ook erg specifiek... Nee, wellicht geen gevallen dat ze van de daken gegooid worden, maar geweld tegen homo's komt ook in "onze westerse wereld" helaas nog voor.
2017
August 28, 2017 - A gay man was beaten by thugs after they shouted homophobic slurs at him. He suffered a broken jaw from the attack.
September 2017 - Ally Steinfeld, a transgender teenager, was stabbed to death and mutilated by three young people in Cabool, Missouri.
November 8, 2017 - A 17-year-old gay teenager was allegedly attacked by 18-year-old Trevon Godbolt. Godbolt reportedly made the victim strip off his clothes and possessions, then beat him and took his clothes. Another man and two women were involved, one of whom recorded the attack on a cell phone. The video was later posted on Facebook.
2018
January 2, 2018 - Blaze Bernstein, an openly gay Jewish college student, was stabbed more than 20 times. Samuel Woodward, an avowed neo-Nazi and member of the group Atomwaffen Division, was charged with his murder.
March 7, 2018 - Ta'Ron 'Rio' Carson, a gay man, was fatally shot as he left the Aura nightclub in Kansas City, Missouri.
March 28, 2018 - Amia Tyrae, a black transgender woman, was found dead in a motel room in Baton Rouge, Louisiana with multiple gunshot wounds. Nevaa White, a friend of Tyrae's, said that Tyrae had lived her life as an openly trans woman since 2009. White also said Tyrae was bullied and "didn't have an easy life.
2019
December 16, 2019 – An arsonist burned the drop-in office of SisTers PGH, a transgender resource center led by black and transgender people, in Pittsburgh, Pennsylvania.
Klopt allemaal, maar nog steeds woord er buiten het westen de meeste Alfabet mensen vermoord, en ben je een crimineel als je van de Alfabet ben.

https://www.humandignityt...on/?type_filter=crim_lgbt

https://www.worldatlas.co...ries-for-lgbt-rights.html

In het westen hebben ze net zo veel rechten (meer zelfs) als heterosexual mensen, en is het overal verboden hun niet aan te nemen omdat ze Alfabet zijn, en staat aardige zware straffen op, je mag niet discrimineren tegen iemands sex of waar hij/zij op valt, maar in VEEL landen buiten westerse landen mag dat wel en heb je zelf in meerdere landen dood straf als je een Alfabet persoon bent en een relatie heb met de zelfde geslacht.

Wat een zielige mensen hier op Tweakers, als je de waarheid spreek, ben je tegenwoordig echt een vijand op Tweakers, we zijn echt verloren met zo veel mensen die liever de leugens geloven dan de waarheid.

[Reactie gewijzigd door AmigaWolf op 20 oktober 2020 01:06]

Klopt allemaal, maar nog steeds woord er buiten het westen de meeste Alfabet mensen vermoord, en ben je een crimineel als je van de Alfabet ben.
Alfabet mensen? Voor je over anderen (Moslims in dit geval) gaat miepen moet je wellicht eerst eens bij jezelf te rade gaan.....
UAE staat boven Andorra. Maakt die hele lijst waardeloos. Kan me niet herinneren de laatste keer dat ik slavernij in Andorra tegenkwam. Of dat daar homo's van de daken zijn gegooit.

Hoe kan een land met actieve slavernij (al die WK voetbal stadions en voorzieningen zijn daar met slaven gebouwd!!!) in godsnaam hoger op de human development index staan dan een land waar slavernij al dik 100 jaar verleden tijd is.

Hoe kan een land met aparte wetgeving voor vrouwen, in godsnaam hoger in de lijst staan dan landen waar vrouwen en mannen gelijk zijn?

Saudi Arabië staat boven Portugal

_O- x 1000
Ik moet hier eigenlijk niet op reageren.

Maar het WK voetbal is in Qatar, niet in de VAE. En nee, dat is niet hetzelgde. Ze liggen zelfs flink met elkaar overhoop over verschillende zaken.

En je moet de tabel misschien nog eens goed bestuderen. De eerste kolom is de rankning in de human development index, de gender equality rank staat een tikkeltje verder naar rechts. Dan doet Portugal het beter dan Saudi Arabie (volgens de index). Maar Polen of Griekenland staan dan weer op grofweg gelijke voet als de VAE. En die laatste is echt een land waar - als je voorbij de glitter, grote projecten en stereotypes kijkt - erg grote stappen worden gezet. En nee, niet alles veranderd in 2 of 5 jaar. Het kost helaas tijd. Het is te makkelijk om te denken dat onze verworvendheden in NL ook zo 1-2-3 geregeld waren.
Ik haal daar inderdaad wat door elkaar. Qatar was dat. Is inderdaad geen haar beter.

Mijn argument veranderd daar weinig aan. VAE doet namelijk exact hetzelfde met gastarbeiders en het onmenselijk behandelen daar van. Homo zijn is er technisch niet illegaal, maar wordt redelijk ontmoedigt met het van-het-dak-werpen beleid en ze hebben daar hoge daken.

Letland staat lager dan UAE, terwijl ze veel betere cijfers hebben. De enige cijfers die UAE beter heeft is dat ze meer mannen met educatie aan het werk hebben, vrij fatsoenlijke zorg en wat minder zwangere tienermoeders. Als je de LBGQHT- of vrouwenbeleid als maatstaaf neemt, dan komt UAE nog niet eens in de buurt van een voormalig oostblok land, laat staan noord/west/zuid Europa.

[Reactie gewijzigd door batjes op 19 oktober 2020 16:24]

Moslim zijn heeft met geloof te maken net als christenen, en die zijn bijna allemaal slecht voor de lgbt groepen.


(Met die bedoel ik bijna alle geloof soorten)

[Reactie gewijzigd door jimmy-chu op 19 oktober 2020 18:55]

Zoals je zegt is bijna alles in het nieuws bias, anders zou het niet in het nieuws komen. Je hebt echter ook gewoon data van bijvoorbeeld het CBS waarmee je kan werken. Daar kan best uit blijken dat iig in sommige wijken er een hoop Moslims rondlopen die betrokken zijn bij geweldsdelicten. Nou is het interessante wel of het dan bias is als je daar over schrijft, of juist zelfcensuur als je dat niet doet.

Een AI doet uiteindelijk niet veel anders dan wat mensen doen. Het schept een werkelijkheidsbeeld op basis van input (data). Het is wel wat arrogant om te zeggen dat de achilleshiel van AI bias is, terwijl we daar zelf waarschijnlijk nog wel meer last van hebben. Ik denk dat de mogelijkheden om een gebalanceerd en 'realistisch' beeld van de werkelijkheid te maken bij een AI wat groter zijn dan bij mensen. Wij kunnen gewoon niet zoveel data verwerken en zijn erg gevoelig voor bepaalde psychologische effecten zoals Recency Effect en Proximity Effect waardoor dingen die dichtbij gebeuren je meer aan het hard staan, maar wel je een verkeerd beeld kunnen geven.
Er zijn echter extremisten die met geweld disproportioneel vaak het nieuws halen, tegenover een grote vreedzame meerderheid die nooit het nieuws haalt. De "kennis" van moslims die het model heeft wordt dus zwaar bepaald door de extremisten.
Onzin!
NU &CNN
Even een greep uit de NU.nl & CNN artikelen. Vrijwel allemaal positief en/of neutrale kennisgeving.

Dus geen idee waar of hoe de AI z'n data verzameld, maar de afgelopen jaren is er behoorlijk wat gedaan om negatieve context met 'moslim' daarin uit het nieuws te houden.

Daarnaast is het ook niet heel raar natuurlijk dat een extremistische daad het nieuws haalt. Zie bijvoorbeeld het nieuws van vandaag mbt de uitgesproken fatwa over de onthoofde leraar. De laatste keer dat ik checkte, doen de joden daar niet heel veel mee.
Die AI is een stuk eerlijker dan jij en mij.
De AI is inderdaad neutraal en spiegelt terug wat in diens dataset was gestoken. Het probleem is echter dat mensen niet helemaal zo denken en deze resultaten gebruiken om hun verkeerde meningen te staven. Een gevaarlijk voorbeeld is wanneer politie een model opstelt om te controleren welke plaatsen de grootste kans hebben op misdaad. Het model voorspelt misdaad op plaatsen waar eerder al misdaad is gebeurd, daar wordt dan terug (surprise!) misdaad gevonden, waardoor het model nog zekerder is dat daar terug misdaad gaat gebeuren. Dit zorgt voor feedback loops en "self-fulfilling prophecies".

Dit bovenstaande voorbeeld is natuurlijk al gebeurd, in de V.S., waar de dataset die aan het model was gegeven een tendens had naar arme zwarte buurten omdat de politie daar sowieso meer aanwezig was. Dit resulteerde in nog sterkere racial profiling door de politie, maar ditmaal hadden ze een "neutrale bron" in de vorm van het model waar ze zich achter konden verstoppen.
Ik denk dat hier twee verschillende dingen allebei 'de AI' worden genoemd, waardoor er verwarring ontstaat.

Ik vermoed dat met 'de AI' als het gaat over een bepaald model, mensen het over het algemeen hebben over het reeds getrainde model, dus eigenlijk : kwaliteit van de selectie van data set + hoe het model is toegepast, en daarvan het gecombineerde resultaat.

Ik vermoed dat jij als je over 'de AI' spreekt het hebt over het ongetrainde model. Waarom nog geen trainingsdata in gestopt is.

In dit geval ging het volgens mij om critiek op de bias in de geselecteerde trainingsdata, waardoor de AI conclusies trekt die ongenuanceerd zijn, door gebrek aan balans in de traingsset. De AI is als het ware in een fabeltjesfuik gewandeld door eenzijdige trainingsdata.

Ik denk dat het een terechte opmerking is aan OpenAI dat ze verantwoordelijkheid dragen om de trainingset zo samen te stellen dat fabeltjesfuik gedrag en stigmatisering wordt voorkomen. En ja, dát is heel lastig, niet in de minste plaats omdat je als trainer zelf ook een bias hebt, en soms zelf een politieke omgeving die de fuik als 'correct' en 'goed' bestempeld.
Genereren teksten over Christenen, Hindoes etc minder vaak dat soort resultaten?
Ook lijkt het me mogelijk dat als het een Engelstalige AI is, het vooral op wereldnieuws en moslim-acties in het westen gebaseerd is.
Zelfs als ze wel artikelen uit andere talen via vertaalmachines inladen, kan het Arabisch schrift mogelijk lastiger zijn dan westerse talen. (Vanwege taalkundige of wiskundige redenen)

1. Je zorgt voor een bredere dataset en kijkt dan of het probleem nog steeds bestaat.
-> arabische media moeten vaker in het Engels artikelen plaatsen
2. Media moet zorgen voor een betere bias
-> Moslims moeten vaker met positieve acties ondernemen die het nieuws halen
(Ze moeten volgens de koran X % van salaris aan goede doelen geven, dus theoretisch zou er genoeg nieuws moeten zijn waar ze mensen helpen, maar misschien veel locale projecten ipv grote acties?
-> mogelijk (zelf)cencuur in arabische media waardoor 'aparte' moslim-acties niet het nieuws halen, terwijl soortgelijke christelijke acties als click-bait worden gebruikt?
Hoezo slechte training data? Het zijn daadwerkelijk teksten die je dagelijks leest. Komt misschien ook omdat de Engelse (en Nederlandse) teksten vaak zeggen "een moslim heeft met een mes staan zwaaien" maar er zal nooit staan "een hindoe heeft met een mes staan zwaaien" of "een Christen heeft met een mes staan zwaaien" in de laatste twee gevallen hebben ze het vaak over een "verwarde man".

Het hangt dus af van je doel wat slechte trainingsdata is, als het doel is teksten te schrijven zoals de gemiddelde Engelse tekst op het moment is dit hele goede data. Als ze daarentegen teksten zonder enige vorm van discriminatie willen bouwen is het inderdaad slechte trainingsdata.

Ik denk dat de kracht juist ligt bij teksten die niet te onderscheiden zijn van een door een mens geschreven tekst, en daar zit gemiddeld genomen wel wat discriminatie in.
Fair enough; goed of slecht is alleen in relatie tot een doel. Als je "(sensationele) nieuwsberichten met een redelijke dosis racisme" wilt schrijven is het model wellicht prima. Maar dan had de ontwikkelaar dat doel er duidelijk op moeten plakken; nu wordt het min of meer aangeprezen als een model dat generieke teksten met betekenis kan schrijven. Daar zit nu juist het probleem (zie verder ook mijn reactie hierboven).
Daarom beschouw ik dit ook niet als ‘intelligentie’. Alle AI gebruikt bestaande trainingsdata, maar AI is nog niet in staat compleet eigen meningen te vormen of te filosoferen. Dat zijn voor mij echt criteria om over intelligentie te kunnen spreken.

So far is het eigenlijk allemaal Advanced Machine Learning...
Wie ken jij dan die compleet eigen meningen vormt? Ik denk dat het gros van de mensen na-praat wat ze om zich heen horen en dit, wellicht in eigen woorden, herhalen. De slag om verbanden te zien en nieuwe conclusies te trekken komt al een stuk minder vaak voor. Ik denk dat AI wat dat betreft behoorlijk aansluit bij hoe de meeste mensen communiceren.
Ook bij die mensen kun je dan ook twijfelen aan de mate van intelligentie. Bij mensen meten we dat met het IQ.

Misschien moeten we voor AI iets van een AIQ-test in het leven roepen.
De helft zit onder de 100 per definitie. Maar IQ alleen is nog niet genoeg denk ik vast te stellen 'hoe goed' een AI is. Doen we tenslotte ook niet voor mensen (althans, we hebben wel wat experimenten hiermee gedaan, maar die waren ethisch op zijn best niet heel verantwoord). De Turing test is dan wat neutraler, maar ik krijg de indruk dat GPT-3 hier nog niet klaar voor is (heeft iemand al iets gezien over GPT-3 Turing testen?)
Ik denk je in die artikelen over verwarde mannen maar eens naar de foto's moet kijken (van de vervolgartikelen). Die zijn namelijk vrijwel uitsluitend niet-westers.
Moet je de dataset dan aanpassen totdat je uitkomsten krijgt die wenselijk zijn? Is dát dan wenselijk op zich? Het enige waar je goed voor moet zorgen is dat je dataset 'klopt'. Maar dat moet ongeacht het onderwerp natuurlijk kloppen. Als je rekent met feitelijke, meetbare en falsificeerbare data en niet met 'gekleurde' datasets en je krijgt een uitkomst, kun je daar conclusies aan verbinden. Maar niet eerder dan dat vaststaat dat álle beschikbare data gebruikt is.
Toch wel schokkend. Die A.I. is in principe gewoon eerlijk, de dataset waarop getraind wordt is hier de boosdoener. Wat ik er eng aan vind is dat jij en ik onszelf 'trainen' op dezelfde dataset. In de zin van de media die wij consumeren is ook input voor deze bot.
Hoezo is dat eng?

Je kan toch relativeren?
Bingo. De 'bias' is een reflectie van onze cultuur. Deze AI laat ons in de spiegel kijken. Maar in plaats van dat gedeeltelijk onaangename en ruwe beeld te accepteren en te onderzoeken roepen we bij de rimpeltjes en de andere fouten die niet rijmen met ons (gebrekkige) zelfbeeld gelijk: bias, moet weg, niet goed!

Wel lief van ons dat we eigenlijk racisme niet willen. Dat sentiment ontbreekt bij AI, die protesteert niet. Maar in werkelijkheid bestaat het wel. Laat het een waarschuwing voor ons zijn...
Een andere schaduwkant is dat het trainen van GPT-3 zo'n 1.2 kiloton CO2 heeft geproduceerd, de jaaruitstoot van bijna 170 Nederlandse gezinnen, en dat is alleen nog maar het trainen.
Waarom wordt trainen dan niet beperkt tot duurzame energie, vraag ik me af. Zeker gezien al die Silicon Valley bedrijven zich zo op hun borst slaan op dat gebied.
Tot slot weet ik dat de architectuur van het algortime openbaar is, maar juist de getrainde variant zal veel gebruikt gaan worden; het trainen kost immers veel tijd en moeite.
Sterker nog, ik zou willen zeggen dat de architectuur niet eens echt relevant is voor de bias.

Sommigen van die neurale netwerken zijn in theorie turing-compleet, wat inhoudt dat ze, mits je het netwerk groot genoeg maakt en genoeg tijd neemt, alle berekeningen die computers kunnen uitvoeren, ook uitgevoerd zouden kunnen worden door zo'n neuraal netwerk. De architectuur heeft vooral impact op hoe efficiënt je ze kunt trainen, maar uiteindelijk is het een soort blauwdruk die aangeeft welke berekeningen je uit kunt voeren, een beetje vergelijkbaar met het ontwerp van een CPU of GPU. Het resultaat van de training bepaalt wat er daadwerkelijk wordt uitgerekend, en kun je in zekere zin dus als software beschouwen.

Het argument "maar de architectuur is openbaar" is wat mij betreft dus net zo raar als wanneer Google of Facebook zouden zeggen dat hun algoritmes niemand voortrekken omdat ze op x86 of arm CPU's draaien. De enige manier waarop je dat kunt bepalen is door te kijken wat die algoritmes nou precies doen, en daarvoor is de gebruikte hardware niet zo relevant. Een algoritme dat de regel "if party=='google' then score=best" lijkt me, ongeacht op welke hardware je het draait, niet voldoen aan de claim dat niemand wordt voorgetrokken.
Klopt helemaal; de architectuur kent inderdaad geen bias bij machine learning (tenzij je dat er specifiek in gaat bouwen, maar dan is het niet 100% ML meer)!

Waar ik echter op doelde is dat je met de (openbare) architectuur natuurlijk zelf aan de slag kunt gaan om een model te bouwen zonder bias. Als de architectuur niet openbaar zou zijn, zou je die mogelijkheid ook niet hebben.

In die zin is er dus een alternatief. Maar ik denk dat men in de praktijk toch voor de "off the shelf" oplossing zal gaan; dus het getrainde model met bias. Dit omdat het trainen van zo'n model echt enorm veel moeite kost.
"I'm shocked how hard it is to generate text about Muslims from GPT-3 that has nothing to do with violence... or being killed..."

Niets menselijks is een AI vreemd.....
Het artikel is lovend over de door de ai ontwikkelde podcast. Daar hoeft wat mij betreft niet alles over ai benoemd te worden. Ik gok dat jouw probleem te maken heeft met de taal. Wanneer de ai Arabisch zal leren zal hij beter met zaken om kunnen gaan waar Arabische landen bredere teksten over hebben.
Dit soort bias komt typisch voort uit slechte trainingsdata
Dat is één van de mogelijke oorzaken. Echter wel een amateuristische fout die ik OpenAI niet snel aan zou rekenen, gezien hun werk tot nu toe.

Je moet goed nadenken over wat je wilt dat zo'n tekst genererende AI genereert. Als je wilt dat alles in gelijke mate voorkomt, dan zul je je trainingsdata moeten normaliseren zodat je ieder onderwerp evenveel meeneemt in de training.

Echter, als je wilt dat je model/AI de werkelijkheid benadert, dan doe je dat juist niet. De werkelijkheid is ook niet overal in balans (en zal dat ook nooit zijn, ongeacht hoeveel we het proberen te sturen).
Misschien goed om bij dit soort lovende artikelen ook de schaduwkant van dit soort algoritme's te noemen:
Mijn punt: probeer niet te spreken van een "schaduwkant". Die schaduwkant is namelijk precies dezelfde functionaliteit als waar zo "lovend" over gesproken wordt, alleen dan in een andere maatschappelijke context.
Anoniem: 1463186
@Morrar19 oktober 2020 19:58
Wat ook wel belangrijk is om dit bericht ook wel weer te zien met de bias die het heeft. Ik weet namelijk niet zeker of jij het zo bedoelt, maar het lijkt mij niet toevallig dat het over moslims gaat. Het voelt namelijk een beetje al iemand die zich verongelijkt voelt en dat probeert te bevestigen, wat ook een vorm van bias is.

Begrijp me niet verkeerd, ik ontken niet dat er een bias is. Dat is namelijk vrij duidelijk, die bias is er. Maar die bias is er niet alleen voor moslims, misschien is hij er ook voor christenen, joden etc. Dat vind ik best een belangrijke toevoeging aan de discussie. Op de manier waarop jij het (onbewust?) schetst lijkt het namelijk alsof je in gaat op het feit dat het een bias heeft tegen moslims, maar het belangrijke punt is dat het een bias heeft. Die framing doet dan in mijn ogen een beetje af aan de grotere discussie er omheen en kan ook nog eens hele foute resultaten geven (ik denk aan een echt voorbeeld, de gekke situatie waarin mensen de Gamma opeens blind aanvallen omdat er posters zijn waar vrouwen lampjes in draaien, daar laten ze voor het gemak de foto's van mannen die lampjes indraaien weg, want dat zou hun hele argument natuurlijk verpesten).

Verder ben ik het dus helemaal eens met je punt, die bias is er. Maar daarbij is het wel van belang in hoeverre die bias er is. Wellicht kan hij over christenen alleen teksten bedenken over hoe ze kinderen aanranden en over joden hoe ze alles doen om geld te krijgen.
En dan krijg je nog het lastige punt, wat kan je daar aan doen. Bias is namelijk inherent aan de mens, dat is altijd zo geweest en zal nooit weg gaan. Denk alleen al aan bias in de cultuur, in westerse culturen zijn ouderen veel minder belangrijk dat in bijvoorbeeld het Midden-Oosten. Dat zal je ook terug zien in teksten, waar ouderen daar veel meer op een voetstuk staan dan teksten die hier geschreven worden. Dus tot op zekere hoogte is het de vraag, moet je die bias er uit willen halen? Bias is namelijk het enige wat een cultuur een cultuur maakt, en ons niet één homogene massa aan mensen. Die bias moet natuurlijk zo min mogelijk kwetsend zijn, maar dan komt de vraag wie gaat bepalen wat kwetsend is?

Uiteindelijk is het een eenvoudig probleem om aan te merken, maar ik denk in de praktijk onmogelijk om op te lossen. Er is niet één AI die alle nuances van de wereld zal hebben, want die nuances spreken elkaar tegen. Uiteindelijk is dit denk ik altijd een aandachtspuntje bij AI, maar voornamelijk in de interpretatie daarvan.
Dit was een geweldige aflevering, compleet hallucinant. Indrukwekkend hoe de AI soms de dynamiek tussen de twee hosts heel goed wist te treffen. Dat een AI aan de hand van een berg steekwoorden een redelijk samenhangend verhaal kan maken is niet meer zo verbazend natuurlijk (al werd het op het eind ronduit bizar) maar dit soort "zachte" eigenschappen van een gesprek kunnen nabootsen is wel fascinerend.

Vrij indrukwekkend vond ik dat de AI zelfs een ingezonden brief van een luisteraar had verzonnen die kritiek had over de verstaanbaarheid van de presentatoren.

[Reactie gewijzigd door HooksForFeet op 19 oktober 2020 12:24]

Technisch leuk, maar zien we hier niet ook iets anders nu:

Blijkbaar is de informatiedichtheid van (deze) podcast(s) dusdanig laag (namelijk 0, een AI kan geen nieuwe informatie verzinnen die waar is, alleen maar dingen herhalen die hij al weet) dat een AI dus een (deel van) de podcast kan "verzinnen".

Dit is een fenomeen dat ik ook veel zie in populaire youtube kanalen. Mensen die filmpjes maken, podcasts, vlogs, noem het maar op, met absoluut 0 informatie dichtheid. Je luistert eignelijk alleen naar 2 mensen die praten over vanalles en nogwat zonder dat je er wijzer van wordt (ja, je mening wordt misschien beinvloed, maar meer informatie krijg je er niet van).

Ieder zijn meug natuurlijk en als je het leuk vind om hiernaar te luisteren moet je het ook vooral doen. Vind het zelf wel een grappig fenomeen.
Ik zeg niet dat je compleet ongelijk hebt, maar het verzamelen en presenteren van al beschikbare informatie op een behapbare manier voor de luisteraar heeft ook waarde.
De informatiedichtheid van POM ligt juist vrij hoog. Je kan uit het feit dat de AI geen nieuwe dingen kan verzinnen die waar zijn (wat overigens al niet klopt) die conclusie ook niet trekken: de AI heeft wel een nieuwe aflevering gegenereerd maar die is natuurlijk niet per se van de zelfde inhoudelijke kwaliteit als normale afleveringen.
De software is een soort digitale GhostWriter.

Voor een podcast uit eerdere teksten logisch dat het eerdere informatie bevat, was denk ik bedoeld als benchmark/proof of concept.

Maar ze zouden ook alle Tweakers-artikelen over een bepaald onderwerp kunnen inladen, en daar dan een podcast over laten genereren zonder zelf onderzoek te hoeven doen. Of bijv een discussie van alle reacties over een onderwerp (zitten al 1/2/3+ waardes aan waar een computer prioriteit mee kan laten wegen).

Je zou een AI kunnen bouwen die alle kerndata combineert, of juist alle grapjes achter elkaar plakt, of een ander soort 'best of'. (Voor Discovery/National Geographic; iets dat alle herhalingen en andere dubbele uitleg eruit stript zou geweldig zijn, kan documentaires met 30% van de tijd terugdringen.)

Over podcasts in het algemeen, mogelijk zijn ze bedoelt voor een andere doelgroep?

Ik zie het bijvoorbeeld in ruimtevaart webinars op SpaceNews; ze voegen vaak weinig toe aan mensen die regelmatig de site volgen. Maar voor mensen die daar geen tijd voor hebben/het onderwerp niet volgen zijn het vaak goede samenvattingen van de onderwerpen.
Op youtube staan ook presentaties met uitleg over werking van raketmotoren, ruimtevaart geschiedenis etc. Voor mensen uit de industrie of die het geleefd hebben waarschijnlijk te oppervlakkig, maar voor een outsider als ik erg leerzaam.
Hier een interessante video over GPT-3 (waarin ook deels wordt ingegaan op de "Flaws"):
https://www.youtube.com/watch?v=Te5rOTcE4J4&t=0s
Een beetje wartaal is deze podcasters natuurlijk niet vreemd
iets wat ik compleet mis in zowel het artikel als de comments: HOE hebben ze het gedaan?
Zijn ze lid van OpenAI? Heeft Microsoft dit al in testversies van Word ingebouwd en hebben ze daar toegang toe?
Kun je dit als tweaker ook, of moet je IT-connecties hebben? Kost het geld?
Wie heeft de rechten op je eindproductie?
Hoeveel processorkracht heeft het in totaal gekost?

Hoe worden scripts ingeladen, en kun je daar verdere metadata aan koppelen. (Zoals Persoon A; leeftijd, opleiding, interesses etc, locatie van studio, scriptstyle=podcast/interview/krantenartikel/etc?

Is de vertaling handmatig gedaan, door Google Translate, Alexa, of door OpenAI zelf?

en liet de AI daar een nieuw script van maken.
Weer: Hoe? Regel voor regel, alinea voor alinea, of hele tekst in 1 keer?
Kun je onderwerpen opgeven?
Wat voor verdere parameters waren er, en waarom waren juist die gekozen?
Heb je zelf programmeer kennis nodig, of is er een interface?

Een daarvan had het bijvoorbeeld over zijn betovergrootvader die astronaut was en het veiligheidsharnas uitvond,
Waarom was dit vreemd? Was dit in eerdere podcasts wel gezegd maar in andere context? Had de AI dit via Bing zelf erbij gezocht, of helemaal zelf 'bedacht'door associatie met soortgelijke podcasts?

Het tweetal las het script zelf voor.
Dus de AI kan nog niet voorlezen? Waren TTS-AI's nog niet goed genoeg, of zijn die niet geprobeerd?

[Reactie gewijzigd door mbb op 20 oktober 2020 16:28]

Kies score Let op: Beoordeel reacties objectief. De kwaliteit van de argumentatie is leidend voor de beoordeling van een reactie, niet of een mening overeenkomt met die van jou.

Een uitgebreider overzicht van de werking van het moderatiesysteem vind je in de Moderatie FAQ

Rapporteer misbruik van moderaties in Frontpagemoderatie.



Op dit item kan niet meer gereageerd worden.


Nintendo Switch (OLED model) Apple iPhone SE (2022) LG G1 Google Pixel 6 Call of Duty: Vanguard Samsung Galaxy S22 Garmin fēnix 7 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2022 Hosting door True

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee