'Garbage in, garbage out', het is een bekend gegeven met AI-systemen: wat je erin stopt, krijg je er ook weer uit. Maar de dingen die erin gaan, zijn lang niet altijd wenselijk. Neem nu stereotypen en diversiteit: Rest of World deed een test met AI-afbeeldinggenerator Midjourney en vond dat het systeem inhaakte op problematische stereotypen. Omdat plaatjesmakers in de komende jaren vermoedelijk op veel plekken in onze maatschappij zullen terugkomen, beïnvloedt dat dus ons beeld van bepaalde dingen. Een Nigeriaans huis is in Midjourney bijvoorbeeld vrijwel altijd vervallen en een persoon uit India is vrijwel altijd een oudere man met een grijze baard.
Dat roept de vraag op hoe dat hier zit en hoe dat zit met andere AI-systemen om afbeeldingen te genereren. Daarom namen we de proef op de som met diverse bekende systemen. Midjourney was niet beschikbaar voor deze test, omdat het momenteel een abonnement vereist, maar zes andere diensten konden we wel aan het werk zetten. Daarbij kozen we voor prompts die stereotypen kunnen oproepen die veel van ons zullen kennen. Hoe geven de diverse systemen 'de Nederlander' weer? Er is maar één manier om daarachter te komen.
Craiyon: garbage in garbage out
Hoe we de afbeeldinggenerators hebben getest
Om te beginnen hebben we een selectie gemaakt van toegankelijke en bekende systemen om afbeeldingen te genereren. Daarvoor hebben we zes diensten gebruikt: OpenAI Dall-E 2, Microsoft Bing Image Generator op basis van OpenAI Dall-E 3, Adobe Firefly, Adobe Firefly 2, Craiyon 3 van Craiyon en Dreamstudio van Stability.AI.
Liefst had ik daarbij telkens dezelfde prompt gebruikt, maar dat bleek praktisch onhaalbaar. Zo gaf Firefly bij dezelfde prompt dezelfde resultaten en dat is onwenselijk. Daarom hebben we variaties gemaakt op de prompt, dus naast 'Dutch person' en 'a Dutch person' ook 'Dutch person looking at the camera', 'Dutch person looking straight at the camera' en 'portrait of a Dutch person'. Als het niet gaat zoals je wilt, moet het maar zoals het gaat. Bovendien hebben we halverwege van browser gewisseld om te voorkomen dat het systeem zou voortborduren op vorige resultaten.
Vervolgens werd het tijd om de afbeeldingen scores toe te kennen. Daarbij zijn onder meer punten te halen voor een goede verhouding tussen mannen en vrouwen, verschillende leeftijden en huidskleuren. Daarnaast hebben we gekeken naar stereotypen; in hoeverre kwamen Nederlandse stereotypen als molens, kaas en fietsen voor in de afbeeldingen?
Dat alles geeft een impressie van hoe de diverse systemen het doen ten opzichte van elkaar. Daarbij moeten we natuurlijk opmerken dat hier een duidelijk subjectief element aan zit. Gender is op basis van afbeeldingen al niet altijd met zekerheid aan te merken, maar leeftijd is natuurlijk helemaal een schatting. Huidskleur is goed te zien, maar daar een numerieke waarde aan toekennen is wel subjectief. Dat geldt ook voor stereotyperingen. Zonder een enkele stereotypering was de score 1; een afbeelding vol kaas, tulpen en molens kreeg een 10. Het is in elk geval geen exacte wetenschap en het gaat om de onderlinge vergelijking.
ChatGPT: ik genereer geen afbeelding op basis van 'een Nederlander'.
De plaatjes
Het gaat niet altijd goed als je afbeeldingen genereert. Dat zal voor niemand een verrassing zijn. Soms zijn de uitkomsten niet wat je verwacht, ligt een dienst er even uit of lijkt het systeem je even verkeerd begrepen te hebben.
Bing Image Generator, Dall-E 3
De Image Generator in Bing baseert zich op OpenAI's Dall-E 3, maar het lijkt erop dat Microsoft weer een deel van de menselijke training heeft geskipt. Waar andere AI-systemen voorzichtig zijn met stereotypen, duikt Microsoft er vol in. Kazen, tulpen, molens en klederdracht: je ziet ze allemaal terug in vrijwel alle afbeeldingen. Het lijkt wel een toeristische folder om Nederland aan te prijzen als vakantiebestemming. Microsoft geeft bovendien veel jonge, blonde vrouwen weer, en het is lang niet altijd fotorealistisch.
Craiyon
Craiyon 3 van Craiyon levert een serie sfeervolle portretten af. Daarbij valt op dat het Nederlandse aspect zit in het uiterlijk van de personen die worden afgebeeld, maar het systeem blijft weg van elk stereotype en gebruikt achtergronden toch al spaarzaam. Wel kwam het een keer aanzetten met een serie van negen schilderijen in plaats van foto's. Net als Bing is het systeem meer geneigd om vrouwen weer te geven. Sterker nog, geen enkele afbeeldinggenerator kwam met zoveel vrouwen aanzetten.
OpenAI Dall-E 2
OpenAI's Dall-E 2 is nog beschikbaar, maar OpenAI wil Dall-E 3 binnenkort ook gaan aanbieden. Dall-E 2 is goed getraind en dat is duidelijk te zien. OpenAI zorgt ervoor dat er mensen van kleur in de resultaten verschijnen, iets wat ontegenzeglijk hoort bij de huidige maatschappij. Er zit hier en daar een stereotype tussen, maar dat is zeldzaam. De leeftijden zijn ook een prima weerspiegeling van de maatschappij.
Stability.ai Dreamstudio
Dreamstudio droomt alleen maar over mannen als je naar deze resultaten kijkt. De leeftijd van die mannen is dan wel in lijn met hoe je dat in Nederland kunt aantreffen, al zijn wel alle geportretteerden wit, of monochroom. Deze afbeeldinggenerator is bovendien meer geneigd tot stereotypering dan de meeste systemen, hoewel het relatief nog wel meevalt.
Adobe Firefly
De eerste versie van Adobe Firefly, een systeem dat in apps van Adobe komt en bovendien is gebaseerd op afbeeldingen waar Adobe de rechten op heeft, toont een voorkeur voor mannen, al zijn vrouwen ook wel te vinden. De leeftijd is een beetje laag vergeleken met het gemiddelde in Nederland, maar het zijn in elk geval niet alleen jonge mensen op de plaatjes. Wel zitten er rare uitschieters tussen, zoals series met personen in, hoe zullen we het zeggen, opvallende maar niet per se Nederlandse kleding.
Adobe Firefly 2
Met de tweede versie let Adobe in Firefly meer op spreiding in huidskleur, dus dat is een pre voor het voorkomen van stereotyperingen. Kennelijk heeft Adobe ook veel honden in Nederland aangetroffen, maar hoe je die kunt zien als 'persoon', is niet helemaal duidelijk. De honden tellen niet mee voor de scores op de volgende pagina.
De plaatjes in cijfers
Nu we alle plaatjes hebben bekeken, wordt het tijd om ze te ranken. Zoals gezegd, helemaal objectief kan dat niet, maar het gaat uiteraard om de onderlinge verhoudingen. Bovendien is het geen kwaliteitsstempel; een set afbeeldingen kan goed lijken op alle gemiddelden die je wilt, stereotyperingen vermijden en desondanks waardeloos zijn vanwege zeven vingers aan een hand of andere rare artefacten bijvoorbeeld.
Het blijft goed om te benadrukken dat dit allemaal redelijk subjectief is. Een gegenereerde afbeelding is immers geen daadwerkelijke foto van een persoon waarvan je de gender zou kunnen navragen; het is een schatting op basis van kenmerken, vaak in het gezicht. Hetzelfde geldt voor leeftijd en in zekere mate ook voor huidskleur; het is niet te checken en zeker bij monochrome afbeeldingen is schatten niet makkelijk. Het gaat bovendien om trends in de afbeeldingen en de onderlinge vergelijking.
Niets dat zoveel verschilt als de man-vrouwverhouding in de afbeeldingen. Dreamstudio heeft alleen maar mannen, Craiyon heeft vrijwel uitsluitend vrouwen. Adobe Firefly 2 en Dall-E 3 in Microsoft Bing komen het dichtst bij. Het is in elk geval goed om iets te kiezen te hebben; de meeste mensen genereren immers afbeeldingen om er uiteindelijk een te gebruiken.
Hierbij zijn het andere AI-systemen die het dichtst bij het gemiddelde komen. Dall-E 2 en Dreamstudio doen dat en laten bovendien een waaier aan verschillende leeftijden zien. Bing komt met bijna alleen maar jonge mensen aanzetten.
Bing en Dreamstudio hebben alleen maar witte mensen gegenereerd en dat is een stereotype. Nederland is immers lang niet zo algemeen wit als de afbeeldingen doen vermoeden. Bij Firefly 2 en Dall-E 2 heb je de meeste keuze tussen verschillende huidskleuren als je afbeeldingen genereert en die lijken dus het meeste oog te hebben voor diversiteit in huidskleuren.
Hier is het weer Bing dat uit de bocht vliegt. Vraag om een Nederlander en je krijgt molens, kazen en tulpen. Dreamstudio heeft daar ook een handje van, maar doet dat al veel minder vaak. Firefly doet het nog iets minder, en Firefly 2 en Dall-E 2 blijven vrijwel helemaal weg van Nederlandse stereotypen.
Tot slot
Het is lastig om harde conclusies te trekken, want de gebruikte dataset is enerzijds beperkt en anderzijds een momentopname. Over de hele linie zijn wel lijnen te zien. Het lijkt erop dat veel AI-systemen aandacht hebben voor het niet-versterken van stereotypen en voor diversiteit in gegenereerde afbeeldingen. Natuurlijk: garbage in, garbage out geldt nog steeds, maar met reinforced learning from human feedback, dus mensen die aangeven wat belangrijk of niet oké is, is een AI-model bij te sturen.
Daarbij is te zien dat Microsoft daar weinig aandacht voor heeft. Bings Image Generator op basis van Dall-E 3 komt met jonge, blonde vrouwen met kazen, tulpen en molens. De zoekmachine genereert ansichtkaarten voor de Zaanse Schans. Dall-E 2 heeft technologie van hetzelfde bedrijf, OpenAI, maar traint vermoedelijk intensiever, want dat systeem vermijdt stereotypen en laat meer mannen zien.
Daarbij zijn ook nog altijd uitschieters te zien die echt niet kloppen, zoals een stel honden bij Adobe Firefly 2, maar dat zijn duidelijke fouten die iedere gebruiker er makkelijk uit haalt. Wat het vermijden van stereotypen en het laten zien van diversiteit betreft heeft geen van de geteste modellen het perfect voor elkaar, maar veel doen het zeker acceptabel en laten zien dat het een punt van aandacht is. Dat geeft hoop voor de toekomst, want hoe meer invloed deze AI-systemen krijgen, hoe belangrijker het is dat ze acceptabel en binnen morele grenzen goed werken.
Je krijgt inderdaad wat je vraagt. Letterlijk.
Er wordt gevraagd om een Nederlander. Dat is aan de ene kant nationaliteit (paspoort) en aan de andere kant hoe iemenad zichzelf identificeert. Dus wanneer je Nederlander strikt interpreteert moet dat iemand zijn die én een Nederlands paspoort heeft én zichzelf als Nederlander identificeert. In die categorie zullen genoeg gekleurde personen vallen, maar lang niet iedereen die je op straat tegenkomt.
En dan nog, wanneer je een plaatje vraagt met één Nederlander is het een kwestie van statistiek. Wanneer ik honderd keer iemand van straat pluk is de kans groot dat de grootste bevolkingsgroepen in Nederland daar redelijk in vertegenwoordigd zijn. Maar voor iedere persoon die ik blind van straat pluk is de kans het grootst dat het een blank persoon is. Wanneer je die kans bij elk plaatje dat gegenereerd wordt meeneemt, om voor elk plaatsje de meest waarschijnlijk uitkomst te krijgen, krijg je automatisch enkel plaatjes met blanke mensen.
Een betere vraag om de diversiteit van de 'plaatjesmakers' te testen zou zijn: 'Geef een Nederlands straatbeeld met daarin vijf personen.' Wanneer je dan nog steeds overwegend blanke mensen ziet, kan je iets zeggen over gebrek aan diversiteit.
Is dat zo? Zijn er geen Nederlanders met een getinte huidskleur?
Je krijgt dus niet wat je vraagt, maar de software heeft een duidelijke 'voorkeur' in wat er wordt getoond
Natuurlijk zijn die er, maar dat is niet het beeld van de stereotype Nederlander. Net als ik "Afrikaan" ik zou voeren, ik waarschijnlijk veel zwarte mensen krijg, maar Afrika is ook niet homogeen.
Het idee dat we verwachten dat een zoekresultaat "divers" is, is zo krom als een hoepel. Een AI creërt elke keer onafhankelijk van vorige results het meest waarschijnlijke resultaat. Alsof ik boos wordt dat er geen ligfietsen of driewielers getoond worden bij de "fiets"-prompt.
Het artikel is daar toch ook genuanceerd over? Natuurlijk zijn er hier relatief meer witte/blanke mensen dan in vele afrikaanse landen.
Dit is geen zoekopdracht of zoekresultaat, het belooft plaatjes adhv een prompt te genereren die het interpreteert. Het kan dat best handig of zelfs belangrijk zijn als die interpretatie zo min mogelijk stereotypes of bias heeft.
De prompt is ‘een nederlander’, als de prompt ‘een stereotype nederlander’ was geweest dan had de respons van Bing een stuk logischer geweest bijvoorbeeld.
De prompt is ‘een nederlander’, als de prompt ‘een stereotype nederlander’ was geweest dan had de respons van Bing een stuk logischer geweest bijvoorbeeld.
Goed idee, ik heb dat even getest. DALE 3 via Open AI GPT. Steeds de eerste afbeelding.
De software heeft een voorkeur om jouw woorden te gebruiken. De gebruiker vond het noodzakelijk om "Dutch" in de prompt op te nemen. Dat is lastig te visualizeren, en Bing doet het nogal hardhandig.
Als je wil beoordelen hoe goed deze AI's het doen, dan is de subjectieve beoordeling van Tweakers natuurlijk helemaal fout. De correcte test hier is om AI's én mensen te vragen uit welk land de afgebeelde persoon komt. En dan scoort Bing met grote afstand het beste. Het is volstrekt kansloos om "Dutch Person" terug te krijgen uit de DallE of Firefly plaatjes. Dat is simpelweg niet wat ze hebben getekend.
Je ziet een enigzins vergelijkbaar probleem met sexe, alhoewel de redactie daar niet zo heeft lopen prutsen. Als je alleen maar plaatjes van mannen maakt, dan zal de omgekeerde test (gemeenschappelijke beschrijving van set plaatjes) ten onrechte "man" opleveren in plaats van "person".
De correcte test hier is om AI's én mensen te vragen uit welk land de afgebeelde persoon komt. En dan scoort Bing met grote afstand het beste.
Dat is natuurlijk de grootste onzin.
Als dit de enige juiste manier was om deze plaatjes te beoordelen, dan was dit plaatje het aller- allerbeste want je hoeft zelfs de Nederlandse stereotypen niet te kennen, je moet enkel kunnen lezen, en dat kan de persoon die de prompt schrijft (want die kan een prompt schrijven).
Dit plaatje toont dus aan dat jouw hele bonte uitspraak, dat jij de juiste manier van scoring kent, totale onzin is. Want terwijl mijn (heel lelijke slechte) plaatje wel duidelijk herkenbaar maakt wat het moet voorstellen, lijkt het in de verste verte niet op een echte Nederlander.
Dat is dus het verschil: jouw hele betoog (in deze comment maar ook in je andere 7 comments waar je duidelijk maakt hoe slecht je dit artikel vindt) is erop gestoeld dat jij vindt dat een AI moet tonen wat men denkt dat "een Nederlander" is, terwijl het artikel kijkt of een AI wel toont wat "een Nederlander" echt is.
Om het even wat minder absurd te maken dan mijn lelijke plaatje: wat denk jij dat een AI moet tonen als de prompt "a buffalo" wordt ingegeven? Foto's van een buffel? Of een foto van een bison? Die laatste is fout, maar de twee worden steevast verward omdat mensen geen goed beeld hebben van wat een buffel is.
Als we jouw manier van scoring toepassen dan is een AI model dat buffels toont wanneer je om een bison vraagt alsnog een prima AI, ook al toont hij iets dat totaal niet klopt. En dat lijkt mij simpelweg een foute manier om generatieve AI te beoordelen.
Zo ook vindt ik het niet wenselijk dat AI een niet realistisch beeld gaat ophangen van bevolkingsgroepen.
[Reactie gewijzigd door kiang op 23 juli 2024 15:21]
Dat komt omdat de software leert van de input die het krijgt. Als 10.000 mensen gaan promten/plaatjes invoeren met bloemkool en 5 op een wortel dan is de kans groot dat de volgende keer dat jij "groente" gaat prompten er een bloemkool tevoorschijn komt en geen wortel.
Ik denk dat naarmate AI verder leert het steeds beter zal gaan. Helaas zijn met name in dall e 3 (bing) veel dingen gecensureerd zoals de namen van acteurs waardoor je misschien ook wel scheve verhoudingen krijgt in wat er gegenereerd wordt.
Ik denk dat naarmate AI verder leert het steeds beter zal gaan.
Maar niet wanneer AI gebruikt wordt om AI gegenereerde teksten en plaatjes online te plaatsen, dat vervolgens dan weer gebruikt kan worden om nieuwere AI-modellen te trainen.
Je krijgt wel degelijk wat je vraagt. Als je vraagt om "een Nederlander" krijg je een persoon die op één of meerdere manieren gelinkt is aan Nederland. Als je een persoon zou willen genereren zonder dat er iets specifiek Nederlands aan is dan had je "een persoon" in je prompt moeten zetten. De afbeeldingengenerator is geen statistiek model. Er worden op de achtergrond geen dobbelstenen gerold op een "huidskleuren van Nederland" tabel.
Dat is dus ook niet gevraagd. In 4 AI gegenereerde afbeeldingen kun je niet "inclusief zijn". Je kunt idd (biased) voorkeuren vinden, maar dat zegt eigenlijk niet zoveel over het algoritme of het potentieel van de tool.
Als je een getinte man of vrouw wil zien met "Nederlandse" accessoires hadden ze dat zo moeten vragen. "Nederlander" aansich -hoe graag we ook ophokken- is niet erg definierend voor een afbeelding.
Ik denk dat Tweakers hetzelfde probleem heeft als veel mensen (waaronder mezelf) bij de AI image generators, de juiste prompts en juiste resultaten krijgen is niet eenvoudig. (zoals ook in het artikel beschreven is)
In China werkt dat inderdaad hoogstwaarschijnlijk maar één kant op Daar zijn ze niet bezig met diversiteit, genderneutraal, woke etc. Alhoewel ze voor man en vrouw hetzelfde woord gebruiken bij het spreken - een Chinees haalt in het Engels/Nederlands nogal eens hem/haar en he/she door elkaar - dus in dat opzicht lopen ze voor
Dit werkt wel, als je doet mensen in ... (bijvoorbeeld bijlmermeer) dan krijg je veel meer mensen van kleur, vrouwen met hoofddoeken op, jonge en oude mensen in beeld en niet die eeuwige molens en kaas en dergelijk die bing wel geeft wanneer je het woord nerderland(er/s/ etc) gebruikt.
Het gaat er niet alleen maar om of jij je beledigd voelt door de stereotypen. Het gaat er ook om dat groep uitgesloten worden van de groep "Nederlanders".
Als je tienduizend keer aan de AI vraagt een plaatje te genereren van 'een Nederlands iemand', en je krijgt nooit maar dan ook nooit
iemand niet blank
iemand oud
iemand met een handicap, bvb in een rolstoel
Dan is dat simpelweg niet prettig. De boodschap lijkt te zijn dat deze mensen niet bestaan en dus geen deel zijn van onze maatschappij. maar ze bestaan wel.
En voordat de horde AI-verdedigers me weer bestormen: ja, ik weet het, AI heeft geen bedoeling, en doet enkel en alleen wat het geleerd is. En ja, ik ga er ook zeker niet vanuit dat de developers achter deze modellen bewust aansturen op het marginaliseren van groepen (dat mag ik toch hopen). Maar het feit dat er dus blijkbaar niet eens gedacht wordt "oh, er zit blijkbaar niet eens een portret van iemand in een rolstoel in onze gigantische dataset van 20 triljard plaatjes, misschien moeten we daar even wat aan doen" is dus net het probleem.
Zeker omdat het wel goed kan: bij de niet-stereotype plaatjes heb ik namelijk een enorm Nederlandse 'vibe'. Dit stemt me zeker hoopvol.
Ik vind it daarom echt een fantastisch artikel, kudps @arnoudwokke .
[Reactie gewijzigd door kiang op 23 juli 2024 15:21]
Je doet hier de totaal ongefundeerde hypothese dat een AI een model heeft van de diversiteit van Nederlanders. Dat is simpelweg niet het geval.
Overigens heeft het artikel vergelijkbare problemen. Er wordt wel mooi een grafiekje getoond van de gemiddelde leeftijd van de afgebeelde personen. Maar wat mij opvalt is hoe weinig ouderen en kinderen er op staan. De standaard deviatie van die gegenereede foto's is véél te klein. Sommige Nederlanders zijn babies.
Je doet hier de totaal ongefundeerde hypothese dat een AI een model heeft van de diversiteit van Nederlanders. Dat is simpelweg niet het geval.
Je maakt hier een totaal ongefundeerde comment, want dat doe ik nergens.
Het enige wat ik doe is uitleggen waarom het problematisch is dat minderheden (of het nu over huidskleur, leeftijd, of lichamelijke toestand gaat) niet worden weergegeven.
Dan is dat simpelweg niet prettig. De boodschap lijkt te zijn dat deze mensen niet bestaan en dus geen deel zijn van onze maatschappij. maar ze bestaan wel.
Nee, de boodschap is dan dat wanneer je maar 1 persoon kan afbeelden het zinvoller is iemand af te beelden die het meest lijkt op de overgrote meerderheid van onze maatschappij.
Als je vraag aan de AI zou zijn om een afbeelding te maken met daarin tienduizend Nederlanders en daar komt niemand in voor die niet blank is of oud of met een handicap, DAN is er wel reden om te klagen.
[Reactie gewijzigd door mjtdevries op 23 juli 2024 15:21]
Als je vraag aan de AI zou zijn om een afbeelding te maken met daarin tienduizend Nederlanders en daar komt niemand in voor die niet blank is of oud of met een handicap, DAN is er wel reden om te klagen.
Daarom is er dus tientallen keren deze vraag gesteld, wat wel een gevarieerder beeld moet geven. Dat doen sommige modellen niet en dus 'is er wel reden om te klagen'.
Overigens hilarisch hoe dit artikel op gehoon wordt ontvangen door mensen die vinden dat er zogezegd te veel/snel/hard geklaagd wordt... en dus klagen ze daarover
[Reactie gewijzigd door kiang op 23 juli 2024 15:21]
Wat is de reden om aan te nemen dat je dan een zodanig gevarieerder beeld zou moeten krijgen dat er minderheden getoond worden?
Als je een aantal keren dezelfde vraag stelt dan zit er enige ruis in de antwoorden. Maar als de AI zich er op richt om een beeld te maken die het meest lijkt op de overgrote meerdheid, dan zie je dus enige variatie in dat beeld dat lijkt op de overgrote meerderheid.
Dat is nog steeds een volledig valide manier om antwoord te geven. Zeker als je niet aangeeft dat je een divers beeld van de samenleving wilt zien.
Ik vind de stereotypen niet eens zo heel erg, ik bedoel je krijgt wat je vraagt. Als je het niet wil moet je het maar aangeven in je prompt.
Het is juist heel menselijk om te denken in stereotypen. Dat zit al eeuwen in het menselijk karakter ingesloten. Het creëert een groepsgevoel en samenhang en gaf, zeker in vroeger tijden, een stukje veiligheid.
Ken je niet een heleboel heel menseijke zaken die al eeuwen in het menselijk karakter ingesloten zijn die misschien ook niet zo'n wenselijk effect hebben: machtswellust, aggressiviteit, egoisme, hebzucht. Allemaal heel menselijk.
[Reactie gewijzigd door CompFrans op 23 juli 2024 15:21]
Ken je niet een heleboel heel menseijke zaken die al eeuwen in het menselijk karakter ingesloten zijn die misschien ook niet zo'n wenselijk effect hebben: machtswellust, aggressiviteit, egoisme, hebzucht. Allemaal heel menselijk.
Naar hedendaagse maatstaven zijn veel van die karaktertrekken misschien onwenselijk, maar in de ontwikkeling van de mens zijn ze onontbeerlijk geweest in overleving en evolutie. Je ziet het nu ook nog wel eens terug bij topsporters: die moeten een zekere mate van egoïsme en dominantie bezitten, willen ze inderdaad een goede kans maken om kampioen te worden.
Dat is erg kort door de bocht. Door die voor jou niet wenselijke trekjes wonen we hier in een veilig en welvarend land. En heb je te eten en krijg je loon voor werk.
Het vervelende is van stereotype wanneer je het niet duidelijk ziet. Iedere Nederlander weet dat gemiddeld Nederland er zo niet uit ziet en dat wij er niet uit zien als een hond. Maar wat als je een AI trained op stereotype data voor hypotheken en je woont toevallig in een minder gestelde wijk? In dat geval is het onredelijk dat jij een lagere / duurdere / andere hypotheek krijgt dan ik die in een villa park woont met witte boorden criminelen?
En bij plaatjes geef ik expliciet aan als Nederlander, maar wat als een Irakees deze vraag stelt? Dan krijgt die toch wel een raar beeld van ons land wanneer die enkel blonde dames ziet die een 10 zijn.
Ik denk waar we hier mis gaan is stereotypes en uitschieters in statistieken. Om een apart voorbeeld aan te halen, een tijdje terug was er een bom dreiging en de politie hield openlijk alle moslims aan. Zij werden hierop teruggefloten want racisme echter.. als we op zoek zijn naar een islamitische terrorist krijg je er toch wel een bepaald standaard beeld bij. Omgekeerd is het redelijk dat Ahmed beduidend minder kans op een goede baan ondanks dat hij van de uni af komt?
Hoeveel meisjes en vrouwen hebben een minderwaardigheidscomplex door de stereotype meisjes/jonge vrouwen in damesbladen? Je kan zeggen dat het een keuze is om er naar te kijken, dat het niet slim is je er door te laten beinvloeden, etc. etc. maar de waarheid is, denk ik, dat we er allemaal meer of minder beinvloed door worden en dat de gevolgen soms behoorlijk negatief en onverwacht kunnen zijn.
Het gaat hier dan ook niet om dat het niet erg is voor degene die de plaatjes laat maken, maar voor de mensen die de afbeeldingen later gaan bekijken.
Ik vind de stereotypen niet eens zo heel erg, ik bedoel je krijgt wat je vraagt.
Er werd niet gevraagd om stereotypen, en de ene generator produceert meer stereotypen dan de ander. Uit het onderzoek blijkt duidelijk dat verschillende generators verschillende bias hebben.
Je vraagt het AI model om een Nederlander, en het model geneert iets wat het associeert met Nederland. De prompter krijg precies hetgeen waar hij om vraagt. Het hele idee dat je honderd keer kan vragen om "een Nederlander" om een perfecte afspiegeling van de Nederlandse samenleving te krijgen klopt gewoon niet. De AI modellen zijn perfect in staat om afbeeldingen van diverse mensen te genereren, maar alleen als er in het prompt ook wordt omschreven hoe die mensen er uit moeten zien.
Dit soort AI afbeeldingen generators zijn niet bedoelt om statistiek mee te bedrijven en eerlijk gezegd vind ik het een aanfluiting dat een site als Tweakers het tool wel zo probeert te gebruiken...
Je vraagt het AI model om een Nederlander, en het model geneert iets wat het associeert met Nederland. De prompter krijg precies hetgeen waar hij om vraagt. Het hele idee dat je honderd keer kan vragen om "een Nederlander" om een perfecte afspiegeling van de Nederlandse samenleving te krijgen klopt gewoon niet. De AI modellen zijn perfect in staat om afbeeldingen van diverse mensen te genereren, maar alleen als er in het prompt ook wordt omschreven hoe die mensen er uit moeten zien.
Dit soort AI afbeeldingen generators zijn niet bedoelt om statistiek mee te bedrijven en eerlijk gezegd vind ik het een aanfluiting dat een site als Tweakers het tool wel zo probeert te gebruiken...
Maar er wordt juist niet omschreven hoe de mensen er uit moeten zien, dat is het hele punt. Het prompt is met opzet een weinig specifieke vraag. Er wordt niet gevraagd om een "stereotypical Dutch person" maar een "Dutch person". We leven niet meer in de negentiende eeuw, grofweg 99% van de Nederlandse bevolking draagt geen klompen meer, laat staan traditionele kledij. De Nederlandse bevolking bestaat al tientallen jaren voor een aanzienlijk deel uit mensen van kleur, dus het is niet meer dan logisch dat dit ook in de resultaten terugkomt.
Je begrijpt niet hoe deze programma's werken. Als je als prompt "Dutch person" gebruikt dan heeft het programma twee parameters om mee te werken (drie als je de initiële random noise meerekent) en wordt er dus een persoon gegenereerd met (stereotype) Nederlandse kenmerken. Als jij een persoon wilt zien ZONDER Nederlandse kenmerken (i.e. geen molens, klederdracht, huidskleur van de oorspronkelijke bewoners) waarom zou je dan in hemelsnaam "Dutch" in je prompt opnemen?
Precies dit. Geef een persoon drie steekwoorden om een tekening te maken en je krijgt ook een stereotype. Dat is precies wat een stereotype is: een over-gegeneraliseerde projectie.
Ik snap zelf ook niet wat daar zonodig divers en inclusief aan zou moeten zijn, want dat is expliciet iets wat de prompter niet gevraagd heeft.
Het interessante is dat zo'n algoritme eigenlijk juist precies laat zien zonder bias wat wij mensen als materiaal hebben verzameld en gecategoriseerd.
Vervolgens komen er mensen die vinden (al dan niet terecht, maar dat is een andere discussie) dat er een bias moet worden aangebracht in de algoritmes, omdat de spiegel die ons wordt voorgehouden, niet het sociaal wenselijke plaatje schetst (no pun intended).
Je begrijpt niet hoe deze programma's werken. Als je als prompt "Dutch person" gebruikt dan heeft het programma twee parameters om mee te werken (drie als je de initiële random noise meerekent) en wordt er dus een persoon gegenereerd met (stereotype) Nederlandse kenmerken.
Nou, afgaande op de resultaten uit dit artikel is er maar één programma in de selectie waar het resultaat duidelijk stereotiep is. Het is dus toch wat complexer dan je doet voorkomen.
Als jij een persoon wilt zien ZONDER Nederlandse kenmerken (i.e. geen molens, klederdracht, huidskleur van de oorspronkelijke bewoners) waarom zou je dan in hemelsnaam "Dutch" in je prompt opnemen?
Ja, daarom heeft het dus niet bijzonder veel zin om bijzonder algemene prompts te gebruiken. De "Nederlandse" kenmerken reflecteren al een aardige tijd niet meer de realiteit van de Nederlandse samenleving, wat ook blijkt uit de resultaten uit het artikel. Als je stereotiepe beeldtenissen uit vervlogen tijden wilt, dan kan dat prima, zoals Yalopa laat zien, als je meer gerichte prompts geeft, krijg je wel het resultaat dat je wilt.
Deze reactie vond ik interessant genoeg om er 5 min tijd in te steken met Bing.
generate a picture of a group of dutch people:
ik kreeg een foto waar de man vrouw ratio 50/50 was. ik kreeg verschilende haarkleuren. De setting leek uit een 16-18e eeuw schilderij te komen maar toch ook weer niet, eigenlijk kon je er geen tijdvak op plaatsen, er zaten geen mensen van kleur in.
ik was niet erg gelukkig met het resultaat dus ik vroeg om een nieuw plaatje, deze keer gaf ik volgende in:
generate a picture of a group of dutch people in the 21st century
Ik kreeg een nieuwe foto, met 14 mensen, opnieuw een gelijke man vrouw ratio, en deze maal zaten er 3 gekleurde mensen tussen en ook een persoon in een rolwagen..
Op geen enkel momment heb ik expliciet gevraagd om gekleurde mensen, toch kreeg ik ze terug, ik vroeg enkel naar een plaatje uit de 21ste eeuw.
nu was ik ook wel benieuwd wat er zou gebeuren als ik expliciet naar de 19e eeuw zou vragen:
generate a picture of a group of Dutch people in the 19th century
weer een hoop mensen, ongeveer gelijke man vrouw ratio, traditionele kleren, molens en water in het landschap en wat eenden.
mijn conclusie na dit even wetenschappelijk experiment als hetgeen de auteur gedaan heeft..... je krijgt wat je vraagt, en hoe duidelijker je je vraag stelt, hoe beter de kwaliteit.... (hoe meer parameters hoe, gerichter het resultaat)
[Reactie gewijzigd door Yalopa op 23 juli 2024 15:21]
Ik ben het niet met je eens als je zegt dat dit een aanfluiting is van Tweakers. Ik denk namelijk dat heel veel mensen dit op een simpele manier gaan gebruiken en dan is het interessant om te zien hoe goed de resultaten zijn.
Als een journalist of webmaker in een ander land, iemand die niet perse heel goed bekend is met Nederland, een Nederlander bij een artikel wil hebben (bijv. omdat Nederland in het nieuws is) en zo'n vraag stelt, dan is het interessant om te weten wat er zoal uitkomt. En ik vermoed dat een groot gedeelte van de AI zo gebruikt gaat worden...
Natuurlijk heb je gelijk dat je AI goed moet prompten om er echt goede resultaten uit te krijgen: dat toont deze test dan ook heel duidelijk. Maar wat je niet moet vergeten is dat je wel de kennis moet hebben over dat onderwerp wil je goed kunnen prompten en, in dit stadium waarschijnlijk belangrijker, de kennis om een relevante selectie te maken van wat eruit komt (al zal het iedereen wel lukken met de honden :-)
[Reactie gewijzigd door CompFrans op 23 juli 2024 15:21]
Je kan er juist alle kanten mee op. En dat dit niet gebeurt is juist het probleem. Een result dat "all over the place is" dwingt de gebruiker namelijk tot een specifiekere opdracht.
[Reactie gewijzigd door Luit op 23 juli 2024 15:21]
Ik denk dat je daarin wel gelijk hebt, en dat de reactie van GPT-4 (die weigert om "een Nederlander" te genereren) eigenlijk de beste manier is om dit "verkeerde" gebruik van de generators te voorkomen. Helaas kwam het punt wat je maakt totaal niet uit de tekst naar voren.
Precies dit. Craiyon lijkt zelfs schilderijen van Nederlandse schilders als bron te gebruiken. Te zien aan het eerste plaatje daarvan maar ook in de gegenereerde foto's zijn vele ogen en monden precies zoals de schilders ze hebben geschilderd.
Het zou overduidelijk moeten zijn dat een tool die specifiek met uiterlijke kenmerken moet werken niet veel kan met een prompt als nationaliteit of bijv. religie.
Als experiment is het wel grappig natuurlijk, omdat het iets zegt over de data.
Het probleem is dat het eerste 'onderzoek' lijkt te willen sturen naar een 'wat zijn we toch weer slecht bezig' houding met uitspraken als dat het niet de diversiteit representeert en allemaal wel heel erg westers georiënteerd is.
Het resultaat is, of zal zijn, dat er algoritmes worden gemaakt om die 'stereotypering' te voorkomen om een politiek correcte representatie te geven net zoals nu al gebeurt in zoekmachines.
Het is ook maar de vraag in hoeverre zo'n AI moet gaan interpreteren wat iemand wil zien of te zien moet krijgen. Misschien wel aan de hand van iemands zoekgeschiedenis.
Tenzij een specifieke melding van nationaliteit, ras, seksualiteit, religie o.i.d. van belang is voor wat er getoond wordt en er dus eigenlijk om stereotypes gevraagd wordt zouden dat soort termen als prompt helemaal niet gebruikt moeten worden.
Zeker niet om te polsen of de tool wel politiek correct is.
Je vraagt het AI model om een Nederlander, en het model geneert iets wat het associeert met Nederland. De prompter krijg precies hetgeen waar hij om vraagt. Het hele idee dat je honderd keer kan vragen om "een Nederlander" om een perfecte afspiegeling van de Nederlandse samenleving te krijgen klopt gewoon niet.
Geen enkel resultaat is goed, als de vraagt niet correct is. "Nederlander", kan je helemaal niks mee.
Uit de resultaten blijkt dat de output juist niet alleen afhankelijk is van al dan niet vage input.
Als elk vd generators zeer diverse resultaten zou leveren, bvb allemaal iets met klompen, molens en tulpen en daarnaast ook minder stereotypische output, en allemaal divers qua geslacht, leeftijd en etniciteit, dan kan je concluderen dat dat aan de vage input ligt, en dat de generators geen bias hebben.
Maar ze produceren op basis van vage input onderling sterk verschillende resultaten met elk in meer of mindere mate een specifieke bias. En er is welgeteld één generator die zegt dat ie er niets mee kan en vervolgens geen afbeelding produceert.
Dit soort AI afbeeldingen generators zijn niet bedoelt om statistiek mee te bedrijven
Niet statistiek mbt bevolkingsonderzoek oid en dat is hier ook niet gedaan, maar je wel degelijk statistiek bedrijven mbt de generators zelf. En daaruit blijkt dat die elk een specifieke bias hebben.
Erg interresant van adobe firefly is juist dat de kleding zo erg afwijkt van wat wij zien als een Nederlands persoon. Dit kan "domme AI" zijn maar kan ook vertellen dat ons eigen stereotype van Nederland niet overeenkomt met bijvoorbeeld die van Amerika... Een "Dutch Person" kan een Nederlander uit Europa zijn maar in de Amerikaanse geschiedenis zou het net zo goed een kolonist van Nederlandse afkomst zijn, dan is de outfit opeens een stuk minder gek.
Wat een waardeloze test. Het is alsof Tweakers bij alle bouwmarkten zagen heeft gekocht om te kijken met welke ze het beste kunnen timmeren...
Als je in het prompt vraagt om "een Nederlander" WIL je juist dat de persoon op je afbeelding iets NEDERLANDS heeft. Of dat nou traditionele klederdracht, de etniciteit van de (oorspronkelijke) bewoners of een molen op de achtergrond is zal afhankelijk zijn van de training van het model. Als je een willekeurig "blonde vrouw met baret en appel" of "lachende zwarte man in roze pak" had gewild had je dat wel in je prompt gezet!
Hoe zo? Ze hebben bij verschillende generators eenzelfde opdracht gegeven en de resultaten naast elkaar gezet. Je ziet dan dat de AI gebruik maakt van algoritmes die bij de ene en andere generator meer of minder stereotype beelden creëert en daarbij in veel gevallen veel schilderijen gebruikt worden die een raar beeld geven. Je krijgt dan schilderijen als resultaat of mensen in klederdracht. Maar ook veel tulpen, kanalen, fietsen en mensen in kleding met vlaggen omdat Amerikanen kleding met hun vlag erop dragen? Ik vind de resultaten op een enkel geval na echt erg slecht, er is zoveel training nodig om de juiste context te creëren en daar heeft de AI zelf nog een lange weg te gaan.
Je krijgt een stereotype omdat je letterlijk vraagt om een stereotype (een Nederlander in dit geval). Alle afbeeldingen waar niet iets typisch "Nederlands" aan is zijn niet als "Nederlands" getagd of herkend bij het trainen van deze modellen en hebben dus geen invloed gehad op de "kennis" die het AI model heeft van het begrip "Nederlander". Deze programma's zijn perfect in staat om allerlei soorten mensen weer te geven, maar enkel als daar om wordt gevraagd.
Volgens mij snap je zelf de essentie van de test en de vraag-/probleemstelling niet.
Niet iedere Nederlander woont in of naast een molen en is een blonde, blanke dertiger van specifiek één en hetzelfde geslacht.
Van een AI is juist te verwachten dat het systeem bij een dergelijk algemene vraagstelling dus niet met een gemiddelde komt, maar met een breed antwoord. Eigenlijk dus vooral zoals ChatGPT het beantwoordt maar dan in een breder scala van afbeeldingen, niet in een enkel gemiddeld en mogelijk stereotyp beeld constant herhaald.
Op dat laatste vlak scoren alle AI’s behoorlijk slecht: standaardafwijking. Iedere set lijkt prat te gaan op z’n eigen interpretatie en zich hier vol op te richten, alszijnde met oogkleppen voor niet-incorrecte creaties die een standaardafwijking, laat staan 2, verwijderd zijn van het gemiddelde plaatje.
Als een AI dus bij een dergelijk algemene vraag geen breed antwoord kan geven, maar enkel een zeer op een (stereotype) gemiddelde gefocusseerde, is het systeem dus simpelweg niet intelligent te noemen. Dat is hier getest, en dat is waar het gros dus bij door de mand is gevallen.
En volgens mij snap jij ook niet wat hij bedoelt. Als een AI plaatjes van willekeurige mensen laat zien, is er niks "Nederlands" meer aan. Als jij zo'n plaatje ziet, zonder de prompt te kennen, moet je er nog steeds een Nederlander in kunnen herkennen.
Neem bijvoorbeeld Firefly 2, 2/7, meest rechter plaatje. Als je die ziet zonder context, denk je dan "oh ja, dat is een Nederlandse"? Ik niet hoor. Wellicht woont ze in Nederland, dat zou best kunnen. We hebben hier genoeg mensen wonen die er zo uit zien. Maar dat kan ik niet uit het plaatje opmaken. Mensen die er zo uit zien hebben ze over de hele wereld.
En dat is juist waar het wel om zou moeten gaan. Je wilt een plaatje die een bepaalde herkenning geeft, en daar falen de meeste AI's compleet in. Dan is Dall-E 3 wellicht nog wel de beste, want al die plaatjes geven meteen een Nederlands gevoel, ook al ken ik niemand die in een molen woont, klompen draagt en tulpen teelt.
Dus ja, als ik een AI vraag om plaatjes van een Nederlander, zonder verdere specificatie, verwacht ik blanke mensen met iets Nederlands ter herkenning (want blanke mensen heb je in heel Europa, dus hoe onderscheid je een Nederlander van een Duitser of Belg?). Wat dat betreft vond ik die fietsen nog best goed. Want de gemiddelde Nederlander draagt geen klompen en heeft geen veld vol tulpen, maar er zijn best veel Nederlanders met een fiets, en we staan er ook internationaal om bekend veel te fietsen. Op basis van deze voorbeelden vind ik Firefly 1 de winnaar, met set 2/7. Typisch Nederlandse personen in een Nederlands ogend landschap, met een fiets. Je herkent ons land meteen, zonder de prompt te kennen. Dreamstudio doet het ook niet slecht (veel achtergronden in typisch Nederlandse steden, goed gedaan), maar ik vind de gezichten er heel vreemd uit zien. Vooral de mond is echt raar.
Als ik graag een stereotype of cliché wil krijgen, dan zal ik expliciet aangeven dat dat is wat ik wil zien. Als ik graag voorwerpen in m'n afbeelding wil, geef ik dat aan in m'n query. Wanneer een AI dit standaard weergeeft, consequent, dan is dat geen representatieve weergave van "een Nederlands persoon", noch een inhoudelijk correct antwoord van mijn vraag.
Weinig maatschappijen zijn zo divers als de Nederlandse, aan dat feit voorbij te gaan toont een inherente zwakte in de intelligentie van de AI.
Zoals gezegd schort het wat aan het zelfbewustzijn van de AI in hoe met bepaalde algemene vragen om te gaan. Zo zou in dit geval dus duidelijk gemaakt moeten worden of in de gevraagde "A Dutch Person" Dutch als ethniciteit geïnterpreteerd dient te worden, of als nationaliteit. Qua ethniciteit zijn een groot deel van de plaatjes namelijk een redelijke afspiegeling. Dat we daarin lijken op Duitsers, Belgen of Zuid Afrikaanse Boeren is ook geen probleem, dat maakt het antwoord niet minder correct namelijk. Een flink stuk semantiek, maar daar ontkom je niet aan bij dergelijke niet-eenduidige queries.
Van een intelligente entiteit mag je eigenlijk een wedervraag verwachten zodat de getoonde resultaten het beoogde doel beter benaderen. Dat juist die intelligentie ontbreekt in vele AI's, wordt hier dus wel vrij duidelijk aangetoond.
Simpel voorbeeld: Als je naar de bakker gaat en vraagt om een taart, wat verwacht je dan?
1. Je krijgt een slagroomtaart
2. De bakker toont je 5 slagroomtaarten, de ene met mandarijntjes, de ander met chocoladevormpjes, etc.
3. De bakker toont je een slagroomtaart, een appeltaart, diverse vlaaien en meldt tevens dat er op bestelling nog veel meer mogelijk is
Wat je in essentie hier vraagt is dat ongeacht van hoe jij je prompt aanlevert, de image generator moet kunnen raden hoe jij wil dat, dat plaatje eruit ziet. Je vraagt om een plaatje van een Nederlandse vrouw, maar eigenlijk wil je een plaatje waaraan op geen enkele manier af te lezen valt dat het een Nederlandse vrouw is, en bijvoorbeeld niet een Belgische of een Duitse vrouw.
Dat gaat nooit gebeuren tenzij je de image generator toegang geeft tot elektrodes in je brein.
Je zal dan simpelweg je prompt moeten aanpassen, vraag om een plaatje van een West-Europese vrouw, dan zal je resultaat een stuk dichter liggen bij wat je zoekt.
Voeg jij Nederlands toe, dan zal de image generator karakteristieken toevoegen waaraan te zien is dat het om een Nederlandse vrouw gaat. Aangezien de gemiddelde Nederlandse vrouw qua uiterlijk niet te onderscheiden is van een gemiddelde Belgische of Duitse vrouw, zal het hoogstwaarschijnlijk in de achtergrond gaan zitten of de kleding van de vrouw en dat is wat je ziet.
Als je niet wil dat een bepaalde eigenschap tot uiting komt in een plaatje, dan moet je hem ook niet noemen.
Dat iemand er west-Europees uitziet, is een eigenschap van een Nederlands persoon. Het antwoord is daarmee wellicht minder specifiek dan dat wat iemand die in stereotypen denkt, verwacht, maar daarmee niet incorrect. Dat de getoonde persoon ook een Vlaming of Deen had kunnen zijn, maakt het getoonde beeld daarom niet minder Nederlands uitziend.
Een typisch west Europees (qua ethnische achtergrond dan, niet qua burgerschap) persoon tonen met extra attributen in de vorm van een kenmerkende achtergrond, voorwerpen en eventueel klederdracht, is een minder accuraat antwoord omdat de AI dus aannames doet dat er meer gevraagd is dan enkel "een persoon."
Technisch gezien levert de AI daarmee dus niet wat er is gevraagd. De afbeeldingen waarin enkel een persoon worden getoond zijn daarin dus technisch bekeken een accurater antwoord, ook als in dat geval slechts consequent een blanke blonde dertiger wordt getoond.
Oneens, de image generator levert precies waar om wordt gevraagd, het is alleen niet waar jij specifiek naar op zoek bent.
Het is echter heel goed mogelijk dat een ander persoon die precies dezelfde prompt invult als jij juist wel het woord Nederlands heeft toegevoegd aan de prompt omdat hij wil dat dit tot uiting komt in het plaatje.
Misschien is het wel een eigenaar van een reisbureau die een plaatje zoekt voor een advertentie voor reizen naar Nederland, die heeft dan helemaal niks aan een plaatje wat net zo goed een vrouw uit bijna elk ander West-Europees land zou kunnen zijn.
Je moet de image generator vertellen wat je wil, en je moet duidelijk zijn in wat je wil, en geen dingen toevoegen die je niet wil zien, zo simpel is het.
Dat is overigens niet heel anders dan bij mensen.
Ik kan je garanderen dat als je naar 10 menselijke schilders zou gaan en zou vragen om een schilderij van een Nederlandse vrouw, en verder geen enkele uitleg geeft, dat 9 van de 10 schilders op 1 of andere manier tot uiting zullen brengen in het schilderij dat het specifiek om een Nederlandse vrouw gaat.
Je moet de image generator vertellen wat je wil, en je moet duidelijk zijn in wat je wil, en geen dingen toevoegen die je niet wil zien, zo simpel is het.
Dat is ook gedaan. Er is gevraagd om een persoon, een Nederlands persoon.
Niet om "A Dutch retired person with bicycle in typical landscape", "A Dutch renaissance painter portrait" of "a Dutch blonde hipster vagabond in shopping street". Om over Bing maar te zwijgen natuurlijk.
Als de eigenaar van een reisbureau dus een meer gericht beeld wil in plaats van dat van een algemeen Nederlands ogend persoon, heeft de reisbureaumedewerker de query dus te verduidelijken met aanvullende criteria zoals het landschap (polder, Amsterdam of Rotterdam is nogal een verschil).
De enige die dus ongevraagd dingen toevoegt aan hetgeen gevraagd is, zijn bepaalde image generators. Niet ik.
Wat de Nederlandse schilder betreft: Zie voorbeeld bakker en taart.
Er worden niet ongevraagd karakteristieken toegevoegd, jij hebt om die karakteristieken gevraagd.
Waarom voeg je het woord Nederlands toe, als je op geen enkele manier wilt kunnen zien dat het om een Nederlandse vrouw gaat?
Je denkbeeld over hoe een image generator werkt is simpelweg verkeerd.
Je vertelt een image generator letterlijk wat je wil zien in het plaatje, jij zegt dus ik wil zien in dit plaatje dat het een Nederlandse vrouw is. Maar vervolgens klaag je dat je eigenlijk een vrouw wil zien die ook best Duits, of Belgisch zou kunnen zijn. Dan had je minder specifiek moeten zijn in je opdracht.
Wat de bakker en de taart betreft: je vraagt hier specifiek om een slagroomtaart, maar wat je eigenlijk wil is een taart, dat mag ook wel een appeltaart zijn of een slagroomtaart.
Dat is precies hoe een image generator werkt, als je vraagt om een plaatje van een vrouw zal je een divers scala aan voorbeelden krijgen (bij Midjourney krijg je bijvoorbeld 4 verschillende plaatjes per prompt).
Vraag je om een Nederlandse vrouw, dan maak je het specifieker en zal de variatie tussen de vier plaatjes afnemen.
[Reactie gewijzigd door Rixos op 23 juli 2024 15:21]
Nee, dat het plaatje representatief is voor Nederlands persoon.
Of wat t misschien ook kan doen is doorvragen. Van welk Nederlands persoon bedoelt u? Uit welk jaar, van welk gezinte, welk sexe.
Weinig maatschappijen zijn zo divers als de Nederlandse, aan dat feit voorbij te gaan toont een inherente zwakte in de intelligentie van de AI.
Klopt, onze maatschappij bevat tegenwoordig zowat alles wat je op de wereld kunt vinden. Maar dat kun je niet weergeven in een plaatje met "een Nederlander". Dan zou je om een plaatje van "een groep Nederlanders" moeten vragen. Dat is dus ook geen zwakte in een AI, maar een inherente beperking van de vraagstelling. Als je verwacht een plaatje te krijgen van hoe divers onze samenleving is, met de vraag om "1 Nederlander", stel je de verkeerde vraag. Wat zou je dan wel verwachten? Een lapjeskat-persoon die meerdere kleuren heeft, meerdere geslachten, etc?
Je moet uiteindelijk ergens voor kiezen, of het nou een AI-gegenereerde afbeelding is, of iets wat een persoon zelf heeft gefotografeerd. En om dan te kiezen voor het meest voorkomend, of het meest stereotyperend, is niks mis mee. Dat is juist het meest representatief. Niet als afspiegeling van de gehele bevolking, maar wel als voorbeeld van hoe een Nederlander er al honderden jaren uit heeft kunnen zien. Wat zou je zelf als foto nemen als je afbeelding wilt van 1 Nederlander, die ook nog herkend moet worden als Nederlander? Een vrouw met een hoofddoekje in een flat, of een blanke man op een fiets naast een plat grasveld? Beide komen genoeg voor in dit land, maar de laatste ziet er meer Nederlands uit, omdat de eerste ook 1000km verderop kan wonen.
Maar wat dat betreft is de reactie van ChatGPT4 wellicht nog de meest correcte. De vraagstelling is te vaag, de prompt moet meer specificatie bevatten. Ik kan me echter voorstellen dat de meeste mensen gewoon iets willen zien, en niet 20 vragen willen beantwoorden voordat ze iets krijgen.
Dat klopt, het is ook gewoon een erg lastig op te lossen puzzel, waarom het ook goed is dat een artikel zoals hier de tekortkomingen van de huidige stand der techniek blootlegt.
Je query gedetailleerder maken is een workaround, maar geen oplossing voor het feit dat AI's niet bepaald zelfbewust zijn betreffende het feit dat er toch wel behoorlijke clichés naar voren komen en het getoonde voorbeeld inderdaad wel typisch is, maar niet representatief. Al doe ik daar de resultaten bij Adobe Firefly 2 en Dal-E 2 wel tekort.
Wat ik uit de test niet afleiden kan is of men bij een enkele query dus meteen 4 of 9 afbeeldingen gepresenteerd krijgt. Of dat dit door Tweakers bij elkaar geplakte individuele resultaten zijn.
Zoals gezegd schort het wat aan het zelfbewustzijn van de AI
Het mag dan AI worden genoemd, maar de image generators en LLM's die we momenteel hebben zijn op geen enkele manier intelligent of zelfbewust.
Als je in je prompt vraagt om "Dutch" dan krijg je ook "Dutch", en het enige onderscheid wat de AI kan maken tussen "Dutch" en "not-Dutch" zijn stereotype kenmerken.
Om je eigen voorbeeld er bij te pakken: je vraagt de bakker om een taart en wordt vervolgens boos als hij met een slagroomtaart aan komt zetten, in plaats van gewoon te specificeren dat je eigenlijk een appeltaart wilt.
Vraag aan DALL-E3 om plaatsen of situaties met 'nederlanders' en je krijgt gewoon een divers gezelschap. Het is alleen wanneer je specifiek om een enkele Nederlander vraagt dat je steevast een blank iemand krijgt.
Dat laatste is weliswaar stereotiep maar, zoals @ErikT738 betoogd, is dat naar mijn idee ook precies waar je dan om vraagt.
Dat argument werkt in sommige gevallen, en je hebt een punt dat als je om iets Nederlands vraagt, de AI ook logischerwijs Nederlandse elementen wilt opnemen.
Dit argument werkt alleen niet in veel andere gevallen. Als je bijvoorbeeld 'asian woman' op geeft, krijg je veel lichtere huidtinten dan de werkelijkheid. Als je zoekt op 'filthy beggar' zal het model zo goed als nooit vrouwen genereren. Zoek je op 'a nurse', dan zal het model juist weer niet met mannen komen.
Is dat vanwege bepaalde vooroordelen vanuit de bestaande maatschappij? Absoluut en uiteraard.
De vraag is alleen of we een AI moeten trainen op onze eigen vooroordelen, of deze juist tegen moeten gaan. Als we als maatschappij hard gaan leunen op dit soort tools, dan gaan ze zichzelf alleen maar versterken, en komen we in een vicieuze cirkel waarbij zaken steeds meer op elkaar gaan lijken. Maar aan de andere kant, als we de AI gaan corrigeren, dan zijn de bedrijven die de correcties maken weer de baas over wat we zien.
Ik vraag me af of een stereotypering wel als zo onwenselijk beschouwd moet worden, de zoekopdracht vraagt lettelijk om een (stereo)typische Nederlander. Als je de demografisch meeste gemiddelde Nederlander eruit pikt, dan is dat per definitie een stereotypering. Nog altijd blond. halverwege de 40, heet Jan of Sandra, heeft 1,8 kinderen, 1,2 fietsen en woont in Deventer en dan vast ook nog iets met bitterballen en blokjes kaas.
Als je daar dan weer bewust van gaat afwijken, dan ga je elementen invoeren die dan weer niet typisch Nederlands zijn.
Stereotypering is gebaseerd op simplistische (en daarmee soms onnauwkeurige) generalisaties over bepaalde groepen mensen. Echter als je een mediaan pakt dan kom je ook uit bij diezelfde generaliseringen. Daarom maakt het ook verschil als je zoekt op 1 Nederlander, of 100 verschillende Nederlanders.
Ik denk wel dat het aantal generaliseringen bij AI omhoog moet, met alleen tulpen, kaas en molens kom je er niet.
Desondanks denk ik dat als je om de beschrijving van 'één Nederlander' vraagt, je vrij onvermijdelijk op gemiddelden, medianen en algemeen veel voorkomende aspecten uitkomt, wat per definitie dan ook een stereotypering is.
Zoals je terecht opmerkt, de gemiddelde Nederlander heeft 1.8 kinderen. Daarom moet je voor dit soort statistiek niet het gemiddelde gebruiken, maar de mediaan. De mediaan is vrouw, 40, 1 fiets, 2 kinderen, blank, woont in Amsterdam en heet Mohammed (alhoewel die specifieke combinatie weer niet zo gangbaar is . De variabelen zijn bepaald niet onafhankelijk)
Mijns inziens moet je dergelijke functionaliteit niet toe willen in een programma wat afbeeldingen genereert op basis van een gegeven prompt. Hoe zou je dit überhaupt voor je zien? Moet het model per land weten hoe de bevolking is samengesteld en daar met honderd prompts een representatieve weergave van kunnen genereren? Of moet er voor elke persoon een dobbelsteen worden gerold voor huidskleur, haardracht, leeftijd, geslacht en dergelijke ongeacht van wat er in het prompt staat, met volstrekte willekeur tot gevolg? Wat is nog het punt van vragen om "een Nederlander" als er ongeacht de nationaliteit een willekeurig persoon wordt gegenereerd? Ik ben geen voorstander van het censureren en dichttimmeren van AI modellen, maar dit soort niet-specifieke prompts zouden eigenlijk moeten worden geweigerd.
Want als je om een Nederlander vraagt dan vraag om een stereotiep? Dat is echt onzin. Oftewel als de output zo afhankelijk is van de input zit er blijkbaar niet al teveel intelligentie in.
Het ligt er maar net aan welke weights aan "Dutch" en "Person" zijn verbonden in de training en of er onder de motorkap nog meer dingen gebeuren (aan Dall-E 3 zit bijvoorbeeld ook een LLM verbonden om prompts beter te interpreteren, als ik het me goed herinner).
Natuurlijk zijn het de weights die de bias verklaren. Dat doet er niet aan af dat ze bias hebben en verschillende generators verschillende bias hebben.
Buiten nog heel veel training, is het ook een kwestie van de juiste vraag stellen.
En tijd ... mensen vergeten hier de tijd. Nederland is in de afgelopen jaren ontzettend is veranderd. 200 jaar geleden waren onze zuiderburen ook gewoon Nederlanders. Tot 100 jaar geleden werd de maatschappij gedomineerd door mannen. (Massa) Migratie is ook pas iets van de laatste 60 jaar.
Als je in het prompt vraagt om "een Nederlander" WIL je juist dat de persoon op je afbeelding iets NEDERLANDS heeft.
Waarom vul je dit voor iedereen hier in? Misschien willen we wel helemaal niet een kaaskop in klederdracht met windmolens? Ik denk dat ChatGPT het best mooi verwoord op de eerste pagina. Als je dat zo graag wil, kun je dat het beste zelf invullen en specificeren.
Deze test is inderdaad beperkt, maar ik denk dat het wel goed laat zien hoe het woordje "Dutch" gebiased is. Dat je misschien in een specifieke situatie klederdracht en windmolens wil, betekent niet dat je wil dat de tokens in het woord "Dutch" vrijwel uitsluitend daarnaar verwijzen. Dat zou namelijk betekenen dat je, in elke tekst, opdracht of stuk waar het woordje of de eigenschap "Dutch" naar voren komt, je alleen nog maar tulpen en windmolens krijgt.
Het lijkt me júist goed als dat AI, wanneer het bijvoorbeeld wordt gebruikt om teksten te analyseren of stockfoto's te genereren bij een (nieuws)artikel dat toevallig het woordje "Nederlands" bevat maar helemaal niet gaat over windmolens, witte mensen of tulpen, dat het AI-model dan weigert om de stereotypen weer te geven.
Sterker nog, de limitaties en ergenissen van veel gebruikers bij de eerste generaties afbeeldings-generatoren liggen bij het feit dat die modellen alleen nog maar 1 enkel ding genereerden als je een bepaald woord of term gebruikte.
Verder, is de test misschien wat ongelukkig gekozen, want er kunnen situaties zijn waarin je stereotypen wil genereren. (Al vraag ik me oprecht af of dat uiteindelijk wel echt wenselijk is) - maar wat als Tweakers dezelfde test had uitgevoerd met "autistisch persoon" in plaats van "Nederlander"? Had je dan ook gezegd dat je JUIST WIL dat de modellen uitsluitend witte jonge jongens genereerd met rood haar?
Omdat je toevallig een casus kunt bedenken waarin je het ongewenste gedrag als gewenst ziet, betekent niet dat we dit gedrag moeten aanmoedigen. Zoals ChatGPT zei: Als je een stereotypische vrouw met klederdracht in de tulpenweilanden wil, dan vraag je aan je afbeeldingsgenerator om een stereotypische vrouw met klederdracht in de tulpenweilanden. En niet om een "Nederlander".
Maar je hebt je eigen vraag geniaal genoeg al beantwoord:
Als je een [x, y, z] had gewild had je dat wel in je prompt gezet!
[Reactie gewijzigd door Helium-3 op 23 juli 2024 15:21]
Waarom vul je dit voor iedereen hier in? Misschien willen we wel helemaal niet een kaaskop in klederdracht met windmolens?
Zoals aangegeven, dan moeten ze daar niet in hun prompt om vragen. De AI is ongetwijfeld ook getraind op talloze niet stereotype foto's van Nederlanders, maar deze zijn niet van invloed op het begrip "Nederlander" omdat er geen manier is om de mensen in de foto als Nederlanders te herkennen.
ChatGPT doet het inderdaad goed door een vaag prompt met enkel een nationaliteit te weigeren. De enige mogelijke uitkomst van een dergelijk prompt is een stereotype.
Edit - Eigenlijk zegt Tweakers het ook al; garbage in, garbage out.. Met een slecht prompt als input krijg je ook slechte resultaten.
[Reactie gewijzigd door ErikT738 op 23 juli 2024 15:21]
Als je een stereotypische vrouw met klederdracht in de tulpenweilanden wil, dan vraag je aan je afbeeldingsgenerator om een stereotypische vrouw met klederdracht in de tulpenweilanden. En niet om een "Nederlander".
Maar hoe herken je dan dat de generator een 'Nederlander' heeft gegenereerd? Er zijn Nederlanders die van origine Aziatisch, Afrikaans of Zuid-Amerikaans zijn. Wil dat zeggen dat de generator dus een willekeurig persoon kan genereren als je om een Nederlander vraagt?
Een gegenereerde afbeelding van een persoon met een Afrikaans uiterlijk zou best een Nederlander kunnen zijn, maar als je de afbeelding aan willekeurige mensen over de wereld toont, zal de meerderheid niet inschatten dat het een Nederlander is. Voor de afbeeldingen die Bing genereert is dat wel het geval verwacht ik. Is het de Bing generator dan niet beter gelukt een afbeelding te genereren waarop herkenbaar een Nederlander te zien is?
Als ik kijk naar de afbeeldingen van OpenAI Dall-E 2 dan voelen (mening, dat wel) een heel aantal van die mensen wel aan als Nederlands. Een Duitse huisgenoot van mij heeft wel eens een opmerking gemaakt dat sommige Nederlandse vrouwen een heel "Nederlands" gezicht hadden en zeker als ik naar die afbeeldingen kijk, "herken" ik een groot aantal van die mensen ook als Nederlanders. Waarom? Geen idee to be honest.
Als ik kijk naar Stability.ai Dreamstudio (zeker reeks 2 en 5) dan voelen de achtergronden wel echt aan als een straat in een typisch Nederlandse stad, maar de mensen voelen niet Nederlands. Als je mij zou zeggen dat het vakantiefoto's van bijvoorbeeld Amerikanen waren, zou ik het ook geloven (afgezien van het feit dat je best kan herkennen dat het gegenereerde afbeeldingen zijn natuurlijk).
Adobe Firefly is voor mij hit and mis. De tweede reeks en de tweede en vierde foto van de eerste reeks voelen wel weer een beetje aan als Nederlanders. De omgeving klopt ook wel als een Nederlands landschap. De rest van de reeksen zijn wel echt garbage, maar die ik opnoemde voelen wel als Nederlanders zonder stereotiepe zooi erbij te betrekken.
ETA Adobe Firefly 2 vergeten. Op de random honden en cowboys na zie ik daar een verbetering TOV Firefly 1. Ze voelen redelijk als Nederlanders, zelfs de niet stereotiepe blanke mensen voelen als Nederlanders, omdat ik ze in de reeks vind passen.
[Reactie gewijzigd door Joe28965 op 23 juli 2024 15:21]
Een Duitse huisgenoot van mij heeft wel eens een opmerking gemaakt dat sommige Nederlandse vrouwen een heel "Nederlands" gezicht hadden en zeker als ik naar die afbeeldingen kijk, "herken" ik een groot aantal van die mensen ook als Nederlanders. Waarom? Geen idee to be honest.
Dat is gewoon genetica. Lang geleden bleven mensen veelal generaties lang in hetzelfde gebied wonen, waardoor je nationale en regionale genen-poolen had. Dat uit zich ook in fysieke kenmerken. Je kan/kon niet alleen Nederlanders herkennen, maar ook provincies.
Let wel, het word steeds minder, omdat we makkelijker verplaatsen en meer migreren.
Ja natuurlijk, dat is precies het punt wat ik probeer te maken. Sommige van die AI afbeeldinggenerators genereren wel degelijk goed "Nederlanders" (in mijn mening), omdat ze de fysieke genetische kenmerken van Nederlanders goed vast leggen, zonder dat de afbeeldingen klompen/kaas/molens nodig hebben.
Het gaat niet om wat IS, maar om wat de AI heeft geleerd. Bij het trainen moet een afbeelding worden herkend (of handmatig getagd) als "Nederlands" om de AI te leren wat "Nederlands" is. Als er echter niets stereotype "Nederlands" aan een foto is zal deze ook niet bijdragen aan het begrip "Nederlands", ondanks dat er wellicht Nederlandse mensen op de foto staan of dat de foto in Nederland is genomen.
Je kan beter omschrijvingen gebruiken van hoe iets er uit hoort te zien, en niet van wat iets daadwerkelijk is.
Nee, alhoewel je reacties hier grotendeels correct zijn, loop je hier toch alweer achter. Het is al voldoende als de foto's lijken op andere foto's, en dat sommige van die foto's getagd zijn als Nederlands.
Taggen (of annoteren) is een dure activiteit, en alle AI spelers proberen zo slim mogelijk om te gaan met een beperkte hoeveelheid annotaties. "Semi-unsupervised Learning" is relevanter dan ooit.
Ik ben het volledig met je eens. Daarnaast, wanneer met image generators gewerkt wordt, had ik eerder verwacht van Tweakers dat ze verdiepend gingen kijken naar stable diffusion en eventueel laten zien hoe een eigen model gemaakt kan worden dan dat er gebruik wordt gemaakt van (commerciele) diensten waarbij zelfs de prompts niet gelijkwaardig zijn.
De test zelf is prima. Over de manier waarop die is "geanalyseerd" kan je van mening verschillen.
Natuurlijk wil je wel enige stereotypering terugvinden als je om plaatjes met iets Nederlands vraagt. Een hond als "persoon" of plaatjes die meer uit Mexico of het Wilde Westen lijken te komen wijzen eigenlijk meer hoe slecht de verschillende AI generators omgaan met de vraag. Of de interpretatie is slecht, of bij de training is er onvoldoende aandacht besteed aan de beschrijving van de plaatjes. Helaas heeft dat var weinig aandacht gekregen. Wat mij betreft is een resultaat wat niet aansluit op de vraag een heel groot minpunt.
Ik vind het vrijwel ontbreken van verschillende huidskleuren best wel schokkend. Ook de 2 programma''s die het een klein beetje gebruiken zou ik daarom veel lager scoren dan Arnoud nu heeft gedaan.
Stel je voor dat het omgekeerd zou zijn en de programma's vrijwel uitsluitend mensen met een donkere huidskleur zou tonen. Ik denk dat daar al heel snel commentaar op zou komen.
Maar waar trekken ze de grens dan? Als ik vraag voor een typische persoon uit Congo mag ik dan ook blanke personen verwachten?
Mensen neigen sowieso al naar stereotypes. Als je aan buitenlanders vraagt: "geef me 3 zaken die je aan Nederland doet denken". Dan zullen de meeste zeggen klompen, tulpen en windmolens. Hier is ook niets mis mee vind ik persoonlijk.
Als je stereotypes wilt uitsluiten dan zou je in deze tijd geen onderscheid meer mogen maken. Geen huidskleur noch geslacht alsof er geen landen bestaan. En dan zou de persoon die zoekt in eerste instantie al niet naar een stereotype moeten zoeken. Zoek naar "persoon" in plaats van "Nederlandse persoon" als je geen stereotype wilt vinden.
Als een AI een zekere vorm van intelligentie zou bezitten, zou ik verwachten dat het dus herkent en belangrijker nog, erkent, dat de vraagstelling zeer generiek is en er daardoor een breed scala aan antwoorden mogelijk is. En dat het dit in de resultaten reflecteert.
Van Zuid-Afrika zou ik ook zeker verwachten dat de blanke bevolking er getoond wordt, net als dat voor een Keniaans persoon er niet alleen Masai worden getoond, maar ook gewoon overige Afrikaanse mensen en personen van Indiase komaf.
Het hoeft geen Netflix/Power Rangers/Captain-Planet interpretatie te worden, maar als Nederland werkelijk zo homogeen was als getoond, kon Geert vandaag nog met pensioen.
De AI herkent dat Tweakers om een Nederlandse persoon vroeg. Dat woord heeft betekenis. Dat is fundamenteel aan een LLM, woorden hebben betekenis. Dan mag je verwachten dat de AI het woord niet strak negeert, en een beeld produceert van een persoon die vrijwel zeker niet uit Nederland komt. Want vergeet niet, de statistiek werkt twee kanten op. Niet alleen zijn de meeste Nederlanders geen aziaat, de meeste aziaten zijn ook geen Nederlander.
Als een AI een zekere vorm van intelligentie zou bezitten,
En vanwege datgene wat MSalters hierboven al aangeeft, zou een echt persoon die dus echte intelligentie heeft ook dezelfde antwoorden met die stereotypen geven. Waarschijnlijk dichter bij de Bing antwoorden dan de rest.
Ik dacht even om een antwoord te vinden die dit kon uitleggen, maar jij hebt dit hier meer dan prima verwoord!
Persoonlijk vind ik stereotypes gebonden aan een land ook niet zo erg. Hier in Belgie zal het dan manneken pis, bier en friet zijn. Ook zijn de meesten nu eenmaal blank volgens de statistieken.
Dat stereotype klopt gewoon en aangezien AI kijkt naar data dan is de kans ook groot dat dergelijke beelden als resultaat verschijnen.
Wil je iets anders zien? Dan vraag je dit er gewoon bij en het probleem is opgelost.
Ook staat AI nog altijd in de kinderschoenen.
Maar waar trekken ze de grens dan? Als ik vraag voor een typische persoon uit Congo mag ik dan ook blanke personen verwachten?
Er werd niet gevraagd om een "typische" persoon, er werd ook niet maar één afbeelding gevraagd. En het percentage niet-blanken in NL is een stuk hoger dan het percentage wel-blanken in Congo.
Zo te zien aan de resultaten is er herhaald om één persoon gevraagd. Al deze AI's zijn opzettelijk iets "noisy", en produceren daardoor net niet dezelfde foto. Maar zet de noise op 0, en een AI zal élke keer op dezelfde vraag exact hetzelfde resultaat geven. Uiteindelijk is wiskunde deterministisch. Je moet een andere input forceren om andere output te krijgen.
De verschillen in resultaten van de geteste generators zijn niet alleen te verklaren als noisyness; ze hebben duidelijk verschillende biases. Dat is op zich ook helemaal niet vreemd, maar het feit dat ze bias hebben is in het algemeen wel relevant. En blijkbaar kan een bias kan zodanig zijn dat het resultaat bijna onbruikbaar is, bvb alleen maar mannen gezichten genereren.
"Stel je voor dat het omgekeerd zou zijn en de programma's vrijwel uitsluitend mensen met een donkere huidskleur zou tonen" Dan stel je dat gebied in op Zuid-Afrika. Daar zul je dan uitsluitend donkere mensen zien.(10% van de zuid-afrikaanse bevolking is blank) vergelijking met Nederland 14% een niet westerse achtergrond. waarbij Turkije en Marokko met ieder 2,4% het hoogste aandeel heeft.
Dus ja, kijken naar de cijfers die gegeven worden door het CBS en Wikipedia is het niet gek dat het systeem niet zoveel gekleurde mensen geeft.
Als je je bedenkt dat ongeveer 11% van de Nederlanders een andere huidskleur heeft, dan is de uitkomst helemaal niet vreemd, maar gewoon een afspiegeling van de werkelijkheid. Had je dan graag gezien dat 25% van de plaatjes een mens met een andere huidskleur had getoond? Wat is nu precies je punt?
Waarom is het schokkend?
De gemiddelde nederlander is nou eenmaal blank.
Dat sommige mensen dit graag anders zouden zien veranderd daar niets aan, het computer model geeft gewoon de realiteit weer zonder filter, bias of poespas zoals een persoon dit in het dagelijks leven onbewust toepast.
Misschien in marketing en promotie? Als ik een product moet aanprijzen wat in een voor mij relatief onbekend land gaat worden aangeboden, bijvoorbeeld Laos, dan zou ik het kunnen gebruiken. Een Amerikaan zou het voor Nederland kunnen doen.
Dat gezegd hebbende, gewoon googlen is natuurlijk sneller en logischer. Maar dan heb je geen gratis afbeelding.
Als je internationale marketing gaat doen zijn de kosten voor een paar foto's uit commercieele bibliotheken niet echt een financiele hobbel, de vertaler die je moet inhuren zal een veelvoud kosten. Of je maakt foto's van je eigen bedrijf.
Ik zou dit soort AI plaatjes voornamelijk verwachten in de powerpoints presentaties die wat moeten worden opgeleukt, en in dat soort gevallen zal de prompt zo simpel mogelijk zijn "mensen in een discussie" of "bouwvakkers", niet "Nederlandse mensen in een discussie" of "Nederlandse bouwvakkers".
Alleen nieuwswebsites of mensen die graag boos worden zullen de dit soort tests uitvoeren.
Dus als er genoeg mensen aangeven dat er veel Indiërs in Nederland wonen dan krijgen we straks plaatje van molens met iemand die een bord curry vast heeft ipv een kaas.
Verder is het de vraag; is het erg dat er gegeneraliseerd wordt?
precies. Tweakers heeft het over een "goede verhouding"
Wat is de defintie van goed?
En is dat werkelijk wat je wilt? Want ze gaan er vanuit dat mensen 100x de vraag een aan AI stellen en dan al die plaatjes samen gebruiken?
Of is het logischer dat je 1x die vraagt stelt en in dat antwoord dan het plaatje terecht komt wat het beste overeen komt met Nederland?
M.a.w dat in dat plaatje het meest voorkomende terecht komt?
Wat ik nog graag had willen zien of het land waar vandaan de afbeelding gegenereerd wordt uit maakt. VPN tunnel en andere PC, levert dat dezelfde resultaten op of bestaat hier ook een "google" bubbel?
Ik heb getest bij ChatGPT met meerdere collega's in Europa,
- bij exact dezelfde vraag in dezelfde taal, genereert deze exact hetzelfde antwoord
- bij exact dezelfde vraag, maar dan in onze eigen talen, genereert deze een gelijkend antwoord
- bij dezelfde vraag in dezelfde taal, maar anders geformuleerd, komt deze met een gelijkend antwoord.
Of dat ook geld voor andere pseudo-AI applicaties kan ik je niet vertellen.
Dat ook. Hoewel ik de vrouw links bovenin deze afbeelding typisch Georgina Verbaan vind. Niet gek ook omdat Georgina veelvuldig wordt afgebeeld op internet.