Onderzoek door Defcon-bezoekers bevestigt vooroordelen in algoritme van Twitter

Er zitten vooroordelen in een algoritme van Twitter, dat ontdekten onderzoekers tijdens een algorithmic bias bounty-competitie op Defcon. Zo worden onder meer foto's van ouderen en mensen met een beperking weggefilterd in Twitters croptool.

Een aantal weken geleden kondigde Twitter aan tijdens hackersevent Defcon een wedstrijd te organiseren waarbij bezoekers op zoek moesten gaan naar vooroordelen in de algoritmes die het platform gebruikt. Twitter was onder meer op zoek naar bewijs voor ingeslopen vooroordelen in diens croptool voor het automatisch bijsnijden van foto's in de tijdlijn. Twitter heeft tijdens Defcon vijf winnaars uitgeroepen van de wedstrijd, die naar huis gaan met een geldprijs.

Zo ontdekte een student van een Zwitserse hogeschool, Bogdan Kulynych, dat schoonheidsfilters het interne scoresysteem van het croppingalgoritme in de war kan brengen. Kulynych gebruikte StyleGAN2 om niet-bestaande gezichten te produceren en deze steeds een beetje jonger, lichter en warmer van kleur te maken. Hij toont daarmee aan dat het algoritme duidelijk een voorkeur heeft voor slanke, jonge en lichtgekleurde gezichten en gezichten met overduidelijk vrouwelijke trekjes. Kulynych won met zijn eerste plek 3500 dollar.

Dat wordt bevestigd door de tweede en derde plaats tijdens de wedstrijd. De Canadese AI-startup HALT AI, ontdekte een vooroordeel richting mensen met wit of grijs haar, wat zou duiden op leeftijdsdiscriminatie. En onderzoeker Roya Pakzad ontdekte dat het croppingalgoritme de voorkeur geeft aan Engelse tekst ten opzichte van Arabisch schrift.

Naast de top drie erkent Twitter ook het onderzoek dat laat zien dat het algoritme een voorkeur heeft voor lichtgekleurde emoji in foto's en onderzoek van een anonieme deelnemer die het algoritme in de war kon brengen door een micropixel aan afbeeldingen toe te voegen.

Tijdens de wedstrijd moesten deelnemers zich houden aan een lijst strenge regels over wat ze wel en niet mochten doen met het algoritme. Zij kregen vervolgens punten toegewezen als ze bijvoorbeeld bedoelde en onbedoelde stereotypering, foute herkenning, wissen en andere schade konden aantonen. Ook speelden de waarschijnlijkheid dat een vooroordeel een gebruiker bereikt en de mogelijkheid om dit vooroordeel te misbruiken een rol in de uiteindelijke scoretelling. De vooroordelen werden getoetst door een panel van machinelearningexperts, onder andere van de stichting OpenAI.

Het is de eerste keer dat Twitter een geldbedrag tegenover het vinden van vooroordelen in een algoritme zet. Het was wel al langer bekend dat de croptool van Twitter bevooroordeeld kan zijn. Dat bevestigde Twitter in mei dit jaar opnieuw na intern onderzoek.

Twitter bias
Geproduceerde gezichten van donker naar lichter uit het onderzoek van Bogdan Kulynych

Door Stephan Vegelien

Redacteur

10-08-2021 • 13:59

132

Reacties (132)

132
131
39
5
0
89
Wijzig sortering
We moeten echt ophouden met algoritmes te laten bepalen wat we willen zien. Dit is mijn grootste probleem met social media.

Een tijd geleden was Facebook gewoon een lijst van alles wat gepost was door mijn contacten. Kon ik zelf nog een beetje in filteren door die paar personen die continu flauwe memes postten te blokkeren, prima. Maar na een tijdje kwam de 'timeline' waarin door algoritmes gerommeld werd, en sommige dingen door mijn contacten niet meer getoond werden en willekeurige andere zooi wel. Dat was niet eens zo erg, maar het grote probleem was dat de oude ongefilterde feed gewoon niet meer gebruikt kon worden.

Het probleem met deze algoritmes is dat ze denken dat als ik ergens iets langer naar kijk, ik er meer van wil. Meestal is het omgekeerde waar, ik ben juist op zoek naar dingen die ik nog niet weet/ken. Bovendien wil ik dat gewoon zelf uitmaken. Sites als Facebook denken hierdoor gebruikers te binden ("Engagement") maar ik zie het alleen maar averechts werken. Het wordt een egale vergaarbak van allemaal dezelfde soort oninteressante troep.

Facebook is echt onbruikbaar geworden hierdoor. Ik heb het opgezegd vanwege het Cambridge Analytica schandaal maar voor die tijd voelde het al als werk om er doorheen te worstelen. Sinds de introductie van de algoritmes ging het percentage interessante content keihard omlaag. Twitter heb ik nooit serieus gebruikt omdat de korte berichten alleen maar onzin stimuleren en diepgaande content onmogelijk maken maar het gehalte interessante posts was daardoor sowieso altijd al te laag.

[Reactie gewijzigd door GekkePrutser op 28 juli 2024 08:29]

Algoritmes beginnen net mensen te worden. De ene heeft ook voorkeur voor bepaald type nam of vrouw en wat dat betreft zijn algoritmes ook een doorsnee van het gedrag van gebruikers.
Laten we eerlijk zijn er lopen genoeg mensen rond die discrimineren en ook dat gedrag pakt het algoritme op.
Algoritmes zijn echter nog te algemeen waardoor ze voor een individu als irritant gezien worden. Des te meer data men over jou heeft des te meer het op jou ingesteld kan worden. Hoe ver dat kan gaan en hoe betrouwbaar is een andere vraag.
Een bepaalde voorkeur hebbenn staat ook niet meteen gelijk aan discrimineren, ook als voorkeuren bepaalde huidskleuren uiteindelijk benadelen.
Klopt alleen als een AI een voorkeur heeft is het schijnbaar meteen discrimineren. Een betere vraag is dan waar die bepaalde AI voorkeur vandaan komt en of die wel of niet wenselijk is.
AI algoritmes worden getraind en wanneer de sample data veel witte mensen bevat dan kunnen die "belangrijker" worden. Idem voor westerse vs Arabische tekst.

Aan de andere kant kan het bij de ontwikkeling al fout gaan wanneer programmeurs bijv. alleen maar hun witte collega's gebruiken voor live gezichtsherkenning (voor een camera bijv). Dan heb je wel degelijk een soort systematisch racisme door het negeren van het bestaan van hele bevolkingsgroepen.
Dit probleem blijf je altijd houden, in Aziatische landen wonen nu eenmaal meer Aziaten, in Afrika meer afrikanen, dus zul je uiteindelijk met lokale invloed en verdeling moeten gaan werken.
Er is geen 1 wereld algoritme mogelijk, uiteindelijk zal daar de ene of de ander ook de overhand krijgen. Daarnaast gebruiken verschillen per regio, land werelddeel en ook daar zul je rekening mee moeten houden.
Dat is ook zoiets, ik wil helemaal niet dat een algoritme veel van mij weet. Want die data wordt niet alleen daarvoor gebruikt, die wordt ook verkocht en uitgemolken voor commerciele doeleinden.

Er is juist ook steeds meer focus om dat te doen. Die privacy inbreuk vind ik een beter algoritme niet waard, liever helemaal geen algoritmes die bepalen wat ik te zien krijg.

[Reactie gewijzigd door GekkePrutser op 28 juli 2024 08:29]

zo veel mogelijk van facebook en twitter wegblijven dan.
Èn als het tegenzit wordt het algoritme ook nog ingezet om te zien wie gevoelig kan zijn voor bepaalde politieke ideeën, waarna die groep bestookt wordt met materiaal om die ideeën over te brengen. Zoals Cambridge Analytica dat deed bij de Brexit en (door de Russen?) bij de verkiezing van Trump is gebeurd
Dat is volgens mij ook het gevolg van het feit dat ze met kunstmatige intelligentie de grijze massa proberen na te bootsen.
Als je geen inzicht hebt waar bepaalde voorkeuren in het menselijke brein vandaan komen, kun je die in de nabootsing er ook niet uit sleutelen.

Maar zonder enige detail kennis op het gebied van AI, kun je (een deel van de) AI niet gewoon aanleren wat discriminatie is, waarmee het algoritme zichzelf dan kan corrigeren?
Als je geen inzicht hebt waar bepaalde voorkeuren in het menselijke brein vandaan komen, kun je die in de nabootsing er ook niet uit sleutelen.
Bepaalde voorkeuren zijn opvoeding, massagedrag en deels erfelijk.
AI is nog heel ver weg dat het zich überhaupt zo kan ontwikkelen. Nu kijkt het puur naar data en trekt daar dan zelf een conclusie uit. De I in AI kun je dan vaak ook beter weglaten.
Twitter kan gelukkig nog op 'latest Tweets' worden gezet, en ze zijn eindelijk gestopt met die optie automatisch terugzetten |:(
Dat dus: "vroeger" ging je zelf op zoek naar wat je leuk vond, kwam je nog wel eens dingen tegen die je niet leuk vond, maar je beleefde nog eens wat op het internet. De bubbel waarin alleen zit wat ik al eens eerder leuk heb gevonden is zo oninteressant... Facebook is bij mij zo uitgekleed dat ik alsnog alleen wat updates van naaste familie zie en verder niks. Een keer per week even langs is dan meer dan genoeg.
Tijdje geleden ook eens wat kritische dingen gepost op een test Twitter account en daarop werden posts opeens niet meer gezien, zelfs niet met allemaal populaire hashtags die voorheen wel gezien werden.
het probleem kan ook een vriendenkring op facebook zijn... Hoe meer ik mensen die onzin online plaatsten ging blokkeren, hoe deftiger mijn feed werd...
Het probleem met deze algoritmes is dat ze denken dat als ik ergens iets langer naar kijk, ik er meer van wil. Meestal is het omgekeerde waar
Het probleem is dat je nog steeds op Facebook zit en Facebook dus geen enkele reden heeft om hun algoritmes aan te passen. Ze verdienen immers meer aan jou als gebruiker met hun algoritmes, dus als je niet weg gaat hebben ze echt geen reden om dat aan te passen.

Als een drankje op een terras 15 euro kost dan kan je daar boos om worden of dat jammer vinden. Als je vervolgens gewoon weer komt is dat toch echt je eigen probleem. Wie is er dan gek, de verkoper of jij?

Ik bedoel dit niet aanvallend, je moet vooral doen wat je zelf leuk vind. Maar het blijft mij verbazen hoeveel mensen Facebook zat zijn en nog steeds niet weg durven te gaan. Mijn account is al jaren verwijderd en ik mis niks.
Het probleem is dat je nog steeds op Facebook zit en Facebook dus geen enkele reden heeft om hun algoritmes aan te passen.
Nee ik ben er allang weg ;) Zei ik ook aan het eind van mijn post.

Overigens was het niet de laatste druppel, maar het was een resultaat van jarenlang opgebouwde frustratie en toen het Cambridge verhaal er overheen.

[Reactie gewijzigd door GekkePrutser op 28 juli 2024 08:29]

Niemand is ooit echt weg bij Facebook. Zelfs als jij nooit een account hebt gehad heeft Facebook een profiel van jou. Door tracking cookies, vrienden/familie die hun telefoon synchroniseren met Facebook en ook gewoon AI foto herkenning.

Helaas is dit de wereld waar wij nu in leven. En het zal nooit veranderen want de politiek heeft te veel baat bij het niet onafhankelijke algoritme dat gebruikt wordt op alle sociale media platforms.
Allemaal heel jammer, maar als gebruiker van sociale media ben je het product dat verkocht wordt en niet de gebruiker. Facebook wil hun eigen omzet zo hoog mogelijk hebben, dus hebben ze een algoritme dat gaat bepalen 'wat jij wil zien' (lees: leert hoe frequent ze je advertenties kunnen voorschotelen alvorens je van fb af gaat en hoe ze je zo lang mogelijk op het platform kunnen houden). Het is zeker niet toevallig dat ouderwets chronologisch sorteren niet meer mogelijk is.
Nouja, ze hadden natuurlijk ook de advertenties tussen de chronologische content door kunnen zetten. Waarom dat nou per se weg moest is me nooit duidelijk geworden.
Daarom gebruik ik terug simpelweg een RSS reader. Terug naar vroeger, maar het werkt.
Werkt dat nog wel zo goed dan?

Ik weet uit de tijd dat ik zelf nog RSS gebruikte, dat de content die je binnenkreeg via RSS minimaal was. Alleen de kopjes en misschien een eerste alinea, vooral om je naar de site te lokken en dan tracking binnen te halen natuurlijk (en ads te kunnen tonen).

Ik zat er zelf al aan te denken een scraper te maken voor dit soort sites en die dan zelf in RSS te stoppen, of in een database. Met dan wel de volledige content natuurlijk.
Ja, de meeste RSS feeds geven je alleen de titel en eerste alinea. Maar dit is toch niet anders dan Facebook of Twitter? Met het grote verschil dat RSS qua overzicht geen ruis bevat en uiteraard chronologisch geordend is. Wel jammer is dat nieuwe content ontdekken minder snel gebeurt en je zo ook in een bubbel kan belanden (maar dan gelukkig wel een bubbel door mijzelf gemaakt ipv een algoritme).

Ik gebruik RSS al jaren. Nooit mee gestopt. Ik lees het zoals een krant: koppensnellen en alleen de artikelen lezen die me aanspreken. Grote sites produceren tientallen artikelen per dag, dus die hoef ik ook niet allemaal te lezen (van Tweakers lees ik mss 2 of 3 per dag).
Ja, de meeste RSS feeds geven je alleen de titel en eerste alinea. Maar dit is toch niet anders dan Facebook of Twitter?
Facebook of Twitter zijn nou niet bepaald voorbeelden van sites die ik graag zou gebruiken :')

Maar doorklikken is op zich niet zo'n probleem nee mits de juiste adblockers geinstalleerd. Niettemin ga ik wel proberen om wat sites te scrapen denk ik en daar RSS van te maken. Is ook wel leuk voor een eigen nieuwsarchief. Nu ik er zo aan denk lijkt het me een prima idee.

Een bubbel krijg je wellicht wel afhankelijk van welke sites je kiest inderdaad. Maar dat is niet veel anders dan vroeger als je een krantenabonnement nam, als je een telegraaf of volkskrant koos kreeg je ook een hele andere kijk op het nieuws.

[Reactie gewijzigd door GekkePrutser op 28 juli 2024 08:29]

Het artikel gaat over Facebook... vandaar de vergelijking.

Klinkt idd als een leuk projectje om te doen! Als het eenmaal draait gaat er natuurlijk wel een bak onderhoud in zitten, maar laat je daar niet door weerhouden ;).
Het was Twitter maar ik snap wat je bedoelt :)

Ja, ik dacht eigenlijk aan het gebruiken van een bestaande processor voor 'reader view'. Als zoiets als library te vinden is bijvoorbeeld. Dat filtert vanzelf de meeste shit er uit :)
Ja, ben er zelf nog maar een klein jaar mee bezig, maar bijna alles heeft een RSS feed: magazines, nieuwssites, comics, youtube channels, forums, tv-shows, ...
Je ziet inderdaad enkel de kop en eerste alinea en moet doorklikken naar het daadwerkelijk artikel, maar das op een facebook wall ook zo. Het verschil is dat ik kies op wat ik geabonneerd ben en dat ik alles in chronologische volgorde binnenkrijg. Ik kan dus zelf beslissen wat ik wanneer bekijk, i.p.v. dat een algoritme dat voor mij doet.
Het probleem met deze algoritmes is dat ze denken dat als ik ergens iets langer naar kijk, ik er meer van wil. Meestal is het omgekeerde waar, ik ben juist op zoek naar dingen die ik nog niet weet/ken.
De algoritmes zijn er op uit dat je langer op fb/yt/insta/whatever blijft, zodat je meer advertenties ziet en dus meer inkomsten genereert. Hoe die algoritmes dat precies doen is niet helemaal duidelijk, maar engagement zal vast een grote rol spelen (like, share, view, etc).

Ik denk dat het naïef is om te denken dat jij beter weet wat zorgt voor engagement. Zo'n algoritme ziet ALLES van gebruikers (en ook niet-gebruikers) en 'weet' precies wat gebruikers als jij op het platform houdt. Dit is de core business van fb.

Zie trouwens ook de uitwassen: bubbels van mensen met steeds radicalere ideeën, omdat zulke content hen engaged houdt.
Het gaat hier om de croptool die bepaalt wat de kleine versie van de foto word.
Ik twijfel of je dit eigenlijk wel "vooroordeel" (bias) moet noemen. Zoals ik het lees, gaat het eerder om luiheid: men is begonnen met de "mooie" plaatjes te voeden, dat kwam er goed uit, dan nog wat troep erin om als tegenvoorbeeld te dienen en dan is het alweer vrijdagmiddag, push to prod, klaar. Oftewel: er is gewoon te weinig data opgenomen van mensen met donkere huidskleur of grijs haar, dus het ML systeem leert al heel snel dat jong, vrouw & blank is waar je moet wezen met je cropkader. Dat betekent verder niet dat men een vooroordeel heeft tegen grijsharigen, niemand wilde de tijd nemen na te denken over de representativiteit van de dataset laat staan extra afbeeldingen handmatig gaan labelen.
er is gewoon te weinig data opgenomen van mensen met donkere huidskleur of grijs haar
Kortom, er is een vooroordeel. Hoeft niet expres te zijn. Maar het is er wel.
Nee dat hoeft helemaal niet. Zo'n algoritme hoeft geen doel te hebben, en geeft dus ook geen oordeel. Vergelijk het met normale evolutie. Om maar een recent voorbeeld te noemen; op het moment dat je afstandsmaatregelen neemt om verspreiding van een willekeurig virus tegen te gaan, en dat virus produceert een aantal genetische varianten, dan zal de variant die over een grotere afstand besmettelijk is zich op een gegeven moment verspreiden en dominant worden.

Dat virus "wil" helemaal niets maar door externe invloeden en random opties vanuit interne genetica krijg je dus een besmettelijker virus. Een vooroordeel impliceert een doel, een oplossing voor een probleem, een waardeoordeel zoals je wilt, terwijl er blijkbaar random processen in zitten die leiden tot differentiatie, waarbij externe of interne factoren weer leiden tot selectie.
Je voorbeeld is niet van toepassing op een algoritme dat bewust met een doel door mensen is gemaakt. Dus ik ben wel naar je punt zonder dat je een metafoor gebruikt waar ik niks mee kan.

"Zo'n algoritme hoeft geen doel te hebben", nee, het draait voor de kat zijn viool op Twitter :D

[Reactie gewijzigd door Anoniem: 1302638 op 28 juli 2024 08:29]

ik denk dat je de essentie mist van algoritme, da's namelijk een autonoom proces waarbij een aantal variabelen vooraf bepaald is, maar vaak zijn er ook neveneffecten die helemaal geen doel hebben of zelfs een tegengesteld effect. Het algoritme is gemaakt door mensen met een doel maar heeft zelf geen doel en kan effecten hebben los van het doel waarvoor de mensen het gemaakt hebben.

Net zoals genen ook niet tot doel hebben iemand blauwe ogen te geven omdat ze dat mooi vinden maar dat nu eenmaal uiteindelijk bij mensen wel het effect is.
Als je nu bedoelt dat een algoritme pas een "doel" kan hebben als het zefbewustzijn ontwikkelt, dan nee, dan heeft een algoritme geen doel nee. Maar daarmee sla je de discussie wel helemaal stuk natuurlijk.

Maar een algoritme zoals Twitter dat toepast, in deze context heeft gewoon een doel. Het is ergens voor bedoeld, het moet iets bereiken, er moet resultaat uit komen en dat resultaat wordt actief getoetst door de parameters van het algoritme zelf, de mogelijkheden die het algoritme heeft om variatie aan te brengen en de uitslag die het algoritme naar links of rechts kan maken.

Jouw voorbeeld is slecht omdat het proces en de variatie waaronder mutatie kan plaats vinden in virussen en de mens *niet* gebonden is aan enig “evolutionair doel” (van de mens of dat virus), want dat is er niet. Dat er desondanks patronen ontstaan is omdat alle mislukte varianten er niet (meer) zijn.

Bij dit algoritme is dat *wel* zo. Het algoritme kan geen mislukte variant op gaan, daar is al een beperking toe gesteld. Het algoritme kan niet ineens geitjes gaan herkennen. Het algoritme kan niet ineens besluiten dat de achtergrond belangrijker is dan de voorgrond.

Het algoritme wordt door de ontwikkelaars een bepaalde kant op geduwd en dat is de bias.

[Reactie gewijzigd door Anoniem: 1302638 op 28 juli 2024 08:29]

Ik bedoel dus dat het doel waarmee het geschreven is niet automatisch het beoogde effect heeft maar onbedoelde neveneffecten kan hebben, zonder doel. Dat algoritmes geen autonoom en lerend gedrag zouden vertonen is wel heel erg achterhaald.

Sterker nog, het feit dat twitter een wedstrijd uitschrijft om te kijken wat hun algoritme doet impliceert al dat het voor hun ook deels een black box is. Er zijn in de jaren tachtig en negentig al vele algoritmes geschreven die zelflerend gedrag vertonen, aanvankelijk zelfs vanuit de evolutiebiologie. Het punt is namelijk niet dat je als bedenker beperkingen inbouwt maar mogelijkheden die het algoritme de kans geven zichzelf te ontwikkelen.

Dit is niets nieuws maar gewoon een heel onderzoeksgebied
Ik denk dat het belangrijk is om onderscheid te maken tussen een door mensen bedacht algoritme en een algoritme op basis van machine learning.

Een machine learning algoritme is natuurlijk getraind met een bepaald doel. In het geval van een foto crop algoritme op bijvoorbeeld Twitter, zal dat waarschijnlijk meer gericht zijn op welke crop leidt tot het meeste aantal clicks.
Als het aantal clicks het doel zou zijn, dan kan het algortime natuurlijk prima bepaalde 'voorkeuren/vooroordelen' ontwikkelen richting een bepaalde bevolkingsgroep. De voorkeur voor een lichtere huid etc. is dan dus niet het doel geweest, maar een neveneffect van de crop die de meeste clicks tot gevolg heeft. Ik durf dan ook te stellen dat als een machine learning algortime bepaalde vooroordelen ontwikkelt, dit grotendeels is veroorzaakt doordat de gemiddelde gebruiker die vooroordelen zelf nou eenmaal ook heeft.
In het geval van een foto crop algoritme op bijvoorbeeld Twitter, zal dat waarschijnlijk meer gericht zijn op welke crop leidt tot het meeste aantal clicks.
Dat is pure speculatie en hangt maar helemaal er vanaf hoe het algoritme wordt getrained.
Uiteraard is het speculatie, maar dat is denk ik wel waar het deze bedrijven om te doen is toch? Mensen zo lang mogelijk vast houden doe je door ze content voor te schotelen die ze willen zien. Het lijkt me een stuk zinvoller om een algoritme te trainen op genereren van content dat tot meer clicks leidt, dan om een algoritme te trainen om te croppen op basis van huidskleur en leeftijd (en dan maar hopen dat dat leidt to meer clicks)...
Het doel is vermoedelijk om slecht genomen foto's beter te maken, door het wegsnijden van saaie meuk. Je kunt net zo goed stellen dat het doel van een spell-checker is om mensen te verleiden tot de meeste kliks, omdat mensen sneller klikken op een goede tekst en goede foto.

We weten dat mensen sneller klikken op teksten die op een bepaalde manier misleidend zijn, aka click bait. Dat betekent dan niet dat je zomaar kunt stellen dat een spell-checker op een site je teksten wel zult veranderen naar click bait.

Je kunt ook niet zomaar stellen dat het crop algoritme per se de mooie mensen in het midden van de foto gaat zetten. Misschien is dat wel zo, maar het is niet per se waar.
Voor zover ik begrijp is deze cropping tool puur bedoeld om het meest interessante gedeelte van de foto in de timeline weer te geven, en is na het klikken op de foto, de hele 'niet-gecropte' foto te zien.
Er wordt door een algoritme zo te zien een score gegeven aan het gedeelte van de foto wat men het interessantste vind. Dit is dus gedaan op basis van een beschikbare dataset, dus zal de voorkeur die de mensen hadden bi het aanlegen van die dataset, terugkomen in het algoritme.
Je vergelijking met de spellingschecker gaat natuurlijk niet op, aangezien die checker puur het doel heeft om een grammaticaal correcte zin te produceren. Ik twijfel er overigens niet aan dat er een algoritme te ontwikkelen is die wel degelijk een clickbait titel kan genereren op basis van user input... ;)
Uit je link:
In general, people tend to pay more attention to faces, text, animals, but also other objects and regions of high contrast.
Dit komt overeen met mijn opmerkingen elders dat hoog contrast mogelijk een grote rol speelt.

Dit hoeft dan niks te maken te hebben met een directe voorkeur voor blank, jong, donker haar, vrouw, etc; maar kan dan zorgen voor een indirecte voorkeur doordat jonge blanke vrouwen met donker haar het meeste contrast hebben (veel vrouwen zorgen met make-up trouwens opzettelijk voor meer contrast in hun gezicht).
Ik zeg toch ook nergens dat het een directe voorkeur hoeft te zijn, mijn eerste punt was alleen dat dergelijke voorkeuren onbedoeld kunnen voortvloeien uit een machine learning based algoritme met als doel de crop te vinden die het meeste mensen zal aanspreken (en op te klikken).
Het genoemde algoritme geeft gewoon een oordeel: een 'saliency' waarde a.d.h.v. een plaatje. En https://github.com/bogdan-kulynych/saliency_bias heeft dus gevonden dat door het veranderen van bepaalde uiterlijke eigenschappen, dit waarde-oordeel hoger of lager uit kan vallen. Bijvoorbeeld
Lightening or warming the skin color. In 37% of cases, increasing saliency was achieved by either lightening the skin color, or making it warmer, more saturated, and more high-contrast
. Dat is dus gewoon een systematisch vooroordeel. Betekent niet dat het algoritme een bewijstzijn heeft dat denkt 'laat ik lichtere kleuren meer punten geven', maar wel dat er op de achtergrond een berekening plaatsvind die zo in elkaar steekt dat lichtere kleuren vaker hogere punten krijgen.
en mijn punt is dus dat dat helemaal niet zo hoeft te zijn bedacht door de makers maar een onbedoeld neveneffect kan zijn. Stel dat het algoritme graag een lichtere foto's wil of foto's met minder donker erin omdat dat iets zegt over de kwaliteit, ik noem maar wat hoor, dan kan dat ertoe leiden dat ook lichter gekleurde objecten een voorkeur krijgen boven donkerder gekleurde.

Hetzelfde zie bij algoritmes die een voorkeur hebben voor blije mensen, daar staan vaker vrouwen op omdat die vaker lachend op de foto staan dan mannen.
Dat kan, niemand zegt iets over intentie. Misschien zijn lichtere plekken gewoon makkelijker te onderscheiden van veel voorkomende achtergronden voor zo'n algoritme, ik heb geen idee. Maar het blijft wel gewoon een bias. En het is goed die uit te pluizen om ombedoelde uitkomsten te voorkomen.
Toch worden mensen met grijs haar eruit gefilterd worden. Dat is toch een lichte kleur.
Het gaat om contrast en het herkennen van bepaalde menselijke eigenschappen, zoals haar, mond, neus, ogen, etc. Als je een volledig wit plaatje hebt dan wordt dit niet als persoon herkent.

Eigenlijk zou je ook moeten testen met donkere mensen met wit/grijs haar. Ik verwacht dat die juist beter herkent worden dan donkere mensen met donker haar.
Waarom zou een algoritme lichtere foto's willen?

Een donker persoon kan heel goed op een lichte foto staan.

Tja, en dat lachen is een mooi voorbeeld van hoe men het graag ziet.
Het is voor Twitter alleen wat lastig uitleggen nu dat ze iets gebruiken dat zich meer richt op de jonge blanke personen. Dan het algoritme maar de schuld geven. De meesten mensen weten niet dat zoiets door mensen bedacht en geschreven is.
Omdat ik een willekeurig voorbeeld geef?
.

[Reactie gewijzigd door lightpeak op 28 juli 2024 08:29]

Volgens mij heet dat in de wiskunde geen vooroordeel maar een correlatie. Als je een algoritme maakt waarbij je bekende, biased, correlaties gaat classificeren als causaal verband ben je gewoon dom.
Het klopt dat er een vooroordeel is maar de vraag is juist waar dat vooroordeel vandaan komt.
Arnoud maakt een goed punt. Er wordt namelijk geroepen dat het algoritme een bias heeft maar vanwege gebrek aan data is dat bias puur een menselijk "fout".
Het is uiteindelijk een schuldvraag.

Is het algoritme gewoon verkeerd gemaakt omdat de "doel" bepaald is door een mens.
Of heeft het algoritme iets gedaan wat ver buiten verwachting zat met een resultaat dat en mens nooit zou doen?

Het enige werkende algoritme is er een die niet getraind of geschreven wordt door een mens.
Voor ML is algoritmische bias meestal inderdaad het resultaat van (onbewuste) data bias.
Vaak gebruikt men voor de training van de algoritmes niet eens hun eigen dataset, maar gewoon de standaard datasets (bv. ImageNet) die iedereen gebruikt voor hun algoritmes. Waardoor het des te belangrijker is om te checken voor bias. Zo is men er vrij recent bv pas echt van bewust geworden dat een belangrijke named entity recognition dataset (CoNNL) flinke bias bevat waardoor algoritmes hierop getraind bv. minder goed zijn in herkennen van vrouwelijke namen versus mannelijke namen - wat gezien de toepassing van named entity recognition in bv. HR-processen of juridische documenten best pijnlijk kan zijn. Maar men stond er jarenlang niet echt bij stil hoe belangrijk het is om een inclusieve dataset te hebben.

Let wel dat deze vlieger niet opgaat voor de meer top-down ontworpen algoritmes / AI. Ik kan me voorstellen dat dat voor jou - als jurist - nog best een belangrijk verschil is inderdaad. Gebruik van een betwijfelbare dataset zonder te checken voor bias is eerder een vorm van nalatigheid dan echt actief bevooroordelen.
Bij top-down algoritmes kopieer je inderdaad puur de bias uit de bestaande processen naar je AI*. In een van mijn trainingen gebruik ik het voorbeeld dat een bank mensen met een WO opleiding altijd een lening geeft, en alleen bij laagopgeleiden naar de BKR gaat kijken.

Dat van die externe datasets is nog best een dingetje, zeker Imagenet maar ook zeer problematisch blijkt Tiny Images (https://www.theregister.com/2020/07/01/mit_dataset_removed/).

* Ik ben er niet van overtuigd dat een top down algoritme AI kan heten maar vooruit.
Bij top-down algoritmes kopieer je inderdaad puur de bias uit de bestaande processen naar je AI*. In een van mijn trainingen gebruik ik het voorbeeld dat een bank mensen met een WO opleiding altijd een lening geeft, en alleen bij laagopgeleiden naar de BKR gaat kijken.
Dat suggereert dat een WO opleiding een betere indicatie is dan de BKR, wat best mogelijk is. De BKR is verre van perfect en het hoger-opgeleid zijn correleert erg sterk met zowel verdienvermogen als klasse.

Het grappige is dat ik hier vooral een vooroordeel bij jou zie, namelijk dat je ervan uit gaat dat er bij een voor jou ongewenste beslissing sprake is van onterechte vooroordelen. Overigens blijkt uit wetenschappelijke studies dat vooroordelen bij mensen ook meestal gefundeerd zijn, of met andere woorden, dat ze overeen komen met daadwerkelijke verschillen.
Het gaat om het voorbeeld dat de bankmedewerkers het vooroordeel hadden dat WO-ers altijd goed voor hun geld zijn, en dat dat vooroordeel dan in je beslisboom terecht komt: if opleiding==wo then loan.approve(). Natuurlijk kan het prima zijn dat opleiding een goede voorspeller is voor terugbetaalgedrag, maar dat behoor je te onderbouwen en niet over te nemen van het bestaande werkproces.

Ik zeg nadrukkelijk nergens dat men vooroordelen heeft, als in kwaadaardig negatief onderscheid op basis van stereotypen ("die mbo'ers kunnen ook niet met geld omgaan he"). Maar ik ken die studies ook, en de meestal komt neer op 70 à 80 procent, waardoor het meestal goed gaat maar vaak genoeg ook niet. En het gaat meestal niet goed bij de kwetsbaardere groepen, zoals etnische minderheden, alleenstaande vrouwen of mensen onder de armoedegrens. Dat vind ik kwalijk, in een maatschappij waarin wij iedereen gelijkwaardig willen behandelen behoor je niet te werken met "het gaat meestal goed".
maar dat behoor je te onderbouwen en niet over te nemen van het bestaande werkproces.
Dit vindt ik een vreemde bewering. Als het acceptabel was als werknemers die al zo deden, dan maakt het toch niet uit als je dit precies hetzelfde in de computer stopt? En als het niet acceptabel was, waarom dit dan als voorbeeld gebruiken van een probleem met algoritmes, ipv een probleem met de manier waarop de bank zijn beslissingen neemt?

Sowieso zie ik dat er nu een Luddistische en irrationele afkeer is bij veel mensen voor 'algoritmes,' waarbij men de computer en programmeurs de schuld geeft van bedrijfsbeslissingen die weinig met computers an sich te maken hebben. Als de computer iets besluit ipv van een mens is het opeens een groot probleem...
En het gaat meestal niet goed bij de kwetsbaardere groepen, zoals etnische minderheden, alleenstaande vrouwen of mensen onder de armoedegrens.
Als die groepen relatief vaak niet of slecht hun leningen terugbetalen, dan is het logisch dat ze relatief vaak geweigerd worden bij de bank (of meer rente moeten betalen). Een bank is namelijk geen subsidie-instelling of hulpverlener.

Overigens zijn de banken steeds minder bereid om kleinere (bedrijfs)leningen af te geven (en dan praten we nog over tonnen) vanwege de regelgeving die zorgt voor hoge kosten per lening.
Dat vind ik kwalijk, in een maatschappij waarin wij iedereen gelijkwaardig willen behandelen behoor je niet te werken met "het gaat meestal goed".
Wat is voor jou het onderscheid tussen gelijkwaardig en het (theoretisch) communistische gelijkheidsideaal? Want als je weinig verdienende mensen geen lening mag weigeren, dan zit je wat mij betreft aan de verkeerde kant van die grens.

Uiteindelijk is volledige gelijkwaardigheid ook een illusie. Zelfs de meest linkse mensen zie ik eigenlijk nooit andere mensen volledig gelijkwaardig behandelen. Ben/was jij bijvoorbeeld bereid om te trouwen met een een partner die veel minder kwaliteiten heeft dan wat je zelf te bieden hebt?
behoor je niet te werken met "het gaat meestal goed"
Een maatschappij waar we mensen niet beoordelen op basis van statistische kansen zou een ramp zijn.

PS. Overigens gaat terugbetaalcapaciteit niet per se om het goed om kunnen gaan met geld, maar vaak ook over de kaalheid van de kip.
Dat hele bias gebeuren is leuk maar de realiteit bij de mens is dat dat er ook is.

In reclames zie je ook bepaalde stereotypen vrouwen, net als op tv. Bepaalde schoonheidsidealen zien we nog steeds. Vrouwen en sommige mannen die zich met botox volproppen. Maar ook dat vinden we, c.q een deel heel normaal en schoonheidsideaal. Lichte getinte huid, kleurtje van de zonnebank wordt ook als gezond en fris gezien. Waarom ? Menselijke voorkeur.

Als de mens dus al voorkeuren heeft en algoritme dat ook heeft mag de ene het wel hebben de ander niet ?
Als de mens een voorkeur heeft is het geen discriminatie en een algoritme wel.. Blijft het apart vinden.
Want jij weet natuurlijk precies alle culturen op aarde, alle handschriften, de facial features en haarkleuren en iedereen die representatie nodig heeft...

Je kan niet alles afbakenen, heel leuk streven maar er zal altijd wel een uitzondering zijn. Als je met alles rekening moet houden kan je nooit een product afleveren, perfectie bestaat nu eenmaal niet, beter om een simpel werkend product af te leveren zoals Twitter nu doet en enige fouten die voorkomen op te lossen.

In dit geval vraagt Twitter om feedback en die wordt gegeven en waarschijnlijk nog overwogen ook, veel beter dan proberen zelf te beslissen wat er wel of niet gerepresenteerd mag worden.
Niemand eist dat "alles" werkt. Ik denk dat je van een wereldwijd concern met als core business het delen van informatie mag verlangen dat ze rekening houden met de bekendste etnische verschillen tussen mensen, en de bekende verschillen in uiterlijk (jong, oud, kaal, haar, de schaal van mannelijk naar vrouwelijk presenterend). Dat is bij lange na niet dat je moet denken aan pukkeltjes op linkeroren.

Sommige dingen moeten nu eenmaal. Mijn café moet rolstoeltoegankelijk zijn, ik kom daar ook niet weg met "als ik overal rekening mee moet houden kan ik nooit open".
Mijn café moet rolstoeltoegankelijk zijn, ik kom daar ook niet weg met "als ik overal rekening mee moet houden kan ik nooit open".
Ik vindt juist dat we in zulke dingen ook veel te ver doorgeschoten zijn, waardoor het heel erg lastig is om een bedrijf te starten, men erg op kosten gejaagd wordt (wat weer doorberekend wordt*) en nog erger, om te innoveren. De regels zijn immers het makkelijkste te volgen als je precies doet wat anderen ook al doen. De regels zijn daar vaak ook op afgestemd. Het gevolg is dat een flink deel van de innovatieve kracht moet worden gestopt in het voldoen aan de regels of aan het lobbyen om de regels te veranderen. Een voorbeeld is dat het niet legaal is om de autospiegel te vervangen door een systeem met camera's, terwijl dat flinke voordelen heeft (geen dode hoek, minder brandstofverbruik, minder snel schade, veiliger voor fietsers).

Het mooie van de vrije markt is dat deze heel flexibel is om bij veranderde omstandigheden, zoals bij innovatie, de afweging opnieuw te maken.

Al deze regels bevoordelen heel sterk de grotere bedrijven, waardoor we zo impliciet de situatie verergeren waar op veel markten maar een paar bedrijven actief zijn en waardoor er dus weinig keuze is. Terwijl juist een breed scala aan aanbod ervoor zorgt dat verschillende groepen aan hun trek komen.

* De hogere kosten door regelgeving zorgt op zichzelf ook weer ervoor dat minder verdienende mensen worden uitgesloten.

[Reactie gewijzigd door Aapje58 op 28 juli 2024 08:29]

Dat is inderdaad een probleem. Regels en wetten zijn per definitie conservatief en bevoordelen dus de zittende ondernemers.

Het lastige is dat de vrije markt laat zien dat deze optimaliseert voor de snelle inkomsten en dus als eerste alle kwetsbare groepen elimineert zodra dat een cent bespaart. Als je een busmaatschappij privatiseert, dan gaan alle onrendabele lijnen er meteen uit want dat is verliesgevend. Maar juist die blijken vaak essentieel voor mensen die afhankelijk zijn van OV en geen auto kunnen betalen. Ik vind interfereren in die situatie met een wet "iedereen op 500 meter een bushalte" maatschappelijk gerechtvaardigd.
Ik vind interfereren in die situatie met een wet "iedereen op 500 meter een bushalte" maatschappelijk gerechtvaardigd.
Het probleem is dat alsnog dat je 1 specifieke oplossing gaat verplichten, waardoor innovatie wordt beperkt. Bovendien zijn er overduidelijke andere manieren om alsnog te bezuinigen, zoals het beperken van het aantal ritten en dan ook nog tot de spitstijden. Is het echt goed OV als je alleen in de ochtend en avond kunt reizen, dan tot een uur moet wachten en met je rollator een halve kilometer moet lopen door de regen?

Als je dat weer wilt afvangen moet je weer allerlei verplichtingen gaan vastleggen, waarna vervolgens de enige vrijheid die de busmaatschappij nog heeft is of ze met een rode of groene bus rijden.

We zien nu dat het platteland veel meer inzet op busjes op afroep, waardoor je voor de deur wordt opgehaald/afgezet en de hele dag door vervoer hebt. Een mogelijke oplossing is ook een Uber-achtig systeem.

Uiteindelijk is ook de vraag in hoeverre je het platteland wil subsidiëren en in hoeverre je specifiek wilt subsidiëren voor kwetsbare groepen ipv veel subsidie te laten 'weglekken' naar groepen die rijk genoeg zijn.
Het gaat er toch ook niet om dat Twitter een vooroordeel heeft, of diens medewerkers, maar het algoritme zelf. Door een algoritme die zo'n centrale functie heeft in de tijdlijn te voorzien van beperkte data in het leerproces creeër je een bias die uiteindelijk gevolgen heeft voor de tijdlijn. Kan wel luiheid van de ontwikkelaars zijn, maar het bias zit in het algoritme vervolgens.
oor·de·len (oordeelde, heeft geoordeeld)
1 vonnissen, rechtspreken
2 door redenering tot een gevolgtrekking komen
3 van mening zijn; = achten
(https://www.vandale.nl/gr...rlands/betekenis/oordelen)

Het algoritme oordeelt in de zin van 2. Een vooroordeel is een mening, en slaat op betekenis 3. Het woord vooroordeel als vertaling van bias is hier slecht gekozen.
Wat zou je een betere vertaling vinden? Ik worstel er ook altijd wel mee dat vooroordeel niet helemaal goed de lading van het Engelse bias dekt. Vooringenomenheid ook niet.
Systeem fout?
Uiteindelijk is het dat toch, het algoritme, systeem, kan goed werken mits goed gevoed.
Ja dat is ook wel een mooie maar die dekt andersom weer niet helemaal de culturele lading. Ga 'm wel gebruiken in het vervolg iig, thanks!
Dit is zonder meer de beste term. Zelf gebruik ik ook wel 'afwijking' maar die term heeft soms ook een onbedoelde lading.
'Neiging' past denk ik wel. Het algoritme neigt naar een bepaalde uitkomst.

Edit: gewoon 'bias' gebruiken is misschien nog wel het beste. Het is een zeer gebruikelijke term binnen deze gebieden en volgens mij ook in het Nederlands niet ongebruikelijk.

[Reactie gewijzigd door vickypollard op 28 juli 2024 08:29]

Neiging klinkt wel goed. Of afwijking misschien? Alleen zit er geen afwijking in het algoritme zelf, maar in de data die het gevoerd is.
Als een algoritme enkel uitgaat van zijn oorspronkelijke voeding, dan deugt het algoritme zelf ook niet.
Lastig. De vertaling van zowel prejudice als bias is vooroordeel. Maar je zou vooringenomenheid kunnen gebruiken?
Volgens mij is bias ook gewoon een Nederlands woord in de statistiek :)
Zelfs als dat zou kloppen dan is het feit dat die luiheid tot uiting komt door met gezichten van jonge mensen met een lichte huidskleur te beginnen en het daarbij te laten een bias. Kennelijk zijn er weinig luie mensen die aan het algoritme werken en beginnen met donkere en oudere gezichten en er dan mee kappen.
De bias komt bij mensen (programmeurs) weg, ze hadden net goed snel oudere niet witte gezichten kunnen inlezen.
De bias komt bij mensen (programmeurs) weg, ze hadden net goed snel oudere niet witte gezichten kunnen inlezen.
Ze lezen niet in. Ze gebruiken een bestaande dataset. En die wordt 10 tegen 1 niet door de programmeurs verzameld/ingekocht, maar door een daarvoor verantwoordelijke projektmedewerker of afdeling die dáár verstand van heeft. Dan kunnen de programmeurs zich concentreren op waar ze zelf goed in zijn.

Zelf inlezen is ook niet te doen, omdat zo'n dataset uit héél véél gezichten bestaat.

En die bestaande dataset zit dus een 'bias'. Logisch ook. Er zijn nu eenmaal minder mensen met wit haar bijvoorbeeld. En als in een bepaalde groep mensen van één bepaalde huidskleur de meerderheid vormen, dan zullen die ook in de meederheid van de foto's staan.

Als ze bijvoorbeeld hun 'eigen' foto's gebruiken (dwz: die van hun gebruikers), dan zul je waarschijnlijk zien dat het resultaat een bias heeft naar relatief jonge lichtgekleurde (niet per sé enkel blanke) mensen. Wat dat is (vermoed ik) het overgrote deel van de mensen die twitter gebruikt.
Het kan best zijn dat niet alles evenredig voorkomt in de dataset maar dat is nog steeds geen reden om het dan maar weg te filteren. Dat laatste is het daadwerkelijke probleem.
Het kan best zijn dat niet alles evenredig voorkomt in de dataset maar dat is nog steeds geen reden om het dan maar weg te filteren. Dat laatste is het daadwerkelijke probleem.
Ik begrijp niet waar je het over hebt. Wie heeft het over wegfilteren ? Wat wordt er weggefitlerd, en door wie ?

Edit: ik zie het al. De auteur heeft het over filteren.

Er zijn geen mensen die 'filteren' (feitelijk gaat het over 'croppen', oftewel bijsnijden). Een programma wordt automatisch gegenereerd, en dat programma moet ook al weer automatisch foto's bij gaan snijden. Het programma (AI-applicatie) wordt gegenereerd op basis van een zeer grote verzameling foto's. Veel te veel voor een mens om alles te controleren.

Dan wordt dat programma gebruikt om nieuwe foto's bij te snijden. Om de een of andere reden zit er echter een bepaalde afwijking in de dataset, waardoor het programma, geheel automatisch, iets heeft geleerd wat ongewenst is. Dat is een probleem, en dat hebben ze nu ontdekt. De oorzaak is echter de dataset. Dat is de oorzaak dat sommige dingen ongewenst 'gefilterd' worden. 'Oorzaak is hier een beter woord; het is eigenlijk niet correct om van 'reden' te spreken, omdat er hier geen direkte menselijke invloed was op het ongewenst 'filteren' (bijsnijden dus).

[Reactie gewijzigd door RJG-223 op 28 juli 2024 08:29]

Er zijn idd geen witte mannen met grijze haren die een hele lijst aan vooroordelen in een algoritme stoppen.

Maar de bias is er uiteindelijk wel degelijk.
Het hoeft misschien niet eens perse in de samenstelling van de dataset te zitten. Het kan ook het tunen van het algoritme zijn, die bij het minimaliseren van fouten op lokale minima blijft hangen zonder dat de programmeurs de consequenties daarvan inzien.
Het hoeft misschien niet eens perse in de samenstelling van de dataset te zitten. Het kan ook het tunen van het algoritme zijn, die bij het minimaliseren van fouten op lokale minima blijft hangen zonder dat de programmeurs de consequenties daarvan inzien.
Het 'algoritme' is niet een algoritme in de gebruikelijke zin van het woord - in de zin van: als dit, doe dan dat, etc.. Het is een AI-toepassing, die zelf leert en patronen ontdekt op basis van een bestaande dataset. Als er een patroon in de dataset zit, dan leert het dat ook, en dat zul je dus terugzien in de output van de AI-toepassing. Dat is geen kwestie van in een lokaal optimum verzanden, dat is enkel het herkennen, én reproduceren van een patroon in de data.

Het probleem is dat zo'n AI-applicatie geen benul heeft van welke patronen belangrijk zijn, en welke patronen dat niet zijn. En ook niet welke patronen politiek acceptabel zijn, en welke niet. En dat kan niet eenvoudig opgelost worden met wat 'tunen'. Als het zo makkelijk was, dan had Twitter daarvoor geen geldbedragen uitgeloofd.

Als je zo'n AI-applicatie zou trainen op het herkennen van staatshoofd, en je gebruikt als input alle historische staatshoofden van 1950 en later, dan zal de applicatie ook eerder een man als staatshoofd bestempelen dan een vrouw, en waarschijnlijk ook eerder een man van 40 of ouder met grijs haar dan een andere man. En, gezien het feit dat niet-blanke staatshoofden om verschillende redenen ondervertegenwoordigd zullen zijn in de dataset, zal de applicatie ook blanken prefereren.

En dat is allemaal logisch. Als ik jou twee foto's geef, één van een man van ca. 50 met grijs haar, en een van een man van ca. 25, die je beiden nooit eerder gezien hebt, en ik vraag: wie van deze twee is het staatshoofd, dan kies jij ook de man van 50, wetende dat het ook de andere kan zijn, maar dat die oudere man toch waarschijnlijker is.
Ik reageerde vooral op deze zin:
Oftewel: er is gewoon te weinig data opgenomen van mensen met donkere huidskleur of grijs haar, dus het ML systeem leert al heel snel dat jong, vrouw & blank is waar je moet wezen met je cropkader.
Dat kan (deel)oorzaak zijn, maar dat hoeft niet noodzakelijkerwijs zo te zijn. Naast het aanpassen van je dataset/trainingset, is het juist het aanpassen van je weights, biases en andere hyperparameters (het tunen) die je in staat stellen om de uitkomst in lijn te brengen met je verwachtingen.
Het probleem is dat zo'n AI-applicatie geen benul heeft van welke patronen belangrijk zijn, en welke patronen dat niet zijn. En ook niet welke patronen politiek acceptabel zijn, en welke niet. En dat kan niet eenvoudig opgelost worden met wat 'tunen'.
De applicatie heeft ook geen benul daarvan en je zult mij niet horen zeggen dat het eenvoudig opgelost kan worden, maar het tunen van je hyperparameters kan zeker wel een (deel)oplossing zijn.
maar het tunen van je hyperparameters kan zeker wel een (deel)oplossing zijn
Waarschijnlijk zal dat dan wel. Ik heb te weinig verstand van het trainen van zulke AI-toepassingen om dat te kunnen beoordelen. Ik neem aan dat je dan eerst een algoritme moet trainen om bepaalde factoren (zoals oude mensen, etc.) te herkennen, en dan met de output daarvan de dataset verrijken, zodat er voor afwijkingen in die factoren gecompenseerd kan worden. Je kunt moeilijk elke foto gaan beoordelen, om er een of meer getalletjes aan te hangen...

Feit is waarschijnlijk wel, dat de meeste Twitter-gebruikers het wél hip vinden om een foto samen met vrienden te posten, maar niet een foto samen met opa of oma (tenzij die opa of oma toevallig het onderwerp is van de tweet). Dus oude mensen hebben meer kans uit een foto gesneden te worden. Nog afgezien van het feit dat er relatief weing mensen zijn die er echt oud uitzien, terwijl die mensen ook vaak een meer afgezonderd leven leiden, een minder actief leven leiden, minder vaak smartphones hebben, en al met al dus minder vaak op foto's staan. En jonge aantrekkelijke vrouwen worden juist waarschijnlijk minder snel uit een foto weggesneden dan andere personen, terwijl zij juist weer relatief vaak op foto's zullen staan.
Dat hoeft niet zo te zijn. Veel (zo niet alle) AI toepassingen werken op een veel abstracter niveau.
Dus oude mensen hebben meer kans uit een foto gesneden te worden.
Dat vind ik een veel te stellige conclusie. Ook al zouden zouden ouderen verhoudingsgewijs vaker individueel op de foto staan dan jongeren, dan nog zegt dit niet per definitie iets over hoe AI dit interpreteert. Zulke concrete begrippen bestaan niet voor AI. AI kijkt vooral op het niveau van individuele pixels om hierbij een "recept" te vinden waarbij het categorieën/locaties kan aanwijzen waarbij statistisch gezien de fout zo gering mogelijk is.

Ik weet niet wat je zelf al van AI weet, maar een uitleg van 3Blue1Brown heeft mij destijds erg geholpen in mijn begrip.

Dit filmpje is ook wel grappig, om maar aan te geven hoe anders (abstracter en minder intuïtief) AI beelden interpreteert dan mensen.
Als ik jou twee foto's geef, één van een man van ca. 50 met grijs haar, en een van een man van ca. 25, die je beiden nooit eerder gezien hebt, en ik vraag: wie van deze twee is het staatshoofd, dan kies jij ook de man van 50, wetende dat het ook de andere kan zijn, maar dat die oudere man toch waarschijnlijker is.
Feit is dat Twitter 1 van de 2 filtert. Dat hele algoritme-verhaal ik leuk maar waarom moet het filteren plaatsvinden?
Feit is dat Twitter 1 van de 2 filtert. Dat hele algoritme-verhaal ik leuk maar waarom moet het filteren plaatsvinden?
Blijkbaar is het soms (vaak?) gewenst om de minder interessante delen uit een foto weg te snijden. Denk aan achtergrond, een bos bloemen, dieren, wellicht ook soms alle delen van mensen onder de schouders, etc, om enkel de interessante delen (met name mensen, of eventueel mensenhoofden) over te houden. Misschien dat de twitter-gebruikers dat zelf willen, misschien dat Twitter het zelf ook wil gebruiken om alle mensen die in foto's staan automatisch te kunnen herkennen. Dus daarom moet er 'gefilterd' (eigenlijk: gesneden) worden.

Het is wel zo handig als dat (als service aan je gebruikers) allemaal automatisch kan. Dat moet dus met een programma. Dat programma gebruikt (vanszelfsprekend) een algoritme om te bepalen welke delen van een foto 'interessant' zijn, en welke delen niet. Dat algoritme wordt automatisch gemaakt, op basis van een (zeer grote) verzameling foto's: de dataset (handmatig het algoritme maken is veels te complex). Als die dataset afwijkingen bevat, bijvoorbeeld (om het simpel te houden) enkel vrouwen, en met lang haar, dan zal het uiteindelijke algoritme die afwijkingen ook hebben. Of in dit voorbeeld: vrouwen met kort haar, en mannen, zal het niet herkennen, en dus als 'oninteressant' bestempelen.
Ik twijfel of je dit eigenlijk wel "vooroordeel" (bias) moet noemen. Zoals ik het lees, gaat het eerder om luiheid: men is begonnen met de "mooie" plaatjes te voeden, dat kwam er goed uit, dan nog wat troep erin om als tegenvoorbeeld te dienen en dan is het alweer vrijdagmiddag, push to prod, klaar. Oftewel: er is gewoon te weinig data opgenomen van mensen met donkere huidskleur of grijs haar, dus het ML systeem leert al heel snel dat jong, vrouw & blank is waar je moet wezen met je cropkader. Dat betekent verder niet dat men een vooroordeel heeft tegen grijsharigen, niemand wilde de tijd nemen na te denken over de representativiteit van de dataset laat staan extra afbeeldingen handmatig gaan labelen.
Ik ben het met je eens dat 'vooroordeel' ongelukkig is omdat die term een sociaal stigma met zich meebrengt. Ik denk dat je de term 'bias' hier als wetenschappelijk jargon moet zien voor 'systematische afwijking van de werkelijkheid'. In de studie van kunstmatige intelligentie wordt je doodgegooid met die termen.

Modellen worden beoordeeld op 'bias' en 'precision'. Deze termen kun je uitleggen met een darter die pijltjes naar de roos gooit. 'precision' geeft aan hoe dicht de pijltjes bij elkaar landen. 'bias' geeft aan hoe ver ze van de roos af zitten. Iemand die alle pijljtes in de '20' gooit heeft een goede precision want de pijltjes zijn dicht bij elkaar geland. Maar de 'bias' is slecht want het was de bedoeling om de roos te raken.

Maar je moet 'bias' dus niet interpreteren als 'onderbuikgevoelens' of zo iets, het is een neutrale term om een zekere soort fout aan te duiden. Wel interessant is de vraag waar die systematische 'bias' vandaan komt. Dat zou het gevolg kunnen zijn van menselijke 'onderbuikgevoelens' in de gebruikte data.

Wat een beetje verwarrend is dat iedereen op zoek gaat naar een systematisch bias die overeenkomt met de 'onderbuikgevoelens' uit onze maatschappij. Dat is logisch want die fouten komen hard aan. Andere fouten hebben gewoon niet zo'n impact.

[Reactie gewijzigd door CAPSLOCK2000 op 28 juli 2024 08:29]

Wat een beetje verwarrend is dat iedereen op zoek gaat naar een systematisch bias die overeenkomt met de 'onderbuikgevoelens' uit onze maatschappij. Dat is logisch want die fouten komen hard aan. Andere fouten hebben gewoon niet zo'n impact.
Wat ook verwarrend is dat beslissingen die overeenkomen met daadwerkelijke verschillen tussen groepen als fout worden gezien. Volgens mij wordt er dan onterecht geen onderscheid gemaakt tussen 'moreel fout' (= ongewenst) en technisch fout (doet niet wat er van het systeem gevraagd wordt).
Wat ook verwarrend is dat beslissingen die overeenkomen met daadwerkelijke verschillen tussen groepen als fout worden gezien. Volgens mij wordt er dan onterecht geen onderscheid gemaakt tussen 'moreel fout' (= ongewenst) en technisch fout (doet niet wat er van het systeem gevraagd wordt).
Ik snap in theorie wat je zegt maar ken daar zelf geen concrete voorbeelden van. Heb jij een goed voorbeeld?

Wat ook erg onderschat wordt is "de juiste vraag stellen". Als je een AI wil vragen wat de "beste werknemer" is zal je eerst moeten vaststellen wat een goede werknemer nu eigenlijk is. Is dat iemand die veel geld binnenhaalt? Iemand die veel klanten binnen haalt? Iemand die nooit ruzie maakt met collega's? Iemand die lang blijft? Iemand die snel promotie maakt? Iemand die overal een beetje goed in is? Iemand die nergens heel slecht in is? Of is het een combinatie van factoren? En als je al een antwoord op die vraag kunt geven zal je daarna data moeten gaan vinden waar dat uit blijkt en dat is lang niet altijd makkelijk.

Ik kan overigens wel een voorbeeld bedenken. Stel nu dat je hebt vastgesteld dat loyaliteit belangrijk is. Hoe ga je dat meten en beoordelen? Je zou kunnen kijken naar hoe lang mensen in hun vorige functies hebben gewerkt. Iemand van 18 kan nooit 20 jaar voor dezelfde werkgever hebben gewerkt dus oudere werknemers zullen die vergelijking al snel winnen.
Maar je kan het ook omdraaien. Iemand die op z'n 63ste in dienst treed zal niet snel nog 40 jaar in dienst blijven. Iemand die op z'n 18de bij je komt werken heeft veel meer kans om 40 jaar in dienst te blijven.
Dus, welke vraag moet je hier nu echt stellen en welke data verzamel je om je AI op te trainen?
En als je dat allemaal hebt, hoe weet je dan dat je de juiste conclusies hebt getrokken? Ligt het wel echt aan de leeftijd of heeft je geboortejaar misschien meer invloed dan hoe oud je bent?
Kan de AI misschien zelf uitzoeken hoe je dat doet?

Nou ja, het echte antwoord is dat je niet op leeftijd mag discrimineren dus dit hele voorbeeld fout is en niet
is toegestaan. Maar het wordt lastig als je computer zelf vraagt om te zoeken naar verbanden. De computer kan typisch niet overweg met het verschil tussen oorzaak en gevolg. Je krijgt dan al snel omgekeerde redeneringen en self-fullfilling prophecies: "Je moet nooit mensen met blonde haren in dienst nemen, die werken niet, ik heb er namelijk nog nooit een met een baan gezien".

Of denk aan een politieagent die iedere dag hetzelfde huis onderzoekt want 100% van de overtredingen in de politiecomputer komen van dat huis. En dat blijft ook zo zolang de politie alleen dat ene huis onderzoekt.

Ik woonde ooit in de buurt van een grote grensovergang. Op een dag besloot de burgemeester aan de andere kant om iedereen die de grens over ging te onderzoeken op softdrugs. Na een paar weken iedereen met een gram wiet te hebben opgepakt was het de gemeente met de meeste drugs-incidenten van het land en kwam er extra geld van de regering, ook al waren de meeste van die mensen gewoon op doorreis en hadden niks te zoeken in die gemeente anders dan de oprit naar de snelweg. Het was echter gewoon hetzelfde slaperige dorp als altijd. De lokale bevolking wist best dat er niks bijzonders aan de hand was, maar extra geld is altijd fijn. Prompt gingen drie andere gemeentes ook aan de grens controleren en werd de hele regio als crisisgebied aangemerkt.
Wat zou een AI hebben gedaan?
Ik snap in theorie wat je zegt maar ken daar zelf geen concrete voorbeelden van. Heb jij een goed voorbeeld?
Op zich is dat onafhankelijk van computersystemen. Het beste voorbeeld is misschien de ophef over agenten die zwarte mensen vaker controleren, zwarte mensen vaker doodschieten, etc.

In de VS zien we in elk geval dat dit erg sterk overeenkomt met de veel hogere criminaliteitscijfers onder zwarte Amerikanen (in NL houden we etniciteit niet goed bij, dus kijk ik liever naar de VS voor statistieken). Toch wordt dit niet als acceptabel gezien door bepaalde mensen.

We zien echter ook dat mannen veel vaker crimineel zijn dan vrouwen en ook dat mannen veel vaker worden gecontroleerd en veel vaker worden doodgeschoten door de politie. Dezelfde mensen die het totaal onacceptabel vinden dat zwarten vaker worden gecontroleerd en doodgeschoten, hoor ik nooit klagen over (systemische) discriminatie van mannen.

Vanuit technisch perspectief, kun je ervoor kiezen om het systeem op twee logische manieren in te richten en kun je het systeem dan beoordelen in hoeverre dat doel wordt gehaald:
1. Elke groep moet een even grote kans hebben om gecontroleerd of door de politie neergeschoten te worden. Een oud vrouwtje moet even vaak gecontroleerd worden als een 20-jarige man.
2. Elke groep moet gecontroleerd of neergeschoten worden in dezelfde mate als ze neigen naar crimineel gedrag. Een oud vrouwtje behoort tot een groep die zelden crimineel is en hoeft dus zeer zelden gecontroleerd te worden, en een 20-jarige man veel en veel vaker.

Afhankelijk van welke technische eis je stelt, kun je vervolgens stellen dat het huidige systeem redelijk goed werkt (als je kiest voor 2) of dat het onrechtvaardig is voor mannen, jongeren en zwarte mensen (als je kiest voor 1).

In de praktijk zie je echter dat veel mensen helemaal niet technisch beoordelen, maar op basis van een subjectief moreel oordeel, waarbij het ongewenst vinden dat zwarte mensen vaker gecontroleerd worden, maar gewenst dat jongeren en mannen vaker gecontroleerd worden, terwijl dit vanuit een technische blik totaal inconsistent is.
Wat ook erg onderschat wordt is "de juiste vraag stellen". Als je een AI wil vragen wat de "beste werknemer" is zal je eerst moeten vaststellen wat een goede werknemer nu eigenlijk is. [...] En als je al een antwoord op die vraag kunt geven zal je daarna data moeten gaan vinden waar dat uit blijkt en dat is lang niet altijd makkelijk.
Klopt. Sterker nog, ook zonder AI is het beoordelen van sollicitanten meestal een kwestie van het subjectief beoordelen van totaal onvoldoende informatie om een echt goed oordeel te vellen, kan ik uit eigen ervaring vertellen.

Wat het nog erger maakt is dat de sollicitant belang heeft bij een goed oordeel, maar vaak veel van de informatie zelf aanlevert. De sollicitanten hebben het doel om zo aantrekkelijk mogelijk over te komen, niet om zo'n nauwkeurig mogelijk beeld te geven.

Door de verschillende belangen hebben de sollicitanten er vaak belang bij om informatie die een goede indicatie is van (on)geschiktheid, op te kloppen dan wel te verhullen (of helemaal weg te laten).

Een issue is ook dat verschillende banen in een bedrijf vaak slecht vergelijkbaar zijn, dus het hele idee van een algemeen beoordelingssysteem voor een bedrijf is twijfelachtig.
En als je dat allemaal hebt, hoe weet je dan dat je de juiste conclusies hebt getrokken? Ligt het wel echt aan de leeftijd of heeft je geboortejaar misschien meer invloed dan hoe oud je bent?
Kan de AI misschien zelf uitzoeken hoe je dat doet?
Een AI weet niks meer dan dat zijn beslissingen goed overeenkwamen met de voorbeeldbeslissingen voor de testdata en bij een systeem dat leert in de praktijk, van de feedback.

Een probleem met sollicitaties beoordelen is dat de beschikbare leerstof zeer beperkt is, omdat er relatief weinig mensen worden aangenomen, in relatie tot de hoeveelheid informatie die beoordeeld kan worden. Dan kun je eigenlijk niet verwachten dat deze heel goed gaat werken.

Bij het beoordelen van sollicitaties moet je overigens ook de afgewezen sollicitaties meenemen, want anders beoordeel je niet de factoren die iets uitmaken relatief tot het aanbod, maar ga je de eigenschappen van het aanbod vaststellen. Bijvoorbeeld, je stelt dan vast dat de meeste programmeurs man zijn, maar dit komt dan doordat de meeste sollicitaties van mannen zijn. Als je mannen even vaak afwijst als vrouwen, dan is geslacht geen indicatie.

[Reactie gewijzigd door Aapje58 op 28 juli 2024 08:29]

Zoals ik het lees, gaat het eerder om luiheid: men is begonnen met de "mooie" plaatjes te voeden, dat kwam er goed uit, dan nog wat troep erin om als tegenvoorbeeld te dienen en dan is het alweer vrijdagmiddag, push to prod, klaar.
Je bent nu wild aan het speculeren, zonder enig bewijs. Toen ik het las dacht ik eerder aan contrast, een donkere huidskleur, wit/grijs haar en een rimpelige huid zorgen allemaal voor minder contrast. Dat komt ook overeen met de bevinding in deze en andere studies dat donkere mensen met name slecht herkend worden bij een slechte belichting van de foto.

Maar of dat hier het geval is zou je verder moeten onderzoeken.

Overigens wil ik wel opmerken dat de neiging om een gebrek aan representativiteit de schuld te geven zonder overtuigend bewijs heel erg sterk samen lijkt te hangen met een bepaalde politieke voorkeur.
Prima, dan komt het door gebrek aan contrast. Dat is echter geen excuus: je hebt dan gewoon niet getest, want een significant deel van de wereldbevolking levert slechter contrast op een foto. Dat is dan nog steeds gewoon luiheid. Dit behoort gewoon te werken voor alle etnische groepen.
Dit behoort gewoon te werken voor alle etnische groepen.
Tsja, in een ideale wereld werkt alles inderdaad altijd goed. We leven echter in een imperfecte wereld en dat betekent dat je niet de keuze hebt tussen perfectie en imperfectie, maar tussen verschillende vormen van imperfectie.

Je kunt eisen dat ze deze techniek niet meer gebruiken en daarmee kun gebruikers deze functionaliteit onthouden. Je kunt vragen of ze proberen de huidige techniek te verbeteren. Of dat ooit dezelfde resultaten geeft voor verschillende groepen is echter maar de vraag. Of de extra inspanning (en dus kosten) opweegt tegen de verbetering is ook maar de vraag.
Dat is dan nog steeds gewoon luiheid.
Van jou? Waarom heb jij geen betere software hiervoor ontwikkeld dan? En als je toch bezig bent, mag je ook even een goedkope en goed werkende kernfusiereactor maken.

Jouw gemakzuchtige eis dat andere mensen maar harder moeten werken stoort mij heel erg. Je lijkt geen enkel begrip te hebben dat sommige technische problemen extreem moeilijk of zelfs onmogelijk op te lossen zijn. Dat is ook vaak ook veel moeilijker bij jouw eis (dezelfde kwaliteit voor iedereen) dan een algemene kwaliteitsverbetering. Mensen zijn immers niet gelijk, dus verschillende resultaten zijn veel logischer en waarschijnlijker dan identieke resultaten.

En uiteindelijk hebben we als mensheid gewoon beperkte middelen. Er is ook gewoon een grens aan wat je kunt spenderen om iets beter te maken.
Wat mij het meest op valt is dat twitter deze in mijn ogen eenvoudige testen niet zelf kan doen.
Bewust zal er niks zijn ingebouwd. Maar het is al langer bekend dat AI blanke gezichten makkelijker kan herkennen dan donkere. Dat ligt aan de kleurstelling.

Maar als je dat weet kun je dat testen en heb je toch geen bounty competitie nodig?
of gaat het hier om publiciteit aan te tonen dat ze tegen elke vorm van vooroordelen zijn?
simpel, als de "hoofdprijs" 3500 dollar is kan je er een developer een weekje an laten prutsen. Nu hebben ze voor een paar dollar meer (voor Twitter dan) een heel openAI team, een bak developers/datascientists met bij elkaar meer kennis dan ze ooit zelf bij elkaar kunnen krijgen, nog los van de 'kijk wij zijn goed open bezig" publiciteit.
'kijk wij zijn goed open bezig" publiciteit.
Dit is natuurlijk waar het allemaal om draait.

Dit had men zelf makkelijk kunnen aanpakken. En veel eerder ook.
Nou, je kan niet weten wat je niet weet zegmaar.
Als mensen met een pukkel op hun linkerwang enorm werden gediscrimineerd door het algoritme kun je wel heel leuk zeggen dat ze daar dan maar een testset voor hadden moeten hebben maar dat is een compleet onvoorspelbaar iets en zeer onredelijk om van ze te verwachten.

Bijvoorbeeld de Arabische text die minder voorkeur heeft. Ik had er helemaal niet aan gedacht, maar nu is er dus wel iemand die het heeft aangegeven en nu weet ik het ook voor volgende keer.
Waarom pikt een algoritme mensen met een pukkel eruit, of Arabische tekst? Opzettelijk?
Of het is als zodanig geprogrammeerd of men heeft domweg niet gecontroleerd wat dat algoritme allemaal doet. In beide gevallen is de mens hier de fout.
Ik ga uit van het eerste want AI is niet zo slim als men wil doen voorkomen. Sterker nog, het kan helemaal niets zonder input van de mens.
Het racistisch/sexistisch/leeftijdistisch testen van algoritmes heeft wat haken en ogen.

De politieke correcte werkelijkheid is dat als de dataset en optimalisatie procedure geen bias heeft dat dan het algoritme ook geen bias heeft. De werkelijke werkelijkheid is dat om gelijkheid af te dwingen je bias in moet bouwen zodat physische verschillen de gelijkheid van uitkomst niet verstoort (waarschijnlijk door bias in de training set te stoppen totdat gelijkheid van uitkomst resulteert, minste kans dat werknemers daar over vallen).

Dit soort werk uitbesteden geeft Twitter dekking.
Anoniem: 25604 @bartje10 augustus 2021 17:11
Microsoft, Google, Apple... ze hebben allemaal Bounty-programma's om bugs en kwetsbaarheden aan het licht te brengen. Niks mis mee. Ook bewezen dat deze programma's nut hebben. En publiciteit zal er ook mee te maken hebben. Een beetje bedrijf wil publiciteit.
Wat mij het meest op valt is dat twitter deze in mijn ogen eenvoudige testen niet zelf kan doen.
Bewust zal er niks zijn ingebouwd. Maar het is al langer bekend dat AI blanke gezichten makkelijker kan herkennen dan donkere. Dat ligt aan de kleurstelling.
Computers kijken toch anders naar kleuren dan wij mensen.
Daarvoor kan het simpelweg negatief maken van de foto al helpen om e.e.a. te verduidelijken bij heel donkere gezichten. Een computer kan zoveel meer.
Het gaat echter in deze kwestie ook om licht getinte personen.
Heb zelf vooral bij tekeningen de cropfunctie wat interessante dingen zien doen, als je een object had met een felle basiskleur kwam die bijna altijd centraal te staan. Soms leken 18+ afbeeldingen spontaan safe for work wat soms wel onhandig was, maar altijd een verassing!

Goed van Twitter dat ze dit doen, maar de headlines zullen wel weer voor boze reacties zorgen "Twitter heeft voorkeur ingeprogrammeerd in hun cropfunctie!!!"

Ik hoop niet dat ze dimensies gaan forceren zoals insta doet, dat kapt een hoop artiesten af.
Goed van Twitter dat ze dit doen, maar de headlines zullen wel weer voor boze reacties zorgen "Twitter heeft voorkeur ingeprogrammeerd in hun cropfunctie!!!"
Dat hebben ze ook. Het komt er niet vanzelf in.
Nu hopen dat ze het daadwerkelijk goed aanpassen.
Hoeft niet. Er wordt ook gebruik gemaakt van zelf lerende algoritmes die op basis van content analyse deze voorkeuren toe passen. Hoeft dus helemaal niet geprogrammeerd te zijn.
Hoe kan een algoritme zelf leren dat een crop de verkeerde voorkeuren heeft gebruikt? Er is geen feedbackmogelijkheid bij de gebruikers, het systeem merkt aan niets dat de crop niet goed staat.
Ik zeg dat een zelf lerend algoritme op basis van een grote dataset analyse dezelfde voorkeuren toe past als de meerderheid toepast in de dataset. Deze voorkeuren kunnen voor andere misschien niet nuttig zijn en dus moeten die eruit gehaald worden en niet automatisch plaatsvinden. De meneer waar ik op reageerde zij dat die voorkeuren zeker door programmeurs erin gezet zijn. Dat is waar ik op reageer. Nergens zeg ik dat hij leert welke fout wordt toegepast.
Ahh my bad. Ik las zelflerend en dacht, zelfstandig bij-lerend. Jij bedoelt een systeem dat uit data zelf een patroon aanleert.
Inderdaad dat bedoelde ik. Bijlerend zou dan nog een stap verder zijn. Snap waar de verwarring vandaan komt :)
Waarschijnlijk hebben ze bij het opzetten van dit systeem wel een X aantal voorbeelden in het systeem gezet en op basis daarvan zal het systeem verder zijn gaan leren. Als daarbij bepaalde kenmerken dus niet vaak voorgekomen zijn, dan zal dit ook bij het zelflerende systeem zo blijven. Zie ook vooral de reactie van Arnoud: Arnoud Engelfriet in 'nieuws: Onderzoek door Defconbezoekers bevestigt vooroo...

[Reactie gewijzigd door Rik. op 28 juli 2024 08:29]

Nee je kan ook op basis van 'hier wordt het meest op geklikt' je algoritme aanpassen.
Dat kan uiteraard ook, maar dan zijn het geen vooroordelen meer. Dan is het omdat hier vaak gebruik van gemaakt wordt.

In dit geval moet je het systeem toch echt leren hoe hij een thumbnail van bepaalde foto's moet weergeven. Dat doe je niet met 'hier wordt het meest op geklikt'
Dat kan uiteraard ook, maar dan zijn het geen vooroordelen meer. Dan is het omdat hier vaak gebruik van gemaakt wordt.
Dat is toch precies hoe een vooroordeel ontstaat, je denkt iets al te weten omdat het in het verleden vaak zo was/bleek :+

[Reactie gewijzigd door watercoolertje op 28 juli 2024 08:29]

Doel van het algortime is uitsnedes maken. Als clicks daarvoor een metric zijn, dan is het inderdaad logisch om daar gebruik van te maken. Neemt niet weg dat het dan een vooroordeel van de gebruikers heeft overgenomen, ik denk dat dat juist de reden is dat Twitter dit wilde laten onderzoeken.
Bij porno is dat ook .

En heel veel mensen gaan natuurlijk op hun achterste benen staan van dat je dat niet kunt vergelijken; alleen bij porno zie je dat alles wordt gemanipuleerd. Alles heeft compleet andere dimensies om het maar zo “interessant” mogelijk te maken. Een leuke vergelijking is met zogeheten “vintage” porno en hoe daar alles is opgenomen en hoe tegenwoordig vooral in niches wordt gewerkt en er geen reguliere films worden gemaakt. Wat dat betreft ziet het er slecht uit voor social media als representatie-platform.


Grappige is dat kranten ook het hetzelfde model overnemen;
Als clicks daarvoor een metric zijn, dan is het inderdaad logisch om daar gebruik van te maken.
Als je de hoeveelheid melanine gaat meten en aantal clicks (of gebrek daaraan) gaat meten en daar vervolgens beleid op gaat maken klopt het ogenschijnlijk niet (alhoewel het weer wel een logaritmische schaal is en geen lineaire, maar dat maakt het weer te complex voor de meeste simpele zielen)

het tegenovergestelde mislukt weer net zo hard, moment dat je gaat forceren verlies je ook weer de interesse.


Het idee dat het direct met vooroordelen te maken heeft is te kort door de bocht. Zowel de tijd als de aandachtsspanne is te kort op social media en de illusie dat daar een beleid op kan worden gemaakt is per definitie vruchtenloos en gaat averechts werken.
Het komt er jammer genoeg wel zelf in, ze hebben gewoon een afweging van verschillende evaluatie functies die dingen detecteren als contrast, kleurenpalet, gezichten etc. Dat is een stochastisch process aangezien je niet alle input kan voorspellen dus de resultaten zijn ook onvoorspelbaar.

Je kan niet alles voorspellen en vandaar dat je dus nooit kan weten wat het algo precies doet voordat je de afbeelding hebt. Zo kwam het dus dat een karakter op Twitter altijd een focus had op de nek want wat bleek: het algoritme prefereert de super rode strik die ze aanhad over het gezicht.
Dat kon niemand echt voorspellen.
Maar men kwam er dus wel achter dat het met die rode strik mis ging.
Waarom heeft men de rest dan de afgelopen jaren niet gemonitord? Men vond het blijkbaar allemaal wel best.
In dat geval zal het overduidelijk zijn geweest. Het valt nogal op wanneer de strik centraal in beeld komt.

Bij de situaties van dit artikel lijkt er sprake te zijn van statische verschillen die je past echt goed opmerkt als je het gaat analyseren.
Nah, zonder mee te werken er aan is het altijd gemakkelijker te roepen dat het inderdaad er in geprogrammeerd is. Was er ook niet een AI of iets (volgens mij ook van Twitter), dat uiteindelijk ook racistisch werd e.d? Dat is er ook niet 'in geprogrammeerd', maar dat is wel hoe de AI uiteindelijk een en ander opvatte. ;)

EDIT:
Ah, het was een Twitter-bot van Microsoft dat binnen 24 uur behoorlijk racistisch was "gemaakt":
https://www.theverge.com/...-microsoft-chatbot-racist

[Reactie gewijzigd door CH4OS op 28 juli 2024 08:29]

Inderdaad, ik ben zeer blij te lezen dat ze het zo serieus aanpakken. Ik kan mij niet anders indenken dat ze juist hiermee de 'wereldleider' willen zijn in een 'schone' (unbiased) algoritme. En als ze dat lukt zou dat mede hierdoor meer dan verdient zijn.
Lekker suggestief om bias hier te vertalen als 'vooroordeel' in plaats van 'afwijking' of 'vertekening'. Jullie geven er daardoor namelijk een extra woke-ish/racisme/gekwetst! lading aan die er volgens mij helemaal niet in hoort. :+
De Twitter uitdaging heet letterlijk: "algorithmic bias bounty challenge".

En stukje tekst dat komt van een Twitter PM:

Finding bias in machine learning (ML) models is difficult, and sometimes, companies find out about unintended ethical harms once they’ve already reached the public. We want to change that. As part of this year’s DEF CON AI Village, we’re trying something radical by introducing the industry’s first algorithmic bias bounty competition.

In May, we shared our approach to identifying bias in our saliency algorithm (also known as our image cropping algorithm), and we made our code available for others to reproduce our work. We want to take this work a step further by inviting and incentivizing the community to help identify potential harms of this algorithm beyond what we identified ourselves.


Dat jij het woord bias anders wilt vertalen, letterlijk of zelfs in context, vind ik knap. De woorden "afwijking" of "vertekening" hanteren als oorzaak van wat men bij Twitter noemt: unintended ethical harms vind ik vreemd.

En niet om het een of ander, maar niet alleen hier wordt de vertaling "vooroordeel" gehanteerd. Je kan meerdere bronnen vinden met de kern van het verhaal: The move comes amid growing concerns about automated algorithmic systems, which, despite an effort to be neutral, can incorporate racial or other forms of bias.

[Reactie gewijzigd door Anoniem: 25604 op 28 juli 2024 08:29]

Twitter staat erom bekent dat ze woke zijn. De baas heeft miljoenen gegeven aan een links-extremist die vind dat er tegen blanken gediscrimineerd moet worden.

Het was dus te verwachten dat ze deze fout maken, door maar aan te nemen dat elke afwijking overeenkomt of bestaat uit een vooroordeel, maar dat betekent niet dat anderen dat zomaar moeten overnemen.
Ik weet niet waarom jij mij dit vertelt? Het gaat bij lezen om wat er staat en niet wat er geïnterpreteerd moet worden. En het woord "bias" wordt in het artikel én bij de bron (Twitter) gehanteerd als zijnde "vooroordeel". Niet als afwijking of welke andere betekenis de lezer eraan wil geven.
De boodschap is helder: "Spit onze applicatie door. Als je (onbedoelde) culturele, ras-, godsdienst-, kleurgerelateerde vooroordelen vindt, meldt dat en je maakt kans op een prijs." Aldus Twitter...
In context van het artikel is het niet primair relevant wat voor bedrijf Twitter is en wat voor bedragen er waar dan ook aan uit zijn gegeven.
Ik verwacht van nieuwssites dat ze informatie zelf interpreteren en niet alles zomaar overnemen. We zitten hier ook op een technische site, waarvan ik verwacht dat ze dit onderscheid wel kunnen maken.
In context van het artikel is het niet primair relevant wat voor bedrijf Twitter is en wat voor bedragen er waar dan ook aan uit zijn gegeven.
Deze zoektocht naar systemische discriminatie is zeer sterk ideologisch gemotiveerd en deze ideologie sijpelt continu door in de manier waarop de feiten worden geïnterpreteerd en gepresenteerd.

Dit zie je bijvoorbeeld in de manier waarop de schuld meestal meteen gegeven wordt aan een niet-representatieve dataset of het vermeende gebrek aan diversiteit bij de programmeurs, in plaats van andere mogelijke oorzaken zoals een verschil in contrast in het gezicht van verschillende groepen.
Nog steeds begrijp ik niet waarom jij op mij reageert. Wat wil je mij vertellen? Dat men hier bij Tweakers de woorden "afwijking" en/of "vertekening" had moeten gebruiken? en niet het woord "vooroordeel"? De titel van het artikel had volgens jullie moeten zijn:
Onderzoek door Defcon-bezoekers bevestigt afwijkingen in algoritme van Twitter
of
Onderzoek door Defcon-bezoekers bevestigt vertekeningen in algoritme van Twitter
?

Deze titels dekken de lading toch niet? Niet de lading m.b.t. de insteek van Twitter, noch de resultaten.

Bijvoorbeeld de eerste prijs:
Hij toont daarmee aan dat het algoritme duidelijk een voorkeur heeft voor slanke, jonge en lichtgekleurde gezichten en gezichten met overduidelijke vrouwelijke trekjes.

Als jij of @Wyckse_witte het woord voorkeur in deze zin kunnen vervangen voor vertekening of afwijking en de zin nog steeds algemeen nederlands kunnen noemen, vind ik dat oprecht knap van jullie.

[Reactie gewijzigd door Anoniem: 25604 op 28 juli 2024 08:29]

Wat mij totaal niet duidelijk werd uit dit artikel, is hoe een auto-crop feature bevooroordeeld zou kunnen zijn. Misschien is het omdat ik geen twitter gebruik, maar wat is een voorbeeld van een 'bevooroordeelde' uitsnede? Het enige concrete dat genoemd werd is dat ouderen eruit gefilterd worden, maar filteren is niet het doel van croppen, hoe werkt dat dan?

Na het lezen van het gelinkte artikel en de blogposts van twitter is het wel duidelijk:

- Als er meerdere personen op de foto te zien zijn, kan het algoritme de neiging hebben om personen met een bepaald uiterlijk te kiezen, en de andere persoon buiten het kader te laten vallen.

De vraag was dus of het crop-algoritme systematisch de voorkeur geeft om mensen met bepaalde uiterlijke kenmerken wel in de foto te zetten, en andere niet,
"Hij toont daarmee aan dat het algoritme duidelijk een voorkeur heeft voor slanke, jonge en lichtgekleurde gezichten en gezichten met overduidelijke vrouwelijke trekjes. Kulynych won met zijn eerste plek 3500 dollar."

is de simulatie van de mens met dit algoritme dan niet geslaagd vraag ik me af, als dat ook de werkelijke voorkeuren van het overgrote deel deelnemende mensen weergeeft...
Er was een tijd dat plaatjes bestonden uit pixels, maar kennelijk zijn er nu ook micropixels.

Op dit item kan niet meer gereageerd worden.