NOS: 25 Nederlandse gemeenten gebruiken algoritmes voor risicoprofilering

Zeker 25 Nederlandse gemeenten gebruiken algoritmes om zelfstandig fraude of criminaliteit op te sporen. Het is in sommige gevallen niet duidelijk hoe deze algoritmes werken, schrijft de NOS na navraag bij gemeenten.

De NOS deed samen met regionale omroepen onderzoek naar het gebruik van algoritmes bij Nederlandse gemeenten. In 25 gemeenten worden algoritmes niet alleen gebruikt om bijvoorbeeld geautomatiseerd brieven te versturen naar burgers, maar ook om risicoprofielen op te stellen of fraude en criminaliteit op te sporen. De omroep beschrijft algoritmes die bijstandsfraude opsporen en die voorspellen waar het risico bestaat dat ondermijnende criminaliteit opkomt. In Amsterdam worden algoritmes ook gebruikt om mensen in beeld te krijgen die grote schulden opbouwen.

In geen van de gevallen gaat het om algoritmes die zelfstandig beslissingen nemen. Er komt altijd nog een ambtenaar aan te pas die een oordeel extra onderzoekt. De NOS noemt als voorbeeld de gemeentes Nissewaard, Deventer en Brielle die samen met een bedrijf risicoprofielen van bijstandsontvangers maken. Daarbij controleert een werknemer op basis van een risicoscore of een resultaat verder wordt bekeken.

In het geval van sommige gemeenten waaronder Nissewaard is niet duidelijk hoe het systeem precies werkt. Volgens experts ontstaat daardoor het risico dat burgers onterecht gediscrimineerd worden. De bevindingen lijken in veel opzichten op een rapport dat de Algemene Rekenkamer eind januari uitbracht. In dat rapport keek de Rekenkamer naar het risico dat algoritmes zorgen voor discriminatie. Ook beschreef de Rekenkamer dat er nergens bij de Nederlandse Rijksoverheid algoritmes worden ingezet waarbij de uitkomst niet daarna nog handmatig wordt gecontroleerd. Wel schreef de toezichthouder in het rapport dat de overheid nergens gebruik maakt van zogeheten 'black box'-algoritmes, waarbij de werking niet duidelijk is. Daarbij werd wel alleen gekeken naar algoritmes bij de Rijksoverheid, en niet naar gemeenten.

Diverse politieke partijen willen graag een toezichthouder voor algoritmes, zo bleek zaterdag uit een inventarisatie van Tweakers van de partijprogramma's voor de komende verkiezingen.

Update: de verwijzing naar het onderzoek van de Algemene Rekenkamer is aangepast. Die Rekenkamer keek alleen naar de Rijksoverheid en niet naar gemeenten.

Door Tijs Hofmans

Nieuwscoördinator

01-02-2021 • 10:25

285

Reacties (285)

285
276
123
35
2
141

Sorteer op:

Weergave:

Ik weet niet of ik blij of diepongelukkig ben met hoe de term 'algoritme' nu staat voor alles wat slecht is in de IT. In eerste instantie vond ik het vervelend hoe de termen 'ai', 'algoritme' en 'blackbox' door elkaar beginnen te lopen.
Tegenwoordig heb ik er vrede mee om twee redenen,
1) de grenzen tussen 'ai' en 'algoritme' zijn in praktijk flinterdun, als er al een echte grens is. De hele term 'kunstmatige intelligentie' klinkt geweldig maar impliceert ook een beetje dat het allemaal onbegrijpelijke science fiction is.
2) praktisch gezien doet het er niet toe, de conclusie is hetzelfde: of je het nu 'algoritmes' noemt of 'ai' of gewoon 'software', het komt op precies hetzelfde neer: het gaat allemaal om die regeltjes software die overal om ons heen actief zijn. Het is niet meer dan logisch dat we willen, nee moeten, weten hoe die werken.

Ons leven wordt steeds meer gestuurd door algoritmes en software. Daarom zou iedereen het recht moeten hebben om te weten hoe die software werkt. En dan bedoel ik niet dat een geheim committee van grijze ambtenaren in een achterkamertje even naar de source mag kijken maar dat die source gewoon voor iedereen beschibkaar is zonder muren van geheimzinnigheid.

De eerst vraag bij het aanschaffen van software van de overheid zou dan ook moeten zijn "waar is de broncode?". Niet alleen van uit het perspectief van vrijheid en burgerrecht, maar ook om kwaliteit en continutiteit te garanderen. Projecten in de IT lopen vaak enorm uit op een manier die je niet altijd in de hand hebt. Bij oudere software zit je dan al snel klem dus een leverancier die niet meer wil of kan, de eisen aan veiligheid en de praktische behoeftes van je organisatie. Met source heb je veel meer mogelijkheden dan zonder om met zo'n situatie om te gaan.

Omdat het allemaal van onze belastinggeld betaald wordt is het ook niet gek om te zeggen dat we met alle inwoners van een land samen eigenaar zijn van alles wat de staat koopt of doet. Dus ook van de sotware die de staat koopt. Aangezien de replicatie van software bijna gratis is vind ik het helemaal niet gek om alle burgers en bedrijven zelf een kopie van alle overheidssoftware aan te bieden. Waarom niet gebruiken waar we al voor betaald hebben?

Nu snap ik wel dat sommige bedrijven daar nu nog niet aan mee willen werken. Die draaien vanzelf wel bij als maar genoeg landen/organisaties dit soort eisen stellen.

We doen steeds meer met computers en online. Het begint hoog tijd de worden dat we een stuk beter gaan nadenken over hoe we omgaan met de enorme hoeveelheden software om ons heen en onze digitale burgerrechten.
De vier essentiële vrijheden
Een programma is vrije software wanneer de gebruikers vier essentiële vrijheden hebben: [1]
De vrijheid om het programma te gebruiken zoals jij dat wilt, voor elk doel (vrijheid 0).
De vrijheid om de manier waarop het programma werkt te bestuderen, en om het aan te passen aan je behoeften (vrijheid 1). Beschikbaarheid van de broncode is noodzakelijk hiervoor.
De vrijheid om het programma te verspreiden, zodat je anderen kan helpen (vrijheid 2).
De vrijheid om het programma te verbeteren en te verspreiden, zodat de hele gemeenschap hier voordeel van heeft (vrijheid 3). Beschikbaarheid van de broncode is ook hiervoor noodzakelijk.
https://www.gnu.org/philosophy/free-sw.nl.html
De eerst vraag bij het aanschaffen van software van de overheid zou dan ook moeten zijn "waar is de broncode?".
Juist bij 'echte' AI (neurale netwerken/deeplearning) kan je aan de broncode niet zien hoe het werkt. Om te zien hoe het werkt zou je toegang moeten hebben tot het getrainde systeem zoals het wordt gebruikt, en dat test cases moeten kunnen voorleggen.
Juist bij 'echte' AI (neurale netwerken/deeplearning) kan je aan de broncode niet zien hoe het werkt. Om te zien hoe het werkt zou je toegang moeten hebben tot het getrainde systeem zoals het wordt gebruikt, en dat test cases moeten kunnen voorleggen.
Goed punt. De broncode is een belangrijke stap, maar niet de enige. Je wil ook alle tools, data en kennis die nodig is om er gebruik van te maken. Bij broncode zal je bijvoorbeeld een compiler nodig hebben, en bij een neuraal netwerk heb je de opbouw en de gewichten van het netwerk nodig en eigenlijk ook de dataset waar het network op getrained is.

Uiteraard zit overal een grens aan. Als je 100 miljoen uitgeeft aan rekenkracht om je netwerk te trainen dan zal niemand dat ooit echt controleren, dat is gewoon niet te betalen.

[Reactie gewijzigd door CAPSLOCK2000 op 25 juli 2024 19:08]

Zelfs als de hele 'broncode' beschikbaar is, kan het een enorme klus zijn. Bij voorbeeld wanneer het de macrotaal van een geweldig softwarepakket van een zeer gerenommeerde software fabrikant betreft. De gebruikersvriendelijkheid van het pakket en de performance zijn uitstekend. Het pakket draait dan enkele jaren met grote tevredenheid van klanten en beheerders. Alleen besluit de software fabrikant na een paar jaar de ondersteuning van het pakket compleet te stoppen, omdat het commercieel geen succes is, want voor alleen die paar Europese klanten loonden de nieuwe investeringen in het pakket blijkbaar niet. Helaas is de sourcecode alleen maar te begrijpen door mensen met een opleiding in de programmeertaal van het pakket. Wie kan dan zeggen, of de aannames, die in dit pakket gestopt zijn, nog aan de actuele "eisen" voldoen?? Dan heb je wel de 'sourcecode', maar na een paar jaar zijn er nauwelijks mensen die deze kunnen 'lezen'.
Het zelfde zou op kunnen gaan voor zeer efficiënte routines, in een minder populaire programmeertaal als Fortran, Forth, Lisp of APL, die na vele jaren opnieuw geprogrammeerd moeten worden in een actuele programmeertaal , zeg Java of c#, alleen wie kan dan nog al die beschikbare oude sourcecodes 'lezen' en begrijpen?

[Reactie gewijzigd door KonradV op 25 juli 2024 19:08]

Zelfs als de hele 'broncode' beschikbaar is, kan het een enorme klus zijn.
<knip>
Helaas is de sourcecode alleen maar te begrijpen door mensen met een opleiding in de programmeertaal van het pakket. Wie kan dan zeggen, of de aannames, die in dit pakket gestopt zijn, nog aan de actuele "eisen" voldoen??
Ja, dat probleem zien we in vele vormen steeds weer terug komen.

IT is afschuwelijk duur en moeilijk. Dus gaan organisaties het uitbesteden aan gespecialiseerde IT-organisaties. Maar uitbesteden is ook moeilijk als je niet goed kan uitleggen wat je nodig hebt. En die IT-organisaties zijn gespecialiseerd in IT en niet in jouw probleem. Nu speelt dat probleem niet alleen in de IT maar bij ons is het wel extra groot.
Vaak wordt gedacht dat IT zoiets is als het produceren van water of auto's; een proces dat je kan uitbesteden om dan kant en klare producten van de plank te kopen. Dat is een misverstand. IT is als lezen en schrijven. Geen enkel bedrijf zegt dat personeel niet zelf hoeft te kunnen lezen omdat deze functie is uitbesteed. Nu zeg ik niet dat je IT helemaal niet kan uitbesteden, maar dat je het niet helemaal kan uitbesteden. Iedereen moet de basisvaardigheden zelf beheersen want anders kun je niet een uitbesteden.
Als ik iemand hoor zeggen "wij zijn geen IT-bedrijf" of "ik weet gelukkig niks van IT af" dan hoor ik een soort holbewoner praten die problemen met een knots oplost inplaats van met pen en papier.
En daarom zijn neurale netwerken dus direct een probleem omdat deze niet te doorgronden zijn en als deze een feedback loop hebben mag je ze dus niet gebruiken.
Precies de reden waarom het verboden is om ons eigen neurale netwerk in te zetten bij het kiezen van geldige kandidaten. Als je 2 keer bent overvallen door een man met rood haar dan neem je geen roodharigen meer aan maar het is pertinente onzin. Alleen zo werkt ons brein nu eenmaal.
Om die reden is het verboden om te discrimineren - de enige manier om ons brein dan weer de juiste kant op te sturen is dan ook alle andere neurale netwerken te laten meedenken.
Goed punt. De broncode is een belangrijke stap, maar niet de enige. Je wil ook alle tools, data en kennis die nodig is om er gebruik van te maken.
Aan de andere kant; moet iedereen ermee overweg kunnen? Ik weet niet of dat een handig iets is, ondanks dat we, zoals in jouw eerdere reactie, met zijn alleen "eigenaar" zijn van de software, "omdat het is betaald van ons belastinggeld". In zekere mate heb je gelijk, maar je kunt onmogelijk iedereen volledige toegang laten geven omdat "ervoor betaald is door iedereen". Men moet ook snappen wat bepaalde instellingen bijvoorbeeld doen. Je kunt niet zomaar ieand aan een stuk software zetten, handleiding geven en verwachten dat diegene het wel even fixed voor je.
Bij broncode zal je bijvoorbeeld een compiler nodig hebben, en bij een neuraal netwerk heb je de opbouw en de gewichten van het netwerk nodig en eigenlijk ook de dataset waar het network op getrained is.
Er is wel meer nodig om überhaupt te kunnen beginnen met dit soort zaken en ik vraag mij af of iedereen dat wel moet kunnen of niet. Een oud collega van mij vertelde ooit: "With great Power, comes great Responsibility", ook voor dit soort dingen gaat die vlieger op, anders krijg je nietszeggende data en trek je foute conclusies. Iets waar we ook voor moeten waken, naar mijn idee.
Daarom zijn er ook mensen bezig met soort taal van AIs bezig die wij als mensen ook kunnen snappen, om dit te kunnen controleren. In de praktijk is dat echter waarschijnlijk erg lastig en / of veel werk om dit continu na te pluizen. De vraag is of overheden dan wel ethisch gezien een AI kunnen inzitten die niet discrimineert op gronden waarvan wij dat niet willen.
En dit is IMO een heel goede reden om AI niet te gebruiken bij overheids/ publieke instanties.

Bij publieke dingen wil je:
  • controleerbaarheid
  • mogelijkheid om te onderzoeken waarom dingen zijn misgegaan
  • aansprakelijkheid
Aangezien je niet aan een model kan zien waarom het gefaald heeft in een bepaald geval, kan je er niets aan 'veranderen'. Alleen meer training-data, tot je weer de volgende edge-case in de praktijk tegenkomt. Je kan je eigen tests doen met je eigen test cases, maar die moeten dan wel 'beter' en anders genoeg zijn dan die van de ontwikkelaars zelf, wat praktisch onmogelijk is.

Aansprakelijkheid is ook moelijk. Wie moet er voor opdraaien als een model iemand onterecht als crimineel beoordeelt? Geen van de betrokken partijen zijn goed in staat om een model te beoordelen. Heeft er dan wel iemand schuld? Had de betrokken overheidsambtenaar een andere aanbieder moeten kiezen (die hetzelfde probleem heeft)?

In mijn ogen zijn er 2 opties:
  • we accepteren met z'n allen dat we vanaf nu soms door een of ander overheidssysteem random incorrect gekozen worden voor het een of ander(tax-audit, hogere verzekeringskosten, "Door de locatie van recente drugs-arrestaties in de buurt van uw woning, heeft ons systeem met 98% zekerheid bepaalt dat u een cocaine dealer bent.", etc)
  • We besluiten om geen AI modellen te gebruiken in openbare, publieke, sociale systemen.
De leukste, en eerlijkste optie zou de laatste zijn. In ieder geval tot iemand een manier vindt om de eerder genoemde problemen aan te pakken. Maar ja, dat is waarschijnlijk wel inefficienter, En als we de kans hebben om 10 ambtenaren weg te bezuinigen door een AI Model die 'Net zo goed is'™ , dan zullen we dat vast wel gaan doen.
Alles wat een model kan doen staat of valt bij de inputs die je aan het model geeft.

Als je geen ethniciteit of naam invoert, is er geen risico op discriminatie op dat kenmerk. Stop je er geen geboortedatum of info over de gezinssamenstelling in, dan is er geen risico op discriminatie op grond van leeftijd of geslacht.

Et cetera.

Wellicht dat hier de schoen een beetje wringt. Want in het geval dan discriminerende kenmerken de beste predictor blijken voor relevant gedrag, dan wordt het de keuze tussen een goed werkend model of een een ethisch en juridisch zuiver model.

Stel dat (hypothetisch voorbeeld) bijstandsfraude uitsluitend voorkomt bij mannen tussen de 30 en 40, die langer dan 3 jaar in de bijstand zitten. Geef je het geslacht en de geboortedatum mee? Dan doet je model het erg goed. Doe je dat niet, dan werkt het heel matig.
Weet je wat vervelend is? Steeds er tussenuit gevist voor een "willekeurig" onderzoek.
Heb je wel eens meegemaakt dat je ieder week aan de kant word getrokken met een bordje "STOP POLITIE'. Om even in je kofferbak te kijken want "steekproef".
Op je werk duur materiaal niet meekrijgen, maar je collega weer wel. Op school sneller straf krijgen terwijl je klasgenoten om je heen er mee wegkomen.
In de tram/trein als enige 2-3 keer door dezelfde groep controleurs gevraagd worden om je vervoersbewijs.

Zet hier een algoritme bovenop en is het helemaal feest.

Heb je een idee wat dit met je doet?
Ik vind het belangrijk om het ook van een andere kant te laten zien, je speelt het nu volledig op de discriminatie kaart en vindt het onterecht dat dit bij jou gebeurt.

Om perspectief te geven: Ik zie er volledig Nederlands uit maar ben wel officieel allochtoon.

Toen ik een straat legale race auto had met alles er op en er aan (spoilers, luchthappers, lage vering, zware motor, etc etc) werd ik continu aan de kant gezet door politie, minimaal 3x per week tijdens mijn werk. Waarom? Ik voldeed aan een profiel, dit soort auto's zijn 80% van de keren (cijfers die de politie mij vertelde) niet in orde en mogen niet de weg op. Zodoende dat ik gecontroleerd werd (mijn auto was bewezen goed en had altijd foto's en keuringsrapporten van RDW bij mij in de auto om snel te kunnen tonen). Ik vond dit prima want blijkbaar is het nodig omdat mensen zich niet aan de regels houden en ze 80%!! moeten bekeuren. Na een paar maanden herkende de politie mij en werd ik niet meer aangehouden.

Op mijn werk is het bekend dat ik allochtoon ben, ik krijg geen dure spullen mee en mijn collega's wel. Echter nadat ik mij persoonlijk bewezen heb kreeg ik gewoon alles mee net als mijn andere collega's. Ik voldeed wederom aan een profiel waar (in dit geval) mijn allochtone medemens voor gezorgd heeft, namelijk verhoogde kans op diefstal. Dat is geen discriminatie maar gewoon feitelijk vastgesteld. Geen probleem, nadat ik heb bewezen niet zo'n rat te zijn sta ik op gelijke voet.

Uiteraard zijn er vast mensen die nog steeds discrimineren, maar feiten zijn geen discriminatie. Ik ben iemand die altijd vooroordelen doorbreekt en laat zien dat ik tot die 10-20% behoor die wel normaal kan doen. Ik moedig zelfs aan dat ze mogen blijven profileren op deze manier, blijkbaar is het nog steeds nodig, ik heb nog nooit ergens problemen mee gehad en werk altijd mee, daarnaast zal mij die 5 minuten staande houding mij een zorg zijn en heb ik liever dat ze dat blijven doen en ik er heel eventjes last van heb dan dat er weer de discriminatiekaart gespeeld wordt en de ratten er mee weg komen.

Cijfers en algoritmes liegen niet, een profiel schetst een beeld van een situatie en helpt daarbij, niet alleen in handhaving maar ook in iets heel normaals als de gezondheidszorg, als daar indicaties zijn en een dodelijk ziektebeeld wordt ontdekt door profilering ben je toch ook blij dat je gecontroleerd wordt en blijkt dat je toch gezond bent?

[Reactie gewijzigd door drocona op 25 juli 2024 19:08]

Cijfers en algoritmes liegen niet
Zoals elke bedreven beoefenaar van de statistiek je zal kunnen vertellen is het triviaal om te liegen c.q. misleiden met cijfers. Dat is oa met de Brexit gebeurd in Groot-Brittannië, het gebeurt constant in de politiek (in tenminste NL en de VS) en raad eens? Het gebeurt ook wel eens in wetenschappelijke papers, vooral in de sociale wetenschappen¹ en papers geschreven door mensen die werken voor corporaties. Gelukkig worden dat bijna nooit invloedrijke papers.

Voor wat betreft algoritmen (of althans wat tegenwoordig algoritmen genoemd worden), die kunnen even makkelijk discrimineren als een mens dat kan, en om dezelfde fundamentele reden:
Het hangt er maar net vanaf op welke data zo'n neutraal netwerk c.q. mens getraind is, wil zo'n NN/mens niet discrimineren.

¹Denk hierbij aan P-hacking, heel selectief referentiekaders gebruiken om een beeld te scheppen dat gunstig is voor de auteur(s) van zo'n paper, zelfs de numerische grenzen van een grafiek uitkiezen zodat een verschil groter lijkt.

[Reactie gewijzigd door Jeanpaul145 op 25 juli 2024 19:08]

Daar heb je zeker een punt en ben ik compleet met je eens.
Helaas is statistiek vaak nog steeds onderzocht door een mens met voorkeur/vooroordelen/normen/waarden welke de inzet van het onderzoek kunnen beïnvloeden.

Daarnaast ben ik overigens (als een heel logisch denkend persoon) niet onder de indruk van alle "onderzoeken" die met een bepaald specifiek doel neergezet worden om een hypothese te bewijzen. Een onderzoek moet neutraal zijn.
Dus niet: Om criminaliteit in kaart te brengen zoeken we uit hoeveel allochtonen crimineel zijn.
Maar wel: Om criminaliteit in kaart te brengen onderzoeken we de gehele bevolking van Nederland.

Uiteraard kan er nog steeds gestuurd worden in wat de cijfers zeggen, maar in het eerste geval zet je met de uitvoering al een doel neer wat je gaat bewijzen zonder objectief te kunnen kijken.
Het gaat er om een zo accuraat en eerlijk mogelijk beeld te schetsen van een bepaalde situatie zodat er adequaat gehandeld kan worden. Als mensen bevooroordeeld zijn dan zullen ze meer onschuldige mensen stoppen en minder schuldigen. Een AI kan helpen om deze bias te verkleinen. Maar het kan er ook voor zorgen dat de bias vergroot (1, 2 wordt.) Een AI is namelijk niet van zichzelf uit neutraal.

Daarom is het essentieel dat mensen die met AI werken beseffen dat een AI uit zichzelf niet neutraal en eerlijk is en dat er stappen nodig zijn om de neutraliteit zo groot mogelijk te houden.

Zo is het van belang om na te gaan in wat voor context een AI wordt ingevoerd en met wat voor informatie die gevoed wordt. In de ene context is het risico op bias groter dan in het andere domein.

Ook is het van belang dat een AI getest wordt op bias (geen black box AI).

Het is verder van belang dat mensen de beslissingen blijven maken en dat degenen die beslissen te weten krijgen hoe groot het vertrouwen is van het AI in de eigen aanbevelingen.
laat zien dat ik tot die 10-20% behoor die wel normaal kan doen
Echt? 90-80% alochtonen doen niet normaal? En dat is een feit? Volgens mij bewijs je alleen wat 'com2, 1ghz' hiermee wil zeggen:
Heb je een idee wat dit met je doet?
Blijkbaar discriminatie accepteren, en daarbij zelf ook nog eens discrimineren...
Bijna 63% van de gevangenen is allochtoon. De feiten liegen niet. https://www.rtlnieuws.nl/...enen-nederland-allochtoon
95% van de gevangen is man. De feiten liegen niet (maar vertellen zelden het hele verhaal). https://www.cbs.nl/nl-nl/...9-meer-mensen-gedetineerd.
Ach een bestuurder met petje in een BMW wordt ook vaker aangehouden. Algoritmes zitten ook gewoon in het hoofd van de mensen.
Zou het zo kunnen zijn dat het soort criminaliteit dat deze mensen doen hoger ligt dan bijvoorbeeld witwassen met buitenlandse b.v's, allerlei vormen van vastgoed fraude, ransomware, milieu delicten, fraude met vergunningen, ...
En om daar op verder te gaan, is het dan wellicht ook mogelijk dat het soort criminaliteit wat deze mensen doet vaak door mensen uit een lagere klasse wordt beoefend, die daardoor een minder vaardige verdediging heeft?

De initiële feiten liegen niet, maar correlatie is nog altijd geen causatie (en wat zou de wereld er bizar uit zien als dat wel zo was, want als huidskleur = criminaliteit, is keuze van vakantiebestemming een factor in de criminaliteitscijfers...)
je zou het boek van Steven D. Levitt eens moeten lezen. Het heet Freakonomics, en legt haarfijn uit dat de feiten die je poneert wel degelijk liegen.
De korte versie: er is een verschil tussen statistische correlatie en causaliteit. Simpelste voorbeeld daarvan is dat er meer verdrinkingen zijn als er meer ijs verkocht wordt. De cijfers liegen niet, dus laten we stoppen met ijsverkoop, dan verdrinkt er niemand meer!
Ik hoop dat je snapt dat er een ander mechanisme aan ten grondslag licht (iets met veel ijsverkoop, dus warm weer, dus mensen gaan zwemmen en verdrinken soms).
De les van vandaag: nooit meer zomaar zeggen dat de cijfers voor zich spreken ;)
Iemand werd (online, maar concreet) bedreigd. Na veel gedoe bleek de dader een ondernemer in dezelfde straat te zijn. De politie reageerde met: "ja maar dat is zo'n gerespecteerd persoon".
Dus dat soort dingen speelt ook mee, misschien ook wel in de rechtspraak (deze persoon verliest zijn bedrijf als we hem opsluiten).
Er is ook een simpel fenomeen dat je 2 mensen extra inzet in een allochtone buurt. Die 2 mensen doen extra werk en bevestigen net wat meer criminaliteit. Na een jaar zeggen de statistieken dus dat er meer criminaliteit is. Dan worden er 2 nieuwe agenten extra bijgezet, en de cirkel blijft even door gaan. Vervolgens krijg je cijfers als "63% van de gevangenen is allochtoon". Dit is natuurlijk niet gelijk aan "Van alle criminelen is 63% allochtoon" of "63% van alle allochtonen is crimineel". Het kan gewoon zijn dat je als autochtone crimineel een veel lagere pakkans hebt.
Dus, de feiten liegen niet, maar de conclusies die jij trekt hoeven niet de juiste te zijn.
Mensen die in de baby en kleutertijd alleen maar Marokkaans te horen krijgen, hebben een achterstand aan NL woorden die ze later niet meer inlopen. En bij achterstand ligt de criminaliteit op de loer.
Heb je hier een bron voor? Ik heb enige interesse in linguistiek en bilingualism dus vroeg me af of je voor deze claims ook een wetenschappelijk onderzoek als onderbouwing hebt.
Dat percentage was meer gericht aan het voorbeeld met de auto, waarvan de politie aangaf dat 80% niet legaal is met dat soort auto's, daar vallen ook gewoon autochtonen onder, het ging om het profiel en discrimineren, ik durf wel te gokken dat in die auto wereld meer autochtonen de regels overtreden dan allochtonen, gezien die scene veel meer autochtoon lijkt te zijn. Was niet gericht aan allochtonen.
Tevens ook een voorbeeld dat profileren niet met specifieke discriminatie van allochtonen te maken heeft.

[Reactie gewijzigd door drocona op 25 juli 2024 19:08]

Toch was je slachtoffer van discriminatie: als het enige kenmerk, waardoor je geen dure spullen meekreeg, was dat je allochtoon bent.
Waar is: 'onschuldig tot schuld is bewezen' gebleven?

En daarbij komt dat een bias zichzelf versterkt. Dat is nu toch wel duidelijk gesteld. Als alleen groep 1 wordt gecontroleerd dan voldoet op een gegeven moment de andere groep (=2) nooit meer aan het kenmerk waarna gezocht wordt, omdat nooit meer een match wordt gevonden in 2.

(edit:typo)

[Reactie gewijzigd door Tintel op 25 juli 2024 19:08]

Nee hoor, ik vond het meer dan logisch dat ik niet meteen spullen mee kreeg.
Het is niet meer dan redelijk dat als je een vergroot risico hebt om bestolen te worden daar maatregelen op te nemen en dat ik aan een profiel voldoe waarin dit percentage hoog ligt, heeft niets met discriminatie te maken, het is pas discriminatie als er puur op basis van dat ik allochtoon ben gezegd wordt dat ik NOOIT spullen mee mag krijgen. Dat vind ik wel een heel groot verschil.

Er is gewoon een logische, reële basis op cijfers dat het niet slim is om een allochtoon met de leeftijd die ik toen had meteen alle spullen mee te geven, de werkgever had vol vertrouwen dat het goed zou gaan, maar het is toch onnodig risico? Dat vertrouwen heb ik niet geschaad en het was een prima baan waar ik mij heb bewezen en gewoon op gelijke voet met de andere werknemers met veel plezier gewerkt heb. Ik begrijp best dat als iemand dit discriminerend vindt het dan een vervelende situatie in eigen nadeel geworden zou zijn.

Onschuldig tot schuld bewezen bestaat nog steeds, ik ben nooit schuldig bevonden, er was alleen een verhoogde kans dat ik schuldig zou worden op basis van mijn profiel, wat gewoon onderzocht is. Dat risico mag je prima dekken en is echt geen discriminatie.
De vraag is niet of jij het logisch vindt dat afkomst een factor is die risico bepaalt, maar of het wettelijk gezien mag. Dat laatste hoeven we geen discussie over te voeren, het antwoord is nee.

Dat de beschreven situatie niks met discriminatie te maken heeft omdat de verschillende behandeling slechts tijdelijk is en niet permanent klopt niet. Tijdelijkheid sluit discriminatie niet uit.

Een direct oorzakelijk verband tussen allochtoon zijn en bestolen worden is er niet, als je onderzoek hebt wat dat aantoont ben je de eerste. Het is meer een soort vuistregel: bruikbaar als je zelf thuis 1 appeltaart maakt, je het hele process overziet en kan ingrijpen om het resultaat te garanderen.

Als je geautomatiseerd 17 miljoen Nederlanders van 52 appeltaarten per jaar moet voorzien kan je niet met vuistregels gaan werken en is het zelfs goedkoper/sneller als je exacte regels hebt.

Daarom is het gebruik van dit soort 'vuistregel' kenmerken bij algoritme's een probleem, zeker als de exacte werking afgeschermd is. Je krijgt bij een kleine denkfout hele grote problemen, niemand overziet waar precies, en het is pas duidelijk bij het eindresultaat.

[Reactie gewijzigd door Cio op 25 juli 2024 19:08]

Je stipt iets leuks aan..

Je vraagt naar een onderzoek of die etnische causaliteit aanwezig is bij "het stelen van de baas"

Probleem is alleen dat dit niet onderzocht kan worden omdat dit in de huidige politieke sfeer al direct als discriminerend word gezien. En zo kom je nooit aan oplossingen.
Terecht dat het niet mag worden onderzocht omdat je dan al een vooroordeel gebruikt om onderzoek op te baseren...

Het is verboden om op basis van ras, een verschillende behandeling toe te passen. En dit verbod is nu juist ingesteld om gelijkheid als uitgangspunt te blijven gebruiken.
Dankzij de wetenschap weten we dat de kleine biologische verschillen (meer/minder pigment) geen reden zijn om aan te nemen dat ze als mens een ander gedrag zouden vertonen of een ander intelligentie-niveau zouden hebben.

Statistiek en etniciteit gaan heel slecht samen...
Nee, ik vraag aan @drocona om bewijs voor de stellingname dat dit verband is aangetoond in onderzoek. Klein maar belangrijk verschil.

Onderzoek naar de relatie tussen etniciteit en crimineel gedrag (naast andere factoren!!!) is allesbehalve zeldzaam, nagenoeg de hele discussie over integratie van de afgelopen 30 jaar hangt er van aan elkaar!

De suggestie dat dit nooit is onderzocht en daardoor geen 'oplossing' te vinden is, veronderstelt dat het verband er is. Ik zeg niet dat je een racist bent, maar die veronderstelling is wel racistisch.
Volgens mij registreert het CBS dit soort cijfers al lange tijd.
Ik pak zo maar even het eerste Google search resultaat met allochtoon en criminaliteit.
https://www.cbs.nl/nl-nl/...naar-migratieachtergrond-

Ik weet niet meer precies in welk jaar dit zich afspeelde maar is zo rond 2008 geweest, het was gezien die cijfers (2009 is de eerste registratie op die pagina) toen echt wel orde van de dag met hoge percentages verdachten die allochtoon zijn t.o.v. een autochtoon.
Puur het feit dat de criminaliteit van een niet-westerse allochtoon meer dan 3x hoger is dan die van een autochtoon op basis van die cijfers is voor mij al meer dan genoeg om er rekening mee te houden, zeker als je als werkgever al een paar rotte appels binnen hebt gehad wat het alleen maar onderschrijft.

Overigens gaat dit compleet het doel voorbij. Het gaat over discriminatie, dat is ongeoorloofd benadelen op basis van niet toe doende of niet wijzigbare eigenschappen. Dit is dus echt wel geoorloofd gezien er basis is in cijfers en feiten, in geen van mijn voorbeelden word ik benadeeld. Die discriminatiekaart is als er zonder basis puur op etniciteit of herkomst benadeeld wordt, dus niet als het feitelijk vastgesteld is dat je op moet passen, en dat gaat er nu net fout, misbruikers trekken de discriminatiekaart en de mensen die het gewoon snappen hebben er geen last van.

Ik ben het volledig met je eens dat verkeerde opzet van dit soort algoritmes meer fout kan doen dan goed, in de basis ga ik uit van een correct werkend systeem wat objectief is ingesteld. Voor heel veel situaties werkt dit perfect, is volledig geoorloofd en heeft niets met discriminatie te maken.
Puur het feit dat de criminaliteit van een niet-westerse allochtoon meer dan 3x hoger is dan die van een autochtoon op basis van die cijfers is voor mij al meer dan genoeg om er rekening mee te houden
1. Het ging om verdachten, niet veroordeelden.
2. Dit is geen oorzakelijk verband.
3. Als het zo simpel was, hadden we het probleem al wel opgelost.

Elke dag rijden 10 rode en 20 groene auto's over een weg.
Rode auto's rijden 2x vaker te hard (in dit voorbeeld dus 1 groene en 1 rode per dag).
Je kan maar 11 auto's controleren op hun snelheid, je hebt niet oneindig de tijd.
Je controleert natuurlijk eerst alle 10 (=100%) de rode auto's, die rijden vaker te hard.
Je controleert maar 1 van de 20 (=5%) groene auto's, want die rijden niet zo vaak te hard.
Na 100 dagen heb je 100 rode auto's bekeurd (100% pakkans) en 5 groene auto's (5% pakkans).
De computer ziet nu dat rode auto's wel 20x vaker te hard rijden.
Groen Links eist dat alle nieuwe agenten kleurenblind zijn.
D66 wil meer aandacht voor Wiskunde B
FvD stelt Kamervragen over de invloed van het doppler-effect.
VVD vervangt Mark Rutte met een algoritme.
Iedereen die statistiek wel snapt koopt een groene auto.
Als ik moet kiezen uit gelijk-geschikten neem ik de allochtoon aan. In een krappe arbeidsmarkt zoek je allen werk als er ene "probleem met je" is. En dan heb ik liever de huidskleur of geloof (heb ik geen last van) dan iemand die om een of andere reden niet functioneert.
Zeg je nu dat 80-90% van de allochtonen (of mensen met niet-Nederlands uiterlijk?) niet te vertrouwen zijn? Heb je daar een bron voor?
Dat percentage was meer gericht aan het voorbeeld met de auto, waarvan de politie aangaf dat 80% niet legaal is met dat soort auto's. Zeker niet bedoeld voor allochtonen.
Je zou je ook kunnen afvragen waarom kennelijk een groot deel van de mensen met verglijkbare profiel dan oververtegenwoordigd is wat dat dit soort profilering nodig maakt.

Als er 1000 mensen zijn waarvan 30 clowns. En het blijkt uit onderzoek dat 25 clowns het fout down. Is het dan niet logisch op te zeggen dan de kans dat clowns iets fout doen erg groot is. (83%)

Het betekend niet dat van de 970 overige mensen er geen andere groten groepen zijn waar het ook fout doen, maar zo werkt profilering.

Ik snap best dat het lullig is voor die 5 clowns die het wel goed doen, maar voor de veiligheid voor iedereen is het vrij logisch dat ze er wel steeds uitgevist worden om te controleren.

Discrimineren is voor mij toch wat anders. profileren op gevoel of van persoonlijke vooroordelen is natuurlijk niet goed..

De vraag is natuurlijk ook hoe groot die percentage is. 83% vs 54% is natuurlijk iets heel anders.

[Reactie gewijzigd door dutchruler op 25 juli 2024 19:08]

Er gaat in dit vermakelijke (clowns) voorbeeld iets fundamenteel fout.
25 van de 30 clowns doen iets fout. Prima, maar van die 970 andere "artiesten" doet niemand iets fout?
Dus alleen de gemiddelde clown is fout?
Da's wel erg kort door de bocht, (Aha! weer zo'n clown met een niet straat legale, opgevoerde auto!!)

Als dit als waarheid gepubliceerd zou worden zou de schrijver gearresteerd moeten worden wegens opruiing.;-)
Je snapt kennelijk mijn punt niet en je hebt niet goed gelezen.
Als er 1000 mensen zijn waarvan 30 clowns. En het blijkt uit onderzoek dat 25 clowns het fout down. Is het dan niet logisch op te zeggen dan de kans dat clowns iets fout doen erg groot is. (83%)

Het betekend niet dat van de 970 overige mensen er geen andere groten groepen zijn waar het ook fout doen, maar zo werkt profilering.
Van die andere 970 zijn ook groepjes te maken. Wellicht dat er 200 Elvis imitators tussen zitten waar er 70 iets fout doen. En van de 1000 zijn er 200 met zwart haar.

Laat nu van die slechte 70 Elvis imitators er 60 zijn die zwart haar heeft.

Dan zou je kunnen concluderen dat Elvis imitators met zwart haar een grotere kans hebben iets fout te hebben gedaan dan Elvis imitators zonder zwart haar.

dus 1000 artiesten. Ben je elvis imitator dan zit je wel goed. maar elvis imitator met zwart haar.
dan wordt je gecontroleerd.

[Reactie gewijzigd door dutchruler op 25 juli 2024 19:08]

No offence, ik heb het wel gelezen/begrepen maar wilde je subtiel wijzen op de "Telegraaf krantenkoppen stijl vergelijking" van je eerste voorbeeld.
Deze heb je nu in je commentaar op mijn commentaar aangevuld met gegevens zoals ik ze eigenlijk in je eerste bericht al had willen zien.
Je voorbeelden zijn oprecht grappig, 10 Elvis imitators zonder (zwart) haar die doen sowieso iets goed fout.
8)7
Probleem is discrimineren op een verkeerde parameter. Iemand met veel schulden of met een verslaving is een risico. Wie weet is er een correlatie tussen 'zwart' en dergelijke problemen.
Maar dan is het niet kies om op basis van huidskleur mensen te weigeren. Kijk dan naar de financiële toestand van de sollicitant, en niet naar de kleur.
Waarom zou je kleur uitsluiten?

Wellicht is het zo dat het feit dat iemand zwart haar niks zegt over gedrag. Maar als blijkt dat bijvoorbeeld 80 van de laaggeletterden zwart haar heeft dan is daar wel een correlatie.

Het is gewoon 1 van de parameters. Hetzelfde dat ik dik en kaal ben. Daar zitten ook correlaties tussen gedrag, omgeving , etc.

Als je het model gewoon eerlijk laat zijn puur op basis van data dan kunnen we daar met zijn allen veel van leren om de verschillende problemen in onze samenleving op te kunnen lossen.

Parameter's uitsluiten omdat iemand het discriminatie vind of anti LGBT of wat dan ook is performance beperkend.

We kunnen beter ophouden met dat softe gedoe en gewoon eerlijk naar onszelf kijken. Dan pas kunnen we dingen gaan oplossen.


Hehe, maar goed. Just my two cents worth.
Punt is dat je moet kijken naar oorzaak, en niet naar correlatie. Kijk dan bijvoorbeeld naar opleiding, inkomen, schulden voor de omgevingsfactoren.
En dat de maatschappij dan extra streng kijkt naar zaken die een persoon niet kan veranderen is daarbij logisch.
Je moet gewoon kijken naar de data. Alle data.

Dat zielig makende gedoe over wat wel of niet politiek correct zou daar niks in te zoeken moeten hebben. Hou de data schoon en klinisch. Alleen dan kan je juiste beslissingen nemen.

Het zou best kunnen dat we beslissen bepaalde dingen juist niet te doen vanwege potentiële discriminatie of uitsluitingsgronden. Maar dat is de volgende stap.

Eerst de data verzamelen en daarbij alle verbanden zoeken. Daarna kan je besluiten hoe je daar bijvoorbeeld met profilering mee om wilt gaan.
Als je "alle data" doorzoekt beweer je dat toevalligheden en statistiek beter zijn dan inzicht naar oorzaken. Dat is onjuist.
Laten we de staatsloterij nemen. Als je de winnaars van hoofdprijzen onderzoekt kom je vast tot een oordeel over de winstkans. Iets als: "bij temperaturen onder de 8 graden gekocht bij een postcode deelbaar door 7, tenzij de koper ouder is dan 36 jaar, want die moeten hun lot online kopen, maar in de avond."
Dat de data het zegt maakt het echter geen waarheid.
Juist wel. Als over een langere tijd blijkt dat met die parameters er bijvoorbeeld een 70% procent kans is dat je wint.

Als de onderliggende verschillende klein dan kan je die verschillen wegstrepen, maar wat al als juist blijkt dat je je het systeem kan verslaan onder de juiste omstandigheden.

In het geval van de loterij heb je je dan bewezen dat het dus niet zo willekeurig is als gedacht was.

Dus nogmaals, ja alle data. Uiteraard voor praktische overwegingen zal je een selectie moeten maken welke data attributen je wilt gebruiken.

Inzicht naar oorzaken is een volgende stap. Je kan immers pas een oorzaak vinden als je weet wat er gebeurd is. En dat weet je pas door alle data te gaan verzamelen.

Als je van te voren al besloten hebt dat sommige data niet relevant is puur omdat het gevoelig is (discriminatie, hokjes plaatsen, etc) dan zal je ook nooit de echte oorza(a)k(en) kunnen vinden.
Of je blijft achter de feiten aanhollen. Bij de loterij: "na 1 februari gelden er duidelijk andere regels".
Ik zie niet hoe dat anders is ?
Het is een nieuw data attribuut dat moet gaan blijken of de modellen daardoor gaan veranderen.

Het feit dat de regels veranderen is niet zo erg. je kan juist weer meer leren van historische data en de impact die dat gehad heeft op de resultaten. ook daar zijn weer verbanden uit te halen.

Je zult ook merken met de voorgang van AI en de snelheid van computers dat dit soort beredenering dat iets niet nuttig is omdat de situatie toch steeds veranderd steeds minder op gaat.

Met de juiste data en inzichten kan een AI straks veranderingen anticiperen, of zelfs virtueel invoeren om daar al zeer correcte uitkomsten van te laten "voorspellen".

[Reactie gewijzigd door dutchruler op 25 juli 2024 19:08]

Het vervelende is dat je dan kijkt naar historie, maar geen enkele voorspellende waarde hebt in je model.
Waar baseer je dat op ?
Je kan juist heel veel informatie uit historische data halen.

helaas kunnen we nog niet toekomstige data bekijken 8)7
Volstrekt offopic, maar toch. De politie mag niet zonder reden in je kofferbak kijken. Als je op heterdaad betrapt bent van een strafbaar feit, dan mag dat wel. Maar dan moeten ze dat duidelijk aangeven. Je hoeft dus niet je kofferbak open te doen. De Douane mag dat overigens wel. Of het je helpt, niet meewerken betwijfel ik. Maar als je een keer tijd over hebt... ;)
Ze mogen je wel staande houden, je papieren vorderen en eindeloos drammen of ze in je kofferbak mogen kijken.
Wat dat betreft zal het altijd vervelend zijn als de politie speciale aandacht voor je heeft.
Je hebt eenmaal niets te verbergen toch? Ging een keer zo ver dat ze het GBA gingen raadplegen om te vragen over mn huisgenoten.
Prima ze mogen overal kijken. Maar na een paar keer komt het je strot uit. Ook even aan je vriendin vragen of ze vrijwillig bij je zit.
Ik deed vroeger ook werk waar ik een VOG voor nodig had dus had ook niets uitgespookt.
Blijkbaar paste ik in een bepaald profiel.
passen in een bepaald profiel is natuurlijk heel lastig voor mensen die niets met bepaalde feiten te maken hebben, maar als uit profilering komt dat dikke kale mannen tussen 50 en 60 jaar oud met een geblindeerd busje en een jonge mooie vrouw van rond de 20 jaar met 80% zekerheid het maken van porno op publieke plekken als bijverdienste hebben, dan wil je in zo'n situatie ff kijken of er geen cameramateriaal en een deken of matras achteraan liggen. Rij je met je dochter het halve land door om reportages voor de lokale omroep te maken, dan is het lastig om 3x gecontroleerd te worden, maar moet de politie dan stoppen met preventieve controles? Voor hetzelfde geld rijd pa met de schoolvriendin naar ergens anders waar wel dit soort acties plaatsvindt
Antwoord op je vraag: ja, hierbij moet de politie stoppen met preventieve controles omdat deze op een correlatie zijn gebaseerd.
Die 80% zekerheid is onzin namelijk. Resultaat van onbestaand onderzoek - vermoedelijk vuistregel gebaseerd op ervaring van aantal politie-mensen.
Auto's met privacy-glas en mannen met een pruik met daarnaast vrouwen van achterin de 40, kunnen precies hetzelfde gaan doen als wat jij beschrijft, maar die controleren we dan niet?
Preventie is een van de hoekstenen van het politiewerk. Uiteraard was dit een fictief voorbeeld, maar het voorgevoel van agenten of zelfs het gericht controleren van doelgroepen omdat uit data blijkt dat er een hogere kans is op crimineel gedrag is, is beter doenbaar als je de middelen niet hebt om reactief na een misdrijf/overtreding elke auto en elke persoon te controleren die je tegenkomt.
Wat komen een volle auto uit noord-Frankrijk op de autosnelweg richting Nederland heen/weer doen als het geen vakantieseizoen is op vrijdagavond? Kans is énorm groot dat ze niet naar Toverland gaan, maar drugs halen. Volgens jou zouden ze dan enkel gecontroleerd mogen worden als ze zichtbaar een spuit in hun arm hebben steken en dan nog zou je er van uit moeten gaan dat het arme suikerpatiënten zijn die insuline nodig hebben.
Er is een fundamenteel verschil tussen controleren op gedrag (wat doe jij in de avondklok buiten op straat, en waarom rijd je daarbij op een show-off manier) en controleren op wie je bent.
Al zit daar een grijs gebied in - bij die Fransen kan je zeggen dat het gaat om hun afkomst, maar het gaat er natuurlijk om dat ze verre frequente reizen maken en dat is in de huidige omstandigheden opvallend.
Qua omstandigheden is er ook verschil tussen iemand die in een bos rent, of een groepje dat een winkel uit rent.
En als we het dan hebben over risicogestuurd opsporen: zullen we dan niet op uiterlijk gaan kijken, maar iedereen fouilleren die De Bijenkorf uit wandelt? Daar zijn dingen te stelen, dus groter risico, toch?
profilering is er om de overlast van een controle zo veel mogelijk te beperken en gerichter te zoeken naar daderprofielen. Dat die methode niet feilloos is (er zullen zowel false positives als false negatives zijn), wil niet zeggen dat je ze moet afschaffen en vervangen door een generieke controle zoals de identiteitscontrole op de luchthaven (en zelf daar wordt er met profilering gewerkt, zeker voor bagagecontroles). De middelen om controles te doen zijn nu eenmaal beperkt en dan moet je keuzes maken om die zo efficiënt mogelijk in te zetten.
Geheel eens dat profileren zinvol is. Alleen wel op parameters waarvan je kan snappen dat ze zin hebben, en niet op parameters die eruit komen omdat je ze erin gestopt hebt. "De maximumtemperatuur was oneven, en dan wint het CDA".
Of een bepaalde amateurviroloog-die-wel-vestand-van-data-heeft die beweert dat besmettelijkheid afhangt van absolute luchtvochtigheid... terwijl in de praktijk er bijna niks is dat van die parameter afhankelijk is. "Computers says so" maakt het nog niet correct.
Zoek anders maar eens op hoe brittle neurale netwerken kunnen zijn.
het bewust beperken van een set parameters is niet in het algemeen belang en zal ook snel opvallen, omdat correcte parameters om criminaliteit te laten dalen dan ontbreken. Hate the player, not the game.
Ondanks dat het in jouw voorbeeld inderdaad verdacht is. Toch is het niet terecht. Nu wordt gesteld dat een false-positive niet erg is. Want aangehouden worden terwijl je niets onwettigs doet is niet erg zegt men dan, maar dat is het eigenlijk wel. Zeker als het vaker gebeurt. Zodra de steekproef wordt gestuurd door factoren die alleen maar een non-causale correlatie hebben is het al snel discriminatie.
Bijv.
Als een iemand 's avonds in een woonwijk rondloopt zonder hond dan is hij/zij dus al meteen een mogelijke inbreker. Dus de politie gaat 's avonds meer controleren. Vervolgens worden meer inbraken overdag gepleegd... Als in die buurt andere redenen zijn om s' avonds buiten te lopen valt ook de preventie stil. Of de politie moet nog meer aannames doen... op basis van geslacht / huidskleur... discriminatie dus.

Het grote probleem met preventie is eigenlijk dat maar een heel beperkt deel kunnen voorkomen. Zeker bij drugs geldt dat legalisering slimmer is. Voor alcohol is dat wel gebeurd (Al leidt alcohol-gebruik weer tot preventieve controles op rijden-onder-invloed |:( ).
Nu zijn bepaalde activiteiten dermate lucratief dat het automatisch leidt tot crimineel gedrag. Op het moment dat de financieele incentive verdwijnt, wordt criminaliteit ook minder.
Het systeem waarbij we bijv. inbrekers blijven tegenhouden met steeds meer sloten en alarmsystemen is ook gedoemd om te falen.
Een groot deel van criminaliteit ontstaat door (een te groot) verschil tussen arm en rijk; hoe groter dat verschil, hoe meer criminaliteit. Een ander deel ontstaat doordat het risico opweegt tegen het financiele gewin.
Moorden vanuit een opwelling tegengaan door preventie wordt nu gedaan door wapens te verbieden. Dat helpt iets maar messen zullen nooit allemaal verboden worden.

Wat ik probeer te zeggen: als belastingen simpeler en beter verdeeld zijn dan heb je ook minder fraude. En dat geldt voor veel criminaliteit (helaas niet alle). Het steeds intensiever controleren gaat niet werken. En de controles voor het gevoel effectiever maken door, op basis van aannames en vooroordelen, alleen bepaalde mensen of op bepaalde momenten te controleren is niet de oplossing.
De bias die hier heerst tegen profiling is al snel eentje tegen het framen van een subcultuur, terwijl dat niet de bedoeling is. Als criminaliteit een inherent onderdeel van die subcultuur is, dan moet je je daar inderdaad vragen bij stellen, maar niet bij de criminaliteitsbestrijding op zich.
Als uit cijfers blijkt dat parameters moeten worden bijgesteld, dan zal dat ook gebeuren, want zoals jouw voorbeeld aangeeft zijn criminelen ook inventief als ze merken dat 's nachts de pakkans te hoog wordt: zo zijn er inderdaad overdag meer woninginbraken omdat er dan minder mensen thuis zijn en wachten ze rustig tot je vertrokken bent naar het werk. Bij de belastingdienst hier in België zijn ze al jaren zwaar aan het inzetten op automatisering om veel gerichtere controles te kunnen doen, in het artikel wordt ook over het opsporen van uitkeringsfraude gesproken, dus allemaal dingen die jouw stelling voor een betere belastingverdeling net ondersteunen en dus zou je voor ipv tegen profilering moeten pleiten. Rij je rond met een tesla, maar heb je ook al jaren een werkloosheidsuitkering, dan moet er een belletje afgaan, want dan is de kans groot dat de financiering ervan niet klopt.
Werden die vragen gesteld tijdens een controle van de politie waarbij je de auto aan de kant moest zetten? Deze vragen lijken me bijzonder vreemd op dat moment, dus zijn deze niet in een andere context gesteld?

Het zijn toevallig wel twee vragen die te maken hebben met het onderwerp uit het nieuwsartikel, namelijk de bijstand. De hoogte van die bijstand is o.a. afhankelijk van kostendelers, oftewel partner, huisgenoten, kinderen, etc. Die valide vragen worden dan niet zozeer gesteld door de politie, maar door een sociaal rechercheur of een inkomensconsulent. Die hebben beiden inderdaad ook toegang tot het GBA, maar dat is ook prima verklaarbaar.

Overigens is natuurlijk wel aangetoond dat er problemen zijn rondom profileren, dus ik wil je verhaal niet direct bagatelliseren. Er mist alleen behoorlijk wat context in je eigen ervaringen om dat te gebruiken in deze discussie.

Nog even m.b.t. het nieuwsartikel: Ik denk dat de definitie van algoritme wel belangrijk is. Flauw, simpel voorbeeld: Als er een adressenlijst samengesteld moet worden a.d.h.v. een aantal indicatoren (bepaalde wijk, bepaald type uitkering, bepaalde gezinssamenstelling) omdat er een nieuwe minimaregeling komt en de gemeente een brief wil sturen, willen we dat ook al een algoritme noemen? Of moet hier dan per se ML of AI bij komen kijken? "Algoritme" lijkt me een te brede term. Het probleem ligt bij complexe algoritmes die niet meer transparant en/of controleerbaar zijn. Laten we daar een duidelijk onderscheid in maken. In het bericht komt naar voren dat er gelukkig een toezichthouder is die de transparantie in de gaten houdt. Hopelijk doen accountants ook hun werk m.b.t. de controleerbaarheid.
Probleem is ook het doel van het algoritme. Elke huiseigenaar is om te informeren over een nieuwe regeling? Prima.
Iedereen met Marokkaanse roots een brief sturen over de parkeervergunning als je lang het land uit gaat? Twijfelachtig.
Iedereen met Antilliaanse roots en een een huisbezoek plannen omdat ze misschien stiekum samenwonen? Helemaal niet okee.
In de tram/trein als enige 2-3 keer door dezelfde groep controleurs gevraagd worden om je vervoersbewijs.
Nu ligt mijn studententijd al weer een tijdje achter mij, toen ik regelmatig de trein nam. Maar ik heb nog nooit gezien dat controleurs iemand specifiek eruit pakte en langs de rest liepen. Gewoon de hele handel, persoon voor persoon, werd afgegaan.

Overigens ben ik bang dat we in Nederland bij de overheid nu gaan doorslaan tegen algorithmes. Natuurlijk moeten die goed geëvalueerd worden, natuurlijk zijn er risico's aan verbonden. Maar laten we niet in een toekomst uitkomen waarbij uit angst de overheid weigert efficiënte nieuwe technologie te gaan gebruiken.
"Maar laten we niet in een toekomst uitkomen waarbij uit angst de overheid weigert efficiënte nieuwe technologie te gaan gebruiken."
Ik hoop dat die angst m.b.t. AI / algoritmes blijft bestaan, eeuwig!

Gebruik ervan kan natuurlijk worden onderzocht maar op het moment dat het niet meer duidelijk is wát het algoritme doet of zonder menselijk eindoordeel zelfstandig beslissingen kan nemen zijn we al te laat. De angst om dat te laten gebeuren is het enige wat ons ervan weerhoudt om onze overheid zo efficiënt mogelijk te maken (want die drang is er, intern en extern). De gevolgen van een slecht gebruik van een goede techniek zijn veel te groot om luchtig over te doen.
Angst is een hele slechte raadgever. Zoals ik al schreef zeg ik zeker niet dat de hele handel blindelings moet worden toegepast, en de uitkomsten zonder verdere tussenkomst van mensen gebruikt moet worden. Maar een wereld waar bedrijven allerlei dingen qua algorithmes, AI en machinelearning kunnen gebruiken, maar de overheid niet want iemand is er 'bang' voor, nee dat lijkt mij ook geen geweldig idee.
Totdat die angst ervoor zorgt dat we een solide politiek beleid en de nodige wet- en regelgeving op orde hebben, hoop ik dat die angst leidraad voor besluiten blijft. De tegelwijsheid ten spijt.
Maar ik merk dat we er niet heel anders instaan, slechts van een andere kant het probleem benaderen.
Genoeg rommel gezien op het werk, van systemen die een probleem constateren dat niet bestaat. En als het systeem niet transparant is dan wordt het zeker nooit gecorrigeerd.
Op zijn minst moet een systeem een correctiefunctie hebben: "die ene ferrari met die zwarte meneer, die is echt van hem, niet lastig vallen".
Helaas is dit vaak de werkelijkheid.
Je hebt echter geen algoritme nodig voor discriminatie.

Ik heb ook gezien hoe algoritme kunnen helpen om discriminatie tegen te gaan. Zo kan een algoritme een muzikant beoordelen tijdens een auditie en op sommige punten aangeven welke kandidaat technisch goed speelt. Dit schijnt er voor te zorgen dat er meer diversiteit in grote orkesten is.
Als het algoritme optimaal werkt worden er geen onschuldigen meer uit gevist met een onderzoek... Willekeurige onderzoeken zijn dan overbodig.
De voorbeelden die je geeft zijn uitermate vervelend voor de persoon die het betreft. Het is helaas moeilijk om vooringenomenheid uit de mens te halen. De enige manier om vooroordelen en discriminatie weg te nemen is door te zorgen dat mensen het stereotype gedrag dat men associeert met een bepaalde groep niet meer waarneemt. Iemand die ervaart meer dan gemiddeld gecontroleerd te worden moet zorgen dat hij brandschoon is. Als keer op keer het stereotype niet bevestigd wordt zal het vanzelf verdwijnen. Dit geldt overigens ook voor algoritmen: een zelf-lerend algoritme zal vanzelf andere associaties gaan leggen als eerder geobserveerde correlaties geen resultaat meer geven.

En ja, dat voelt uitermate oneerlijk tegenover de mensen bovengemiddeld vaak gecontroleerd worden. Het is helaas een proces van lange adem om dit uitgebannen te krijgen.
Met algoritmes de verdachte gevallen er uit halen is prima. Dat doen we altijd al.
Bijvoorbeeld kijken welke auto's er al een tijd onverzekerd zijn, en daar een brief heen sturen.
Dat is gewoon een algoritme die profileert op verzekeringsdatum en RDW gegevens, en automatisch de conclusie trekt dat je auto waarschijnlijk niet verzekerd is.

Zelfde als iemand met een Zwitserse spaarrekening.
Die bij de belastingdienst aangeeft op 31 december 0 euro te hebben, maar op 1 januari om 00:00 ineens 100.000 euro blijkt te hebben volgens het jaaroverzicht.
Wat mij betreft prima om er met een algoritme uit te halen.

[Reactie gewijzigd door Zynth op 25 juli 2024 19:08]

Lekker op de emotie!

Ik ben inmiddels wat jaren verder, dus de STOP politie feesten of eerder gezegd niet mogen doorrijden bij een fuik zijn inmiddels bij mij gepasseerd station. En misschien ben ik wel te nuchter, want ik snapte wel waarom ze het deden: ze hadden er succes mee.
Ik heb het in het OV overigens nooit zo meegemaakt, als sinds ik een kleine jongen was werd altijd de hele coupe gecontroleerd.
Dus als het je niet uitkomt dan roep je het woord emotie? Hoe wil je dat ik hierop reageer?
Je kan wel allerlei dingen bedenken om mijn verhaal te ontkrachten, maar ik weet zelf beter.
Ik heb het over alledaagse momenten. Dat je even naar de supermarkt gaat en bij de stoplichten aan de kant wordt getrokken.

In het OV begint het je wel op te vallen dat de controleurs de hele coupe checken maar toch dat er opeens een controleur helemaal van voren/achteren komt om alleen jou nogmaals te checken.

Dan kan je het wel lekker gooien op emotie,
maar dit is een maatschappelijk probleem.
Kan je misschien n=1 zeggen, maar de VS zien we dezelfde verschijnselen die door profilering is ontstaan.
Ik gok Noord-Holland, ergens rondom Amsterdam.

Jij hebt het over profilering door personen, althans, zo lijkt het. Hier gaat het over profilering vanuit algoritmes. Natuurlijk worden die gevoed door personen, maar er is ook een kans dat zoiets (bij juist inzetten) de situatie kunt verbeteren.

Wat ik even niet uit jouw verhaal kan halen is op wat voor aspecten er dan op geprofileerd wordt. Misschien rij je wel in een dikke Amerikaanse pick-up met bumperstickers rond en valt dat niet zo goed :+
Hij ontkracht je verhaal niet. Hij zegt alleen dat hij zich er anders bij voelde en er niet zo'n probleem van maakte als jij.

Ik snap dat lastig is als je onschuldig bent en benadeeld wordt. Maar tenzij er een goed alternatief is is de kans groot dat de status quo blijft. Het is aan ons allemaal (en de politiek) om daar met een werkbaar alternatief te komen.

Misschien zit de oplossing juist wel in een algoritme, want een computer kan uiteindelijk beter objectieve keuzes maken. Maar het hangt uiteraard af HOE dit algoritme in elkaar wordt gezet. Ik heb trouwens grote moeite met de media aandacht en de verwoording van het woord 'algoritme'. Alsof het iets nieuws is. Als je een excelblad maakt met wat berekeningen is dat ook een algoritme. Een recept voor een kookboek is ook een algoritme. Misschien moeten ze (ook in de politiek) ook eens duiden wat ze er mee bedoelen. Volgens mij wordt voornamelijk de 'black box' neural nets bedoelt.

De VS vergelijken met NL is geen goede vergelijking. Daar hebben ze een slavernijverleden die nooit fatsoenlijk is erkend door de overheid en blijven ze alles in de doofpot stoppen.
Ik ontkracht helemaal niks, ik zeg wat ik meemaak(te) en zie.
Je reageert niet op de inhoudelijke argumenten van degene waar je op reageert, maar hangt je reactie aan een top post (op dat moment) en komt met voorbeelden waarop je duidelijk aanspraak maakt op de lezer zijn/haar emotie.
"Misschien ben ik wel te nuchter" is blijkbaar hoe je mensen wil omschrijven met zo'n mening maar het is wel duidelijk dat nuchterheid er niets mee te maken heeft.

Als je iedereen die niet in het "profiel" past laat doorrijden zul je inderdaad alleen bewijs vinden dat mensen binnen het profiel niet passen. Dit is een heel goed voorbeeld waarom er uiterst voorzichtig moet worden omgegaan met algoritmes omdat je hiermee alleen jezelf voor de gek houdt.
Ik als 'jong' persoon moet meer betalen voor mijn autoverzekering (want: statistiek zegt dat jonge mensen onveiliger rijden). Zelf rijd ik veilig, maar het is no eenmaal zo dat de gemiddelde jongere dat niet doet. Ga ik dan gelijk klagen dat ik word gediscrimineerd? Nee. Het is balen, maar anders kun je op geen enkel vlak meer een probleem aanpakken omdat elk signalement op zich dan al discriminatie zou zijn. Als de gemeente dan een algoritme gebruikt om zo effectief mogelijk fraudeurs aan te pakken, mag van mij elke variabele worden gebruikt, of dat nu geslacht is, huidskleur of het aantal geraniums op de vensterbank.
Er kan een oorzakelijk verband worden aangetoond tussen fysieke leeftijd en risico op autoschade. Dit verband is onderbouwd met allerlei metingen van neveneffecten, biomedisch onderzoek en statistische uitsluiting van andere factoren zoals opleiding, woonplaats, etc.

Het aantal geraniums op de vensterbank is mogelijk ook bruikbaar, maar dan moet je wel aantonen dat het verband heel stevig is, niet toevallig veroorzaakt door een gezamenlijke factor die net zo goed kan ontbreken!
Een oorzakelijk verband tussen huidskleur en gedrag? Echt? 8)7
Bij nader inzien: nee. Ik had niet door moeten gaan met jouw term 'oorzakelijk verband', ik bedoel een statistisch verband. Maar dat geldt net zo min voor jouw voorbeeld met leeftijd en autorijgedrag. Er kan nog zoveel onderzoek zijn gedaan zoals jij zegt, maar dat gedrag is absoluut niet direct en enkel afhankelijk van de factor leeftijd, maar van vele andere factoren (opvoeding, sociale kring, karakter, etc). Dus je discrimineert dan net zo hard als dat je de verzekering aanpast op andere factoren zoals opleidingsniveau, geslacht of afkomst.

In het artikel gaat het overigens ook helemaal niet over oorzakelijke verbanden, maar over het filteren o.b.v. statistische gegevens, om zo de groep te verkleinen die je controleert (statistische verbanden dus). En in die lijn was mijn reactie.
Een statistisch verband heeft een verklaring nodig. Dat verband hoeft niet eenduidig of direct te zijn, maar om iets te voorspellen wel oorzakelijk!

Bij leeftijd en rijgedrag is het verband niet direct en exclusief, maar wel causaal en te onderbouwen met ander onderzoek over impulsiviteit, het ervaren risico van fysiek letsel en neveneffecten via bijvoorbeeld alcoholgebruik en potentiële rijervaring.

Hoe meer films met Nicolas Cage in een jaar uitkomen, hoe meer mensen verdrinken. Maar je kan niet voorspellen hoeveel voorlichting nodig is over verdrinkingsgevaar aan de hand van IMDB data over geplande releases... ondanks het statistisch verband. Relatie is geen causatie.
Neem lekker big data. Mensen met donker haar en krullen, en tussen de 175 en 177 cm lang, geboorteplaats beginnend met een C, met 2, 5 of 8 doktersbezoeken per jaar, hebben een 5 * zo hoge kans om crimineel te zijn.
Dat kan je zomaar uitvinden. Kwestie van goed zoeken.
Dat betekent niet dat je iets hebt aan die data. Het zegt niets over het merendeel van de personen in die groep. Het voorspelt niks.
Alleen hebben bepaalde mensen wel plots een rotleven omdat ze steeds worden lastiggevallen.
Ik vind het wel heel erg grappig dat het woordje discriminatie heel snel wordt gebruikt wanneer eigenschappen als sekse, geloof, leeftijd, geografisch ter sprake komen terwijl algoritmes juist ook hiervan kunnen leren.

In tegenstelling tot discriminatie proberen algoritmes juist wel bewezen, onderbouwd, objectief en gerechtvaardigd informatie/eigenschappen te interpreteren (even vanuit de hypothetische situatie uitgaan dat de ontwikkelaars geen steken hebben laten vallen, want er zijn namelijk een hoop bagger producten op de markt met nog eens veel meer verschrikkelijke implementaties)

Het probleem ligt natuurlijk hoofdzakelijk bij diegenen die met een algoritme werken.

Als een algoritme voorspellingen moet maken dan weet je zolang je algoritme niet altijd 100% scoort, dat je aanvullende maatregelingen moet treffen.
Het is dan wel heel praktisch als je weet waar je moet kijken en dus weet waar je algoritme kan falen. ;)

Dus, algoritmes, mits goed toegepast nemen heel veel werk uit handen en kunnen zeker grote kostenbesparingen met zich mee brengen en ook de wereld een stukje beter maken.
De falende factor is bijna altijd de mens die (aan de input of output kant) met de algoritmes moeten werken omdat ze niet snappen wat ze aan het doen zijn.
Nee dus, omdat een algoritme vaak zal leiden tot een bias. Vrijwel altijd ontstaat een positieve feedback loop en dan gaat een algorimte dus discrimineren. Veel discriminatie is ook het gevolg van bias (uitzonderingen daar gelaten).

Dus ook al is de score niet 100% dan zal toch in de groep met een score hoger dan 50% meer onderzoek worden gedaan (door mensen) wat de resultaten dus beinvloed en daarom zal het algoritme aannemen dat die groep eerder dat kenmerk vertoont (want er worden meer gevallen gevonden in die groep).
Leuk eigenlijk, je beschrijft eigenlijk 1 van die dingen die mis kan gaan waar ik op wijs.
De falende factor is bijna altijd de mens die (aan de input of output kant) met de algoritmes moeten werken omdat ze niet snappen wat ze aan het doen zijn.
Ik ben het ook helemaal met je eens hoor, alleen de oorzaak dat het in jouw voorbeeld het algoritme niet meer goed functioneert is de mens.

Je ziet namelijk vaak dat mensen onderzoek doen in een subgroep.
En dat de onderzoeksresultaten ook relevant zijn voor de subgroep.

In een versimpelt voorbeeld:
Als een algoritme getraind moet worden is het ook belangrijk om het zelfde onderzoek in representatieve aantallen te doen in de niet subgroep.
Als bijvoorbeeld in een stadion 10000 mensen zijn en daar voelen er 50 mensen zich niet lekker.
En als alleen deze 50 mensen getest worden en daarvan zijn er 2 ziek bevonden door het testen van 5 verschillende peilwaarden, dan is het afhankelijk van de peilwaarden hoe relevant deze zijn voor de overige niet geteste 9950. Een stofje in het bloed dat alleen bij een bepaalde ziekte voorkomt is een veel betere peilwaarde dan bijvoorbeeld of iemand loopt te zweten.

Maar een algoritme kan dat alleen leren wanneer het hem verteld word of wanneer de overige 9950 niet zieke mensen ook worden getest.
En als je het algoritme nog beter wilt maken, dan test je niet meer op 5 verschillende peilwaarden, maar 10 of 100! Want hoe meer kenmerken, hoe hoger de kans dat een algoritme nauwkeuriger kan werken.

Dus de suggestie om niet meer te meten op bepaalde kenmerken, verslechterd de kwaliteit.
Het is belangrijk dat een algoritme juiste, in juiste proporties informatie aangeleverd krijgt, want anders leer je juist algoritmes verkeerde dingen.
En wie is verantwoordelijk dat de algoritmes juiste informatie krijgen.., juist, de mens. ;)
Je hebt gelijk dat de mens natuurlijk de data aan moeten leveren en daarmee ook het systeem 'verkeerd' kan voeden. Wat ik ook bedoelde was dat bij een algortime wat afhankelijk is van de uitkomst van enig onderzoek waarbij de output van het algoritme een doorslaggevende factor is, een feedback loop ontstaat. Dus is de mens gedeeltelijk verantwoordelijk maar is dat onvermijdelijk. Kortom: die algoritmes zijn een heel slecht plan.
Daar bovenop komt dat een algortime (zoals elders ook al aangegeven) non-causale correlatie gaat gebruiken om suggesties te doen.
Je slaat het debat wel meteen dood met zo'n benadering. Er is vast een middenweg mogelijk die de doelen wel op een nette manier bereikt.

Bepaalde predictors uitzetten die wel voorspellende waarde hebben, is ook maar een vorm van symptoom bestrijding. Ipv de modellen aanpassen kan je het probleem dat die patronen veroorzaakt wellicht beter aanpakken.
Zou profilering dan niet slechts gebaseerd moeten zijn op de opvoeding die overtreders hebben gehad en in welke sociale kringen zo iemand bevindt. Etnische achtergrond, leeftijd en geslacht laat je hierbij buiten beschouwing.

Iemand die als kind is mishandeld, weinig liefde heeft gehad of in een gebroken gezin is opgegroeid heeft wellicht een groter risico om in criminaliteit te belanden. Dat wil niet zeggen dat dat gebeurt, maar het risico is groter. De vraag is ook wat je onder kindermishandeling verstaat. Dat je als ouder je kind maar snoepjes laat eten om van het gezeur af te zijn en je kind wordt dik en wordt vervolgens gepest op school, zou je als kindermishandeling kunnen beschouwen. Een gepest kind heeft vervolgens sterker het gevoel om ergens bij te willen horen en komt daardoor gemakkelijker terecht in criminaliteit, al of niet vanachter een beeldscherm.
Dat soort dingen moet men naar kijken, maar mogelijk zijn die gegevens niet bekend omdat dit nooit is gesignaleerd, of gemeld bij officiële instanties.
Het verplicht maken van een stopformulier kan helpen hierbij. De politie moet bij een controle dan op een formulier inzichtelijk maken op basis van wat iemand wordt aangehouden. Dat kost een paar minuten extra, maar dat moet dan maar. Zeker als zoiets uit een computer rolt. Of als een agent 20 keer per dag 'dure auto, verkeerde wijk' opschrijft.
Weet je wat vervelend is? Steeds er tussenuit gevist voor een "willekeurig" onderzoek.
Heb je wel eens meegemaakt dat je ieder week aan de kant word getrokken met een bordje "STOP POLITIE'. Om even in je kofferbak te kijken want "steekproef".
Op je werk duur materiaal niet meekrijgen, maar je collega weer wel. Op school sneller straf krijgen terwijl je klasgenoten om je heen er mee wegkomen.
In de tram/trein als enige 2-3 keer door dezelfde groep controleurs gevraagd worden om je vervoersbewijs.
Ik snap je volkomen. Bovenstaande heb ik zelf niet meegemaakt, behalve dan dat op school.
Heel de klas gooit 40 minuten lang propjes naar je, jij gooit één propje terug en je hangt.
En de conrector wilde nooit jouw verhaal horen. Die school is trouwens nog steeds hetzelfde, echter destijds waren er in de stad 4 middelbare scholen, één LTS, één katholieke mavo, één openbaar lyceum en één "christelijk" college, maar inmiddels zijn ze in fasen gefuseerd en is er alleen nog dat christelijk college, dat toen open stond voor katholieken en moslims, maar waar de protestanten/Calvinisten de dienst uitmaken. Geheel in navolging van Luther die fel antisemiet was, en in de Calvinistische kringen (Puriteinen, Presbytians, Methodisten, ...) was men er algemeen van overtuigd dat de vloek van Ham/Canaan alle donkere mensen als bestemd tot slaaf bestempelde en dat de Amerikaanse Indianenstammen afstammelingen waren van de door de Assyriërs in ballingschap gevoerde en nu verloren stammen van Israel, en dat ze daarom gestraft moesten worden en gedood mochten worden. Deze houding is nog niet overal verdwenen.
Zet hier een algoritme bovenop en is het helemaal feest.
Het probleem is, zoals @t_captain al zegt, dat men denkt dat die discriminerende kenmerken de juiste predictors zijn voor crimineel gedrag. De statistieken lijken dat ook te bevestigen. Als mooi voorbeeld kun je in Amerika de Burn-Loot-Murderbeweging nemen die claimt getarget te worden door de politiediensten. Daarbij moet ik als eerste opmerking maken dat in Amerika inderdaad discriminatie van oudsher in de maatschappij en in het systeem is ingebakken (zie mijn bovenste stuk over het Calvinisme), maar ook hier is het aanwezig, maar anders.

In Amerika is het aantal zwarte personen dat omkomt door politiegeweld groter dan het aantal blanken terwijl het aandeel van deze mensen op de totale bevolking minder groot is.
Studies have shown that “black people are three times more likely to be killed by police in the United States than white people. More unarmed black people were killed by police than unarmed white people last year,” despite the fact that only 14% of the population are black people.link
Echter bekend is ook dat de zwarte bevolking een bovenmatig deel uitmaakt van de gevanenisbevolking en dat zwarte Amerikanen veel vaker in criminele activiteiten betrokken zijn dan andere bevolkingsgroepen. Sterker nog, er wordt gezegd dat:
‘More police officers are shot and killed by blacks than police officers kill African-Americans.’ link en het aantal slachtoffers dat valt als gevolg van geweld tussen zwarten onderling is vele malen hoger.
“The unarmed shootings — which are the ones that are the troublesome ones — there are only 9 of them against blacks — 20 against whites in 2019. So that‘ll give you a sense. Meanwhile, there were 9,000 murders of blacks, 7,500 of which were black-on-black,”

Dat zijn de statistieken. Als je dat soort dingen in een algoritme plaatst dan zal dat algoritme waarschijnlijk tot de conclusie komen dat je het beste alle zwarten preventief al vast zet.

Nu als je echter gaat kijken naar de onderliggende oorzaken van dat criminele gedrag, dan zijn dat dingen zoals armoede en kansongelijkheid, die ook onder bepaalde groepen van o.a. de blanke en latino-bevolking voorkomen, en ook daar zie je datzelfde criminele gedrag. De historische discriminatoire samenleving heeft mensen arm en kansenongelijk gemaakt en dat triggert het criminele gedrag.
In Nederland zien we dat o.a. bij mensen van Marokkaanse, Antilliaanse, Turkse, Roma- en Sinti- afkomst, maar daar komt ook nog een cultuurverschil en een verschil in normen en waarden bij.

Men zou het algoritme dus effectiever kunnen maken als men die armoede en die kansongelijkheid als parameters in het algoritme zou kunnen inbrengen. Uit het hypothetisch voorbeeld van t_captain kun je dan inderdaad toevoegen hoe lang iemand in de bijstand zit, welke opleiding deze heeft mogen genieten, hoe groot diens netwerk is (levert baankansen op), hoeveel werkervaring hij(/zij) heeft en hoe veel keer dat hij is afgewezen bij een sollicitatie, hoe goed die persoon zichzelf kan promoten, ... maar is dat gewenst ? Het is wel iets dat impliciet bij werkgevers gebeurd als mensen solliciteren. Daarbij weten we dat dit nieuwe algoritme uiteindelijk bij diezelfde groep mensen zal uitkomen. Die hebben immers uit historische redenen die lagere opleiding, ontbrekend netwerk, ontbrekende of onvoldoende werkervaring, onvoldoende zelfvertrouwen, groot aantal afwijzingen.

Maar dan wordt het opeens duidelijk waar je als samenleving iets aan moet gaan doen. Dan kun je namelijk niet meer stellen dat het ligt aan de nationaliteit, etniciteit,.. afkomst van deze mensen ligt. Dan wordt ook duidelijk dat je de bedrijven moet aanspreken, maar ook dat je moet zorgen dat er voor iedereen kansen zijn, en niet mensen in de bijstand laten hangen, dan kun je niet meer accepteren dat er überhaupt nog mensen werkloos zijn ook al is het crisis. Maar dan nog gaat het niet gemakkelijk zijn dat te realiseren, ook niet als het economisch goed gaat.

En dan nog zal er altijd een spoortje discriminatie blijven.

[Reactie gewijzigd door BeosBeing op 25 juli 2024 19:08]

Bedankt voor je uitgebreide reactie. Dat is ook een beetje het punt wat ik wilde maken. Zeker die vergelijking met VS.
Mijn ervaringen heb ik hier beknopt beschreven, maar vaak krijg ik dezelfde reacties als ik dit vertel aan een ander dat mensen dit onwaarschijnlijk vinden.
Wat je nu aangeeft zijn toch allemaal situaties ontstaan door menselijke vooroordelen. Een algoritme dat zich puur zou baseren op data heeft geen vooroordelen.
volgens mij sta je ver van de werkelijkheid.

ik ben van Turkse afkomst en heb altijd een overduidelijk verwilderde Turkse kop.
Ik ben NOG NOOIT aan de kant gezet. Nog nooit. En rij heeeeeeel erg veel.

ik ben n=1, maar ik zou de kandidaat die elke week aan de kant wordt gezet (zonder strafbare reden zoals te hard of roekeloos rijden) wel eens willen tegenkomen.
Ik heb Arubaanse/Surinaamse roots en vergelijkbare ervaringen als @com2,1ghz ...
Jou reactie gaat vooral over jou. Fijn voor je, dat jij er geen last van hebt. Veroordeel alleen niet een ander op zijn ervaringen, dus HOEZO ver van de werkelijkheid?

Jammer genoeg voor VELEN, is profilering een WERKELIJKHEID....
Als je geen ethniciteit of naam invoert, is er geen risico op discriminatie op dat kenmerk
Dat is niet hoe het werkt. Er zijn genoeg proxies voor ras/afkomst. Geografische locatie van waar iemand woont, inkomen, opleidingsniveau, etc.

edit: geografische afkomst -> geografische locatie

[Reactie gewijzigd door boto op 25 juli 2024 19:08]

Als dit zo is, is het dan nog wel discriminatie? Zijn het dan niet gewoon feiten?

Ik geloof niet dat je het ras van een persoon kan bepalen als je de woonplaats/wijk, het inkomen en het opleidingsniveau weet overigens. Als je dit met zekerheid zou kunnen zeggen, zou het ook geen discriminatie meer zijn.
Klopt aan de ene kant, maar aan de andere kant ga je dan wel weer onderscheid maken o.b.v. andere kenmerken, die eigenlijk helemaal geen signaal zouden ( mogen ) zijn om een verhoogd risico van fraude vast te stellen.
Want wat je hiermee doet is bijvoorbeeld iedereen die in een bepaalde wijk woont, met een bepaald inkomen en opleidingsniveau als risico beschouwen.
En zoals we met de toeslagenaffaire hebben gezien, is een verhoogd risico al heel snel een daadwerkelijk fraudegeval, enkel o.b.v. deze systemen/algoritmes.
En uiteraard laat je natuurlijk dan de hoog opgeleiden, met dubbel modaal inkomen en woonachtig in de villawijk met rust, die zouden natuurlijk nooit frauderen O-)

Het is gewoon niet eerlijk om op deze manier aan risicoprofilering te doen, want je maakt een hele grote groep op voorbaat verdacht o.b.v. informatie die er eigenlijk helemaal niet toe doet, die dus eigenlijk niet relevant is.
En dan komen we toch wel weer bij het onderwerp discriminatie, waar het wel op lijkt.
Het is kiezen uit twee kwaden. Of iedereen uitgebreid controleren wat dus meer werk is en meer kosten met zich meebrengt, of een keuze maken mede door profilering. Die profilering komt uiteindelijk altijd uit op discriminatie, maar is dat erg?
Discriminatie is letterlijk "het maken van onderscheid". In de huidige maatschappelijke en juridische context betekent discriminatie: "het onrechtmatig onderscheid maken tussen mensen of groepen" oftewel "het niet gelijk behandelen van gelijke gevallen"
Het maken van onderscheid is niet erg. Als je boven de 68,5k verdient betaal je procentueel ook meer belasting, dat is ook onderscheid maken tussen mensen. Een man mag ook geen vrouwentoilet binnen. Je mag niet op een gehandicaptenparkeerplaats staan zonder zo'n kaart. Er is overal onderscheid.

Je gaat ook alleen bijstandsfraude onderzoeken bij mensen die bijstand ontvangen, is het dan discriminatie dat alleen zij worden onderzocht?
In geen van de gevallen gaat het om algoritmes die zelfstandig beslissingen maken. Er komt altijd nog een ambtenaar aan te pas die een oordeel extra onderzoekt.
Zolang dit gebeurt (en er rekening wordt gehouden met de AVG), vind ik het prima en is onderscheid maken naar mijn mening helemaal niet erg.
Je vergeet een 3e optie. Accepteren dat je fraude hebt en nooit iedereen kan pakken. Genoeg voorbeelden zijn er recentelijk in het nieuws voorbij gekomen die laten zien hoe krankzinnig het systeem is. Bijvoorbeeld waar gescheiden ouders waarvan een ouder zijn kinderen zakgeld geeft en waardoor de andere ouder dus als gevolg daarvan gekort wordt op de bijstand + 50% boete moet betalen omdat ze dit niet gemeld had en meteen op de fraude stapel is beland. En dan ging het maar over 10 euro. Dat terwijl de echte fraudeurs hier niet mee gepakt worden.
Oh nee, die vergeet ik zeker niet. Tuurlijk glippen er een X% tussendoor, maar als je fraude accepteert en er niets tegen doet gaat iedereen frauderen en is het einde zoek.

Het korten op de bijstand vind ik overigens prima, dat kind heeft 10 euro minder nodig van de ene ouder dat dus gekort kan worden. Bijstand is omdat het écht nodig is, niet voor de leut. In de link van de NOS kan ik overigens niets vinden over een boete van 50%, alleen dat de teveel gekregen bijstand moet worden terugbetaald, volkomen logisch. Anders gaat iedereen de alimentatie laag zetten, zodat moeders maximale bijstand krijgt en dan ook nog eens alimentatie via "zakgeld". Bijstand krijg je voor nood, niet om voor 20 a 30 euro per maand snoep te kunnen kopen.

Het "korten op de bijstand" is overigens gewoon het teveel ontvangen bijstand terugbetalen hé.

https://nos.nl/artikel/23...kinderen-moest-terug.html

[Reactie gewijzigd door Thomas18GT op 25 juli 2024 19:08]

Probleem is wel dat mensen volgens de regels dachten te handelen , dat bevestigd kregen, om vervolgens als fraudeur bestempeld te worden en dan alles in een keer terug moesten betalen.
Volgens mij is het ontwijken van regels rondom de bijstand door alimentatie als zakgeld te betalen duidelijk niet volgens de regels. Als je denkt dat dat volgens de regels is moet je de regels misschien eens gewoon lezen in plaats van erover te denken.
Nou zo makkelijk is dat niet. Volgens de regels die jij zo graag aanhangt wordt inkomen uit arbeid aan kinderen onder de 18 niet afgetrokken van de uitkering van de ouder.
De vraag is of ‘zakgeld’ aan een kind door de andere ouder niet óók als inkomen uit arbeid gezien kan worden, al was het maar de auto wassen oid.

[Reactie gewijzigd door divvid op 25 juli 2024 19:08]

Er staat prima beschreven wat eronder valt, en zakgeld of geld voor papa's auto wassen staat daar echt niet tussen.

https://www.belastingdien...skorting/inkomen_uit_werk
ah, resultaat uit overige werkzaamheden dus.

Hier ontstaat het grijze gebied:
Neem moeder met bijstand en 14 jarige zoon.
situatie1: zoon krijgt 100 euro van oom voor kleding --> uitkering van moeder wordt gekort.
situatie 2: zoon maakt website voor oom en krijgt 100 euro en koopt daar kleding van --> uitkering van moeder mag niet gekort worden.
Hier ontstaat dus een rechtsongelijkheid voor moeder terwijl ze in feite niet eens een partij is.

Dit om aan te geven dat zwart/wit regels al heel gauw tot problemen kunnen leiden zonder dat dat nou echt de bedoeling is. Ik hoop dat je inziet dat daarom is de menselijke maat zo belangrijk is om geen onbedoelde rechtsongelijkheid te creëren of iemand gelijk maar als fraudeur te bestempelen.

De essentie van het topic is dus dat algoritmes ondersteunend behoren te zijn en niet zomaar beslissingen zouden moeten nemen. Het probleem bij de overheid is dat de ambtenaren zich al snel verschuilen achter een 'computer says no', maar goed ik raad aan Asimov te lezen, die heeft daar al veel over geschreven, Kafka ook overigens.
Er is helemaal niets grijs aan, er staat letterlijk zakgeld in het artikel. Zakgeld heeft niets met een arbeidsinkomen te maken, ook niet met resultaat uit overige werkzaamheden.

Als het kind van 14 werkzaamheden doet voor papa of z'n oom en daar netjes een factuur voor stuurt zijn het werkzaamheden en wordt mama niet gekort op haar bijstand.

Daarnaast staat dit letterlijk in het artikel, dus de algoritmes nemen ook geen beslissingen.
In geen van de gevallen gaat het om algoritmes die zelfstandig beslissingen nemen. Er komt altijd nog een ambtenaar aan te pas die een oordeel extra onderzoekt.
Ach laat ook maar, Kafka zal ook niet aan je besteed zijn...
Ik vind de wet inderdaad boeiender..
Kijk je naar de kans dat iemand crimineel is of kijk je naar de kans dat iemand dat niet is. 99% criminelen is autochtoon, 98% allochoon. Kans op criminaliteit is bij allochtonen twee keer zo groot. Kans op niet crimineel gedrag is bij allochtonen en autochtonen bijna vergelijkbaar. Groep allochtonen is veel kleiner, ga je profileren gaat de allochtone groep daar heel veel last van hebben en mis je bovendien veel criminaliteit bij de autochtone groep.
Ik heb geen idee wat je nou wil zeggen.
Juist. Want juist algoritmes zien geen verschil tussen correlatie met of zonder causaal verband. Dat is voor mensen ook moeilijk maar daar speelt gezond verstand nog wel een rol.
zie ook bijv. correlatie of causaliteit
Je kunt het ook eens omdraaien.

Borstkankeronderzoek wordt vooral bij vrouwen gedaan boven een bepaalde leeftijd.

Waarom? Omdat uit onderzoek blijkt dat hier het grootste risico zit.
Dus alle vrouwen van een bepaalde leeftijd worden aangeschreven om mee te doen aan dit onderzoek.

Zijn er bepaalde categorieën/ maatschappelijke groepen bij welke iets voorkomt wat neer komt op een wettelijk misdrijf valt dit plots onder discriminatie of etnisch profileren??

Men stelt de modellen niet voor niets zo in, men heeft uit ervaring gemerkt dat deze combinaties gewoon veel voorkomen. Net als bij borstkankeronderzoek.

Maar net als bij borstkankeronderzoek, zit je in de doelgroep betekend niet automatisch dat je het hebt of gaat krijgen. Maar preventief controleren we wel.
Zo is het ook met andere modellen, je moet niet automatisch veroordeeld worden voor iets. Het moet nog steeds wel worden vastgesteld of worden voorkomen.
Volgens mij zou de conclusie mogen zijn dat profilering wel mag als je er maar open over bent en etnisch profileren wel verboden is en je dus moet uitkijken met je systeem die informatie op te rechtstreekse manier te geven. Dus voorkomen dat hij bijvoorbeeld via de naam alsnog dat gaat doen, maar ook weer niet zorgen dat je algoritme niks waard is.

Wel voorkomen wat er bij de toeslagenaffaire is gebeurd natuurlijk, onschuldig tot tegendeel aangetoond is.
Nou en volgens de persoon waar ik op reageerde is het zelfs al etnisch profileren als je de woonplaats, opleidingsniveau en inkomen ingeeft, omdat je daaruit al het ras van een persoon zou kunnen halen.
Dat is niet hoe het werkt. Er zijn genoeg proxies voor ras/afkomst. Geografische locatie van waar iemand woont, inkomen, opleidingsniveau, etc.
Als je i.p.v. woonplaats postcode (inclusief letters) invult, ja dan kan dat.
Er zijn in bijvoorbeeld in Gouda genoeg postcodes waar meer dan 90% van de bewoners een allochtone afkomst hebben.
Er zijn 3 wijken in Nederland met boven de 90% Nederlanders met een migratie achtergrond, waarvan 1 er maar 55 inwoners heeft..

In die 3 wijken kan je het met 90% zekerheid zeggen, alle andere wijken al minder dan dat.

https://allecijfers.nl/ra...-van-wijken-in-nederland/
Er zijn kleine leugens, grote leugens en statistiek. Een postcode met letters beslaat 1 straat. Er zijn heel veel meer straten waar dit wel het geval is, terwijl er in de wijk bijvoorbeeld hoogbouw en laagbouw is waardoor dit op wijk niveau, niet meer zichtbaar is. De Bijlmer staat " maar" op 83% er is in de Bijlmer ook laagbouw. Maar het percentage voor de hoogbouw ligt flink wat hoger.
Het artikel gaat over gemeentes, dan zijn wijken nog nauwkeuriger.
Het gaat over gemeentes die profileren, en dat doen zij over het algemeen op postcode(met letters) als het over je locatie gaat.
Om als gemeente te profileren op gemeente is natuurlijk kolder.
Dan nog kan je het alleen met zekerheid zeggen als 100% in een straat een migratieachtergrond heeft, en dat zijn hooguit een paar procent van de straten van nederland, dan zit je er dus >95% van de tijd naast.
Als je altijd bepaalde groepen meer controleert lijkt daar meer te gebeuren, daarnaast is preventief controleren een heel zwaar middel waarmee je de gecontroleerde groepen benadeeld. Als je kenmerken van die groepen in een model gooit (locatie, inkomen etc) ga je die groep meer controleren op de aanname dat er meer gebeurt.

De enige reden dat je dat dan denkt is dat daar historisch meer controle is geweest, en het is bijzonder naïef om te denken dat daar niet vaak (ook in NL) racistische grondslagen in zitten.
Als je altijd bepaalde groepen meer controleert lijkt daar meer te gebeuren
Voor die bias, mits bekend, kan je wiskundig corrigeren.
Ik ben het wel met je eens hoor, maar het is nogal een verschil of ze ineens aan je deur staan met een huiszoekingsbevel of je elke keer staande wordt gehouden met de auto omdat je in het "profiel" past, of dat je een brief krijgt met een oproep om je te laten controleren voor borstkanker.

Verder vind ik profileren prima, als een bepaalde groep vaker een strafbaar feit pleegt is het logisch dat die eerder staande wordt gehouden. De kans dat een vrouw van 75 in een Matiz op maandagmorgen drugs verkoopt is nou eenmaal gewoon veel kleiner dan dat een man van 24 op vrijdagavond in een Golf dat doet. Als je niet iedereen kan controleren (want niet genoeg politie op straat en niet gewenst) moet je keuzes maken.
Als er wordt geprofileerd op basis van etniciteit, dan wel.

Ik denk dat er beter gekeken kan worden op basis van tweede staatsburgerschap (buiten de EU welteverstaan), dat is niet per se gebonden aan etniciteit, maar is volgens mij zowel wettelijk als ethisch beter dan op basis van etnisch profileren. Met name voor witwassen, (grensoverschrijdende) georganiseerde misdaad en financiering van terrorisme of vreemde mogendheden en gelijksoortige praktijken lijkt mij daar beter mee te bestrijden.

[Reactie gewijzigd door Pyronick op 25 juli 2024 19:08]

Ik denk dat er beter gekeken kan worden op basis van tweede staatsburgerschap (buiten de EU welteverstaan), dat is niet per se gebonden aan etniciteit, maar is volgens mij zowel wettelijk als ethisch beter dan op basis van etnisch profileren.
Ten eerste lijkt mij de voorspellende waarde gering, ten tweede is het ethisch gezien net zo fout.
Mensen kunnen niet veranderen in welk land ze geboren zijn. Ook als ze zich braaf aan de regels houden worden ze gestraft omdat ze een andere nationaliteit hebben.
Nationaliteit en staatsburgerschap zijn wel twee compleet andere zaken.

Staatsburgerschap kan het individu beïnvloeden, nationaliteit daarentegen niet.
Nationaliteit en staatsburgerschap zijn wel twee compleet andere zaken.
Amerika maakt dat onderscheid, Nederland niet. Verder heb je an sich gelijk.
Staatsburgerschap kan het individu beïnvloeden, nationaliteit daarentegen niet.
Nederland kent alleen nationaliteit. Je kunt een integreren en dan naturaliseren, dan krijg je de Nederlandse nationaliteit, en moet je tegenwoordig je oude nationaliteit opgeven, maar als puntje bij paaltje komt, kunnen ze dat dan ook weer terug afnemen, en dan doen ze alsof je die oude Nationaliteit automatisch terugkrijgt.
Met het verschil dat eerst is onderzocht welke vrouwen borstkanker hebben zonder de leeftijd te betrekken in de scheiding.

Dus zou je eerst een homegene groep moeten vinden met evenveel mensen in groep A als in groep B die allemaal dezelfde voorgeschiedenis hebben (onmogelijk...). En dan binnen die omvattende groep tellen hoeveel criminelen in groep A en B zitten. Terwijl daarbij alle mensen in groep A en B worden gecontroleerd.

En helaas was het vermoedelijk zelfs bij de het eerste borstkanker-onderzoek niet mogelijk om alleen vrouwen met een gelijke voorgeschiedenis te onderzoeken.
Probeer je te suggereren dat mensen genetisch voorbestemd zijn om in bepaalde risicogroepen te vallen?
Tja, dat is iets wat veel mensen niet willen horen. De genetische opmaak van mensen maakt vanzelfsprekend uit voor wat ze kunnen en dus ook ook in welke risicogroep ze vallen. Het is duidelijk dat Kenianen genetisch beter in staat zijn een marathon te lopen. Iemand zoals ik zal nooit hetzelfde kunnen presteren, ook niet als ik heel veel oefen en op mijn dieet let.

Helaas lijken veel mensen geen verschil te willen maken tussen wetenschap en maatschappij-inrichting. Vrouwen zijn genetisch voorbestemd om kinderen te kunnen baren, mannen zijn dat niet. Dit verschil lijkt mij een wetenschappelijk bewezen feit. Ondanks dit feit, kennen we gelijke rechten toe aan mannen en vrouwen.

Hetzelfde geldt voor andere genetische eigenschappen. Bepaalde genetische raciale kenmerken wijzen op een lager IQ, zelfs na correctie voor omgevingsfactoren zoals voeding, opleiding, enz. Hoewel dit wetenschappelijk feit is, wordt iemand bijkans verketterd als je suggereert dat iemands huidkleur gekoppeld kan zijn aan iemands IQ. Dat is raar, want maatschappelijk is iemands IQ geen eigenschap waarop meer- of minder rechten toegekend worden.

[Reactie gewijzigd door ari3 op 25 juli 2024 19:08]

Je vergeet wel te benoemen dat in bijna alle gevallen de spreiding binnen groepen zo groot is, en het verschil tussen de groepen als geheel zo klein, dat de beste marathonloper met Fins bloed nog altijd beter is dan 99% van de Keniaanse marathonlopers.
Het probleem is de data:

Heb je data die gebaseerd is op basis van controles van een (onbewust) discriminerend gemeentemedewerker, of succes van een vorig discriminerend model, dan propageert het volgende model prima de discriminatie.

Enkel als je begint bij een onpartijdige dataset, bijvoorbeeld gebaseerd op uitvoerige willekeurige controles, dan kan je een onpartijdig model ontwikkelen. En het liefst houdt je dan alsnog elk jaar een deel geheel willekeurige controles om het model te kunnen updaten, zodat groepen waar dit model het risico als laag inschatte maar dit niet meer het geval is ook correct in het model opgenomen worden.

Dit soort modellen staan of vallen bij onpartijdige, goede kwaliteit data, en dit soort data is lastig te verkrijgen. Als je deze data verkrijgt op basis van het model zelf of biased dataverzameling, dan kan je nooit stellen dat het model onpartijdig is en gebaseerd op feiten.
School vestiging en opleiding, onderwijsduur (blijven zitten), daar kan je waarschijnlijk aardig mee correleren.
En discriminatie is het wel. "Laten we die auto aan de kant zetten, de eigenaar is 2 keer blijven zitten" - dan zie je toch ook dat het onzin is?
Laat justitie dan echt onderzoek doen in plaats van met databases te spelen.
Ik vind het helemaal geen onzin als blijkt dat de kans 5 keer zo hoog is dat iemand die 2 keer is blijven zitten drugs bij zich heeft.
Hier ligt een onderwerp voor debat: wat is een proxy?

Hoeveel correlatie moet een feature hebben met een beschermd kenmerk (afkomst, ethniciteit, leeftijd, geslacht, religie) en hoe weinig correlatie met niet-beschermde kenmerken, om het een "proxy" te noemen?

Zo is er een bepaalde (overigens niet supersterke) correlatie tussen opleidingsniveau en ethniciteit. In de wat oudere generaties was die correlatie wel sterker.
Moet dat een reden zijn op opleidingsniveau te blacklisten als input feature? Stel dat frauderen vooral een hobby van hoogopgeleiden blijkt te zijn, dan zou je die relatie missen.

Als je een zeer principele insteek neemt, en iedere vorm van correlatie wil uitsluiten, dan blijft er eigenlijk niets werkbaars over.
Een proxy is niet anders als een vervanging.
In een model mag een proxy ook bestaan uit een deel model. De vervanging hoeft niet precies één op één ten zijn.
Geografische afkomst is bijvoorbeeld geen één op één vervanging te zijn voor het ras of etnische afkomst. Iemand die in Turkije geboren is, hoeft geen Turk te zijn. Xess Xava Sneijder is bijvoorbeeld in Turkije geboren, maar van Nederlandse ouders.

Hoewel ik niet voor een centrale registratie ben van algoritmes is dit wel een voorbeeld wat geregistreerd zou moeten worden. Het aanmerken als mogelijke fraudeur grijpt diep in het persoonlijke leven in. Zelfs als er handmatig gecontroleerd wordt, kan dat voor een bijstandsafhankelijke betekenen dat hij of zij regelmatig bezoek krijgt om het aantal tandenborstels in de badkamer te tellen, of dat je gevolgd wordt om te controleren of je niet regelmatig bij een vriend of vriendin op bezoek gaat en daar mee eet, logeert of met een tas boodschappen naar huis gaat. De bijstand is met deze controles een instantie die veel mensen naar de GGZ dwingt en (prille) relaties kapot maakt.
Misschien is niet zozeer discriminatie, als wel generalisatie het probleem.

In dat geval is zo'n model onwenselijk wat je er ook in stopt.
uiteraard, bedenk wel: generalisatie is wel de kiem van toekomstige discriminatie..
de conclusies op de uitkomsten van het model zijn belangrijk, en hoe die worden geinterpreteerd en met welke vooroordelen. Het model is niet onwenselijk, maar diegene die de conclusies gaat trekken.

Dat is erg belangrijk.
En het zelfde geldt waarschijnlijk ook voor leeftijd.
Dat ook, als iemand x aantal jaren onderwijs genoten heeft kan ik wel een inschatting maken over zijn/haar leeftijd. Of op basis van inkomen, en al zeker een combinatie van die twee
Mee eens, geografische afkomst is terdege een proxy voor ras/afkomst, maar hoe koppel je inkomen en opleidingsniveau als proxy aan ras/afkomst? Er zijn vast associaties tussen deze variabelen, maar kan je dan niet alle variabelen uiteindelijk terugvoeren op ras/afkomst?

Uiteindelijk springen datawetenschapppers zo door hoepels om verklarende variabelen te vinden die op geen enkele manier als proxy voor een ethnisch profiel kunnen worden geïnterpreteerd, terwijl dat wellicht niet nodig is/de boel onnodig inefficiënt of onbruikbaar maakt.
Je kan het er niet mee eens zijn, maar dat is gewoon te testen/onderzoeken.

Als jij in nederland (het ligt dus heel erg aan in welke context je zit) niet een relatie kan vinden tussen inkomen, opleidingsniveau, waar je woont, eventueel of je nederlands je eerste taal is etc, en erachter komen wat iemands ras/ethniciteit/afkomst is...

dan heb ik nieuws voor je; die relatie is er absoluut.

Of we dat wenselijk vinden in onze samenleving is een andere discussie, maar de relatie is er absoluut.

Nu nog wat aan doen :)
Ik denk dat je mijn punt niet goed begrijpt, maar ik lees nu dat deze discussie hierboven door anderen beter wordt gevoerd.

Mijn punt is dat er JUIST altijd wel een relatie/associatie te vinden is tussen x, y, z verklarende variabele en ras (of welke afhankelijke variabele dan ook), maar dat dat niet per se de variabelen buiten spel zet om wel tot een werkzaam risicoanalysemodel te komen.

Stel dat je iemand zijn criminele gedrag kan bepalen aan het aantal gele huisplanten dat iemand heeft + de stof van diens ondergoed + de RAL kleurcode van de muur in de bijkeuken, maar deze stellen je onbedoeld ook in staat om het ras van die persoon te achterhalen met hoge mate van zekerheid, maakt dat jouw model dan onwenselijk in deze samenleving?

En zo ja, wat is een realistisch wenselijk alternatief dan voor een datawetenschapper die gevraagd wordt om uit overheidsgegevens tot risicoinventarisaties te komen zonder op ras/afkomst te differentiëren?
Ik denk dat ik zeker je comment niet helemaal begrijp.

of het wenselijk is of die vraag wordt gesteld is een reeele vraag.

Ik denk (even als sidetrack) het wel reeel is om je af te vragen of het soms wel van toepassing is. Er kunnen bij bepaalde afkomsten/huidskleuren (ras bestaat niet _echt_...) (zwarte mensen hebben bijvoorbeeld een ander type huid) wel reeele vragen/uitkomsten die kunnen worden vastgesteld.

En dan komen we weer terug op context, het ligt aan de context. Voor fraude? Is je huiskleur niet belangrijk, maar culturele afkomst kan dat eventueel wel zijn.

Of dat wenselijk is, om terug te komen op je vraag, daar kan ik geen antwoord op geven. Ben geen politicus :)Dat zal ik ook de reden zijn waaorm ik de discussie wat minder goed kan houden.
Huh? Alleen daarvoor moet je al een datamodel hebben/maken. En ook daarvoor zal je al moeten aageven dat X-wijk, Y-mensen wonen. Dat op zichzelf is al (etnisch) profileren.
U denkt dat CBS die data niet heeft?

Je hoeft niet de afkomst te weten om deze inschattingen te maken.

Waaorm is dat etnisch profileren? Feiten zijn feiten, hoe we er mee omgaan is een andere discussie... (zie fraudedetectie enzo)

[Reactie gewijzigd door boto op 25 juli 2024 19:08]

Als je geen ethniciteit of naam invoert, is er geen risico op discriminatie op dat kenmerk. Stop je er geen geboortedatum of info over de gezinssamenstelling in, dan is er geen risico op discriminatie op grond van leeftijd of geslacht.
niet helemaal mee eens, als jij uit een postcode gebied komt waar 90% een bepaalde "etniciteit" heeft, dan lijkt me dat jij als persoon wordt meegenomen met een 90% kans met die bepaalde "etniciteit" ?
Andersom werkt het ook: als je bepaalde activiteiten doet vanuit een 100% witte wijk, bij voorkeur boven modaal, dan houdt je het lang vol.
Zolang de buren niets te klagen hebben. Want hun klachten worden wel eerder serieus genomen. Maar als het online-activiteiten zijn hebben de buren geen idee.
Als je geen ethniciteit of naam invoert, is er geen risico op discriminatie op dat kenmerk. Stop je er geen geboortedatum of info over de gezinssamenstelling in, dan is er geen risico op discriminatie op grond van leeftijd of geslacht.
Genoeg andere statistieken die correlatie hebben met afkomst e.d. Zo kun je in veel steden aan straat of wijk wel afleiden wie/wat daar woont. Ik kan je in Amsterdam kilometers aan straat aanwijzen waar vooral ouderen wonen, of moslims of rijke blanke mensen. In Utrecht ook wel.
Bias in de trainingsdata is inderdaad een groot risico en daar heb je rekening mee te houden. Er zijn echter twee belangrijke punten waarom dit lastig is:

1. Bias vinden in data, vooral in hele grote databergen, is lastig.
2. Volgens mij, maar correct me if i'm wrong, worden gigantisch veel voorafgetrainde algoritmes gebruikt. Dat doen wij namelijk ook. Via Azure, AWS of andere partijen die dit tegenwoordig aanbieden. Het vaststellen van Bias daarin is lastig. De input gaat een black-box in er komt iets uit. Ik vind het nogal lastig om de besluitvorming van dat soort algoritmes te beoordelen en in te zien.
Maar zelfs al geef je niet de etniciteit mee in het model dan nog kan de discriminatie ontstaan vanwege adres. Want bepaalde wijken zijn oververtegenwoordigd in je bestand van bijstandsgerechtigden. Vaak zijn dit wijken waar bepaalde etniciteit overheerst. En zo kan het maar zomaar zijn dat bepaalde bevolkingsgroepen toch oververtegenwoordigd worden in de fraude opsporing. Koppel daaraan vast dat het systeem een veel hogere kans geeft dat je een bijstandsfraudeur pakt, krijg je het gevolg dat de gebruikers van het systeem automatisch iedereen die eruit komt gaat behandelen als fraudeur want “het systeem heeft altijd gelijk”.

Wat ik schokkend vond om te lezen was de reactie van een gemeente op het bericht, die aangaf niet belend te willen maken waarop het algoritme selecteert om bijstandsfraudeurs niet wijzer te maken. Dat zegt genoeg over met wat voor blik er naar het systeem wordt gekeken, want je bent schuldig tot het tegendeel wordt bewezen. En dat is lastig als je niet weet waarom je schuldig bent.
Alles correleert in enige mate met alles.

Sommige correlaties zijn hele sterk. Denk aan ethniciteit <--> achternaam.
Andere zijn zwak. Denk aan geslacht <--> opleidingsniveau. Globaal zit er geen verband tussen, maar in bepaalde segmenten van de maatschappij wel.

Het spreekt voor zich dat features die sterk correleren met beschermde kenmerken in de wet gelijke behandeling, niet mogen worden ingevoerd in een model. Dus geen achternamen erin bijvoorbeeld.

Een hele principiele vraag die we in het publieke debat moeten beantwoorden: waar ligt de grens? Een feature die sterk correleert met frauderisico, en heel zwak met geslacht, is dat toelaatbaar? Vallen onze normen en waarden in getallen te vatten?

Of moeteen we een meer principiele houding aannemen? Je kunt bepleiten dat niet discriminatie, maar generalisatie het onderliggende kwaad is.
Arbitrair voorbeeld: "mensen met oneven huisnummers onder de 200 sjoemelen het vaakst". Dat huisnummer zal niet erg sterk correleren met je afkomst, religie, geslacht etc. Maar als onschuldige bewoner van huisnummer 107 is die extra controle evengoed onprettig.
Puur vanuit het standpunt van het meest accurate algoritme is het toevoegen van die data goed en prima te verdedigen.
Het probleem is alleen dat je steeds meer richting een self fulfillling prophesie gaat, omdat onbedoeld er ook een hoop valse signalen zullen zijn. Maar ook doordat, omdat steeds dezelfde groep gecontroleerd wordt, men daar ook steeds bevestiging vindt dat die groep gecontroleerd moet worden.
Als ik altijd naar de slechtste buurt ga om te kijken dan vind ik natuurlijk nooit die mensen in de middenklasse buurt.


Ik geloof niet dat hier een oplossing voor te vinden is, anders dan gewoon te stoppen met de algoritmes of door er nog veel meer data in te gooeien die het specifieker maakt.
Snap niet helemaal waarom met altijd in gaat op het discriminatie punt.
Stel je hebt 5000 man in Nederland
1000 met een Duitse nationaliteit
En er zijn dat jaar 100 fraude gevallen geweest, 50 komen van een Nederlandse nationaliteit, 50 van een Duitse.

Dan is het toch niet gek om de risicoprofilering zo aan te pakken dat er een hoger risico uit komt bij Duitse nationaliteiten? Dat is dan toch een feit en geen discriminatie?

Dan daarbij zou een risico indicatie alleen een indicatie voor risico moeten zijn, door een iets hoger risico indexje te krijgen zou je in principe niet anders op aangekeken moeten worden. Behalve dat er iets meer gekeken kan worden naar mogelijke fraude. Een hoger risico getalletje moet niet inhouden "Jij bent sowieso fraudeur en we gaan je zo aanpakken".

Dan is het meer de vraag waar het nou mis loopt, het gebruik van de risico index?

Je kunt je ook afvragen of een risico index nog nodig is wanneer je werkt met automatische sytemen en in principe automatisch fraude zal moeten kunnen vinden lijkt me? Dan is er helemaal geen risico index meer nodig aangezien iedereen dan lekker vol automatisch nagekeken wordt.
Als de input 100% objectief, gebaseerd op de feiten, wordt ingevoerd dan is de output ook 100% objectief.

Maar wat als die output politiek ongewenst is? Dient de input dan aangepast te worden?...

Dilemma in de werkelijke wereld is daarbij "Wat is objectief?" Wie bepaalt dat? Hoe zeker kunnen we zijn dat wij mensen een objectief systeem maken als we de politiek ermee laten bemoeien...

[Reactie gewijzigd door Ruben26 op 25 juli 2024 19:08]

Als je geen ethniciteit of naam invoert, is er geen risico op discriminatie op dat kenmerk. Stop je er geen geboortedatum of info over de gezinssamenstelling in, dan is er geen risico op discriminatie op grond van leeftijd of geslacht.
Deels heb je gelijk maar je maakt hier ook deels een gevaarlijke misvatting. Racisme en discriminatie kan altijd in een model sluipen, ook als je de op het eerste oog discriminerende kenmerken weglaat. Een simpel voorbeeld is postcode. Dit correleert vaak enorm aan inkomen, en inkomen correleert weer met etniciteit (via opleidingsniveau of taalvaardigheid). Denk aan de bijstandswijken waar veelal allochtonen wonen. Zo kan het systeem leren dat bepaalde postcodes extra moeten worden gecheckt, waardoor er impliciet discriminatie plaatsvindt. Een ander voorbeeld is geslacht weglaten om discriminatie op geslacht te voorkomen. Echter vrouwen werken vaker parttime en in bepaalde sectoren waardoor het systeem echt wel kan voorspellen wie vrouw is en wie niet. Zo zijn er talloze variabelen die zo sterk correleren met gevoelige variabelem.

Ik wil hiermee niet aangeven dat dit verkeerd (of goed) is, slechts aantonen dat je aanname dat racisme en discriminatie bestrijden zo simpel te voorkomen is, niet helemaal waar is.
Stel dat (hypothetisch voorbeeld) bijstandsfraude uitsluitend voorkomt bij mannen tussen de 30 en 40, die langer dan 3 jaar in de bijstand zitten. Geef je het geslacht en de geboortedatum mee? Dan doet je model het erg goed. Doe je dat niet, dan werkt het heel matig.
Dan werkt je model niet goed omdat deze nooit een incident buiten die doelgroep zal detecteren. De daders zullen nooit tot in de eeuwigheid in dezelfde groep blijven vallen. En je maakt je model zo dat deze wel een vaste doelgroep blijft controleren, dan weet je zeker dat het vroeg of laat fout zal gaan.
Ik maak ernstig bezwaar tegen misbruik van de term "algoritme", en het gemak waarmee dat hier, door de schrijver van het artikel, maar ook door de community die reageert, wordt overgenomen.

Wikipedia:"Een algoritme is een recept om een wiskundig of informaticaprobleem op te lossen. Wiskundig geformuleerd is het een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt."

En dat is precies zoals ik het (al decennia geleden) onderwezen gekregen heb. Het is een stelsel van regels/formules die iedereen kan lezen en, mits voldoende conceptueel niveau, begrijpen.

Per definitie is dus duidelijk hoe een algoritme werkt. Je kunt het gewoon lezen. In de broncode.

Ook decennia geleden waren er al neurale netwerken die getraind werden met input/output data, waardoor het netwerk "leerde", en je het later kon gebruiken om met nieuwe input, een verwachte output te genereren. Indertijd werd het veel gebruikt voor OCR (Optical Character Recognition), maar inmiddels is dat uitgebreid naar vele andere gebieden waaronder spraakherkenning en (overige) beeldherkenning.
Het probleem daarbij is dus dat niemand kan uitleggen waarom een bepaalde output verschijnt bij een zekere input. En dat is volgens mij het probleem dat de politiek wenst aan te pakken.

Dat de politiek hier de ballen verstand van heeft en dus verkeerde terminologie gebruikt, soit. Maar laten wij, vakbroeders daar niet in mee gaan. Er zijn al spraakverwarringen genoeg op deze wereld.
Een getraind neuraal netwerk is toch ook een algoritme? Er is, na training, een wiskundige beschrijving van inputs naar outputs.

Zoals je benoemt is het probleem dat niemand die mapping goed kan doorgronden.
"Een getraind neuraal netwerk is toch ook een algoritme? Er is, na training, een wiskundige beschrijving van inputs naar outputs."

Maar in die formules zitten alleen knooppunten en wegingsfactoren. Dan is het dus geen algoritme, in de zin dat het van een gegeven begintoestand naar een beoogd doel rekent.

Dus: ik wil een temperatuur van Kelvin naar Celsius berekenen: T(C) = T(K) - 273 is een formule, maar ook een algoritme.

En: output(x) = 2,45*input(x1) + 3,15*input(x2) is wél een formule, maar niet met een beoogd doel, geen vaste uitkomst.

Je kunt het ook anders formuleren: een formule die bedacht is door een wiskundige om iets uit te rekenen, is een algoritme. Een formule die bedacht is door een computer (door een algemene formule te trainen met verschillende gewichten van de knooppunten van het netwerk) is geen algoritme.
Dat lijkt me een erg enge (in de zin van nauwe) definitie van algoritme.

output(x) = 2,45*input(x1) + 3,15*input(x2) voldoet m.i. aan
Een algoritme is een recept om een wiskundig of informaticaprobleem op te lossen. Wiskundig geformuleerd is het een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt.
Het is een recept en een eindige reeks instructies. Helaas weet niemand weet waarom het recept is zoals het is. Maar we kunnen het recept wel volgen en daarmee het probleem oplossen.
Beoogd doel ontbreekt....
Een getraind neuraal netwerk is toch ook een algoritme? Er is, na training, een wiskundige beschrijving van inputs naar outputs.
In pricipe wel, maar in praktijk is het zeer lastig en in de meeste gevallen niet haalbaar om het 'algoritme-equivalent' van een 'netwerk van verbindingen en gewichten van die verbindingen' te achterhalen.
Dan nog zijn dat zeer complexe algoritmes. Daarnaast is het soswieso niet realistisch om te verwachten dat de gemiddelde gebruikers van die systemen kunnen begrijpen hoe die systemen werken (behalve in heel algemene termen); dat is een heel andere tak van sport waar specialisten voor nodig zijn.
Er is zijn commissies bestaande uit dergelijke specialisten nodig, die toegang hebben tot de systemen en die test cases kunnen voorleggen.
Maar het gaat er hier juist om dat degene die een eindoordeel moet vellen op basis van de uitkomst van een neuraal netwerk zou moeten snappen hoe deze werkt. Daar komt imo veel meer bij kijken dan een een uurtje in de broncode turen. Met de snelheid van alle ontwikkelingen hierin lijkt het mij goed om zéér voorzichtig met deze technologie om te gaan. Ik zit er eerlijk gezegd niet op te wachten dat enkele "vakbroeders op Tweakers" aan de politiek moeten uitleggen hoe een neuraal netwerk werkt.
"Maar het gaat er hier juist om dat degene die een eindoordeel moet vellen op basis van de uitkomst van een neuraal netwerk zou moeten snappen hoe deze werkt. Daar komt imo veel meer bij kijken dan een een uurtje in de broncode turen. "

Niemand kan de uitkomst van een neuraal netwerk verklaren. Dus "snappen hoe deze werkt" kan niet. De enige verklaring die mensen kunnen geven is: op basis van de training die het netwerk gehad heeft komt het met deze output.

En iedereen kan de uitkomst van een algoritme verklaren (zolang je kunt lezen en enig conceptueel vermogen hebt).

Dus eigenlijk komt het erop neer: vind je het moreel/ethisch acceptabel om neurale netwerken te gebruiken, of beperk je je instrumentarium tot algoritmes?
Ook staat het algoritme in de broncode, dan wil dat toch niet zeggen dat eenvoudig achteraf te bepalen is waarom een bepaalde beslissing is genomen? Tijdens de toepassing van dat algoritme waren toch bepaalde regels van toepassing en niet allemaal? En als dit algoritme bestaat uit honderden regels dan is het bijzonder moeilijk om te bepalen waarom een beslissing is genomen (door mensen). En is die broncode dan openbaar?

Vervolgens noem je neurale netwerken waarbij het inderdaad nog moeilijker is om te bepalen waarom een bepaalde beslissing is genomen. Maar dat doet er verder niet toe.

Dus dat de politiek een onjuiste term gebruikt is niet meteen waar.
Sluiten algoritmes discriminatie niet juist uit, juist omdat ze naar de feiten kijken?
Als je een algoritme alle data geeft en je weet dat die data unbiased is, dan zou je dat wellicht kunnen stellen. Maar je kan het onmogelijk alle data geven en de data die we wel verzamelen kan zeer biased zijn.

Als een bewoner een geschiedenis heeft van niet betalen van belastingen, dan zou je zeggen dat de kans groter is dat hij in de toekomst weer niet betaald. Maar misschien had deze bewoner geen baan en kon het gewoon niet betalen. Er staat wel ergens geregistreerd dat deze bewoner een baan heeft, maar als het systeem niet bij die dat kan, dan word hij alsnog aangemerkt als mogelijke wanbetaler.

Als deze persoon vervolgens in een arme wijk woont en in deze wijk betalen meer dan gemiddeld mensen hun belasting niet omdat ze het geld niet hebben, kan je als inwoner van deze wijk toch als mogelijke wanbetaler worden aangemerkt.

Het probleem is ook dat er vaak alleen gegevens worden verzameld waarvan wij denken dat ze relevant zijn (en als we meer gaan verzamelen al snel tegen bijv. de AVG oid aan lopen of andere praktische problemen), waardoor de data (en dus ook de output) ook weer word beinvloed.

Dus nee, ik zou zeggen dat algoritmes discriminatie niet uitsluiten.

Data science is leuk, het kan heel veel inzichten geven, maar op dit moment zijn het redelijke black boxes. We weten wiskundig gezien hoe ze in elkaar zitten en we kunnen ook naar de gewichten van bepaalde factoren kijken, maar dan alsnog is het moeilijk om te zeggen waarom iemand precies word aangemerkt als mogelijk wanbetaler/fraudeur/probleemgeval of wat dan ook.
En toch doen mensen exact hetzelfde. Je beoordeelt iemand op zijn merites en daar hoort zijn verleden (zeker jegens jou) bij. Of wat dacht je van het alom bekende "invloed van slechte vrienden".
Het is voor het menselijk brein en vooraslnog ieder computermodel onmogelijk om beslissingen te nemen die niet onder een fout label zoals racisme (achterstand op scholen door etniciteit x) of bijv. geslachtsdiscriminatie (mannen sneller op de 500m).

Een goede agent is er een die naast het volgen van de regels op goed onderbuikgevoel handelt, toch even dat stelletje aanspreken of dit wel geheel vrijwillig is, toch even deze afgebakken auto in de villa wijk staande houden, doorvragen als een kind van de trap gevallen is, ook al zijn het 'nette ouders'. Hup positieve beoordelingen volgen elkaar op. Totdat iemand van het AD vraagt waar hij op let als hij zijn ronde doet...
En toch doen mensen exact hetzelfde. Je beoordeelt iemand op zijn merites en daar hoort zijn verleden (zeker jegens jou) bij.
Een goede agent is er een die naast het volgen van de regels op goed onderbuikgevoel handelt
Hier zit zeker wat in, en ik ontkent dit ook zeker niet. Het is alleen wel zo dat je als mens bewust kunt zijn van je discriminatie en er dan wat aan kunt doen.

Op de universiteit zie ik bijvoorbeeld steeds vaker werk nagekeken worden zonder het bekend is van wie het is om een bepaalde bias te voorkomen en omdat steeds meer digitaal gebeurd kan er bijvoorbeeld aan het handschrift niet meer een gok gedaan worden naar geslacht (om maar even een stereotype er bij te pakken).

Bij AI/algoritmen zit dat stukje bewust zijn er niet en is het ook moeilijk om te achterhalen omdat we wel kunnen zien dat een bepaalde factor zwaar weegt, maar niet precies waarom. Daar word nu wel flink onderzoek naar gedaan, maar de vraag is hoe goed die uitleg uiteindelijk gaat zijn. En stel dat we een factor te racistisch, seksistisch/wat dan ook vinden, en er uit gaan halen, dan is de kans groot dat het systeem wel een afgeleide weet te vinden die heel erg in de buurt komt.
Ja ik ken de initiatieven, en soms zijn ze heel zuiver (je voorbeeld van nakijken) en soms ook niet. Ik heb zelf het idee dat als je menselijk interacteren als black box gaat zien en vervolgens alleen de uitkomst aan wil passen (bijv. meer vrouwen op topfunctie) je juist anderen gaat discrimineren. Maar omdat de slachtoffers daarvan niet in de eerder benoemde gediscrimineerde groep vallen is het ineens niet erg.

Hetzelfde geldt met solliciteren, je mag officieel niet vragen naar de gezinssituatie van iemand. Dat gaat goed voor massawerk. In het werk wat ik doe met kleine hechte teams is juist het delen van hobbies, interesses en 'levensfase (kleine kinderen)' een ontzettende catalysator. Hoe kies je de juiste kandidaat als ze dezelfde skills hebben?
polthemol Moderator General Chat @Gumball1 februari 2021 10:35
de kans is vrij groot dat het algoritme werkt op eenzelfde wijze zoals het is opgevoed geworden.

In de VS heeft men algoritmes getrained om te assisteren bij de rechtspraak. Men trainde het door middel van oude cases te 'voeren' als basis, om zo te helpen bij toekomstige uitspraken. Het werkte perfect, gezien het algoritme even racistisch was bij nieuwe cases als de rechters waren bij oude cases :) (je huidskleur was van belang voor hoe hoog je straf ging worden).

Je zag ook bij bv. de belastingdienst en hun toeslagenaffaire, dat dit heel snel heel erg fout gaat doordat er vreselijk eenzijdig wordt gekeken en een algoritme slechts kijkt naar de feiten waar 'jij' het op wijst. De bias gaat dus even groot zijn dan
Dan nog steeds is er ansich niets mis met een algoritme dat helpt de eerste selectie van personen te maken. Zolang het maar een persoon is die controleert of dit inderdaad klopt, dan kan hij in geval van een verkeerde selectie deze ook markeren om zo het algoritme te verbeteren.

Bij dit soort algoritmes blijft de menselijke factor altijd nog belangrijk en de besluitende om wel of niet verder te gaan met een controle.
polthemol Moderator General Chat @gedonie1 februari 2021 15:41
zelfs met controle is het een bedenkelijke ontwikkeling. Je ziet dat de rekenkamer een hele rare omschrijving/definitie heeft van hoe een algoritme moet werken:
het mag de ambtenaar niet beïnvloeden in zijn/haar keuze;

Dan moet je dus al stoppen, want de output gaat wel degelijk een ieder beïnvloeden.
Daarbij zal de persoon die het moet gaan controleren, ook mogelijk beïnvloed worden (wederom: zie belastingdienst met hun toeslagen) en ga nog maar wat door.

Er wordt heel erg gewaardschuwd over waarom algoritmes en ai een heel slecht idee zijn voor fraudebestrijding bij/door de overheid en met name als het blackbox-algoritmes zijn of ze gevoed moeten worden met wat fraude is.
En hoe denk jij dat een persoon dit doet. Uiteindelijk exact hetzelfde als een algoritme. Ondoorzichtig en blackbox. Immers zal zijn selectie ook op ervaring gebaseerd zijn.

Wat dat betreft zeg je eigenlijk dus dat fraude bestrijding moet omvatten dat iedereen verscherpt gecontroleerd wordt. Of je aan algoritme (neural network) of een mens de beoordeling laat doen uiteindelijk zit daar altijd een bias in.

Dan vertrouw ik liever een algoritme wat getraint is met afdoende gegevens voor de voorselectie dan dat mensen dat moeten doen. Al is het alleen maar vanwege het feit dat het veel te veel werk is om continu nauwkeurig te doen voor personen.
Een algoritme kan een bias hebben overgenomen van de ontwikkelaar van het algoritme, en van een selectief aanbod van trainingdata. Selectief kan zowel in de rijen zitten (welke blokken data stop je wel of niet in het model) als in de kolommen? Welke features stop je wel of niet in het model.

Een beladen, maar wel zeer actueel voorbeeld.

In de VS is er een aanzienlijke correlatie tussen het percentage zwarte inwoners van een wijk en de kans op geweldsmisdrijven.

Kijk je naar de hele werkelijkheid, dan zie je een plaatje van eenoudergezinnen, lage opleidingsniveaus, veel mensen die langdurig op minimuminkomen zitten etc. Hoe een model gaat oordelen hangt er vanaf welke referentie-wijken je wel of niet in de training data stopt, en welke kenmerken van de inwoners je wel of niet erin stopt.

Het ene model zal voorspellen: "zwarte mensen hebben een hogere kans om geweldsdelicten te plegen".
Het andere model zal voorspellen: "jonge mannen met arme ouders hebben een hogere kans om geweldsdelicten te plegen".
Het enige wat je kunt doen om discriminatie te voorkomen is om juist alle data erin te gooien. Daar zit dan geen bias in. Alles even zwaar laten wegen.
Dat is een hele lastige stelling.

Vanuit theoretisch perspectief neig ik ernaar om je gelijk te geven. Immers: een model dat alle vrijheid heeft om zichzelf te trainen en is getraind op alle mogelijke data, dat zal niet erg gevoelig zijn voor een bias van de ontwikkelaar of de data.

Maar: misschien is een volledig zuiver (zuiver in de betekenis "bias = 0") model nog niet maatschappelijk toelaatbaar. Dat is het verschil tussen theorie en maatschappij.

Stel je een kleine provinciestad voor. In de stad worden nauwelijks misdrijven gepleegd, behalve door een groepje jongens uit 1 ethnische minderheid. Een model zou op grond van alle data kunnen besluiten dat leeftijd, geslacht en ethniciteit, lichaamslengte (de 4 boefjes hebben toevallig vrijwel dezelfde lengte) de voorspeller is voor criminaliteit. Daar is geen bias aan, want alle gegevens zijn evenredig meegeteld.

Toch zullen de politieke meningen om zo'n model zeer gepolariseerd zijn.
Een PVV stemmer zal waarschijnlijk het model gelijk geven met de verklaring "het model volgt slechts te feiten".
Een linkse stemmer zal een wat andere mening hebben. In de linkse doctrine is zelfs een bestaande correlatie, hoe sterk ook, geen reden om een groep uit te singelen.
Ik denk dat een risico analyse uberhaubt een wat ouderwetse gedachte is, tegenwoordig wordt zowat alles online geregistreerd/ingevuld, waarom daar niet gewoon vol automatisch op checken?
Alleen naar de feiten kijken zonder oog naar menselijke en emotionele aspecten is precies waarom de hele toeslagaffaire is begonnen.

Een algoritme kijkt niet naar redelijkheid en billijkheid.
Een goed geschreven algoritme is een perfect hulpmiddel om fraude, criminaliteit of ander risico op te sporen. Het is vervolgens aan de ambtenaren om redelijk en billijk met die informatie om te gaan.

Ik zie ook wel dat heel ambtelijk Nederland gefaald heeft in de toeslagenaffaire, maar dat heeft in principe niets met algoritmes te maken. Zoals @Gumball hierboven aangeeft kijkt een algoritme alleen naar de feiten.
Een goed geschreven algoritme is een perfect hulpmiddel om fraude, criminaliteit of ander risico op te sporen. Het is vervolgens aan de ambtenaren om redelijk en billijk met die informatie om te gaan. (...)
Precies, algoritmes zijn een hulpmiddel.

Bij de Toeslagenaffaire speelde ook mee dat er binnen de organisatie van de Belastingdienst (en in het verlengde het de Ministeries van Financiën en Sociale Zaken) het één en ander mis was, om het zachtjes uit te drukken. Redelijk en billijk omgaan met de informatie was niet meer im Frage, ook al hadden de ambtenaren dat gewild.

[Reactie gewijzigd door PCG2020 op 25 juli 2024 19:08]

Je vergeet het ministerie van Sociale zaken.
Inderdaad, bedankt voor de aanvulling.
En je vergeet het ministerie van Algemene zaken.
Waar ik op doelde was dat het een slecht idee was om altijd maar van algoritmes uit te gaan. Zoals een ander elders heeft aangegeven, we moeten niet in een situatie terechtkomen dat een ambtenaar ervan uitgaat dan het algoritme wel gelijk heeft en dit klakkeloos overneemt.

En zoals ook al is benoemd kunnen alleen feiten een vertekend beeld geven, vooral omdat de algoritmes niet alle feiten weten of kunnen weten.
Het gaat gewoon fundamenteel mis met wat een risico analyse moet zijn. Het is niks meer dan een cijfertje misschien tussen de 0 en 100 om risico aan te geven op basis van gegevens van de persoon. Daar zou verder niks aan moeten kunnen hangen om iemand daadwerkelijk te markeren als fraudeur. Het enige waar het aan zou moeten kunnen hangen is een extra controle. Niemand zou ook iets concreets moeten baseren op dat risico nummer, behalve aan zijn oplettendheid.

Verder, is dit niet een beetje ouderwets? Tegenwoordig gaat toch alles in digitale sytemen? Dan kunnen ze toch wel meteen nakijken of er fraude wordt gepleegd ja of nee? Zonder uberhaubt aan risico's te beginnen.
polthemol Moderator General Chat @ErikT7381 februari 2021 15:43
een algoritme kijkt alleen naar de feiten die je het voert... Feiten is in die zin, als je ze stript van mogelijke context, een uiterst subjectief iets.
Dan is het algoritme niet goed. Dan zijn de specificaties niet goed omschreven. Hoe vaak wij ook niet te horen krijgen; ‘dat komt niet vaak voor’. Relatief niet, meestal gaat het goed, ze vergeten vaak dat het om grote aantallen gaat. En dat een klein percentage van een heel groot getal onwenselijk leed bij een ‘grote’ groep mensen teweeg jan brengen. Wat je kunt stellen is dat ze niet in staat waren een goed algoritme neer te zetten en dat ze dat waarschijnlijk niet beseften ... want ja, ze kennen de materie zo goed daar jaren ervaring.
Het algoritme zal nooit perfect zijn. Het model kan dienen als hulpmiddel om potentiële buitenliggers er uit te pakken. Echter moet er een mens aan de andere kant zitten om deze potentiële buitenliggers verder te onderzoeken om te constateren of het algoritme correct was. Juist dat laatste mist in de centralisatie van de overheid en gemeenten.
Het probleem lag hem niet in de uitkomst, maar in hoe hier mee om werd gegaan. En hoe de wetswijziging het mogelijk maakt dat de belastingdienst als monsters konden handelen.
Dat ligt aan de criteria die je aan het algoritme geeft, op basis waarvan conclusies getrokken worden. Het is dus afhankelijk, waarop bepaald wordt wat een risico is.
En de vraag of er automatisch wordt beslist is heel belangrijk.
Dat ligt er helemaal aan hoe de algoritmes zijn geschreven en worden toegepast.
Mensen noemen het discriminatie als er voornamelijk wordt gekeken naar allochtonen. Maar misschien is uit de jaren ervoor juist gebleken dat voornamelijk allochtonen frauderen. Daar hoor je nu niemand over in de toeslag affaire. Ik vind het heel goed dat er gekeken wordt aan de hand van alle feiten de afgelopen jaren en aan de hand daarvan een profiel wordt gemaakt. Wat ik wel belangrijk vind is dat er met daadwerkelijke bewijzen gekomen moet worden als je iemand als fraudeur gaat aanwijzen. Je kunt niet zomaar vinden dat een gezin fraudeur is en dan maar alles terug eist zonder met harde bewijzen te komen. Ik denk dat deze taferelen voornamelijk zijn ontstaan na het hele gedoe dat oostblokkers in Polen en Hongarije wonen en hier een uitkering krijgen terwijl ze er geen recht op hebben. Ik kan me voorstellen dat deze instanties er op een gegeven moment klaar mee zijn en deze middelen inzetten om te profileren. Er zijn heel wat bijstandstrekkers die gewoon zwart meer bijverdienen dan een modaal inkomen. Ik vind het goed dat deze figuren alles wat ze ooit hebben gekregen terug moeten betalen. Als deze systemen daar voor zorgen dan ben ik daar heel blij mee
Nee hoor, mensen (wie anders...) noemen het discriminatie als er een bepaalde groep, maatschappelijke klasse, culturele achtergrond waarop basis anders wordt gehandeld of beoordeeld dan de overige bevolking.

Je kan ook je systeem zo inrichten dat fraude moeilijker wordt gemaakt. Door toeslagen anders te regelen of door voornamelijk menselijk toezicht en handelen niet op basis van wat iemand in een database stopt dat op een (zogrnaamd) slimme manier wordt uitgelezen en waar door algoritms conslusies uit worden getrokken die door ambtenaren al dan niet worden overgenomen.

'Computer says no' doet me dit sterk aan denken.
Algoritmes kunnen om de verkeerde redenen tot de juiste conclusies komen. Zo kan het zijn dat ethniciteit niet de oorzaak is van een verschil, maar door beperkte gegevens wel de enige factor met een bepaalde voorspellende waarde.

Dan moeten mensen een keuze maken: Accepteer je het resultaat neutraal, vel je een waardeoordeel over de factor met voorspellende waarde of vel je een waardeoordeel over het algoritme die aan de betreffende factor voorspellende waarde toe wees.

Wat mij betreft is alleen de eerste keuze juist, maar mensen kiezen vaak voor 1 van de andere 2 door hun eigen ideologische vooroordelen. En neutraal vervolgonderzoek zie je meestal niet.

[Reactie gewijzigd door Mitsuko op 25 juli 2024 19:08]

Ligt er maar net aan met welke data het algoritme getraind is. Dit kan juist zeer biased zijn, waardoor dus dan mensen ook door het algoritme onterecht verdacht worden gemaakt.
Het probleem van algoritmes is dat ze hun werk doen met de data die je voert. Die data zelf is vaak al niet gebalanceerd / bevooroordeeld, zeker als je veel data hebt. Dat komt door de imperfecte wereld waarin we leven, de onbedoelde vooroordelen van de ontwikkelaars, maar ook doordat de data zelf uiteindelijk door mensen is geproduceerd.

bv - https://research.aimultiple.com/ai-bias/

Met een paar zoekopdrachten heb je weken leeswerk ;)
Algoritme klinkt lekker belangrijk maar het zijn gewoon zoals sommige mensen al aangeven regels die zijn vastgelegd in bijvoorbeeld een programma om fraudeurs op te sporen. Regels in een algoritme zijn per definitie voor discrimiatie. Dat is het hele doel van die regels. Maar over het algemeen zal men in dit topic het discrimineren op ras, afkomst of sociale situatie bedoelen.

Een regel kan zijn.
if(persoon.ras == rassen.blank) exit;
1 discriminenrende regel voor in een discriminerend algoritme.

Of
if(presoon.eerdergeconstateerdefraudes < 3)
ZoekTotDeBodemUit(persoon);
else
exit;

Ook een discriminenrende regel voor in een discriminerend algoritme.
Want je discrimineerd tussen mensen die al eerder gefraudeerd hebben en mensen die dit 1 , 2 of helemaal nooitgedaan hebben -altans niet geconstateerd-. Discriminatie.

(Dit is een abstract voorbeeld waar geen rechten aan kunnen worden ontleend!)

[Reactie gewijzigd door MrMonkE op 25 juli 2024 19:08]

Elk algoritme wordt gemaakt met een bepaalde bedoeling. Die bedoeling is om te discrimineren. Maar dan tussen bijvoorbeeld crimineel en eerlijk.
Alleen kan je niet weten wie crimineel is (dan had je het hele algoritme niet nodig). En het gevolg is dat aan het algoritme wordt overgelaten wat anders door een mens zou gebeuren: "laten we in die duistere straat kijken want daar zitten veel boeven" - tenminste, als je de data op een hoop gooit en de computer ansen laat berekenen.
Terwijl het ook gerichter kan: inkomens en uitgaven naast elkaar leggen. Objectief, niet "goh dure motor voor zijn inkomen zeg". Omdat prioriteiten verschillen, en ja ik ken iemand die bij zijn ouders bleef wonen en zijn salaris 100% gespaard heeft voor een nieuwe motor.
"Volgens experts ontstaat daardoor het risico dat burgers onterecht gediscrimineerd worden."

Ja of júist niet. Een computer ziet geen ras, denkt niet in hokjes en zal niet profileren op naam of geslacht tenzij een persoon dit in het algoritme zet.
Het lijkt mij juist de beste methode om dit soort gevoelige zaken te onderzoeken. Je zet objectief in het algoritme welke variabelen belangrijk zijn; uitgaveposten, inkomsten, eerder gefraudeerd ja/nee (geen idee, heb hier echt geen verstand van), en de PC zal een risico inschatting maken. Of de personen die gemarkeerd worden nou 9/10 keer blauw zijn of in een sprookjesbos wonnen, kan een algoritme niet zien.
Een ambtenaar zal het natuurlijk wel opvallen dat 9 van de 10 fraudeurs hun inkomsten bijelkaar gesmurft hebben.
Ja of júist niet. Een computer ziet geen ras, denkt niet in hokjes en zal niet profileren op naam of geslacht tenzij een persoon dit in het algoritme zet.
Nee uiteraard. Probleem is dan ook de input data. Als dat geen uniform weerspiegelende data is zal de bias van die data doorvloeien naar het grotere geheel.

Als je alle mensen van buitenlandse achtergrond initieel 2 keer vaker controleert en daarbij 25% meer issues aan het licht brengt betekent het niet dat ze meer frauderen, maar juist minder omdat je genormaliseerd voor 1 controle dus nog maar 62,5% fraude overhoud t.o.v. 100%. Gooi je al die data dan in zo'n algoritme heb je van je allochtone groep ineens oververtegenwoordiging doordat je meer meetpunten voor die groep hebt en daarmee dus een hogere kans op een hit (true or false positive).

Dit hele gebeuren valt of staat dus met een correcte dataset en die maken is ontzettend tricky. Je MOET namelijk onderzoeken hoe in het verleden behaalde resultaten tot stand zijn gekomen en gaan normaliseren voor alles. ALS je dat dan hebt gedaan heb je praktisch al je eigen algoritme gemaakt en heb je die hele black-box meuk verder niet nodig.
Of de personen die gemarkeerd worden nou 9/10 keer blauw zijn of in een sprookjesbos wonnen, kan een algoritme niet zien.
Als dat niet in de parameters wordt meegenomen dan ja, maar dit moet dan dus wel expliciet zo opgenomen worden.
Het probleem wat jij schetst is denk ik makkelijk te omzeilen: bereken de voorspellende waarde van een persoonskenmerk voor fraude bij een controle. Stel dat mensen met een buitenlandse achtergrond veel vaker worden gecontroleerd maar dat eigenlijk autochtone nederlanders vaker fraude plegen. Als je dan zou kijken naar het percentage fraudegevallen bij controle dan kom je er vrij snel achter dat het meer loont om autochtone nederlanders in het vervolg te controleren.
En dat is nog steeds discriminatie.

Statistisch gezien mag je dit ook helemaal niet aan elkaar relateren. Afkomst is geen causatie. Hoogstens een correlatie.
Tuurlijk is dat discriminatie, het hele idee van risicoprofilering is dat je groepen isoleert met een verhoogd risico. Mijn punt is dat historische bias in hoe vaak mensen worden gecontroleerd niet perse er voor hoeft te zorgen dat ze een hoger risicoprofiel krijgen door een algoritme. Wat de ethische afweging is tussen gerichter fraude opsporen en discriminatie laat ik in het midden.

Dat het slechts correlatie is betekent niet dat het niets zegt, het kan nog steeds leiden tot betere opsporing.
Oke. Misschien moet ik het anders verwoorden. Discriminatie an sich is namelijk ook wat je doet door te scheiden op fraude: ja/nee.

Discrimineren is gewoon het scheiden van een groep op iets. Dus daar kan ik in meekomen ja.
Mijn punt is dat historische bias in hoe vaak mensen worden gecontroleerd niet perse er voor hoeft te zorgen dat ze een hoger risicoprofiel krijgen door een algoritme.
Ook dat ben ik met je eens, echter is het issue dat dit niet de enige twee dingen zijn waarop het spaak kan lopen. Het kan ook zijn doordat herhaaldelijk dezelfde persoon is gecontroleerd en deze herhaaldelijk in de fout is gegaan, of een onterechte aanmelding wordt meegenomen, of dat men controle niet systematisch heeft gedaan of dat er regels zijn veranderd waardoor een bepaald iets ineens niet meer mag of dat er simpelweg getracht wordt om de data te extrapoleren waar dat niet kan (omdat niet representatief voor de doelgroep ofzo).

Zo zijn er heel veel dingen waar je rekening mee moet houden. Bovenstaande ding is alleen een voorbeeld wat heel snel over het hoofd gezien kan worden en direct voor problemen zorgt.

Het kan allemaal wel goed gedaan worden, maar zoals ik al zei: dan moet je echt serieus weten wat je aan het doen bent en hoe het algoritme dan werkt maakt niet uit. Je input data moet exact goed zijn. Garbage in == garbage uit.
Ja totdat er een goede reden is voor die vakere controle en blijkt dat dat zelfs onvoldoende vaak gedaan wordt, dan ga je ineens naar meer dan 100%.

Mensen kunnen niet omgaan met statistiek: het is iedere jaar ook gezeik over de cijfers van het CBS. Terwijl juist zij geen conclusies trekken, en ja daar is een bepaalde groep oververtegenwoordigd in de misdaadcijfers. Ga je de conlusie voeden zonder de onderliggende dataset in je nieuwe model dan krijg je potentieel een belachelijke pull op een parameter.
Ja totdat er een goede reden is voor die vakere controle en blijkt dat dat zelfs onvoldoende vaak gedaan wordt, dan ga je ineens naar meer dan 100%.
Er zal vast een goede reden zijn om die controle vaker te doen, maar als je die controles niet ook vaker gaat doen bij de rest kun je er statistisch niks over zeggen. Wat je namelijk gaat doen is je eigen bias bevestigen. "zie je nou wel, groep X is vaker betrokken bij fraude", nee je hebt gewoon meer metingen voor groep X. Dan ga je dat vanzelf terug zien in je data.
Daarom werk je normaliter ook met een precision parameter naast het kenmerk. Voor geslacht was dat tot voor kort 100%.

Je hebt gelijk dat bias confirmation een groot risico is. Een risico betekent echter niet dat je het direct moet uitsluiten. En daarom vind ik dat de mens (degene die het model opzet, of juist degene die de resultaten interpreteert) het echte risico is. Positieve discriminatie is ook discriminatie.
Daar ga ik in mee.

Ik denk absoluut dat het geen zier uitmaakt of het een black-box algoritme is of niet. Bij een niet black-box algoritme zal men eerder de data af gaan stellen op de werking en dit kan dus averechts werken.

Het falende deel in dit geheel is de mens. Zowel vóór het algoritme (dus dataset opstellen) als er achter (interpretatie van het resultaat).

Alles draait om de input en valt of staat met gedegen kennis over statistiek van diegene die de input gecureerd heeft én de kritische houding en analytisch vermogen van diegene die achteraf de resultaten beoordeelt.
Hier heb je natuurlijk wel een goed punt. De menselijke inschattingen van het verleden zullen invloed hebben op de objectiviteit van de variabelen, wat op zijn beurt de uitkomsten niet geheel objectief maakt.

Ook kan je natuurlijk wel herleiden dat wanneer iemand enkel wit wasmiddel koopt en enkel witte kleding draagt waarschijnlijker een blauwe huidskleur heeft en in het sprookjesbos woont. Dan heeft wit wasmiddel kopen een sterkte correlatie met huidskleur en geografische locatie. An sich lijkt wit wasmiddel kopen dan geen 'gevoelige' variabele, maar is stiekem wel een hele goede voorspeller voor ras/sociaaleconomische status.

Edit:typos

[Reactie gewijzigd door Pastapipo op 25 juli 2024 19:08]

Nee exact. Dus onderzoek naar de herkomst van je data is ontzettend belangrijk.

Anders krijg je straks zo'n tankvoorspeller die stiekem alleen kijkt of het bewolkt is of niet.
https://www.jefftk.com/p/detecting-tanks

De input data is belangrijker dan het algoritme.
Ook kan je natuurlijk wel herleiden dat wanneer iemand enkel wit wasmiddel koopt, enkel witte kleding draagt en waarschijnlijker een blauwe huidskleur heeft en in het sprookjesbos woont. Dan heeft wit wasmiddel kopen een sterkte correlatie met huidskleur en geografische locatie. An sich lijkt wit wasmiddel kopen dan geen 'gevoelige' variabele, maar is stiekem wel een hele goede voorspeller voor ras/sociaaleconomische status.
Dankjewel voor de manier om dit makkelijker uit te leggen aan mezelf en anderen zonder in een diepere discussie te verzanden.
maw , als we alle data die we nu zouden hebben 1 op 1 in een algoritme zouden gooien dan doet het algoritme net zo biased zoals "wij" nu ook waren?

Dat zou meteen een mooie spiegel zijn over dat het racisme topic namelijk?
Ja dat is eigenlijk wel hoe het werkt, maar dan ws nog erger. Het zal de bias namelijk alleen nog maar meer versterken doordat het ook patronen ziet in data die wij helemaal niet relevant vinden, maar wel tot dezelfde uitkomst leid.

Zoals @Pastapipo uilegt kunnen patronen die niet relevant lijken (dus het type wasmiddel dat je koopt) wel degelijk gekoppeld zijn aan bepaalde parameters waar je niet mee wil vergelijken, maar dat dus stiekem wel doen.
Om aan te haken. Een systeem dat alle fraudes checkt zou op basis van huidige praktijk concluderen dat iets als bijstandsfraude veel meer voorkomt dan witwasfraude of faillisementsfraude omdat dat simpelweg veel minder gecontroleerd wordt. En nog minder vervolgd omdat de overheid dan tegenover dure advocaten komt en dat kost veel meer tijd. (ook complexer qua onderzoek)

Terwijl er uit onderzoek is gebleken dat de laatste categorie vermoedelijk immens veel groter is qua schade dan de eerste.
Exact dit soort dingen ga je dan dus krijgen. Omdat je oververtegenwoordiging hebt van het ene krijg je dus vertroebeling van het beeld mbt waar de verdeling ligt. Faillissementsfraude is ontzettend lastig en kostbaar om aan te pakken waarbij uitkeringsfraude gewoon laaghangend fruit is wat je ff meepakt (Omdat het eerste vaak door loopholes legaal simpel te verdoezelen valt en het tweede vaak doordat het systeem gewoon ingewikkeld is en mensen soms een oprechte fout maken).

Bijkomend probleem is ook nog hoe men onterecht door mensen als fraudeur wordt neergezet (omdat het volgens de regeltjes zo moet). Als je dit dan in de data meeneemt ben je gewoon de boel aan het saboteren, maar dat kun je alleen voorkomen door per case een oordeel te vellen. En dat is nu juist het probleem.


Hier een voorbeeld van data dit je dus absoluut niet mee moet nemen, maar die je waarschijnlijk wel terug gaat vinden:

https://www.ad.nl/binnenl...nst-illegaal-is~a461d281/
Voor mij is het grote probleem dat men niet weet welke variabelen belangrijk zijn, en dus gewoon "alles" voert en het algoritme er chocola van laat maken. En dan ziet het systeem een mooie correlatie tussen pinnen bij de Lidl en frauderen en wordt dat ineens de voorspeller.
Zolang er niet alleen in die groep "Lidl pinners" wordt gecontroleerd en de resultaten (in percentages, niet aantallen) van die controles weer als input dienen voor volgende voorspellingen is dat prima. Het algoritme zal zichzelf automatisch corrigeren.

Maar laten we het simpeler doen: We beginnen met de bias in de data dat de "witte man" fout is (die groep kan je immers niet discrimineren). Vervolgens laten we 50% van de controles plaatsvinden binnen random leden van die groep en 25% binnen random leden van alle andere groepen. En de volgende keer kijk het algoritme naar de resultaten uit het verleden en gaat wat minder "witte mannen" controleren en wat meer mensen uit groep xyz want in die groep kwam percentagegewijs veel fraude voor. Hoe langer dat algoritme draait een feedback krijgt des te nauwkeuriger het wordt. Zolang je er maar voor zorgt dat de computer beslist wie een extra controle en niet een mens.
Maar wat als blijkt dat het algoritme concludeert dat lesbische Bulgaren erg vaak crimineel zijn (ik noem maar wat) en die dus vaak gaat controleren? Dat is dan (althans in de Nederlandse politiek) ongewenst.

Uiteraard is het voor mij als blanke man makkelijk te zeggen dat die Bulgaren dan maar pech hebben, maar op termijn zullen zij er zich wel aan storen.
Je kan je inderdaad afvragen in hoeverre risicoprofilering uberhaupt wenselijk is. Met het voorstel van @SirBlade zorg je er wel voor dat het eerlijk verloopt. Als dan ook nog eens transparant is hoe de methode precies werkt en welke data er in word gestopt dan voorkomt dat misschien veel verontwaardiging.

Als ik het volgende bericht van de belastingdienst zou krijgen zou ik daar persoonlijk niet veel moeite mee hebben. "Beste meneer X, uit onderzoek is gebleken dat mannen tussen de 18 en 30 jaar vaker belastingfraude plegen. Bovendien heeft u opmerkelijk veel giften aan goede doelen gedaan. We verzoeken u daarom om bewijs te overleggen van uw giften. We hopen op uw begrip en medewerking."

Het is vervelend als je elk jaar zo'n brief zou krijgen maar als het helpt bij fraude bestrijding zou ik daar geen moeite mee hebben. De belastingdienst moet zich natuurlijk wel een redelijke houding aanmeten. Als blijkt dat van de 2000 euro aan goede doelen 10 euro naar een stichting zonder ANBI stichting is gegaan dan zou een enorme boete buiten proportie zijn. Als ik het goed heb begrepen is dat grandioos misgegaan in de toeslagenaffaire, bij een klein foutje werden mensen gelijk bestempeld als fraudeur en moest enorm veel geld worden terugbetaald.
De vraag is of het een relevant verband is. Het kan best correct zijn voor de 2 lesbische Bulgaren in Nederland (dat heet dan toeval), maar niet voor de 50 die er nog komen gaan.
Dat iets 'waar' is betekent niet dat het een voorspellende waarde heeft.
Maandagen waren de afgelopen 3 jaar wat warmer dan andere weekdagen. Ga ik dat gebruiken in de weersvoorspelling? Lijkt me geen goed idee.
Dat werkt precies niet? 8)7

Als je op basis van gevonden fraude versterkt gaat toezien op die groep, dan kom je al snel in een situatie dat je alleen nog xyz'ers gaat controleren. En dan mis je dus de witte mannen, de Finnen en de kabouters die óók frauderen - en misschien nu wel meer want alleen de xyz'ers worden gecontroleerd.

Hier het voorbeeld van Ionica Smeets, waarin ze begint met een 51/49 verdeling tussen twee groepen en na zeven jaar uitkomt bij 90/10.
De politie begint met het feit dat 51 procent van de misdrijven gepleegd is door huffelpuffers en 49 procent door ravenklauwen. Die eerste maand houdt de politie daarom 510 huffelpuffers staande – waarvan 51 procent crimineel is, dat levert afgerond 260 misdadigers. Er worden daarnaast 490 ravenklauwen gecontroleerd, daarvan is 49 procent crimineel, dat geeft afgerond 240 misdadigers.

...
Als dit systeem gestaag zo door blijft werken, wordt na twee jaar 73 procent van de criminaliteit toegeschreven aan huffelpuffers. Binnen vijf jaar is dat 90 procent en na zeven jaar worden er per maand nog slechts een stuk of dertig ravenklauwen gecontroleerd tegen zo’n 970 huffelpuffers.
https://www.ionica.nl/510...rsterkende-feedback-loop/

Het onderliggende punt is natuurlijk dat het categorie-criterium geen causaal verband heeft met het strafbare feit. (Als je zegt "mensen met aluminium tassen", dan wordt het een ander verhaal bij winkeldiefstal.) En ook dat "50% van de dieven is een witte man" niets zegt over welk percentage witte mannen een dief is.
Het hele probleem met algoritmes is dat ze niet menselijk zijn en geen rekening kunnen houden met redelijkheid en billijkheid.
Vooral het punt van "Zijn ze fraudeurs? " is dankzij de hele toeslagenaffaire simpelweg geen feit dat door een computer moet worden overgenomen.
Helaas bedenkt de computer het algoritme niet zelf. Bij het ontwikkelen van algoritmes worden aannames gedaan (door mensen) waarbij het gevaar op discriminatie zeer zeker aanwezig is.

https://en.wikipedia.org/wiki/Algorithmic_bias
Een computer denkt juist heel erg in hokjes. Het blijft een aaneenschakeling van Ja/Nee beslissingen.
Juist door het hokjesdenken van de computer gaat het mis. De computer weegt geen redelijkheid of emotie mee.
Ik zou zeggen, lees een over neuronale netwerken en activatiefuncties. Daar is niks ja/nee in, en het resultaat is ook maar een percentage (dit plaatje is met 98% kans kat, 8% hond, 1% mens kan een resultaat zijn).

En emotie...? Rechters die honger hebben delen hogere straffen uit. Dat moeten we toch echt niet willen.

Redelijkheid? Is vaak een kwestie van "mijn neef heet ook zo, en ziet er ook zo uit, ik ben maar eens extra lief". Dus een bias uit persoonlijke redenen. Mijn ex-vrouw had van haar moeder geleerd dat als je iets gedaan wilt krijgen, je gewoon moet huilen (letterlijk) hoe zielig je bent. En ja, daarmee kreeg zij bij de ambassade een uitzondering. Is dat goed? Als ik huil word ik terecht uitgelachen.

[Reactie gewijzigd door _Pussycat_ op 25 juli 2024 19:08]

Gemeentes en sociale instellingen werken niet met neurale netwerken en dat zal in de nabije toekomst ook niet gebeuren. Die hebben gewoon business rules op basis van if/then/else-constructies.

De hele wet staat vol met termen als redelijkheid en billijkheid zodat aan de hand van de situatie een beslissing genomen kan worden. Dat voorkomt dat iemand die een ander reanimeert geen boete hoeft te betalen wegens foutparkeren.
Of de personen die gemarkeerd worden nou 9/10 keer blauw zijn of in een sprookjesbos wonnen, kan een algoritme niet zien.
Woonlocatie (postcode gebied) wordt vaak juist wel meegenomen in die algoritmes.
Het valt en staat inderdaad wel bij hoe zo'n algoritme getraind is en welke data er gebruikt wordt. Anders krijg je net zo'n situatie als dat Chinese algoritme om schoonheid te beoordelen: als je er Oost-Aziatisch uitziet dan ben je mooier.
"Daarbij controleert een werknemer op basis van een risicoscore of een resultaat verder wordt bekeken."

Enorme slippery slope. Zelfs al zou je als gemeente zo'n algoritme willen om fraude te kunnen bestrijden, de tussenkomst van een ambtenaar is absoluut geen verzekering dat er geen cognitieve bias meer bij komt kijken (want já, de computer heeft meestal wel gelijk, dus zal het nu ook wel).
En je moet die computer blijven voeren met de resultaten van random controles. Anders kan de computer een 'voorkeur' krijgen.

Maar er is hier ook veel privacy winst, alles waarvan de computer zegt dat het er goed uit ziet, scheelt weer een extra partij die in jouw data moet spitten on te kijken of je je wel aan de regels houdt.
De verleiding om de computer té veel informatie te geven omdat het geen subject is wel groot. Zag je ook met SyRI.

Misschien is het wel zo dat er in volkswijk A meer gefraudeerd wordt dan in nieuwbouwwijk B, maar ik vind persoonlijk dat het wonen in een wijk géén indicator mag zijn van verhoogd risico op fraude. Ergens wonen heeft namelijk geen wezenlijk verband met fraude. Maar het wordt al ingewikkelder als je bijvoorbeeld ook toegang verleent aan welke auto iemand rijdt. Een nieuwe BMW in een wijk B is niet zo heel bijzonder, maar in wijk A valt het op. Is dat een indicatie van fraude?

Is het eerlijk dat iemand in A eerder bekeken zou worden als hij een BMW heeft dan iemand in B? Is het eerlijk dat iemand met de naam Bouali eerder wordt bekeken dan iemand met de naam De Vries?

Wat ik wil zeggen is dat het gewoon erg moeilijk is om een scheidingslijn te trekken tussen relevante indicatoren en irrelevante indicatoren. En als we geen grip meer hebben op de reden waarom iemand geflagged is voor fraude, dan heb ik liever traditionele fraudebestrijding, hoe imperfect dan ook.

[Reactie gewijzigd door Bark_At_The_Cat op 25 juli 2024 19:08]

Traditionele fraudebestrijding doet precies wat je als voorbeeld geeft met je BMW, alleen dan traditioneel 'op waarneming'.

Vergeet ook niet dat er onvoldoende mankracht is om iedereen te controleren die verdacht gedrag laat zien. Je belastingaangifte wordt ook vertrouwd totdat je bij een controle eruit gepikt wordt en daadwerkelijk beoordeeld wordt. Andersom ook, als je betrapt wordt op frauderen worden oude aangiftes opnieuw bekeken.
Daar heb je wel gelijk in. Die BMW is niet een perfect voorbeeld.
Als je iedereen wilt controleren die 'verdacht' gedrag laat zien dan moet je de stasi heroprichten ;)

Verdacht gedrag is ook nogal subjectief. Zolang je de wet niet overtreedt, hoe weet meneer minority report dan wat je plan is. Vroeger als jongere genoeg rondgehangen, dat zal er voor velen wel verdacht uitgezien hebben ( maar minder zou ik een mocro met petje geweest zijn ) .

Overigens is het 'hebben van een BMW' precies om die reden discutabel. Voor sommige mensen kan het groepscultuur, hobby or droom zijn om een 'nieuwe dure auto' te hebben en daar alles voor sparen. Andere mensen zijn bezig met sparen voor dure tv, eigen huis etc. Andere gaan naar concerten, de kroeg, op wereldreis...

Meneer het algoritme zou dan wel eens net zo burgelijk kunnen worden als de oma's die de straat af turen. ' Die gaat wel erg veel uit eten, die is 's avonds laat pas thuis, waar betaalt hij die auto van' etc.
Goed idee! :+

Nee waar ik op doelde is dat wetten gemaakt worden waarbij men dondersgoed weet dat dit soms niet/nauwelijks te controleren valt. De uitvoerende macht moet dus keuzes maken omdat juist die 100% niet haalbaar en niet wenselijk is.
Ik zou niet graag die keuzes willen maken, je doet het namelijk nooit goed.
Op die manier zijn we het eens denk ik ja :)

Het is ook een vreemd soort maakbaarheid dat men denkt dat met X or Y alle vormen van criminaliteit wel uit te bannen valt.
Een nieuwe BMW in een wijk B is niet zo heel bijzonder, maar in wijk A valt het op. Is dat een indicatie van fraude?
Dat kan, het kan echter ook zijn dat die persoon in wijk A is gaan wonen om zo te besparen op zijn woonlasten en daardoor die BMW kan betalen. Omgekeerd kan uiteraard ook, iemand anders kan in wijk B gaan wonen omdat hij niets om auto's geeft en met een Alto tevreden is.
Die verzekering heb je toch nooit, uiteindelijk is het algoritme mensenwerk, en het controleren daarvan ook.
Nee, precies. Zonder algoritme heb je ook zeker het gevaar dat mensen om de verkeerde redenen beslissingen maken, maar het idee dat je de bias van een algoritme er uit kan controleren door er een ambtenaar tussen te zetten is natuurlijk gewoon onzin.
Volgens mij kan je dat door een ambtenaar er ook wel af halen.
maar het idee dat je de bias van een algoritme er uit kan controlerenis natuurlijk gewoon onzin.
Wat mij betreft hoeft dat ook niet, je kan niet 17 miljoen mensen allemaal controleren en verwachten dat er geen fouten plaatsvinden. Die algoritmes verminderen die fouten al (en maken het een stuk sneller/minder werk), maar dat wil niet zeggen dat het perfect is.
1 persoon ertussen zetten is inderdaad onvoldoende.
De zaken die door het algoritme worden gevlagd als risico, dienen te worden beoordeeld door een aantal mensen.
Daarnaast moet het algoritme niet alleen risico's vlaggen, ze moeten ook een analyse doen waarom een persoon als risico wordt gevlagd.

Net als een spamfilter gewoon classificeren en mee markeren:
Score 0 = Volledig legitieme mail
Score 0 > 4 Legitieme mail, maar enkele kleine issues
Score 4 > 7 Mogelijk spammail, in quarantaine en ontvanger melden dat er een potentiele spammail is
Score 7+ Definitief spammail, in quarantaine, maar ontvanger niet informeren
En de scores en redenen voor de scores zijn keurig terug te zien, waardoor je het spamfilter kunt bijleren.

En op dezelfde manier kan een algoritme voor risico burgers ook worden gemaakt. Maar belangrijk is dus wel dat er niet alleen wordt gezegd, burger Q kan een risico vormen ivm schulden, maar ook dat er wordt aangetoond waarom burger Q een risico zou kunnen zijn.
De ambtenaren die deze rapporten dan te zien krijgen, zien dan niet alleen dat er een risico is, maar ook waarom. En zij kunnen dan JA of NEE beslissen en dit ook terugvoeren aan het algoritme, waarbij ze aangeven dat waarde W te hoog was en daardoor het risico wegvalt.

[Reactie gewijzigd door walteij op 25 juli 2024 19:08]

Het is zeer onwaarschijnlijk dat de classifier bias heeft die niet aanwezig was in de training data.

Gewoon altijd nog volledig onafhankelijk puur random klassieke spotcheck onderzoeken blijven doen als goudstandaard voor de statistieken, om de classifier eerlijk te houden en verder te trainen.

Je hebt twee parallelle systemen nodig, waar het meest betrouwbare systeem op een random subset werkt .... net als zeg elektronisch stemmen tellen.
Daarom moet je ook niet 1 ambtenaar dit laten doen maar een divers team hebben. Diversity is geen modewoord/jeukwoord, maar ook een goede manier om dingen te verbeteren. De output van een algoritme moet dan ook door een team van mannen, vrouwen, Nederlanders, Westerse- en niet-Westers allochtonen etc bekeken worden als je het zo neutraal mogelijk wilt doen.
In het geval van sommige gemeenten waaronder Nissewaard is niet duidelijk hoe het systeem precies werkt. Volgens experts ontstaat daardoor het risico dat burgers onterecht gediscrimineerd worden. De bevindingen van de NOS weerspreken op sommige punten een rapport dat de Algemene Rekenkamer eind januari uit bracht. De toezichthouder schreef daarin dat overheden nergens gebruik maken van zogeheten 'black box'-algoritmes, waarbij de werking niet duidelijk is.
Maar is de werking niet duidelijk omdat het niet wordt uitgelegd of is de werking niet duidelijk voor de gebruiker/NOS omdat ze gewoon werkelijk waar geen idee hebben wat er gebeurt en er totaal niet in geïnteresseerd zijn ook?

Ik vind het overigens wel frapant aangezien we net de toeslagen affaire hebben gehad, de rekenkamer zegt "ja dat was het verder doen ze het goed" en nu de NOS komt met " ja maar ho ff. En deze dudes dan?".

De waarheid zal vast ergens in het midden liggen, maar ik zie echt geen goede definities over "black-box algoritmes" en wanneer iets "duidelijk over de werking" zou moeten zijn, dus hoe kunnen we daar dan verder mee?
Volgens het onderzoek van de Algemene Rekenkamer zijn deze algoritmes op zich inzichtelijk (geen black boxes) maar is meestal onduidelijk welke data wordt gebruikt en hoe die is gekozen. Pagina 66:
Dit zien wij bevestigd in de praktijkcasussen waar het vaak ontbreekt aan maatregelen om vooroordelen te beperken (zoals de gekozen data of het risico van discriminatie) en ethische aspecten, zoals profilering. De algemene normenkaders zijn niet gespecificeerd voor algoritmes en worden ook niet in samenhang toegepast. Zonder een adequate sturing op en verantwoording van algoritmes, is het niet mogelijk om goede afwegingen te maken over de voor- en nadelen van de inzet van een algoritme.
Hmm. Laat die input data nou net het probleem zijn. De werking van het algoritme maakt geen zier uit als de data namelijk biased is. Dat is de grote uitdaging bij ML. Unbiased data.
100% van alle computergebruikers maken gebruik van algoritmes. Misschien dat men minder bang moet doen over een woord en het over de processen en feiten moeten hebben? Dat iets een algoritme is, of een algoritme in een proces gebruikt wordt doet er volgens mij niet toe. Het is alsof je zou omschrijven dat je een rekenmodel hebt. Of een sommetje maakt. Of iets op papier zet in een paar hokjes om te helpen om hets te beredeneren.

Als ze nou gewoon zeggen: er wordt gebruik gemaakt van een stukje ongecontroleerde automatisering.

De implementatie maakt dan echt niet uit.
Eens, maar deze discussie is net zo gepasseerd als "hacker" voor "pleger van computercriminaliteit".

Ik hamer zelf het liefst op de data: bij machine learning algoritmes (waar het meestal om gaat bij dit soort berichtgeving) is het algoritme zelf totaal niet interessant maar de data wel. En men weet meestal niet om welke data het gaat, waar die vandaan komt, welke biases daarin zitten en welke keuzes daarin worden gemaakt.
Een algoritme heeft een wiskundige basis. Uiteraard kan een algoritme complex zijn, maar er is een directe en voorspelbare relatie tussen input en output.
Bij AI is dat echter niet het geval en dat is daarmee dus veel meer risicovol.

Gelukkig is er wel handmatige controle voordat er actie wordt ondernomen.
Het is alleen te hopen dat dat niet op een bepaald moment wordt wegbezuinigd.
Even vooropgesteld : er vind fraude plaats. Dat is inherent aan het systeem. Mensen ontvangen geld van de gemeente waar ze in principe geen recht op hebben. Zie de dame wiens moeder de boodschappen, een auto en een motor betaalde. De uitkeringen worden weer betaald uit belastingen die wij met zijn allen betalen.

Het is voor een gemeente ondoenlijk om iedere afzonderlijke begunstigde te controleren om te zien of het wel volgens de regels is. Voor een beetje grote gemeente zijn dat tienduizenden mensen. Om die reden worden er algoritmes ingezet. Daar is in mijn ogen niets verkeerds aan.

Vervolgens dient een ambtenaar met die output te beoordelen of het algoritme gelijk had en dient de begunstigde benaderd te worden om het op te lossen. Het moet niet zo zijn dat alleen de output van het algoritme ervoor zorgt dat iemand zijn/haar uitkering stopt of een boete volgt. Dat is te veel automatisering.

Aan de andere kant kan het ook niet zo zijn dat men wegkomt met uitkeringsfraude omdat we niet in staat zijn de gevallen te identificeren.

Op dit item kan niet meer gereageerd worden.