Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

'Algoritmes bij overheden zijn geen black boxes, maar kennen wel risico's'

Het risico bestaat dat burgers worden gediscrimineerd als de overheid algoritmes gebruikt. Toch zijn er op dit moment geen 'black box'-algoritmes in gebruik, concludeert de Algemene Rekenkamer in een rapport.

De Algemene Rekenkamer deed onderzoek naar de inzet van algoritmes bij de overheid. In het onderzoek concludeert de instantie dat de overheid veel algoritmes gebruikt, maar dat die voornamelijk simpel zijn en voor simpele doelen worden ingezet. Nergens is er een zogenaamde 'black box' waarbij de werking van het algoritme onduidelijk is; de Rekenkamer kon van alle algoritmes achterhalen hoe die werken. Daar moet de overheid ook in de toekomst wel op blijven letten, waarschuwt de instantie. De transparantie moet altijd in de ontwikkeling naar voren komen, zeker bij het inkopen van algoritmes van private partijen.

De overheid gebruikt geen zelflerende algoritmes, zegt de Rekenkamer. Het gaat alleen om lerende algoritmes. In de meeste gevallen worden die gebruikt om zaken te automatiseren. De Rekenkamer noemt als voorbeeld een algoritme dat op basis van een als-dan-beslisboom bepaalt of een huiseigenaar recht heeft op subsidie voor een Rijksmonument. Er zijn bovendien nergens algoritmes in gebruik die aan geautomatiseerde besluitvorming doen. Er komt altijd nog een ambtenaar aan te pas die de uitslag controleert en bevestigt, ook bij algoritmes die aan 'risicovoorspelling' doen. Toch liggen er daar wel risico's, waarschuwt de Rekenkamer. Bij dergelijke algoritmes is het bijvoorbeeld mogelijk dat die in strijd zijn met de wet en discrimineren. "Ook bestaat de kans dat het advies van het algoritme de uiteindelijke beslissing van de medewerker beïnvloedt", staat in het rapport.

In die laatste categorie liggen de meeste risico's. De burger 'staat daarbij niet centraal'. Het is voor hen onduidelijk waar ze terecht kunnen als ze vragen hebben over algoritmes waarin hun data voorkomt, of daar bezwaar tegen willen maken. "Wij bevelen het kabinet aan om burgers op een logische plek inzicht te geven in welke data worden gebruikt in welke algoritmes, hoe die algoritmes op hoofdlijnen functioneren en welke impact de uitkomsten daarvan hebben", schrijft de Rekenkamer. De overheid zet de algoritmes in voor zichzelf. Daarbij is wel aandacht voor privacy, maar te weinig voor ethische kwesties.

De Rekenkamer tekent bij het onderzoek wel aan dat dat beeld mogelijk niet volledig is. Het overzicht is afkomstig van beschrijvingen die het bij ministeries zelf had opgevraagd.

De Rekenkamer zegt ook dat er op dit moment geen manier is voor overheden om toezicht te houden op welke algoritmes wel en niet kunnen worden ingezet. Daarom heeft de Rekenkamer zelf een toetsingskader opgesteld. Daarin staan onder andere ethische vraagstukken of vragen over privacy van burgers.

Algoritmes bij de overheid liggen al jaren onder een vergrootglas, met name het Systeem Risico Indicatie of SyRI. Ook gebruikte de Belastingdienst algoritmes om risicoprofielen op te stellen van mogelijke kinderopvangtoeslagfraudeurs, maar dat leidde tot etnische profilering en vervolgens de toeslagenaffaire. In de aankomende verkiezingen zijn algoritmes een belangrijk punt. De meeste politieke partijen pleiten voor meer openheid van algoritmes bij de overheid, en veel partijen willen daar een aparte toezichthouder voor hebben.

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Door Tijs Hofmans

Redacteur privacy & security

27-01-2021 • 07:44

169 Linkedin

Submitter: Yaxha

Reacties (169)

Wijzig sortering
Twee keer gezeur gehad bij de belastingdienst gehad, beide keren zaten ze gewoon compleet fout. Een medewerker had binnen paar seconde kunnen zien dat dit fout was. Maar rolt blijkbaar uit het systeem en dan wordt het gewoon verstuurd.
Valt er dus een brief op de mat of je even paar(7) duizenden euro's wil overmaken. En blijkbaar ben je direct schuldig en een fraudeur. Maar dan... moet je bezwaar maken en nog steeds kijkt er geen persoon naar. Je krijgt dan tig geautomatiseerde brieven waar je niks mee kunt en die inhoudelijks niks behandelen. Uiteindelijk een brief van "ingebrekestelling" moeten sturen zodat ze verplicht zijn inhoudelijk te behandelend binnen X weken. Duurde driekwart jaar voordat ik mijn gelijk kreeg en had een map met -+300 pagina's. Krijg je een vergoeding voor al die tijd die je erin hebt moeten steken en alle stress die dit oplevert? Nee natuurlijk niet, je krijgt niet eens een klein excuus.

Die automatisering is gewoon een probleem er moet in elk geval meer menselijke controle op. En zou goed zijn dat ze mensen simpel opbellen of eerst(via post) voor informatie te vragen. In plaats van direct dikke rekeningen te sturen.

Zaken moeten ook veel sneller in weken en niet jaren. We hadden teveel kinderopvangtoeslag ontvangen(ging maar om 200 euro), dat wisten we en die moet je dan uiteraard terugbetalen. Maar dat kan dus niet. Dat verschil kwam doordat mijn loon variable is door overwerk en standby diensten. Je moet dus jaren wachten op die rekening. Die rekening viel dus 27-12-2020 op de mat en ging over kinderopvangtoeslag van 2018.
Kinderopvangtoeslag kan +750 euro per kind per maand zijn, dus had ook een rekening van paar duizend kunnen zijn. Ja je bent zelf verantwoordelijk hoeveel toeslag je ontvangt, maar je kunt het ook niet snel oplossen.

Brief in 2019 was ook leuk. Kreeg een brief of ik even wil bewijzen dat ik de studie die ik afgetrokken had in 2015 wel zelf betaald had en niet door mijn werkgever betaald was. En nog andere vragen moest ik beantwoorden zoals; waarom deze studie?, wat heeft het je opgeleverd? etc etc. O en deze info moest ik binnen iets van 8 dagen aanleveren. Mijn werkgever van 2015 bestond niet meer die was in 2017 overgenomen, gelukkig had ik nog dezelfde manager die het kon bevestigingen naar HR. HR moest dus een brief schrijven waar ze in zeiden "dit hebben wij niet betaald". Rabobank gaat standaard maar 1,5 jaar terug dus succes met afschriften vinden van 4 jaar oud, moet je aanvragen dan kun je langer terug.
Op zich ok dat ze dit controleren het kan wel stuk vriendelijker! En waarom alleen omgedraaide bewijslast?!
Als ze in administrative van mijn werkgever gevonden hadden dat ze die studie betaald hadden, ja dan hadden ze een punt. Nu was het "een vermoeden van mogelijke fraude" alleen omdat de computer het zegt.
Aan de telefoon word je direct weggezet als fraudeur en simpelweg brutaal en bot behandeld. Ik vroeg bijvoorbeeld waarom die vragen nodig waren. Want het ging om een HBO opleiding die gewoon bij DUO geregistreerd staat. Die info kunnen ze direct bij DUO opvragen lijkt mij. Antwoord was min of meer; "Zorg maar dat je info aanlevert anders moet je terugbetalen + boete".

[Reactie gewijzigd door kr4t0s op 29 januari 2021 09:33]

Zeker bij de belastingdienst vind ik dit een kwalijke zaak. Ben gelukkig zelf Nederlands en mijn vrouw ook, dus dat trekt ons al uit een groot zwart gat waar je helemaal niet in wil zitten, maar alsnog zo nu en dan zo'n voorlopige aanslag die gebaseerd is op helemaal niks.

Ook nu weer een voorlopige aanslag van een paarhonderd euro voor 2021, of ik die even voor eind februari over wil maken. Gebaseerd op helemaal niks, want mijn winst uit eigen onderneming over 2020 was nihil en 2021 was die veel hoger dan wat ze nu geschat hebben. Maar wel betalen, want als je dat niet doet dan komen ze je auto opladen.

Belachelijk dat ze zo weinig controle hebben, en inderdaad dat de bewijslast altijd bij de persoon ligt en nooit bij de instantie die het allemaal zou moeten weten.

Tijd dat ze die hele belastingdienst eruit gooien en een werkend systeem opzetten.
De voorlopige aanslag voor 2021 is nooit "gebaseerd op helemaal niks"; die is gebaseerd op je aangifte over 2018 of 2019. Je resultaat over 2020 kunnen ze namelijk nog helemaal niet weten, daar kun je op zijn vroegst vanaf 1 maart aangifte over doen.
Als je voorlopige aanslag 2021 te hoog is dan dien je gewoon een schatting in voor 2021 en wordt je aanslag gecorrigeerd. En tenslotte: een voorlopige aanslag mag je altijd in 11 termijnen voldoen, van februari t/m december, dus "even voor eind februari overmaken" is ook niet waar, hoogstens 1/11e daarvan.
Kortom: iets minder drama mag ook wel.
De voorlopige aanslag voor 2021 is nooit "gebaseerd op helemaal niks"; die is gebaseerd op je aangifte over 2018 of 2019
Of op de voorlopige aangifte natuurlijk!
als je dat niet doet dan komen ze je auto opladen.
Dat is dan wel weer service.
Heel herkenbaar. Mij (eigen bedrijf) ook overkomen dat ze euro's en guldens hadden verwisseld bij de invoer (fout belastingdienst). Of we binnen 8 dagen 30.000 euro wilden betalen. Vervolgens heb je accountantskosten / tijdverlies / stress. Maar om nu te zeggen dat we toen zijn geholpen door medewerkers van de belastingsdienst...nope. ("Computer says no")
Dus gezien het gedrag van deze dienst (resultaten uit het verleden bieden in dit geval wel enig hoevast) en het effect van de automatisering denk ik dat dergelijke algoritmes bijzonder veel risico met zich meedragen voor de burgers.
Die omgekeerde bewijslast is echt problematisch. Je krijgt een beschuldiging op je bord, en het is aan jou om aan te tonen dat het niet zo is. Dat is niet hoe onze rechtstaat in elkaar zit, heel vreemd dat het bij de belastingdienst afwijkt...
Ik ben dat met je eens, het brengt flink wat mensen in de problemen, die daar in veel gevallen niets aan konden doen maar wel met de shit zitten.

Aan de andere kant zou het probleem misschien wat kleiner kunnen worden als we een cultuuromslag zouden kunnen maken naar een mindset waarbij het betalen van belasting niet iets is wat zoveel mogelijk ontdoken en ontweken moet worden, maar iets waarvan we snappen dat het belangrijk is. Noem het een "patriottische plicht", weet ik veel.

Maar ja.... dat is niet eenvoudig in een wereld/land waarin de overheid wantrouwd wordt.
Ben het eens met jouw punt van cultuuromslag. Ben zelf een groot voorstander van het sociale vangnet, gelukkig heb ik er nog nooit gebruik van hoeven maken.

Helaas zijn er mensen die graag misbruik maken van ons toeslagensysteem - zie het "bulgarenfraude" dossier [1]. Daaruit is een waanzinnige fraudejacht onstaan [2]. Vervolgens is er intern aan de bel getrokken [3] en is er niets met die waarschuwing gedaan.

Het wantrouwen is dus (helaas) terecht. De werkelijke uitdaging is het ontwerpen van een toeslagensysteem wat fraude lastiger maakt, zonder dat er een heksenjacht ontstaat. Wie controleert de (fraude)controleurs?


[1] https://www.rtlnieuws.nl/...de-bulgaren-met-toeslagen
[2] https://nos.nl/artikel/23...eid-was-niet-van-ons.html
[3] https://nos.nl/artikel/23...aanpak-toeslagouders.html
Dit krijg je ervan als het politieke speelveld overheerst wordt door rechtse partijen: de neoliberalen vinden iedereen die bijstand trekt of toeslag vraagt een luie nietsnut die hen oplicht (maar banken die miljarden krijgen omdat ze casino speelden: da's ok!) en extreemrechts blijft de leugen herhalen dat vreemdelingen via fraude met toeslagen en uitkeringen het hele land leegroven (terwijl de werkelijke toeslag- en bijstandsfraude verwaarloosbaar is (de beruchte Bulgarenaffaire ging om 4 miljoen over 7 jaar tijd, ongeveer 0,006 procent van de uitgekeerde toeslagen)).

Helaas slaan deze mythes aan en geloven veel mensen, ook zij die legitiem zelf bijstand en toeslagen krijgen, dat er veel gefraudeerd wordt. En links? Die zijn als de dood dat rechts Nederland (rechts heeft een meerderheid) de verzorgingsstaat nog verder uitkleedt, dus telkens er misplaatste ophef is rondom mogelijke bijstandsfraude durven linkse partijen (die jaar na jaar kiezers inboeten) geen tegengas te geven. Pas nu, na de feiten, verheffen ze hun stem ietwat, maar indertijd deden ze vrolijk mee met het aanspannen van de duimschroeven. want ja: je wilt niet gezien worden als 'vriendelijk voor (buitenlandse) fraudeurs'!

En terwijl dat politieke spel speelt worden er duizenden gezinnen verwoest een sadistische belastingdienst, maar betaalde Google wel slechts €25 miljoen belastingen over €128 omzet die ze via Nederland naar belastingparadijzen sluisden.
Is het onderliggende probleem niet een te grote kerstboom aan toeslagen en regelingen en uitzonderingen? En als je dan toch politiek wilt gaan zwarte Pieten, hier heeft links zeker een grote vinger van in de pap gehad.
Ja er zijn inderdaad problemen. Er mag meer menselijkheid in komen en het lijkt nu vooral minder te worden. Ik hoop dat de toeslagaffaire dat verandert, maar ik ben nog sceptisch.

Echter omgedraaide bewijslast is het niet. Wanneer iemand een aftrekpost pakt in zijn/haar aangifte, dan is dat een claim 'ik heb recht op deze aftrekpost' en ligt de bewijslast daarvan bij de persoon.

Eigenlijk moet je op het moment van aangifte zorgen dat je allerlei bewijzen hebt en die bewaart. Het probleem is dat het voor veel mensen niet duidelijk is wat ze allemaal moeten bewijzen en daar dingen fout gaan. De communicatie vooraf mag duidelijker, bijv. in zo'n geval van studieaftrek.
Wat studieaftrek heb je inderdaad gelijk. Op moment van aangifte moet je alle afschriften en mails(van school) uitprinten en in map bewaren. Alleen brief van werkgever was wat lastig, want iets dat niet gebeurt is ook geen administratie van natuurlijk. Maar zou erg fijn zijn als je op moment van belastingaangifte dat bewijs er direct bij kan doen. Dan krijg je deze situatie ook niet.

Het is ook gewoon gek eigenlijk iedereen kan allerlei subsidies aanvragen of aftrekposten opgeven zonder bewijzen en zonder daar recht op te hebben. Er zullen vast mensen denken ow "dat zie ik over 3-4 jaar wel betaal ik het dan terug".
Precies, je doet een aangifte en trekt hierbij studiekosten af. Niet best dat ze dit erg laat controleren/definitef maken maar terecht dat er gevraagd kan worden naar bewijsmateriaal.
Ik heb ook begrepen uit een gesprek in de Tweede Kamer dat er letterlijk op het scherm met een duidelijke balk staat dat je fraudeur bent en ze je bepaalde info niet mogen geven enz. Dus als je eenmaal aangemerkt staat als fraudeur wordt het heel lastig om het op te lossen want ze willen je niet helpen.
Ik had zelf een aanslag van €750.000 of ik dat even wilde betalen, was het maar waar dat ik zoveel verdiende en dat als belasting kon aftikken. Ben er ongeveer 6 maanden mee bezig geweest, heb beslag op mijn loon, rekeningen en toeslagen gehad. Toevallig was er diefstal bij mijn werkgever dus ik werd ook op het matje geroepen als verdachte omdat ik een risico geval was met financiële problemen.

Mensen vinden me een complotdenker als ik vind dat cash geld niet afgeschaft moet worden. Maar zonder cash geld was ik echt kapot in die periode. Dan ben ik maar een complotdenker met geld op zak.
Protip voor kinderopvangtoeslag: Schat altijd te hoog in. Iets in de richting van 10-20% te hoog. Dit doet wel wat zeer iedere maand, maar minder per jaar. Je krijgt het te weinig ontvangen toeslag toch terug na 1-2 jaar.

Ook ik kreeg opeens een rekening van 2500 euro omdat mijn inkomen flink ging veranderen. Geen mogelijkheid om te betalen. Vervolgens nog een brief ontvangen dat omdat ik de "rekening" heb betaald dat ze het maar gaan corrigeren met het maandelijks voorschotbedrag. Ben blij dat ik er zonder kleerscheuren vanaf en gekomen.
Telefonische helpdesks gaat het ook niet goed mee. Ik belde zojuist met mijn bank en kreeg na 20 minuten wachten spraakherkenning robot aan de lijn. Die kon me vervolgens niet verstaan. Wat een verspilling van mijn tijd is dat. Ik wil gewoon een medewerker spreken. Geef me een keuzemenu. Dit is een stap terug.
Wij hebben hier in Nederland (en volgens mij is dat zelfs algemener dan dat) afgesproken dat mensen niet afgerekend mogen worden op dingen waar ze zelf niets over te zeggen hebben. Dat betekend dat afkomst, ras, gender, geaardheid, haarkleur, naam van de ouders allemaal niet gebruikt wordt om beslissingen te nemen.
Zaken waar iemand wél invloed op uit kan oefenen mogen daarvoor wel gebruikt worden. Gedrag, inkomen, staat van het huis, uitgavenpatronen.

De uitspraak "Allochtonen frauderen wel degelijk meer" heeft geen waarde. Dat is hetzelfde als zeggen "Sinds er meer kerncentrales zijn zien we het aantal verdrinkingen in eigen zwembad omhoog gaan". Of "De opkomst van de printer heeft de piraterij doen dalen". Er is wellicht een correlatie maar geen causaal verband en dus heeft het geen zin om die gegevens (geen informatie, slechts data) te gebruiken voor welk proces dan ook.

Dus nee, algoritmes mogen niet discrimineren, net zo min als dat mensen dat mogen. Discriminatie op basis van gegevens waar de persoon zelf geen controle over heeft zullen ten allen tijde lijden tot ongewenst gedrag.
Hier een paar mooie correlaties:
https://www.tylervigen.com/spurious-correlations

Zo is er een correlatie tussen de hoeveelheid honing die geproduceerd word en het aantal mensen dat verdrinkt door van een vissersboot af te vallen. Geen subsidie meer voor de bijenhouders, want daar krijg je alleen maar dode mensen van.
Zaken waar iemand wél invloed op uit kan oefenen mogen daarvoor wel gebruikt worden. Gedrag, inkomen, staat van het huis, uitgavenpatronen.
Veel van deze zaken correleren in grote mate met "afkomst, ras, gender, geaardheid". Evenals "Schilderswijk,Molukkenplein, enz." Probleem is: dat zodra je zinvol onderscheid wil maken ben je meteen aan het discrimineren. Helaas heeft de Alwetende ons met de kennis van onderscheid opgezadeld, ook zonder computer algoritme wordt er gediscrimineerd. Overigens ben ik van mening dat daar niks mis mee is (voorbeeld: die Syriër in het water kan waarschijnlijk niet zwemmen, gauw achterna springen om te redden) het gaat om het resultaat. Voor de overheid gelden o.a. minder onopgeloste misdaden, corruptie,snelheidsovertredingen, enz.
Zoals al gezegd; als je op basis van correlatie wilt handelen dan zou de beste oplossing tegen de nieuw opkomende piraten zijn om meer printers te maken..... Zinloos.

Als je zinvol onderscheid wilt maken moet je dat doen op basis van causatie, niet op basis van correlatie. Er is zeker verband tussen economische status en specifieke vormen van criminaliteit. Er zijn maar weinig mensen met een laag inkomen die frauderen in aandelen, om maar eens wat te noemen. En dus kun je bij een onderzoek naar aandelenfraude die groep gerust uit sluiten. De lijn naar “Allochtonen hebben vaak een laag inkomen en deze aandelen fraude zal daarom niet door een allochtoon gepleegd zijn” is echter aperte nonsense.
Zeker waar.
Een dubbel paspoort is daarentegen wel discutabel.
Bepaalde vormen van uitkeringsfraude zijn zeker eenvoudiger als men meer dan een paspoort heeft, echter wordt dit aspect opnemen in een algoritme wel als disciminerend opgevat.
De discussie over dit soort zaken zal nog niet ten einde zijn.
Je maakt dezelfde fout als de belastingdienst deed. Het feit dat bepaalde vormen van fraude (misschien) makkelijker zijn, wil nog niet zeggen dat het ook gedaan wordt.
De toeslagenaffaire heeft wel aangetoond dat een algoritme geen goed idee is, net als andere vooringenomenheid.
Enige dat overheid moet doen is dubbele paspoort niet vastleggen (of deze gegevens niet beschikbaar maken) voor Belastingdienst/toeslagen. Een beetje slim algoritme gaat (in onze ogen!) discrimineren als blijkt dat er in de "groep" meer fraude zit... Het enige dat het algoritme doet is verder zoeken in de hooiberg waarvan hij denkt dat hij meeste kans heeft om iets te vinden....
Dergelijke algorimtes zouden ook dus helemaal niet mogen worden toegepast inderdaad. Omdat alleen correlatie wordt gebruikt. Het geeft ook een vertrouwensprobleem. Omdat je toevallig in een bepaalde groep valt, ben je dus minder betrouwbaar. En die groepsvorming is willekeurig.
Met de beslisbomen algoritmes om subsidies of uitkeringen te berekenen zijn niet zo gevaarlijk; "geldt voorwaarde A dan + 10" waarbij voorwaarden zijn gebaseerd op leeftijd / inkomen zijn nog wel te doen. Overigens vind ik het gebruik van leeftijd ook nog niet helemaal zonder risico.
Overigens vind ik het gebruik van leeftijd ook nog niet helemaal zonder risico.
Mee eens maar dat is in ieder geval nog gewoon in de wet opgenomen. Als je jonger bent dan 23 krijg je een lagere uitkering. Dat heeft verder niets met een probleem in het algoritme te maken.

Als de wet zou zeggen "Als je meerdere nationaliteiten hebt dan krijg je een lagere uitkering" zou dat ook geen probleem hoeven te zijn. Het wordt een probleem als we, bijvoorbeeld, kijken naar wie we gaan onderzoeken op fraude of criminaliteit.
Ja - dat voorbeeld m.b.t. leeftijd wat jij geeft is correct. Ik zat ook nog te denken aan: "als de persoon tussen de 25 en 30 is dan fraudeert deze vaker".
Probleem wat auto-verzekeringen ook hebben: jong => dure verzekering want vaker betrokken in ongeluk. Echter betekent dit dat vaker op andere naam (ouders of zo) wordt rondgereden dus klopt de kansberekening al niet meer. Daarbij komt ook misschien rijden 65-plussers (of 67-plussers) minder vaak maar hebben dan wel bij 25% van de ritjes ongelukken - echter lijkt dat nog steeds mee te vallen qua aantal t.o.v. aantal ongelukken met een jongere als bestuurder. Alleen als die jongeren 10 maal zoveel km per jaren rijden dan is dat nog steeds niet correct. Dat wordt dan weer niet meegewogen.
Ook waar deze de auto reed heeft invloed op de ongeluk kans en om die mee te laten wegen wordt de woonplaats gebruikt. Maar als je bijv. Amsterdam werkt zal dat de ongeluk-kans misschien wel verhogen terwijl de woonplaats een klein dorp zou kunnen zijn - wat een lagere ongeluk-kans kent.
Als het ongeluk niet eens door de bestuurder wordt veroorzaakt maar wel vergoed wordt door de verzekeraar (All-risk) dan is leeftijd helemaal een vreemd stuur-gegeven.
Er wordt gehandeld op basis van regressie en uitbijter detectie. Er is geen sterk argument om dat te verwerpen en daar kan dus best uitkomen dat iemand van niet westerse afkomst onder bepaalde omstandigheden met grote kans aan het frauderen is. Ik vind het goed dat de overheid zo iemand dan aan een extra inspectie onderwerpt.
Er is een sterk argument om dat te verwerpen wanneer afkomst een onderdeel van de regressie is.

Zoals gezegd; het algoritme moet;
- Uit te leggen zijn
- Niet discrimineren op basis van kenmerken waar de persoon geen controle over heeft

De uitkomst kan daarmee dus nooit zijn dat "iemand van niet westerse afkomst met grote kans aan het frauderen is". Daar is geen causatie en mag dus geen dimensie zijn. De uitkomst kan wel zijn dat "iemand onder bepaalde omstandigheden met grote kans aan het frauderen is". Als die persoon dan ook nog eens van niet-westerse afkomst blijkt is dat geen probleem. Zolang dat maar geen dimensie van de regressie is.

Nogmaals; basic data science: Correlatie != causatie. Afkomst kan per definitie geen onderdeel zijn van de causatie.
Ik ben niet zo fel anti-discriminatie als jij.

Ontbreken van causaliteit betekent niet dat je niet tot een risicogroep behoort als allochtoon. Helaas.

Om vergelijkbaar voorbeeld er bij te halen. Aantal zwemdoden in zee en ijsverkoop op strand zijn niet causaal positief gecorreleerd. Toch ben ik blij dat wanneer de strandwacht ziet dat wanneer de ijsverkoop stijgt ze gaan speuren op zee naar mensen in nood.
Ontbreken van causaliteit betekent niet dat je niet tot een risicogroep behoort als allochtoon. Helaas.
En zoals ook al een aantal keer eerder genoemd; het resultaat is de toeslagenaffaire. Selecties gemaakt op basis van outliers in een regressie met als resultaat tienduizenden mensen die in serieuze problemen komen.

Er is een hele goede reden waarom dit in de grondwet verboden is. Omdat we geleerd hebben dat het tot zeer onwenselijke resultaten leidt.
Om vergelijkbaar voorbeeld er bij te halen. Aantal zwemdoden in zee en ijsverkoop op strand zijn niet causaal positief gecorreleerd. Toch ben ik blij dat wanneer de strandwacht ziet dat wanneer de ijsverkoop stijgt ze gaan speuren op zee naar mensen in nood.
Dit is dan ook een heel ander verhaal.

Regressie loslaten op een groep om een idee te geven over diezelfde groep is geen probleem. In dit geval is de uitkomst "Er is een grotere kans dat er iemand op zee in nood komt".
Regressie loslaten op een groep om een uitspraak te doen over een persoon is levensgevaarlijk. Je gaat niet de ijsverkoop analyseren om te kijken wíe er in gevaar zal komen.
Een betere vergelijking zou zijn: Als er meer ijs verkocht wordt is er een grotere kans dat er mensen in nood zullen zijn dus als jij een ijsje koopt zul jij ook wel in nood komen op zee. En die vlieger gaat niet op.
Nee dat laatste voorbeeld klopt niet. Positieve correlatie betekent nou eenmaal een grotere kans. Je kan de uitkomst niet leuk vinden maar dat doet daar niks aan af.

De vraag is of je puur op basis van een kans iemand moet veroordelen, en dat moet natuurlijk niet.
Daar ben ik het niet mee eens, het probleem is de gebruiker van die algoritmes. De algoritmes wijzen geen fraudeurs aan. Die geven aan waar de meeste kans op fraude is op basis van de data.

Het is helemaal geen probleem als algoritmes een blackbox zijn. Zolang je in staat bent om de effectiviteit te toetsen en dat deze niet gebruikt worden om automatisch schuldigen aan te wijzen. Er moeten dus wel bewijzen zijn voordat iemand ook echt als verdacht wordt aangewezen.

Een zelflerend algoritme behandeld iedereen gelijk. Ja dan geeft hij bij moslim terrorisme vooral mensen met roots in het midden-oosten. Bij terrorisme van extreem rechts vooral mensen met europese roots. Het is aan de gebruiker om kritisch te blijven op de aangeleverde data.
Laat ik voorop stellen: Je hebt helemaal gelijk als je stelt dat een algoritme *nooit* een beslissing mag nemen. Het is er ter ondersteuning van de mensen die het werk uitvoeren, niet ter vervanging. Dan nog is er op je stellingen wel wat af te dingen;

Een aantal stellingen die ik zal proberen uit elkaar te trekken;

- De algoritmes wijzen geen fraudeurs aan.
Dit is juist. De algoritmes vertellen de inspecteurs echter wel wie er onderzocht moet worden. Die inspecteur weet dan van te voren al dat het algoritme denkt dat hij met een fraudeur te maken heeft met alle confirmation-bias probleem van dien. Zie de toeslagen affaire; een perfect voorbeeld van "Het algoritme wijst geen fraudeurs aan" maar ondertussen zijn er wel tienduizenden slachtoffers.

- Een zelfleverend algoritme behandelt iedereen gelijk
Nee, helaas. Een zelflerend algoritme krijgt dimensies en feiten mee. En die dimensies en feiten kunnen al een richting in wijzen. Daarmee is de mening van de bouwer van het algoritme al impliciet mee genomen in het leer proces en dus kan het algoritme nogsteeds een probleem zijn.

- Het is helemaal geen probleem als algoritmes een blackbox zijn
Door de combinatie van bovenstaande twee argumenten is dat dus wel een probleem. We weten dat de uitkomsten van de algoritmes per definitie een vooroordeel teweeg brengen en we weten dat zelfs een "zelflerend" algoritme vooroordelen bevat. En dus moet een algoritme ten allen tijde verantwoording af kunnen leggen.

In "mijn" wereld is dit overigens een constante discussie en er is zelfs een hele afdeling "Moraal van data science" op een aantal universiteiten. Het is helaas niet zo eenvoudig als de meesten denken.

[Reactie gewijzigd door Croga op 27 januari 2021 14:45]

Ik ga niet beweren dat ik alles weet van zelflerende algoritmes. Ik kijk er meer op proces niveau naar. De effectiviteit van het gehele proces wordt bepaald door het aantal false positives en false negatives van het selectie proces. Wat er in dat proces gebeurd is dan niet relevant. Een algoritme kan gebruikt worden als onderdeel van dat proces. Of het proces beter functioneert zonder algoritme dan met algoritme moet blijken uit de resultaten van het proces. Een groep mensen heeft ook vooroordelen, dat is tijdens de toeslagenaffaire ook gebleken.

Wel vraag ik me ook af wat nu eigenlijk het verschil is tussen een algoritme dat beheerd wordt door een IT afdeling. En een zelflerend algoritme. Beiden zijn in de praktijk een black box.
Wat er in dat proces gebeurd is dan niet relevant.
Dat is niet helemaal waar. Er is ook nog een gevoel van rechtvaardigheid. Als beslissingen willekeurig genomen worden (en wanneer er slechts naar correlatie en niet naar causatie gekeken wordt is dat ook zo) zal dat niet rechtvaardig voelen.

Daarnaast is het niet alleen het aantal false positives en false negatives maar ook de houdbaarheid daarvan. Een willekeurig proces kan nu een betere score opleveren maar geeft geen enkele garantie dat dat zo zal blijven.
Wel vraag ik me ook af wat nu eigenlijk het verschil is tussen een algoritme dat beheerd wordt door een IT afdeling. En een zelflerend algoritme. Beiden zijn in de praktijk een black box.
Een algoritme wat beheert wordt door een IT afdeling kan geaudit worden. Je kunt stap voor stap zien hoe het uiteindelijk tot een beslissing komt. Met een neuraal netwerk is dat, tot nu toe, nog niet mogelijk. Daarmee is het dus een black box geworden.

[Reactie gewijzigd door Croga op 27 januari 2021 21:19]

een zelflerend algoritme behandeld niet iedereen gelijk. Een zelflerend algoritme is precies zo, zoals het wordt getrained. Het is voor de rest wel degelijk een probleem als het blackbox is: op basis waarvan ga je dan iemand in beschuldiging brengen? 'beste, u krijgt deze beschikking omdat de computer zegt dat u fraudeert. We weten niet waarom of hoe of wat, maar betaal binnen 2 maand'.

Zie ook dus de issues met de toeslagenaffaire.
Het punt is dus dat je niemand moet beschuldigen op basis van data van overige gebruikers. Daar gaat het fout.

Dan kan je nog beslissen dat bijvoorbeeld nationaliteit niet moet worden meegenomen in de analyse. Maar als je dat wilt moet het niet in de data staan waarmee je het algoritme voed. Makkelijk om de techniek de schuld te geven.
de techniek beinvloed de gebruiker. Dat zie je trouwens ook in het artikel hierboven staan: 'ja de adviezen mogen niet de ambtenaar beinvloeden'. Dus dan kun je die adviezen de deur uit mikken, want een advies is altijd beinvloeding natuurlijk.

Het is niet persé een issue van de techniek voor de rest, maar de techniek versterkt wel bestaand issues in systemen heel erg hard en heeft de potentie ze opte blazen tot immens grote problemen.
Ik ontken niet dat er risico's zijn aan deze methode. Maar als je niet kritisch bent op het resultaat van het gehele proces, gaat het fout.

Als je gereedschap verkeerd gebruikt krijg je niet het gewenste resultaat.
Jij kunt duidelijk niet begrijpend lezen. 'Je moet alleen geen zaak beginnen tegen individuen enkel op basis van algoritmes'.

Zolang degene die het oordeel velt om daadwerkelijk een procedure te starten tegen iemand, dat maar doet op basis van recherchewerk, zo'n algoritme dient er alleen maar voor om iemand de richting op te wijzen waar statistisch gezien de grootste pakkans is.

Het is een waardevol hulpmiddel om rechercheurs die een zeer beperkte capaciteit hebben, zich te laten concentreren op groepen waarin statistisch gezien meer van een bepaald type delicten wordt gepleegd. Dat discriminatieverbod moet trouwens direct geschrapt worden, omdat het nu eenmaal een feit is dat groepen mensen qua gedrag significant van elkaar verschillen en groepen met een ander doorsnee gedrag een andere aanpak vergen. Je gaat bij preventief fouilleren ook geen ouwe oma's controleren als de reden van het preventief moeten fouilleren wordt veroorzaakt door het gedrag van opgeschoten puberjongens.
Jij kunt duidelijk niet begrijpend lezen.

Het is *GEEN* waardevol hulpmiddel om rechercheurs zich te laten concentreren. Het is een levensgevaarlijk hulpmiddel waarbij de kans groot is dat er criminaliteit over het hoofd gezien wordt terwijl onschuldigen onderzocht worden.

Als er geen causaal verband is weet je zeker dat er een verkeerde focus zal zijn.

Daarnaast is ook al lang bewezen dat we wél een causaal verband is tussen onderzocht worden voor criminaliteit en de kans daadwerkelijk crimineel te worden. Daarmee zorgt dit "hulpmiddel" dus voor het creëeren van zijn eigen werkelijkheid. Iets wat nog oneindig veel gevaarlijker is.
In dit geval is het wel grappig dat de modellen-makers het maken van beslissingen op grond van een set van parameters juist discrimineren noemen.
Voor de goede order, het enige discriminerende wat in het toeslagenaffaire algoritme meespeelde is dat er geregistreerd is of een persoon een 'EU' of 'niet-EU' burger is. En uiteindelijk bleek 'niet-EU' een indicatie te zijn voor verhoogde kans op fouten en/of fraude.

Dan nog is de vraag of dat komt door de invoer data, maar opzicht vindt ik een onderscheid als 'EU' of 'niet-EU' burger redelijk onschuldig.
Dan nog is de vraag of dat komt door de invoer data, maar opzicht vindt ik een onderscheid als 'EU' of 'niet-EU' burger redelijk onschuldig.
Als daar een causaal verband zou zijn zou dat nog niet persé een probleem zijn.
Het probleem ontstaat hier door twee dingen;
- Geen causaal verband
- Het algoritme wordt als heilig beschouwd

Hoewel een algoritme zelf niet persé discrimineerd is het gevolg van een discriminerend algoritme dat degenen die de informatie uit dat algoritme krijgen al vooringenomen zijn door die uitkomst. Het onderzoek wat volgde werd dusdanig sterk beïnvloed dat er geen neutrale menselijke observatie meer mogelijk was.

Er speelt hier natuurlijk nog veel meer. Er speelt hier de uitspraak van het ministerie dat 20% false positives acceptabel was, de "Rutte doctrine" dat dit soort dingen koste wat kost verzwegen diende te worden (waardoor het onmogelijk was om zinnig aan de bel te trekken), de, door de regering, vastgestelde harde lijn die enige vorm van sturing onmogelijk maakte..... Maar de basis was wel degelijk een algoritme wat discrimineerde op een dimensie die het überhaupt niet ter beschikking zou mogen hebben, op basis van de Nederlandse grondwet.
De uitspraak "Allochtonen frauderen wel degelijk meer" heeft geen waarde. Dat is hetzelfde als zeggen "Sinds er meer kerncentrales zijn zien we het aantal verdrinkingen in eigen zwembad omhoog gaan".
Nou, nee, het is niet hetzelfde. De ene is feitelijk onjuist (althans, op zijn minst statistisch niet significant) en de andere misschien wel.

Maar inderdaad: ook als de correlatie er is, mag hij gewoon niet gebruikt worden om naar te handelen, omdat dat op zich ongewenst is. Zo simpel is het.
Nou, nee, het is niet hetzelfde. De ene is feitelijk onjuist (althans, op zijn minst statistisch niet significant) en de andere misschien wel.
Beiden hebben een correlatie. Er zijn prachtige grafieken te maken die aantonen dat er een statistisch relevante correlatie is tussen het aantal kerncentrales in de VS en het aantal doden door verdrinking in het eigen zwembad. Net zo goed als dat er wellicht voor allochtonen en frauderen die te maken is. En in beiden gevallen geld ook: Het feit dat iemand allochtoon is betekend niet dat hij fraudeert net zo goed als dat het feit dat er een kerncentrale bij komt niet betekend dat er meer doden zullen zijn door verdrinking in het eigen zwembad.

Correlatie != causatie
Toch klopt het niet. Correlatie zegt dat er een grotere kans is dat een allochtoon fraudeert.
Kijk voor de grap even op https://www.tylervigen.com/spurious-correlations

Als jouw uitspraak correct zou zijn dan is er een grote kans dat de VS, door hun uitgaven aan de wetenschap te verlagen, het aantal zelfmoorden door verwurging kan verlagen.
Als jouw uitspraak correct zou zijn dan is er een grote kans dat we het aantal doden door in dekens verstrikt te raken kunnen verminder door minder kaas te gaan eten.

Correlatie zegt, letterlijk, helemaal niets. Correlatie zegt alleen maar dat twee getallen grofweg dezelfde lijn vormen in een regressie. Causaal verband kan niet bepaald worden door regressie, alleen door logische beredenering. Die causatie kan gecontrolleerd worden door bij regressie ook nog een correlatie te zien.
Je noemt het gekke voorbeelden maar ze zijn eigenlijk helemaal niet gek. Misschien gaan er wel echt minder verstikkingsdoden vallen als we minder kaas gaan eten.

Echter daar gaat het niet om. Het gaat er om dat als we meer kaas gaan eten we misschien ook op onze hoede moeten zijn voor meer verstikkingsdoden.
Ik ben absoluut tegen het discimimeren op basis van afkomst, en vind dus ook niet dat hier een uitzondering op mag komen voor deze situatie, maar dat neemt niet weg dat een een verband is tussen afkomst en kans op criminaliteit.

Best logisch: je komt in een land, je word niet heel erg goed geaccepteerd, je hebt weinig kapitaal, kinderen gaan groepjes vormen, die groepjes worden afgestoten, in de criminele wereld horen ze er gewoon bij, en ze verdienen makkelijk geld.
Gevoelsmatig heb je gelijk. Als je actie onderneemt wil je een hoge slagingskans dus helpen dit soort kansberekeningen. Maar toch is het niet juist.
Trek het door naar iemands kinderen. Om nu alleen degene te laten studeren op basis van zijn/haar hoge cijfers op de middelbare school dat voelt als een slimme zet maar blijft bijzonder oneerlijk. En zo zullen die kinderen dat ook ervaren. Maar kanstechnisch heeft die wel de meeste kans opslagen. Maar andersom is dus iemand al kansloos om ooit af te studeren als het hem tegengezeten op de middelbare school.
Zodra we kansberekening of verwachtingspatronen vanuit een groep gaan meewegen bij beslissingen m.b.t. een individu dan gaat het fout.
Geen sterk voorbeeld. Als blijkt dat mensen met alleen maar 6jes op hun eindlijst zeer slechte studieresultaten halen dan is het toch niet onredelijk om extra kritisch te zijn bij het toelaten tot de universiteit van zo’n iemand.
Het ging mij ook niet om de mensen die onder de maat presteren. Het gaat erom dat een soort van optimalisatie plaatsvindt binnen de groep. Zou je als enig kind alleen maar zesjes scoren dan ga je wel studeren (want voldoendes). Is de groep groter en is er ook iemand die alleen maar zevens heeft gescoord dan gaat die studeren.
Als de groep diversiteit vertoont kun je (ogenschijnlijk) optimaliseren en keuzes maken op basis van correlatie maar dat is toch niet eerlijk en leidt vaak tot discriminatie. Twee kinderen die allebei aan het minimum voldoen maar de een heeft net wat hogere cijfers. En vervolgens gaat die dus studeren. Als de resources beperkt zijn moet je wel lijkt het dan. Is het echter eerlijk? Nee.
Bij verdeling van geld/resources/voedsel onder een groep mensen is het wel/niet toekennen op basis van verschillen tussen die mensen nooit eerlijk. Hoogstens als die groep is ontstaan nadat de verdelende voorwaarde is vastgesteld (zoals: alleen degene die de afstand in de korste tijd aflegt krijgt een prijs).
Dat gaat twee kanten op: alleen maar mensen bestraffen op basis van een zelf gekozen verschil met de rest is net zo slecht als alleen een bepaald deel belonen op basis van zelf gekozen verschillen.
Als algoritmes discrimineren maar vervolgens door mensen uitgevoerd speurwerk vereist is om een zaak tegen iemand te beginnen is er niks aan de hand.
Nee.
1: Confirmation bias zorgt ervoor dat je zo in een negatieve spiraal terecht komt.
2: Het feit dat je als verdachte in een juridisch traject verzeild raakt heeft al gevolgen, ook zonder veroordeling. Voor het individu en voor de maatschappij. Handhaving verliest zo autoriteit.
3: Het feit dat je als individu in groep A steeds gepakt wordt, en mensen in groep B niet omdat die niet gecontroleerd worden, geeft al een groot gevoel van onrecht zelfs als het pakken terecht is.
4: Zoals je al noemt, omgekeerde bewijslast. Zo verliest een verdachte sneller de strijd als de uitkomst van "computer says no" als factor wordt meegenomen, want er is als individu gewoon niks in te brengen tegen statistieken over hele groepen.

[Reactie gewijzigd door bwerg op 27 januari 2021 09:59]

Punt 2 geeft ook het "waar rook is, is vuur". 'Als iemand onderzocht wordt dan zal deze wel frauderen'.

Ook het effect van punt 3 is heel gevaarlijk. De pakkans van mensen in groep B is daarmee veel lager. En op die manier is het ook mogelijk dat fraudeurs zich kunstmatig uit groep A naar B gaan verplaatsen - zeker als ze weten hoe het algortime werkt. Uiteindelijk zou dan het algoritme moeten bijsturen maar voordat dit gebeurt is er al flink wat fraude gepleegd.

Ook zijn deze algoritmes veel te eenvoudig te omzeilen door het gebruik van stromannen.
Ik blijf dus bij wat ik zeg. We moeten eens ophouden met elke keer te doen alsof het vreemd is dat buitenlanders, die nu eenmaal meer dan de helft van de criminaliteit in dit land voortbrengen, ook vaker worden nagetrokken
Aangezien dit verboden is, of op zijn minst de randjes van de wet opzoekt, moeten we daar niet mee ophouden tot de wet veranderd is. En die zie ik niet veranderen.

Waar we wetten hebben om mensen te beschermen, moeten we het vooral vreemd vinden als die wetten niet worden nageleefd, en zeker als dat door de overheid gebeurt.
Zoals @bwerg al meld; dit wordt een neerwaartse spiraal.

Statistiek zegt dat 80% van alle verdachten mannen zijn. Laten we dit gaan gebruiken om onze onderzoeken te richten. We onderzoeken voortaan vooral nog mannen aangezien de kans groot is dat een man dit gedaan heeft. De statistiek zal vervolgens vanzelf "bewijzen" dat we gelijk hadden; het percentage mannen tussen de verdachten zal sterk stijgen! Zie je wel, we hadden gelijk! Laten we gewoon helemaal stoppen met vrouwen te onderzoeken!

Er is reden om aan te nemen dat een soortgelijk iets aan de gang is met allochtonen van niet-westerse afkomst. Er is een vooroordeel. Een onderzoek wordt op basis van dit vooroordeel gestuurd en daarmee wordt het vooroordeel bevestigd. Wist je trouwens dat van alle niet-westerse allochtonen verdachten nog geen 3% veroordeelt wordt? In 97% van de gevallen zitten we er dus naast. En zelfs bij de veroordeling speelt dat vooroordeel mee (zeg ik uit ervaring met rechters in mijn kennissenkring).
die nu eenmaal meer dan de helft van de criminaliteit in dit land voortbrengen
Nou heb ik het hele internet afgezocht en ik kan nergens ondersteuning voor deze stelling vinden. Wat ik wel kan vinden is statistieken over verdachten. Grofweg 1% van alle Nederlanders was afgelopen jaar verdacht tegen zo'n 3% van alle niet-westerse allochtonen. Aangezien er grofweg 10 keer zoveel Nederlanders zijn dan niet-westerse allochtonen durf ik rustig te beweren dat de overgrote meerderheid van verdachten gewoon Nederlands is. Mocht je ondersteuning hebben voor je stelling dan zie ik die graag. Tot die tijd: Zie hier het vooroordeel terugkomen.
"Jouw voor- en achternaam zijn niet-Nederlands, je huidskleur is donkerder, dus Het Algoritme heeft jou een hogere risicoindicatie gegeven. Hierdoor zijn rechercheurs door jouw aangiftes gegaan, en hebben ze inderdaad ontdekt dat jij wel liefst €5 te weinig aan belasting hebt betaald, dat ene jaar dat je loon omhoog is gegaan. Bij wet ben zijn we hierbij verplicht om je bestempelen als fraudeur. Hierbij zijn dus al je toeslagen stopgezet en je moet alles vanaf 2018 terugbetalen. Succes nog!"

Klinkt bekend.
Dat zijn allemaal dingen die niet hebben meegespeeld. Het is interessant dat de publieke opinie daar naartoe is gegroeid, maar wat er gebeurt is had eigenlijk iedereen kunnen overkomen.

Wat ik van officiële en officiële bronnen begrijp is dat de nu bekende gevallen door een algoritme als risico zijn aangemerkt door voornamelijk de status 'niet-EU burger' (dus geen specifiek land van herkomst, gewoon 'niet-EU') en het postcode gebied. Die combinatie alleen al was voldoende om voor sommige mensen een fraude risico van 70% af te geven.

Persoonlijk vind ik dit een hele privacy vriendelijke oplossing die ook een hoop mankracht bespaart; Je laat een algoritme al je privé data bekijken zodat er nooit een mens naar hoeft te kijken, tenzij het algoritme iets vreemds tegenkomt.

Bij die tweede stap ging het fout, het lijkt er sterk op dat de indicatie van het algoritme is aangenomen voor waarheid, terwijl je juist dan een mens moet laten controleren waarom het algoritme is aangeslagen en of dat klopt. Daarnaast zou je dezelfde checks random over de gehele bevolking moeten uitvoeren en dat weer moeten voeren aan het algoritme om het algoritme neutraal te houden.

Terugkomend op dat het iedereen had kunnen overkomen, het algoritme had ook prima kunnen afgaan op mensen met een huis boven de drie ton en een tweede huis in het buitenland. En misschien is dat ook wel gebeurt, maar weten we dat gewoon niet omdat die mensen toch niet in aanmerking komen voor toeslagen.

Nu maken we het algoritme een zwart schaap, zodat de schuld wat minder bij de betrokken mensen neerleggen, maar dat is natuurlijk onzin, een algoritme is afhankelijk van de data die je het voert en mensen zijn verantwoordelijk voor de data die erin gaat en de data die eruit komt.

We moeten juist meer dit soort algoritmes inzetten, maar we moeten we veel beter waarborgen dat het algoritme neutraal blijft en dat het uitsluitend indicaties mag geven voor verder onderzoek door mensen. Hiermee bespaar je mankracht, waarborg je privacy en zorg je dat er meer geld komt bij de mensen die het echt nodig hebben.
Dat is baarlijke nonsens. Als jij teveel aan toeslagen ontvangen hebt omdat je inkomen is veranderd, word je dat gewoon verrekend nadat je je aangifte over dat jaar hebt ingediend. Je toeslagen lopen dan gewoon door, alleen wordt het teveel betaalde bedrag daarop gespreid in mindering gebracht als je het niet al vantevoren per acceptgiro hebt terugbetaald. Dit is mij zelf ook overkomen een jaar of 8 geleden, dwz. in dezelfde tijd dat een deel van de gedupeerden in deze zaak problemen met de fiscus kreeg.

Het enkele feit dat je vergeten bent om je gewijzigde inkomen door te geven is géén bewijs van fraude en wordt door de fiscus ook niet als zodanig behandeld. Ze verrekenen dat gewoon aan het eind van de rit als je belastingaangifte over het betreffende jaar is verwerkt. Mocht je minder dan 45 euro teveel hebt ontvangen mag je het trouwens gewoon houden.
Heb jij ooit enig bewijs gevonden waarin wetenschappelijk is aangetoond dat allochtonen meer frauderen? Het zou best wel kunnen zijn dat er procentueel meer fraude wordt gevonden bij allochtonen dan bij autochtonen, maar dat kan heel goed komen door discriminatie: Autochtonen worden minder (intensief) gecontroleerd.

En wanneer je het hebt over witteboordencriminaliteit, autochtonen zijn er heel goed in om zichzelf te (laten) verdedigen. Dat maakt de kans op een veroordeling ook weer kleiner. En wellicht zijn rechters ook bevooroordeeld, niets menselijks is hen vreemd.

Een goed algoritme met de verkeerde input, zal keurig het gedrag van de medewerkers op grote schaal herhalen. Wanneer de medewerkers op basis van vooroordelen besloten om iemand extra te controleren, is er een grotere kans dat juist in die data meer fraude wordt gevonden. Alleen zegt dat niks over de over de rest van de data. Het enige dat je weet, is dat de rest van de data niet extra is gecontroleerd. Of daar nu meer of minder fraude in zit, dat weet je niet.
Heel juist. De bias bestaat al zo lang dat deze self-fullfilling is geworden. De controle is al zo lang onevenredig geweest dat we allemaal denken te weten dat het klopt.

Het grote probleem is dat zelfs alleen cijfer-gericht controleren ook niet werkt. Want als fraude bij toeslagen makkelijker is doordat hierbij cijfer-manupilatie eenvoudig is dan zou dit meer controles rechtvaardigen. Als de cijfers worden aangeleverd door instantie B dan kan een fraudeur hiermee onder 1 hoedje spelen en de extra inkomsten delen. Hierbij zijn de cijfers dan ogenschijnlijk correct.

De kern van de zaak is: stop met die belachelijke contructies die blijkbaar fraude uitlokken. Maar dat is helaas nog niet zo simpel.
En de autochtone plegers van vermogensdelicten zorgen er voor dat ze een schikking treffen met het OM. Met als gevolg dat er geen veroordeling heeft plaatsgevonden. ING, SBM, Mammoet, Rabobank, Shell, Royal IHC, etc. etc. etc. Blanke autochtone man, keer op keer betrokken bij grootschalige vermogensdelicten.

Nog een mooi gevalletje in Duitsland, Wirecard. Nog geen veroordelingen, maar de blanke autochtone man is wel weer oververtegenwoordigd in dit schandaal. Zowel bij Wirecard, als bij EY (de verantwoordelijke accountant) als bij BaFin.

Wie heeft 1MDB gefaciliteerd? Goldman Sachs. En wie is daar weer oververtegenwoordigd? De blanke autochtone man. Dan kun je wel zeggen dat de oorsprong van deze case ligt in Maleisië, maar zonder de facilitators in o.a. de VS, GB én Nederland (!) zou dit niet hebben kunnen plaatsvinden.
Het CBS wil een woordje met je spreken. Er is wel degelijk een hogere correlatie tussen criminaliteit en niet-westerse afkomst, maar liefst 3,5 keer zo hoog. Dit profileren door de politie gebeurd langs stereotypen, dit doen ze ook bij mensen van westerse afkomst. Kleding, auto, je gedrag etc. vallen allemaal onder de cofactoren van zo'n profiel. Dat mensen met een niet-westerse achtergrond vaker worden aangehouden komt omdat ze ook vaker en meer gepresenteerd zijn in de criminaliteitscijfers.

[Reactie gewijzigd door Dead Pixel op 27 januari 2021 14:39]

En hoe zijn die cijfers tot stand gekomen? Precies, door mensen. Mensen hebben besloten om iemand wel of niet aan te houden, wel of niet te vervolgen, etc. etc. Het CBS toont de resultaten zoals ze zijn aangeleverd en zegt niets over hoe ze zijn samengesteld.

Ga je echter kijken naar andere factoren, bijvoorbeeld de opleiding of het hebben van een vaste baan, dan zijn die cijfers ineens heel anders. Alleen zijn dat eigenschappen die je niet zomaar aan de buitenkant kunt zien, daar waar huidskleur (en dus afkomst) wel vrij gemakkelijk is.

En over auto gesproken, een werknemer van mij heeft zijn BMW (lease) opgegeven omdat hij zeer regelmatig werd aangehouden. Zwart + BMW = crimineel. Dus niet. Rijdt nu een Tesla en is bij mijn weten al 2 jaar niet meer aangehouden, daar waar het voorheen bijna iedere maand wel raak was. En aan de auto lag het niet, want ik heb nog een tijdje met zijn auto gereden en ben nooit aangehouden.
Hoe deze cijfers tot stand zijn gekomen? Je mag het hier lezen. Als je deze methode al in twijfel gaat trekken dan weet ik niet of het wel zin heeft om met je in discussie te gaan.

Er zijn duidelijk bepaalde bevolkingsgroepen van niet-westerse achtergrond over-gerepresenteerd dan anderen van niet-westerse achtergrond. Allemaal gelijk getrokken door te kijken hoeveel het er zijn per 10.000 inwoners. Van Chinese afkomst zijn het er beduidend lager dan Nederlanders zelf, maar Egyptische weer vér er boven.

En nogmaals, opleiding en baan zijn irrelevant voor de politie. Dat zijn geen factoren wat de politie op straat kan controleren. Wat je dan gaat doen is profileren op gedrag en aanzicht. Dit is dus ook jongeren in dure auto's, want die zijn vaker betrokken bij een misdaad dan een jongere in een Tesla. Desondanks dat het duurdere auto's zijn. Een jongere in een zwarte BMW is een cofactor voor een risicogroep. Precies hetzelfde als dat er bepaalde automerken vaker betrokken zijn bij verkeersongevallen.
Je verwijst naar het CBS, alleen stellen zij die cijfers helemaal niet samen! Zij ontvangen de cijfers en gaan er mee aan de slag. Maar dan zit de discriminatie (mocht die er zijn) er al keurig in verwerkt. Daar doet het CBS helemaal niets meer aan.

En dat profileren op gedrag en aanzicht, dat is imho klinklare onzin. De medewerker waar ik het over heb, heeft per jaar niet meer verkeersboetes dan de andere medewerkers en evenmin bijzondere boetes. Een keertje vergeten parkeergeld te betalen, een paar km/h te hard rijden en dat was het wel. Misschien 100 tot 200 euro op jaarbasis, niet meer dan de andere medewerkers. Reed in een BMW 3-serie, net zoals diverse andere medewerkers, en reed daarmee evenals de andere medewerkers vaak in de Bijlmer. Niet zo gek wanneer zowel ING als ABN AMRO daar ruim vertegenwoordigd zijn. Kenteken keurig zichtbaar op de auto en de auto nooit betrokken bij welke misdaad dan ook. Dus welk gedrag of aanzicht is dan zo fout bij hem? Toen we van auto hebben gewisseld voor een Tesla, was zijn probleem direct opgelost, nooit meer aangehouden. Dus omdat iemand met Surinaamse root in een BMW rijdt, ga je hem aanhouden? Dat is het perfecte voorbeeld van discriminatie.

Ik begrijp best dat de politie niet even kan controleren welke baan iemand heeft of wat voor opleiding er is gevolg, maar om puur op basis van merk auto en huidskleur iemand aan te houden, dat slaat nergens op. Je weet dan wel vrij zeker dat je boetes kunt gaan uitschrijven, want op een dag gaat de persoon die je stopt, jou de huid helemaal vol schelden... En dat mag niet. Maar volkomen logisch dat iemand het dan doet.
Zoals ik al dacht. Als je de methoden voor meten niet eens vertrouwt dan kun je geen enkele cijfers meer vertrouwen, ook niet die van je hypothetische 'medewerkers waar ik het over heb'.

Sorry. Ik ga niet met je in discussie.
Sinds wanneer doet een rechtspersoon iets? In geen enkel bedrijf gaat iets vanzelf, het is de mens in dit bedrijf die de actie onderneemt. Wellicht uit naam van het bedrijf, maar het is en blijft de mens die het doet.

Wel droevig om te zien dat je de Joden er nu ook bij gaat slepen. Niveau daalt tot onder een twijfelachtig niveau.
Daar is niets mis mee, aangezien ik er geen boosaardige machinaties maar specifieke competenties achter zoek. Die lui zijn oververtegenwoordigd in bepaalde beroepen zoals de advocatuur en de bankwereld, net zoals Oost-Aziaten en Indiërs oververtegenwoordigd zijn in de techindustrie, Chinezen onder restauranthouders, en zoals Zweden oververtegenwoordigd is qua aantal van hun onderdanen dat in de VS een nummer 1-hit gescoord heeft, Kenianen oververtegenwoordigd zijn onder marathontoppers, et cetera.

Is nu eenmaal gewoon zo. Verschillende volkeren, zeker volkeren die van een kleine oorsprongbevolking afstammen en zich langs een atypische manier ontwikkeld hebben gedurende 1000 jaar vergeleken met de doorsnee Europeaan, vervullen een specifieke niche in een maatschappij.
Op die manier betrek je ook cultuur erbij. Ik begreep dat in het Griekenland gebruikelijk was om wat contact geld in de vergunningaanvraag envelop te doen. Dat is dus corruptie. Maar in ons land mag de gemeente vragen wat ze wil voor een vergunningaanvraag en wordt dit wit betaald. Dan heet het geen corruptie maar komt op hetzelfde neer.
Dat praat het niet goed maar als het algemeen geaccepteerd is, is het dan nog steeds verwijtbaar?
Wow, wat snap jij de wereld slecht.
In het westen is corruptie dusdanig geinstitutionaliseerd dat je er mee weg kan komen. Het feit dat allochtonen er niet mee wegkomen komt omdat ze het systeem hier niet kennen. :)
Dat is pertinent onjuist. Probeer hier maar eens een agent een briefje van 20 in je rijbewijs aan te bieden als die je een boete wil geven. De kans is vrijwel 100% dat je een strafaanklacht wegens omkoping bovenop je boete erbij krijgt. Of een ambtenaar te betalen om je bouwvergunning te verlenen, idem.

Dat die lui het systeem niet kennen is trouwens een verzinsel. Hoe komt het anders dat niet-westerse allochtonen 53% van de bijstandstrekkers vormen, massaal in sociale huurwoningen wonen, en ook oververtegenwoordigd zijn in de Wajong? Die agenten en zorgverleners die tegen de lamp lopen kunnen zich trouwens ook niet beroepen op 'het systeem niet kennen'.

Die corruptie-perceptie-index neemt trouwens legale activiteiten die in de ogen van de mensen niet deugen, mee, het draait namelijk om perceptie van corruptie en niet noodzakelijkerwijs over hoeveel mensen de wet overtreden.
Zo werkt dat niet. Dat hebben we gezien bij de Enschedese vuurwerkramp. Iemand werd veroordeeld omdat hij daar volgens zijn telefoon aanwezig was en vervolgens er ander bewijs bij gezocht werd en een getuigenis afgedwongen terwijl ontlastend bewijs genegeerd werd.
En in hoger beroep vrijgesproken. Het systeem heeft daar dus gewoon gewerkt. En nu?
Niet in hoger beroep maar na een heropening van de zaak zover ik weet. Duidelijk was wel dat het rechercheteam last had van tunnelvisie. Idem dito voor de Schiedammer moordzaak en de zaak Lucy B.
Ik begrijp nog niet zo goed waarom een algoritme kan discrimineren. Volgens mij zoekt een algoritme naar correlaties en doet dat met de data van iedereen. Als er correlaties zijn dan wordt per definitie een bepaalde groep naar voren geschoven.

Maar is dat dan discriminatie?

Ik kan me niet voorstellen dat een algoritme keihard steld dat mensen van een bepaalde afkomst schuldig zijn, maar misschien is dat juist wel zo en is er dus toch spraken van discriminatie.

Iemand?

edit: typo aangepast.

[Reactie gewijzigd door TwiekertBOB op 27 januari 2021 08:01]

Ik begrijp nog niet zo goed waarom een algoritme kan discrimineren. Volgens mij zoekt een algoritme naar correlaties en doet dat met de data van iedereen. Als er correlaties zijn dan wordt per definitie een bepaalde groep naar voren geschoven.

Maar is dat dan discriminatie?
De definitie van de Rijksoverheid:
Discriminatie betekent dat er onterecht verschil wordt gemaakt in de behandeling van mensen. Bijvoorbeeld op basis van geslacht of godsdienst.
Dus nee, pure data (de uitkomst van een algoritme) kan niet discrimineren. Data is data, en passief. Data neemt geen beslissingen. Data handelt niet.
Ik kan me niet voorstellen dat een algoritme keihard steld dat mensen van een bepaalde afkomst schuldig zijn, maar misschien is dat juist wel zo en is er dus toch spraken van discriminatie.
Je noemt het in het begin van je reactie: correlatie. Correlatie is geen causatie, ofwel een oorzakelijk verband.

Neem een algoritme dat bepaalt dat een specifieke bevolkingsgroep een hogere kans heeft op daderschap van criminaliteit, gebaseerd op data uit het verleden. Als die bevolkingsgroep in het verleden gediscrimineerd en vaker gecontroleerd werd door de maatschappij, dan is het logisch dat binnen die groep er meer criminaliteit werd gevonden, en dit zal terugkomen in de data die aan een algoritme wordt gevoed. Meer controles is immers gelijk aan meer zaken die gevonden worden. Verder zal een groep die gediscrimineerd wordt zich in de toekomst sneller wenden tot criminaliteit bij gebrek aan gelijke kansen.

De conclusie van het algoritme is niet fout, maar de gevolgen die men zal toepassen (nog strenger een bepaalde groep controleren) wel. Dat laatste versterkt alleen maar eerder gemaakte conclusies. Zie je wel, het zijn criminelen! De data zegt het!

En daar zit het gevaar in. Data discrimineert niet. Iemand die op die data handelt doet dat wel. Hierbij is het wel belangrijk om terug te komen op de vraag: waarom wordt een algoritme gebruikt, als het enige resultaat discriminatie kan zijn? Een algoritme kan ook gebruikt worden voor enkel onderzoeksdoeleinden. Algoritme: volgens deze data is bevolkingsgroep X eerder geneigd tot criminaliteit. Onderzoeker, ga onderzoek doen over het waarom. Klopt de invoerdata? Klopt de conclusie met de werkelijkheid? Zo ja, hoe is dat zo gekomen?

De enige manier om discriminatie en onvrede die daaruit voortkomt weg te nemen is meer handhaven over de gehele linie heen. Initieel is dat een grotere investering, omdat iedereen steekproefsgewijs gecontroleerd moet worden. Later betaalt zich dat op maatschappelijk niveau terug, omdat in alle bevolkingsgroepen criminaliteit zal verminderen. Dat lijkt mij helemaal niet verkeerd.

[Reactie gewijzigd door The Zep Man op 27 januari 2021 09:50]

Een algoritme dat inzoomt op...

- gezinnen waar voor >3 kinderen kinderopvangtoeslag wordt ontvangen, EN
- waar in totaal maandelijks meer dan EUR 1.000 kinderopvangtoeslag wordt ontvangen...

De grote vissen dus... Je kunt haast garanderen dat het resultaat dat dit oplevert geen perfécte afspiegeling van de bevolking oplevert. Dat er bepaalde etniciteiten, religies en inkomensgroepen over- en dus ook ondervertegenwoordigd zijn... Maar discrimineer je dan?

Mijn beeld van de hele zaak is dat de risico-groep die wordt geïdentificeerd vaak geen perfecte afspiegeling van de bevolking is, maar dat dit niet persé met 'foute' algoritmes te maken hoeft te hebben maar ook samen kan hangen met bevolkingsgroepen die simpelweg anders scoren op valide risico-factoren.

Iets spicier nog: Je zoomt aanvullend alleen in op gezinnen waarbij een van de verzorgers >1 paspoort heeft omdat deugdelijk onderzoek heeft uitgewezen dat daar relatief gezien vaker fraudegevallen met zorgtoeslag voorkomt (stel dat dit zo is, ik zeg niet dat het zo is).

Een algoritme dat al achternamen standaard whitelist of juist blacklist oid, of die ingaat op etniciteit is natuurlijk een heel ander verhaal!
Een algoritme dat inzoomt op...

- gezinnen waar voor >3 kinderen kinderopvangtoeslag wordt ontvangen, EN
- waar in totaal maandelijks meer dan EUR 1.000 kinderopvangtoeslag wordt ontvangen...

De grote vissen dus... Je kunt haast garanderen dat het resultaat dat dit oplevert geen perfécte afspiegeling van de bevolking oplevert. Dat er bepaalde etniciteiten, religies en inkomensgroepen over- en dus ook ondervertegenwoordigd zijn... Maar discrimineer je dan?
Het algoritme en het resultaat zelf discrimineren niet. Je voedt het immers met data en parameters, en daaruit komt data. Nogmaals, de definitie van de Rijksoverheid:
Discriminatie betekent dat er onterecht verschil wordt gemaakt in de behandeling van mensen.
Algoritmes en data behandelen geen mensen. Dat doen mensen die algoritmes schrijven en gebruiken, of die besluiten dat de resultaten van algoritmes blind gebruikt worden.
Iets spicier nog: Je zoomt aanvullend alleen in op gezinnen waarbij een van de verzorgers >1 paspoort heeft omdat deugdelijk onderzoek heeft uitgewezen dat daar relatief gezien vaker fraudegevallen met zorgtoeslag voorkomt (stel dat dit zo is, ik zeg niet dat het zo is).
Met als gevolg dat je meer fraudegevallen in specifiek die groep zal vinden, die als data weer aan het volgende algoritme wordt gevoed, dat het effect weer verder versterkt.

Als de perceptie is dat er meer gefraudeerd wordt in een bepaalde groep, dan is het beter om meer controles te doen over de gehele linie heen dan enkel op die bepaalde groep. Dat is in het begin even naar voor iedereen (hey, geen discriminatie!), maar met voldoende controle lost het probleem zich over de gehele linie op en kan er na verloop van tijd minder gecontroleerd worden.

Denk aan controles die niet discrimineren in het verkeer: iedereen die te snel rijdt bij trajectcontrole krijgt een boete, niet enkel de mensen die met een petje achterstevoren op het hoofd en met een hoodie een gepimpte Polo rijden.

[Reactie gewijzigd door The Zep Man op 27 januari 2021 09:50]

Ik vindt het zelf vaak moeilijk om onderscheid te maken tussen 'foute' discriminatie en 'goede' discriminatie. We discrimineren immers op een dagelijkse basis. (is een situatie gevaarlijk?, is dit eten bedorven?, kan ik deze personen vertrouwen?)

Je voorbeeld van:
Denk aan controles die niet discrimineren in het verkeer: iedereen die te snel rijdt bij trajectcontrole krijgt een boete, niet enkel de mensen die met een petje achterstevoren op het hoofd en met een hoodie een gepimpte Polo rijden.
klopt tot zekere hoogte (we controleren alleen bestuurders op een bepaald traject, als ik daar niet kom maar wel te hardt rijdt word ik niet gepakt) maar op diezelfde manier kunnen we dus ook kijken naar het aantal kinderen binnen een gezin (kinderen nemen is namelijk een keuze). De kans op fraude met kindertoeslag lijkt mij vrij klein bij een gezin zonder kinderen. Immers als een gezin zonder kinderen deze ontvangt heb je al meteen een duidelijke indicatie van fraude.

Als uit (steeksproefgewijze) data blijkt dat gezinnen met meer kinderen meer kans hebben op fraude met deze toeslag is dat dan niet gewoon een nuttige indicatie dat we hier meer op moeten letten? Het doel is namelijk de schade van fraude te minimaliseren met de beperkte middelen die we hebben, toch?

Als blijkt dat gezinnen met een bepaalde afkomst of religie vaker grote gezinnen hebben zal je vaker zien dat deze 'gepakt' worden bij controles.

Nu is het probleem: Hoe is bepaald deze gezinnen te controleren?
Is dat door het feit dat ze een bepaalde afkomst hebben? > Dan lijkt me dit verkeerde discriminatie.
Is dat door het feit dat ze een groter dan gemiddelde gezins samenstelling hebben? > Dan lijkt mij dit correcte discriminatie aan de hand van de data.

De vraag is, hoe ga je aantonen dat het optie 2 was en niet optie 1? Want het eind resultaat is dat Groep X een verhoogde pakkans heeft van Y%

[Reactie gewijzigd door Donvermicelli op 27 januari 2021 11:23]

Een algoritme dat inzoomt op...

- gezinnen waar voor >3 kinderen kinderopvangtoeslag wordt ontvangen, EN
- waar in totaal maandelijks meer dan EUR 1.000 kinderopvangtoeslag wordt ontvangen...

De grote vissen dus... Je kunt haast garanderen dat het resultaat dat dit oplevert geen perfécte afspiegeling van de bevolking oplevert. Dat er bepaalde etniciteiten, religies en inkomensgroepen over- en dus ook ondervertegenwoordigd zijn... Maar discrimineer je dan?
Ja, want je past een filter toe in plaats van steekproefsgewijs te controleren (of er fraude wordt gepleegd).

Zoals hieronder al staat, er wordt gefilterd vanwege kosten/baten. En dat is het probleem, een belastingdienst zou voor de overheid als één grote kostenpost moeten worden beschouwd. (De werkzaamheden dan.)
Stel je dan een steekproef op euro's voor, op kind waarop gedeclareerd wordt of op gezin?

a) Trek je op euro's, dan worden mensen die relatief véél toeslag krijgen 'gediscrimineerd' (t.o.v. methode b/c);
b) Trek je op kind, dan worden mensen met relatief veel kinderen in de toeslagregeling 'gediscrimineerd' (t.o.v. methode a/c);
c) Trek je op gezin, dan worden gescheiden ouders onevenredig geraakt: gevallen waarbij kind 1 op naam van de moeder staat en kind 2 op naam van de vader hebben dan een 2x zo grote trekkingskans als gevallen waarbij kind 1 en kind 2 tot hetzelfde gezin behoren (t.o.v. methode a/b)...

En je kunt de Belastingdienst natuurlijk prima als 'kostenpost' beschouwen... Maar dat wil toch niet meteen zeggen dat ze niet ook een beetje efficiënt moeten werken? Dat gezin waar EUR 30k toeslag naartoe gaat (dat zijn de in mijn ogen vrij belachelijke bedragen die schijnbaar omgaan in deze toeslag, bij mij gaan wat vraagtekens op bij verhalen van gezinnen die onterecht EUR 30k terug moesten betalen maar dat terzijde) mag je toch best wat beter naar kijken dan dat gezinnetje dat één maandje EUR 35 ontving?
De output van het algoritme zoals jij beschrijft zorgt vervolgens voor menselijk handelen. Als het algoritme een lijst produceert dat aan de door jou genoemde criteria voldoet is de kans groot dat daar een bepaalde bevolkingsgroep uit komt. Die groep wordt dan verder onderzocht en daaruit blijkt dat x% fraudeert (of iets anders doet wat niet klopt. Maar diezelfde x% kan ook van toepassing zijn op gezinnen die op basis van criteria niet in die lijst komen. Maar die worden dan niet gezien. Voor je het weet is de conclusie dat grote gezinnen frauderen en kleine gezinnen niet. Daarom moet je altijd heel goed uitkijken met het trekken van conclusies zonder diepteonderzoek.
De enige juiste vorm is dan steekproeven te nemen uit de gehele groep. Probleem is ook bij de overheid wil men scoren en scoren is waar het om draait dus kiest men de eenvoudigste weg. De data geeft ze die eenvoudige weg waarmee ze kunnen scoren.
Politie heeft prestatiecontracten moet scoren, ook een belastingdienst moet scoren, onderzoeken kosten geld en daar moet resultaat uitkomen.
Het is uiteindelijk weer de politiek die dit alles mogelijk maakt c.q die dwang oplegt om te moeten scoren.

Onze overheid is er al land niet meer voor de burger, wij als burgers zijn er om de overheid te dienen.
Zo zou het inderdaad kunnen werken. Je kiest objectieve criteria, en als iemand aan die criteria voldoet is de kans zeer groot dat er sprake is van een misstand.

Zie bijvoorbeeld deze criteria waarmee gemeenten fraude opsporen:
https://www.rvig.nl/documenten/brochures/2015/02/27/waaier-fraudepatronen

edit: dit is een reactie op wjn

[Reactie gewijzigd door TimoD op 27 januari 2021 10:11]

Ja en nee.

Ja als een bepaalde bevolkingsgroep nu eenmaal vaker meer kinderen heeft en dus ook vaker een beroep doet op een bepaalde regeling etc dan zul je dus ook vaker binnen die groep mensen vinden die zich niet aan de regels houden. Dat komt gewoon omdat er heel veel meer mensen binnen die groep van de regeling gebruik maken en er dus een grotere kans is op fout gedrag.

In zoverre is er niets mis met het algoritme.

Maar als je dan zegt kijk eens binnen groep A zien we een percentage van 20% dat zich niet aan de regels houd terwijl we binnen de andere groepen gemiddeld maar 5% zien dus groep A moet ook in andere gevallen veel meer gecontroleerd worden dan kon je het nog wel eens ernstig fout doen.
De sample size is voor groep B misschien gewoon te klein er zijn te weinig mensen binnen die groep die zo veel kinderen hebben en dus zijn levert die regeling geen goede afspiegeling op van het gedrag van deze groep alleen van het gedrag van een klein deel van deze groep die toevallig veel kinderen heeft.

Dit is waar veel problemen vandaan komen je kunt op basis van vermoede fraude met een bepaalde regeling niet de conclusie trekken dat de groep die daar het meest opvalt ook bij andere regelingen de fout in zal gaan omdat ongeacht de regeling het maar een klein deel van die groep is die zich voor de eerste regeling aanmeldde dus ook dat is geen goede reflectie van de groep als geheel.

Hoe dit soort dingen zouden moeten werken is dat je hoe dan ook altijd de resultaten van een bepaalde controle zult moeten scheiden van andere beslissingen zeker als je daar risico groepen wil vinden dan doe je het goed fout.
Met dit soort regelingen zou je eigenlijk van te voren een plan moeten opstellen hoe je ten alle tijden iedere aanvraag op fraude kan beoordelen. Zodat je iedere aanvraag controleert en de methodiek zul je over tijd zeg iedere twee jaar tegen het licht moeten houden met een nieuwe groep mensen om eens te zien of zij een manier kunnen verzinnen om de controle te misleiden en met fraude weg te komen.
Dan hoef je geen risico profielen op te stellen hoef je niet te filteren wie je wel en niet gaat controleren je bekijkt alles. Dat kost dan ook niet heel erg veel meer omdat je heel erg veel minder fraude gevallen zult zien en de geen die er wel zijn weet te vinden en aan te pakken.

Maar goed dan is er het argument van onschuldig tot het tegendeel bewezen is en zo... en dan zou ik zeggen dat dat natuurlijk helemaal waar is maar dat iedereen wel eens een foutje kan maken en dat het controleren van een aanvraag nu ook gebeurt alleen een stuk minder intensief dan nodig zou zijn voor een 100% controle. En dat als alle aanvragen gecontroleerd worden je niet van discriminatie kunt spreken en het niet zo zeer is schuldig tenzij we kunnen vinden dat je het niet bent maar een bescherming van overheidsgeld door eventuele fouten er uit te vissen en mensen op onvolkomenheden te wijzen. Je aanvraag wordt dan gewoon afgewezen omdat er iets niet klopt in de aanvraag, de uitleg waarom het niet klopt en een mogelijkheid om de onvolkomenheid op te lossen horen daar gewoon bij. Er is dan geen rede voor een boete of terug betaling etc...

Als burger kun je dan gewoon een verzoek in dienen voor elke mogelijke regeling waar je eventueel recht op hebt en je hoeft je geen zorgen te maken dat de overheid achteraf roept dat dat fraude was omdat alles 100% gecontroleerd wordt.
Als overheid kun je er dan zeker van zijn dat een ieder die recht heeft op bepaalde gelden ongeacht hun kennis van de regeltjes en zo voort een aanvraag zal doen en het geld ook echt ontvangen, zij die er geen recht op hebben vallen door de mand en krijgen dan het geld niet dat maakt de overheid ook een stuk meer effectief.

Maar goed dat gaat er van uit dat een overheid dat soort dingen echt zou willen doen en het risico wil lopen dat veel van deze regelingen die nu vaak maar een deel van de mensen uitbetaald omdat de rest denkt er misschien geen recht op te hebben en bang is voor fraudeur uitgemaakt te worden de aanvraag maar niet doet... En dat levert de overheid weer extra geld op waardoor ze net voor de verkiezingen weer extra gul kunnen zijn en groepen die ander misschien niet op ze zouden stemmen extra geld toe kunnen zeggen omdat ze weten dat de meerderheid de aanvraag toch niet zal doen.
Neem een algoritme dat bepaalt dat een specifieke bevolkingsgroep een hogere kans heeft op daderschap van criminaliteit, gebaseerd op data uit het verleden. Als die bevolkingsgroep in het verleden gediscrimineerd en vaker gecontroleerd werd door de maatschappij, dan is het logisch dat binnen die groep er meer criminaliteit werd gevonden, en dit zal terugkomen in de data die aan een algoritme wordt gevoed.
Misschien zou de output van hetzelfde algoritme dan gebruikt moeten worden om die mensen extra hulp te bieden zodat ze kunnen zakken in de lijst en de volgende "foute" bevolkingsgroep naar boven komt. Die extra hulp had bij de kindertoeslagaffaire kunnen bestaan uit uitleg dat je niet subsidie voor opvang aan kunt vragen als je je kinderen niet ook naar de opvang brengt, of thuiswonende jongeren die drugs dealen een eigen appartement in een andere wijk geven waar ze niemand kennen en geen rottigheid uit willen halen en wat ze dwingt om overdag een normale baan te hebben.
Het enige waarbij je dus de data zou kunnen gebruiken is controleren of de onderzoekers wel goed hun best hebben gedaan. Als de kans op fraude X binnen een groep dan zou het aantal gevonden gevallen een afgeleide daarvan moeten zijn. En dan kun je niet te lang terugkijken vanwege feedback loops.

Als je niet genoeg mankracht hebt om alles te controleren dat moet je steeksproefgewijs controleren.

Overigens is er ook iets mis als je eigenlijk iedereen zou moeten controleren want dan vertrouw je blijkbaar niemand.
Dus nee, pure data (de uitkomst van een algoritme) kan niet discrimineren. Data is data, en passief. Data neemt geen beslissingen. Data handelt niet.
Onzin. Je hebt wel gelijk dat iets of iemand die data dan gaat interpreteren maar die data kan zeker van een kwaliteit zijn die de interpreteerder een foute beslissing laat maken. Data kan dus makkelijk de feiten verkeerd representeren.

En de data handelt uiterdaad niet zelf, maar er is wel een process geweest voor het verkrijgen van die data. Als de data problemen bevat dan ligt dat uiteindelijk aan het verkrijgen van die data. Dus strict genomen is de data niet de schuldige maar kan er wel degelijk veel mis zijn met de data.

Waar jij het denk ik over hebt is een ideaal soort aloverziende perfecte unbiased data. Als je data alle werkelijke en relevante informatie beslaat dan kun je enkel nog degene die interpreteert de schuld geven. Maar data van die aard bestaat helemaal niet in dit verband.
Als er correlaties zijn dan wordt per definitie een bepaalde groep naar voren geschoven.

Maar is dat dan discriminatie?
Ja, uiteraard. Statistisch gezien zal er vast een verband te vinden zijn tussen persoonlijkheidskenmerken als huidskleur enerzijds en misdrijven als inbraken anderzijds. Op basis daarvan een individu met anders gaan behandelen, niet omdat hij een betrapte inbreker is maar omdat hij een andere huidskleur heeft, kun je moeilijk anders noemen dan discriminatie/racisme. Je behandelt hem op basis van zijn huidskleur, zo simpel is het.

Kort gezegd: dat je een algoritme/aanpak bedenkt met reden dat dat gewoon effectief is, wil niet zeggen dat het dan ineens geen discriminatie meer kan zijn.

Want misschien kan die correlatie, op de zeer korte termijn*, een effectievere handhaving opleveren. Op straat zie je van mensen alleen hun kleurtje, geslacht, leeftijd en kleding, dus als je als agent de tijd en middelen hebt om van de 100 mensen er 10 preventief te fouilleren, dan kun je er maar beter die 10 uitpikken waarbij die factoren correleren met het plegen van misdaden. Dan vindt je op goed geluk waarschijnlijk de meeste mensen waar je naar op zoek bent. Maar waar veel mensen moeite mee lijken te hebben - en in het bijzonder mensen die zich inzetten voor effectieve handhaving (agenten, beleidsmakers) - is dat een statistische basis voor effectieve handhaving niet betekent dat het dan ineens geen discriminatie meer is. Het is gewoon allebei: misschien effectief, maar ook gewoon discriminatie dus ongewenst. Een agent kan denken: dit is effectief, dus niet zeuren met je handhaving, ik doe gewoon mijn werk.

* Op korte termijn, omdat het op de lange termijn vooral de patronen versterkt op basis van confirmation bias en het wegduwen van mensen in hokjes, die zich daar uiteindelijk naar gaan gedragen. Los van dat je als handhaver gewoon de wet overtreed als je discrimineert, en dat op zich lijkt me al niet de bedoeling van handhaving.

[Reactie gewijzigd door bwerg op 27 januari 2021 09:57]

Ja, uiteraard. Statistisch gezien zal er vast een verband te vinden zijn tussen persoonlijkheidskenmerken als huidskleur enerzijds en misdrijven als inbraken anderzijds. Op basis daarvan een individu met anders gaan behandelen, niet omdat hij een betrapte inbreker is maar omdat hij een andere huidskleur heeft, kun je moeilijk anders noemen dan discriminatie/racisme. Je behandelt hem op basis van zijn huidskleur, zo simpel is het.
Je behandelt iemand niet anders omdat hij een andere huidskleur heeft, maar omdat er een correlatie is.

Als ik zie dat een bepaalde leeftijdsgroep met een bepaalde huidskleur meer kans heeft op kanker bijvoorbeeld. Dan is het logisch dat ik die correlatie gebruik om doelgericht een plan op te stellen om deze groep te helpen.

In jouw termen zou dit discriminatie zijn. Maar de constatering is niet gedaan zonder onderzoek of feiten.

Ik herhaal wel: de conclusie moet niet te snel getrokken worden, maar dat geld ook voor uitkomsten die niet als discriminatie worden gezien.
Je behandelt iemand niet anders omdat hij een andere huidskleur heeft, maar omdat er een correlatie is.
Een correlatie met wat? Met zijn huidskleur. Dus handel je op basis van zijn huidskleur. Je zegt maar, maar dat betekent gewoon en.

Daar een bak droge en ongrijpbare theorie zoals statistiek of data mining of deep learning overheen leggen maakt niet dat dat simpele gegeven opeens verdwijnt. Het vertroebelt slechts waar het echt om gaat. Had je die persoon anders behandeld als hij enkel andere huidskleur had gehad? Dan is het discriminatie. Die termen zijn gewoon de definitie van discriminatie. Mensen verschillend behandelen op basis van persoonlijke kenmerken als huidskleur.

De vergelijking met kanker is niet relevant, omdat dat geen ongewenste effecten heeft voor het individu, maar juist gewenste effecten. Het hele probleem van algemene statistieken toepassen op een individu valt daarmee weg. En omdat het geen puur sociaal-maatschappelijk gevolg heeft, namelijk verschillen in menselijk handelen, maar een medisch gevolg, waarin verschillende gevolgen gewoon een feitelijk gegeven zijn.

Complexer is het als je een 'discriminatieloos' criterium gebruikt - de woonplaats, de muziekvoorkeur - en het blijkt dat gangsterrappers uit Rotterdam zowel vaker zwart blijken te zijn, alsook vaker crimineel. Dan zal je snel discriminatie verweten worden terwijl dat dus op zijn minst discutabel is.

[Reactie gewijzigd door bwerg op 27 januari 2021 11:56]

De vergelijking met kanker is niet relevant, omdat dat geen ongewenste effecten heeft voor het individu, maar juist gewenste effecten. Het hele probleem van algemene statistieken toepassen op een individu valt daarmee weg. En omdat het geen puur sociaal-maatschappelijk gevolg heeft, namelijk verschillen in menselijk handelen, maar een medisch gevolg, waarin verschillende gevolgen gewoon een feitelijk gegeven zijn.
Dat is een gevaarlijk onderscheid wat je hiermee maakt.
Je zegt in feite dat je geen onderscheid in huidskleur mag maken, tenzij dit voor het persoon voordelig kan zijn. Maar waar het om moet gaan is of de correlatie gebaseerd is op een werkelijk getoond verband.

Als bijvoorbeeld blijkt dat 90% van de Bulgaren fraude pleegt, waarom mag je dit dan niet gebruiken om een doelgroep te selecteren om zodoende effectiever de fraude op te sporen?
en mag dit dan wel als het gaat om grootverdieners? Waarom is dat dan geen discriminatie?

Ik krijg het vemroeden dat je definitie van discriminatie op zich een vorm van discriminatie is. Je maakt namelijk onderscheid in de onderliggende gronden van onderscheid maken.
Je zegt in feite dat je geen onderscheid in huidskleur mag maken, tenzij dit voor het persoon voordelig kan zijn. Maar waar het om moet gaan is of de correlatie gebaseerd is op een werkelijk getoond verband.
Artikel 1: Allen die zich in Nederland bevinden, worden in gelijke gevallen gelijk behandeld.

Ik zie geen uitzondering tenzij de correlatie is gebaseerd op een werkelijk getoond verband.

En ja, je hebt gelijk dat er ook geen uitzondering is tenzij de persoon die gediscrimineerd wordt daar juist voordeel uit haalt en het goedkeurt, maar in de praktijk wordt daar in het recht pragmatisch mee omgegaan - als er voor werkelijk niemand een reden is om een wet te handhaven, en als het onderliggende morele probleem niet speelt, dan wordt het niet gehandhaafd.
en mag dit dan wel als het gaat om grootverdieners? Waarom is dat dan geen discriminatie?
Omdat dat geen kenmerk is dat is verboden door artikel 1. Nou is die grens een grijs gebied. Bij sportcompetities mag wel onderscheid gemaakt worden tussen man en vrouw, bij een gemiddelde kantoorbaan niet - maar dat is in de praktijk wel aan te voelen. En anders is er wel de rechter om het oordeel te vellen.

Agenten, beleidsmakers en data-miners zullen misschien de neiging hebben om op basis van hun goede intenties een hele redenering op te tuigen over waarom iets goed is, en het dus niet verkeerd of discriminerend kan zijn. Waarbij door het hele verhaal ondersneeuwt dat het helaas gewoon niet mag.
Ik krijg het vemroeden dat je definitie van discriminatie op zich een vorm van discriminatie is. Je maakt namelijk onderscheid in de onderliggende gronden van onderscheid maken.
En daarom zou het minder discriminerend zijn om dan maar alle discriminatie toe te staan, of zo? Ja, in de praktijk wordt discriminatie soms getolereerd (zie man/vrouw-onderscheid in sport, een witte acteur die wordt geweigerd voor de rol van Nelson Mandela) maar zodra iemand er daadwerkelijk een onderbouwd probleem mee heeft kun je dat tolereren wel vergeten.

[Reactie gewijzigd door bwerg op 27 januari 2021 12:33]

Het blijft een theoretische discussie, maar ik zie niet in waarom je met artikel 1 komt.

Als blijkt dat er meer fraude is bij mensen met een bleke huidskleur dan worden die ook door het algoritme gekenmerkt, mag ik aannemen.

Iedereen wordt dus gelijk behandeld in gelijke gevallen..
Het blijft een theoretische discussie, maar ik zie niet in waarom je met artikel 1 komt.
Racisme en legaliteit van overheidshandelen is theoretisch? Laat iedereen in het toeslagengedoe dat even weten... Ik kom met artikel 1 omdat artikel dat het artikel is dat het verbod op discriminatie regelt, en dat dat nou net het discussiepunt is van dit soort algoritmes.
Als blijkt dat er meer fraude is bij mensen met een bleke huidskleur dan worden die ook door het algoritme gekenmerkt, mag ik aannemen.
Leuk, maar er wordt gehandeld naar individuen, zelden naar groepen in hun geheel. Er is geen juridische uitzondering die zegt dat je als individu anders behandeld mag worden omdat de groep waarin je valt bepaalde statistische kenmerken heeft. Dat is nou net het hele punt van een verbod op discriminatie.
Ik maak onderscheid tussen het handelen van medewerkers en de uitkomst van een algoritme.

Als een bepaalde groep mensen, of het nu op kenmerken is die je kunt duiden als racistisch, danwel kenmerken op basis van inkomen of het aantal kinderen, door een algoritme naar boven komen als een groep met groter risico op fraude, dan moet je dat los zien van het feit dat er ambtenaren zijn die aan de hand van die lijst deze mensen als fraudeur behandelen zonder gelijke behandeling als ze bij andere controles zouden doen.

Mijn initiële vraag was dan ook of de algoritme discriminatie was, niet of het proces dat gebruikt maakt van een algoritme dat is.

Artikel 1 zegt dat iedere Nederlander bij gelijke omstandigheden gelijk behandelt moet worden. Dat is een mooi artikel maar ik zie dat los van een algoritme die op basis van data van de gehele populatie een groep er uitpikt omdat daar meer risico op fraude is gebleken.
Als een bepaalde groep mensen, of het nu op kenmerken is die je kunt duiden als racistisch, danwel kenmerken op basis van inkomen of het aantal kinderen, door een algoritme naar boven komen als een groep met groter risico op fraude, dan moet je dat los zien van het feit dat er ambtenaren zijn die aan de hand van die lijst deze mensen als fraudeur behandelen zonder gelijke behandeling als ze bij andere controles zouden doen.
Klinkt mooi, maar dan moet elke ambtenaar die resultaten uit een dergelijk systeem krijgt gaan bedenken wat hij daar mee moet en of dat wel of niet in strijd is met artikel 1. En dat wordt in de praktijk nogal lastig, want een agent gaat echt niet bij elke instructie die hij via-via vanuit een IT-systeem krijgt controleren wat de invoer was in het IT-systeem, hoe het systeem tot die instructie gekomen is, en of de handeling die die instructie oplegt dus wel of niet legaal is. Zou dit wel het bedoelde gebruik van een IT-systeem zijn, dan zou geen hond het gebruiken.

Dus in de praktijk zul je toch echt je systemen inherent zo moeten ontwerpen dat het geen uitkomsten op raciale of andere discriminerende kenmerken baseert. Achteraf de ambtenaar alle foute uitkomsten laten opsporen en corrigeren is dweilen met de kraan open en het kind met het badwater weggooien.
Ik begrijp niet waarom dat niet kan.

Als het algoritme een lijst aanlevert, dan kan een ambtenaar die lijst toch objectief afwerken?

Dat is net als aselect een steekproef nemen.
Beide gevallen worden gelijk beoordeeld.
Toch kan een systeem wel degelijk eerlijker worden van onderscheid op huidskleur. Neem een systeem dat de kans op recidivisme voorspeld (niet willekeurig gekozen), en een belangrijke indicator is het aantal staandehoudingen van dat persoon. We weten dat mensen met een specifieke afkomst relatief vaker staande worden gehouden, dus is een systeem met de beslisregel:

Kans = 0.1 * #staandehoudingen

Minder eerlijk dan:

Kans = 0.1 * #staandehoudingen * IsBlank + 0.025 * #staandehoudingen * !IsBlank
We weten dat mensen met een specifieke afkomst relatief vaker staande worden gehouden
Kans = 0.1 * #staandehoudingen * IsBlank + 0.025 * #staandehoudingen * !IsBlank
Wow, echt wow.
Je gaat in een paar zinnen eventjes van 'mensen met een specifieke afkomst' naar iedereen die niet blank is.
Goed gedaan joh, echt, complimenten met aantonen waarom dit soort algoritmes een gigantisch probleem zijn.
Ik mag hopen dat jij nooit in een positie komt waarin je dit soort regeltjes mag bedenken.
Volgens mij mis je het punt dat ik wilde maken
Ik begrijp wat je wilt zeggen.

Maar de oplossing is dat je populatie niet op basis van alle staandehoudingen moet zijn, want daarvoor heeft je algoritme gezorgd dat die niet gelijk is aan de populatie van je land. Je zult dit dus anders moeten oplossen.
Dat klopt, maar dat laat maar eens zien hoe lastig het begrip ‘Fairness’ is. Je kunt bijvoorbeeld redelijk simpel aantonen dat verschillende valide maten voor Fairness met elkaar conflicteren.
Heel juist. En daar bovenop komt dus een ander probleem kijken: in jouw voorbeeld is dus een agent pas goed bezig als hij een bepaald aantal gevallen van wetsovertreding vindt. Dat is al eerder misgegaan (minimaal aantal bekeuringen uitdelen van snelheidsovertredingen...).

De keuze om iemand te fouilleren moet volledig random zijn - qua moment / locatie / kenmerken van de persoon.

De effectiviteit van handhaving is pas te beoordelen als het aantal fraude-gevallen daalt zonder dat het aantal controles daalt. Helaas houdt dat geen rekening met slechte controles / corruptie.
Ik vermoed dat de schrijver van het stuk geen data scientist is en eigenlijk refereert aan bias, Menselijke voorkeuren wegen mee in het feature design of selectie proces waardoor de kans op unbiased resultaten afneemt.

Hier een uitleg voor de leek:
https://towardsdatascienc...scrimination-2ed1a8b01038

En hier een paper over het onderwerp:
https://papers.nips.cc/pa...4eaa329f14a0361-Paper.pdf
Kan die bak aan biases waaraan de mens ten prooi valt als een pleidooi gezien worden voor een kleinere rol voor mensen in het opstellen/toepassen/interpreteren van algoritmes? :)
Nee, je moet gewoon aan iedereen de juiste anti-bias trainingen aanbieden. Wij hebben dat vorig jaar ook bedrijfsbreed gedaan en dat werkt echt. Dat soort onderwerpen zijn bij de meeste mensen nooit onderdeel geweest van hun opvoeding en opleiding waardoor vrijwel iedereen een bepaalde vorm van bias heeft. Maar dat kan vrij makkelijk worden verminderd. Altijd beter dan de menselijke factor weg te laten uit het bedenken van algoritmes. En wat verder heel veel effect is is (jeukwoord alert) diversity. Als je een gemengd team hebt is de kans op bias al een stuk minder. Een mooi voorbeeld is wat een tijdje terug in Teams werd gevonden: als mensen met een te donkere huid een andere achtergrond selecteerden werd hun hoofd weggefilterd. Typisch een algoritme dat die tint vergeten was. Als er mensen in het dev/test team hadden gezeten met zo'n donkere huid dan was het gevonden voor release.
"Daarnaast bestaat het risico dat het algoritme of de dataverzameling die het algoritme gebruikt, vooroordelen bevat die tot discriminatie kunnen leiden."
"Bij deze ondersteunende algoritmes voor een risicovoorspelling bestaat het risico dat de uitgangspunten van het risicoprofiel strijdig zijn met de geldende wet­ en regelgeving [...] Denk aan discriminatie of het gebruik van bijzondere persoonsgegevens. "
"Wanneer een bepaalde bevolkingsgroep afwijkend is behandeld in het verleden, dan zal een algoritme deze discriminatie overnemen. "
"De impact daarvan op burgers (discriminatie, onjuiste profilering, financiële consequenties) kan groot zijn."
Ik refereer gewoon aan het rapport.
Ik vermoed dat de schrijver van het stuk geen data scientist is en eigenlijk refereert aan bias,
Ik refereer gewoon aan het rapport.
Het een sluit het ander niet uit, toch? We lezen hier niet de Telegraaf, er mag best een vertaling van de dumbed-down tekst van een persbericht een upscaling naar de juiste terminologie gebruikt worden.

Het rapport zelf spreekt wel van bias:
Wat is uitlegbaarheid, en wat bedoelen we met transparantie? Waar zit het verschil, en voor wie moet een algoritme uitlegbaar zijn? En wat bedoelen we met bias? Was er niet altijd al bias? En wordt dat lastiger nu de bias in het algoritme zit en niet in de mens?
Dit had ik niet vooraf gelezen, maar verklaart wel een hoop.

Als een algoritme wordt gevoed met vooroordelen dan zal de uitkomst van een algoritme ook die vooroordelen kunnen bevatten.
Mooi want ik refereer aan de schrijver van het rapport!
Wired had daar vorig jaar een goed artikel over: https://www.wired.com/sto...ito-insurance-algorithms/

Bekend voorbeeld is van een Amerikaans Verzekerings bedrijf die op basis van de bestaande verzekeringen een AI had getraind om nieuwe verzekerings aanvragen te accepteren of weigeren. Deze AI bleek daarna consequent zwarte mannen te weigeren voor autoverzekeringen, omdat blijkbaar het personeel dat al jaren consequent deed.

[Reactie gewijzigd door BCC op 27 januari 2021 11:15]

Dat is een goed voorbeeld van discriminatie in een algoritme. dank daarvoor!

De input parameters moeten natuurlijk wel gevrijwaard zijn van discriminatie. Discriminatie is dan wat mij betreft het maken van onderscheid zonder goede onderbouwing, oftewel met vooroordelen.

Als die vooroordelen in een algoritme terecht komen dan gaat het algoritme niet discrimineren maar is de uitkomst wel op basis van discriminatie.
Het risico is dat je hierdoor een een soort cirkel beland - een groep krijgt dus geen auto verzekering, dus die rijdt onverzekerd rond, dus die krijgt daar boetes voor, dus die wordt nog scherper aangemerkt als "risicogroep".

Het punt is dat het vrijwel onmogelijk is om de input en/of het algoritme te vrijwaren van discriminatie omdat het trainen van zo'n netwerk mensenwerk is. Google investeert mede daarom nu erg hard in research naar AI die z'n beslissingen kan verantwoorden. "Google AI Dreams" is daar een bekende offshoot van.

[Reactie gewijzigd door BCC op 27 januari 2021 11:25]

Correlatie is geen causatie.
Dat er voor een grote data een correlatie zichtbaar is, betekend niet dat je deze correlatie kan gebruiken voor een individu. Want dan maak je er causatie van. De vraag is ook of deze correlatie terecht is.

Er is een correlatie tussen mensen met een parkiet als huisdier en longkanker. Er is ook een correlatie tussen mensen die in een drukke stad wonen en het hebben met een parkiet, maar die correlatie zit niet in het model/algoritme. Nu heb ik 1 persoon die een parkiet heeft, zelfs meerdere. Heeft die nu een hogere kans op longkanker?
Heeft die nu een hogere kans op longkanker?
Zonder verdere informatie over die persoon te weten: ja.

Verschil tussen je parkieten-voorbeeld en discriminatie is dat het handelen in het ene voorbeeld heel negatief uitpakt voor het individu (fouilleren, vooroordelen bevestigen, vertrouwen in de politie verliezen) en in het andere voorbeeld niet (vrijblijvend aanraden om naar de dokter te gaan).
Een algoritme zoekt niet vanzelf naar correlaties, het wordt van te voren ingericht op grond van aannames en/of vooroordelen van de programmeurs. Op het moment dat je dit doet op grond van variabelen waarop je niet direct noch indirect onderscheid mag maken noemt de wet dat discriminatie.

[Reactie gewijzigd door sampoo op 27 januari 2021 14:35]

Discriminatie is heel zwart-wit, "onderscheid maken" en valt dan wel degelijk toe te passen via een algoritme.
Los van het feit dat een verband niet noodzakelijk een oorzakelijk verband hoeft te zijn kunnen er ook problemen zijn met de data die als input gebruikt wordt.

Stel even als fictief voorbeeld dat belastingfraude evenredig verdeeld zit over alle inkomensgroepen. Stel ook dat als onderdeel van de strijd tegen uitkeringsfraude de belastingaangiften van steuntrekkers gecontroleerd worden. Je gaat dan meer gevallen van belastingfraude vinden bij groepen met een lager inkomen.

Jaren later wordt er een systeem ingevoerd dat het risico op belastingfraude probeert in te schatten op basis van een aantal parameters waaronder de inkomensgroep waartoe men behoort. Men gebruikt hiervoor historische data. Het systeem geeft een hoger risico aan mensen met een lager inkomen door het onevenredig aantal controles bij steuntrekkers in het verleden.

Dit is natuurlijk een zeer eenvoudig fictief voorbeeld maar je data bevat zoveel fijne eigenschappen dat zelfs een doorwinterde statisticus er moeite mee zou hebben. En vaak heb je niet alle details over hoe data tot stand is gekomen en welke bias ze eventueel al bevat.
Ik begrijp dat een correlatie niet noodzakelijk een oorzakelijk verband hoeft te hebben, maar is het dan ook direct discriminatie?

Mogen we het dan niet onderzoeken omdat er toevallig in de data een groep uitkomt op basis van een kenmerk zoals bijvoorbeeld dubbele nationaliteit?

In alle gevallen moet je natuurlijk voorzichtig zijn in het trekken van conclusies op basis van statistiek. en je moet ook op voorbaat niet uitgaan van schuld (zoals in de toeslagenaffaire). Maar dat wil niet zeggen dat een algoritme kan discrimineren.
Mogen we het dan niet onderzoeken omdat er toevallig in de data een groep uitkomt op basis van een kenmerk zoals bijvoorbeeld dubbele nationaliteit?
Het probleem is dat een algoritme enkel de data ziet. Als er dus in die data oneerlijkheid zit opgeslagen, zoals dat men bijvoorbeeld mensen met een bepaalde achtergrond vaker in het verleden heeft gecontrolleerd, dan kan het algoritme die data verkeerd interpreteren en kan bijvoorbeeld gaan denken dat mensen met die achtergrond per definitie al verdacht zijn enkel en alleen door hun achtergrond.
Mogen we het dan niet onderzoeken omdat er toevallig in de data een groep uitkomt op basis van een kenmerk zoals bijvoorbeeld dubbele nationaliteit?
Wat als die data in opgedaan omdat iemand vroeger een beetje paranoia was over mensen met dubbele nationaliteit en hun extra heeft gecontroleerd? Dan is er opeens extra veel data over mensen met een dubbele nationaliteit beschikbaar zijn en kan het algoritme een verband leggen tussen potentiele fraude en mensen met een dubbele nationaliteit. Enkel dus omdat er sugegstieve data bestaat die in het verleden verkregen is op basis van iemands paranoia vermoedens.

Voor al dit informatiewerk is het essentieel dat de data van goede kwaliteit is. Als je een algoritme bevooroordeelde data voert (of op basis van bevooroordeelde data opzet) dan zullen de uitkomsen ook bevooroordeelt zijn.
Mee eens.

Aanvulling op je laatste alinea:
Je moet een algoritme niet voor je laten denken. Je zult altijd objectief een check moeten doen zoals je dat bij iedere controle doet, ongeacht hoe die persoon op de lijst te controleren mensen is gekomen.

Hopelijk levert dat een opschoning van je input op, zodat je data betrouwbaarder en objectiever wordt.
Je moet een algoritme niet voor je laten denken. Je zult altijd objectief een check moeten doen zoals je dat bij iedere controle doet, ongeacht hoe die persoon op de lijst te controleren mensen is gekomen.
Dat is denk ik onmogelijk.
Je gebruikt een algoritme juist om een deel van de beoordeling niet te doen. Als je het werkelijk zelf goed controleert dan heeft het algoritme geen nut meer.
Hopelijk levert dat een opschoning van je input op, zodat je data betrouwbaarder en objectiever wordt.
Dan moet er wel een goed werkende terugkoppeling worden gemaakt. Ook dat is niet altijd even makkelijk.
Het algoritme levert een lijst met risicogevallen op. Zo zijn er ook andere lijsten die controlegevallen opleveren.

Bij de zorgtoeslagenaffaire werden die gevallen direct bestempelt als fraudegevallen, terwijl het hooguit verhoogde risicogevallen waren. Je zult dus altijd iedere case objectief, op een eenduidige manier moeten oppakken. dat was het punt dat ik probeerde te maken.
Ik begrijp nog niet zo goed waarom een algoritme kan discrimineren. Volgens mij zoekt een algoritme naar correlaties en doet dat met de data van iedereen. Als er correlaties zijn dan wordt per definitie een bepaalde groep naar voren geschoven.
Dat is geheel afhankelijk van het type algoritme. Een beslisboom is ook een algoritme en het is triviaal om die discriminerend te maken. Bijvoorbeeld een simpele beslisboom om te bepalen wie een extra controle krijgt: is de persoon een man, dan extra controle, anders niet.

In het algemeen betekend discrimineren 'onderscheid maken', dat is, dat een eigenschap/waarde in de input van het algoritme beïnvloed de uitkomst ervan. Dus tenzij het algoritme maar één uitkomst heeft, of compleet random is, discrimineert het algoritme in een algemene zin. Echter hebben we bepaald dat het sociaal onwenselijk is als het algoritme de keuze baseert op bepaalde gronden (geslacht, geloof, leeftijd, etc.), dus 'sociaal onwenselijke discriminatie'.

Het lastige is dus niet zo zeer een algoritme te ontwikkelen wat niet discrimineert (want dat maakt een algoritme nutteloos), maar niet discrimineert op basis van de gronden die wij sociaal onwenselijk achten. De eerste stap is hierin is relatief simpel, zorg dat de onwenselijke gronden niet in de input zitten.

Echter is dit slechts de eerste makkelijke stap. Het lastige is dat ongeveer elk gegeven wat je in het algoritme stopt zal correleren met de onwenselijke discriminatie gronden. Sommige sterk (naam -> geslacht), andere zwakker (plaats -> geslacht). Het lastige is dus om te zorgen dat een algoritme deze correlaties niet op een sociaal onwenselijke manier gebruikt om onderscheid te maken (=discrimineren).
Ik begrijp nog niet zo goed waarom een algoritme kan discrimineren. Volgens mij zoekt een algoritme naar correlaties en doet dat met de data van iedereen. Als er correlaties zijn dan wordt per definitie een bepaalde groep naar voren geschoven.
Een algoritme op zich, zal niet discrimineren. Heeft zelfs geen idee wat discriminatie is. Maar zodra er sprake is van menselijke input, kan discriminatie optreden. En die menselijke input begint al bij de selectie van de data. Wanneer iemand er voor kies om bijvoorbeeld het geslacht mee te nemen in een onderzoek, kan dit leiden tot discriminatie: Is er een relatie tussen het geslacht van de CEO en het succes van het bedrijf? En dat gemeten over een periode van 100 jaar? Mannen doen het vele malen beter dan vrouwen, zie de feiten, zie de harde cijfers. Advies: Zet vooral géén vrouw aan het hoofd van een bedrijf!

Dat het nog steeds erg moeilijk is voor vrouwen om tot de top van een bedrijf door te dringen, dat weet het algoritme niet en wordt volledig over het hoofd gezien. Het algoritme zal dus keurig het discriminerende/ongewenste gedrag van de (oude) samenleving herhalen.

Om een goede CEO te vinden, zul je misschien moeten kijken naar de opleidingen, de branches waarin iemand heeft gewerkt, variatie van werkzaamheden, hobbies, etc. etc.
Maar is dat dan discriminatie?
Ja, dat heb je het algoritme net aangeleerd. Wanneer de oude data ongewenste gedrag bevat en je op basis van die data gaat stellen dat er een gewenste uitkomst moet komen, is er een grote kans op discriminatie.

Nog een voorbeeldje van mogelijke sekse discriminatie: Gezin, man, vrouw en 2 kleine kinderen. Beide ouders werken, kinderen naar school. Kind wordt ziek, wie van de ouders blijft die dag thuis? Grote kans dat dit de vrouw is. En dan ga je onderzoek doen onder het personeel om te kijken wie het meeste ad hoc verlof opneemt? Vrouwen. Advies: Neem geen vrouwen aan. Realiteit: Zet de mannen ook eens aan het werk en laat hen ook op dat soort momenten voor de kinderen zorgen. Dan kunnen de vrouwen gewoon op kantoor doorwerken en aan hun carrière werken. Geeft ze ook een betere kans om later door te stoten tot de top van het bedrijf.
Ik ben het grotendeels met je eens.

Als je data waar discriminatie in zit verankerd, voedt aan het algoritme dan zal ook de uitkomst discriminerend zijn.

En zelfs als dat in eerste instantie niet zo is, maar je gaat op basis van een uitkomst meer op een bepaalde doelgroep controleren, en neemt die extra controles mee in de volgende iteratie van je algoritme, dan leer je het algoritme om te discrimineren.

Maar ook dit soort zaken kun je los zien van het algoritme. Bij het laatste voorbeeld betekent het dat je populatie niet op basis van het aantal controles moet worden getrokken, maar nog steeds op basis van een representatieve populatie ven Nederland. Oftewel: je hebt dan een niet representatieve populatie in je data zitten.
Stel de AI is juist wel een blackbox en vrijwel ieder persoon die als potentieel fraudeur uit het systeem komt rollen is raak (na zorgvuldige controle door een mens). Dan werkt het systeem toch goed? Het gaat pas fout als mensen de aard van de logaritme analyseren en conclusies gaan trekken op basis van ras, nationaliteit of culturele-achtergrond etc (Ervan uitgaande dat een fraudeur ook wel echt een fraudeur is.)
Dat systeem werkt niet goed, want we vinden dat de overheid bij iedere beslissing moet motiveren waarom men iemand op de korrel nam. Of je doet het volledig willekeurig, of je legt uit waarom deze burger een controle krijgt. Dat is een kwestie van menselijkheid.

Het probleem is dat je als overheid moet kunnen aantonen dat je _niet_ discrimineert, wat onmogelijk is als je met een black box werkt.

Daarnaast zou ik ook graag willen weten hoe veel fraudeurs het systeem mist. Jij kijkt alleen naar de echt positieven, de vals negatieven zijn minstens zo vervelend. Het wordt dan toch discriminerend: je pakt wél alle frauderende allochtonen maar niet de frauderende kaaskoppen bijvoorbeeld. Hoewel je dan gelijk hebt dat je alleen fraudeurs aanpakt, is dit toch ongewenst.

(Het helpt niet dat fouten maken bij je belastingaangifte eigenlijk per definitie _altijd_ fraude is, als je de wet strikt leest, en dat sociaal-economisch achtergestelde groepen - waar relatief veel allochtonen tussen zitten - vaker fouten maken dan hoogopgeleide Nederlanders, die ook nog eens beter heisa kunnen schoppen én dan serieus genomen worden bij de afdeling klachten.)
Het wordt dan toch discriminerend: je pakt wél alle frauderende allochtonen maar niet de frauderende kaaskoppen bijvoorbeeld. Hoewel je dan gelijk hebt dat je alleen fraudeurs aanpakt, is dit toch ongewenst.
Je bent een goed voorbeeld, het gaat er juist om om GEEN onderscheid te maken. Kan een fraudeur niet gewoon een fraudeur zijn?. Het is discriminerend om de pakkans/fraudeurs per bevolkingsgroep te differentiëren omdat dit impliciet om onderscheid gaat. Hoe minder er gefraudeerd wordt hoe groter de kans dat iedere fraudeur aan de beurt komt.
Eh, nee. Bij handhaving maak je geen onderscheid naar etnische afkomst, gewoon niet. Je moet actief moeite doen om bij iederéén te handhaven.

"Politiebeleid is alleen nog jonge Marokkanen te beboeten voor te hard rijden". Ja, als ze te hard rijden dan staat daar een boete op. Maar op welke manier is dit een eerlijk beleidsvoornemen van de politie?
Misschien is juist de fraude-kans onder hoogopgeleiden hoger omdat deze:
- minder vaak worden gecontroleerd
- weten hoe ze het systeem kunnen omzeilen/bedotten

Overheids-systemen die afhankelijk zijn van de opleiding van de burger, zijn ook niet zo mooi eigenlijk.

Het blijft "Zoals de waard is, vertrouwt hij z'n gasten". Dus "Zoals de overheid is, vertrouwt hij z'n burgers".
Als daarbij veel ruimte voor of voordeel te halen valt bij vertrouwen-schending wordt het ook niet beter.
Het bier moet zichtbaar achter de bar staan - niet in een kluis en bij de deur staat geen zwaarbewapende uitsmijter...
Dat is zo. Vaak zie je ook dat zulke AI's genadeloos historische bias in het beleid of de uitvoering blootleggen. Als de afdeling fraude bijvoorbeeld het idee had (in de jaren zestig) dat de arme mensen fraudeurs zijn, dan gingen ze daarop fraude zoeken. Dat vind je dan altijd wel, en dat bewijst de stelling en dat komt dan terug in de data. Vervolgens heb je dus geen metingen van de rijke buurt en haar fraudegevallen, waardoor je daar niet hoeft te controleren want daar is geen fraude. En zo houdt het zichzelf in stand.
Geeft je wel te denken hoe gevaarlijk een AI is als deze beslissingen gaat nemen. Want die zijn juist vaak gebaseerd op correlatie. Dat kan werken als de data waarmee deze werkt geen kenmerken bevat als huidskleur (in geval van belasting-fraude-onderzoeker AI). En bij een medische AI zijn alle medische gegevens misschien wel relevant maar kan toch een onterechte correlatie worden gebruikt. Alleen geldt bij een dergelijke AI ingeval van doe-iets-want-bijna dood; zelfs als de correlatie niet bewezen causaal is - doe maar.
Bij mensen werkt toch altijd het beste: second (third?) opinion. En dan bij voorkeur een 'frisse blik' (van de 2e beoordelaar).
Dat is zeker zo. Maar let op, je kunt wel huidskleur (etnische afkomst) weglaten, het komt vaak toch wel uit de data terug. Ik ken een gemeente waarbij de Turkse gemeenschap bovengemiddeld vaak als fraudeur werd aangemerkt. Het systeem had geleerd op trema's te triggeren en die zie je bovengemiddeld vaak in achternamen uit die regio.

Bij medische AI zit je met het probleem dat je geen vals positieven wilt. Dat leidt tot stress bij patiënten en overbelasting van het onderzoeksproces. Honderd mensen ten onrechte een mogelijke kankerdiagnose geven is echt héél vervelend. Tegelijk is natuurlijk één diagnose missen ook heel erg vervelend. Daarom zit daar er eigenlijk altijd nog een arts tussen.
Jouw voorbeeld is inderdaad een typisch (mogelijk) effect van AI - elk klein verschil gevonden in de gegevens kan genoeg zijn om correlatie te vinden en daarna daarop beslissingen te baseren. Dus ook denken wij dat we bepaalde data niet hebben aangeleverd dan kan dit toch worden herleid.
Precies waarom we met privacy waarborgen zoveel ellende krijgen. Ook al beweert men gegeven A niet op te slaan dan valt dit toch weer te herleiden.
Ook al zouden we het geslacht van mensen niet opslaan dan kunnen wij, maar zeker een AI, het verband gaan leggen tussen koopgedrag en mannelijke/vrouwelijke kenmerken; Een man koopt meestal minder jurken of naaldhakken of koopt deze voor z'n vrouw/vriendin of heeft 'hobby'. Systeem besluit dan in 90% van de gevallen terecht dat iemand een man is. 10% van de gevallen kijgt gezeur of vreemde reclames. De correlatie hoeft niet eens perfect te zijn om foutieve beslissingen uit te lokken.
Dat is zeker zo. Maar let op, je kunt wel huidskleur (etnische afkomst) weglaten, het komt vaak toch wel uit de data terug. Ik ken een gemeente waarbij de Turkse gemeenschap bovengemiddeld vaak als fraudeur werd aangemerkt. Het systeem had geleerd op trema's te triggeren en die zie je bovengemiddeld vaak in achternamen uit die regio.
En daarom inderdaad geen 'magische' AI die je gewoon hele XML-bestanden aan dossiers voert om fraude op te sporen, maar duidelijke invoer: precies welke gegevens mogen wel of niet gebruikt worden? Pasfoto? Nee. Naam? Nee. Wel of geen ZZP'er (om maar iets te noemen)? Prima.
"Ook bestaat de kans dat het advies van het algoritme de uiteindelijke beslissing van de medewerker beïnvloedt", staat in het rapport.
Computer says no.

Een probleem is dat 'het algoritme' ondersteunend en het oordeel van de medewerker leidend zouden moeten zijn, maar dat dit in de praktijk andersom is. Immers mist men anders de volledige schaalvergroting die algoritmes toestaan. Dit is een procesprobleem, en niet een met algoritmes op zich.
De Rekenkamer noemt als voorbeeld een algoritme dat op basis van een als-dan-beslisboom bepaalt of een huiseigenaar recht heeft op subsidie voor een Rijksmonument.
Voeg bij elke beslissing een functionele kopie (beslisboom) van het algoritme en het proces eromheen toe. Zo krijg je transparantie, en kan het algoritme en/of de verantwoordelijke menselijke beslisser worden gecorrigeerd wanneer een beoordeling fout is, zodat dezelfde fout in de toekomst niet meer voorkomt.

En als de beslisboom van een algoritme te complex is om zo op papier te zetten, dan is het algoritme te complex om te gebruiken. ;)

[Reactie gewijzigd door The Zep Man op 27 januari 2021 08:07]

Deze "als - dan boom" zit ook in het elektronisch belastingformulier. Nooit geen probleem mee gehad. Ook vind ik dit niet discriminerend (wel biased t.o.v. rijkere mensen) ;) Ik denk niet dat veel mensen geven om dit algoritme, gewoon makkelijk (niet leuker).
Ik denk niet dat veel mensen geven om dit algoritme, gewoon makkelijk (niet leuker).
De meeste mensen geven ook niets om het stemproces. Toch heb je volgens de wet het recht om het gehele proces te overzien als getuige, ondanks dat bijna niemand van dat recht gebruik maakt.

Populariteit van iets bepaalt niet altijd het nut.

[Reactie gewijzigd door The Zep Man op 27 januari 2021 08:39]

Ligt eraan... als je een model gebruikt voor het dichtzetten van de stormvloed wil ik liever geen persoon die dit besluit neemt :p
Ligt eraan... als je een model gebruikt voor het dichtzetten van de stormvloed wil ik liever geen persoon die dit besluit neemt :p
Bij een dergelijk algoritme worden geen gegevens van burgers gebruikt, dus dit is niet van toepassing.

Er zal heus wel een verdeelsleutel zijn (een... algoritme? :+) om te beslissen welke algoritmes wel en niet van toepassing zijn. ;)

Iets serieuzer, zie ook:
De Rekenkamer zegt ook dat er op dit moment geen manier is voor overheden om toezicht te houden op welke algoritmes wel en niet kunnen worden ingezet. Daarom heeft de Rekenkamer zelf een toetsingskader opgesteld. Daarin staan onder andere ethische vraagstukken of vragen over privacy van burgers.

[Reactie gewijzigd door The Zep Man op 27 januari 2021 08:01]

Bij een dergelijk algoritme worden geen gegevens van burgers gebruikt, dus dit is niet van toepassing.
Klopt maar meschien is dit nog wel gevaarlijker, er wordt namelijk een afweging gemaakt tussen economisch belang en veiligheid van de burgers waarbei de computer theoretisch kan beslissen dat iedereen achter de stormvloedkering niet belangrijk genoeg is om een paar miljoen te missen.


Voetnote: info komt van een rondleiding jaaaaaren geleden op de stormvloedkering bij Rozenburg en is meschien wat dramatischer gemaakt dan het werkelijk is
er wordt namelijk een afweging gemaakt tussen economisch belang en veiligheid van de burgers waarbei de computer theoretisch kan beslissen dat iedereen achter de stormvloedkering niet belangrijk genoeg is om een paar miljoen te missen.
Nee, want daarvoor zou data van de economie en van burgers nodig zijn voor het algoritme.

Verder is het 'waarbij'.

[Reactie gewijzigd door The Zep Man op 27 januari 2021 08:22]

Ik weet niet wat er bij jou rondleiding verteld is maar stormvloedkeringen reageren op een zogenaamde maatgevende hoogwaterstand. Wordt die waterstand met een gevalideerd rekenmodel voorspeld dan gaat de kering dicht, anders niet.
Belangrijkste zorg is dat het rekenmodel dat de waterstand voorspeld gevalideerd blijft worden gezien de stijgende zeespiegel en andere klimaateffecten.
klopt maar wordt zolang mogelijk open gehouden vanwege financiele redenen (boten die buiten blijven liggen kosten nogal wat geld) en dit is zeker deel van de berekening.

ja ik weet hoe zeldzaam de stormvloedkering daadwerkelijk nodig is en dat we van te voren kunnen zeggen of het gaat gebeuren of niet aangezien er een aantal specefieke omstandigheden zorgen dat dit uberhaupt kan gebeuren.

maar vergeet de kracht van de economie niet, neem als verglijking maar een voorbeeld aan corona inenting en hoe snel dit ontwikkeld is vanwege de econimische impact op de hele wereld (ja ik weet dat er al een paar jaar gewerkt is aan een model om dit soort inentingen sneller te kunnen ontwikkelen)
Het kan ook net andersom, dat een persoon te vroeg en onnodig beslist om de kering dicht te zetten omdat hij een huis heeft en familie heeft wonen in de mogelijk getroffen gebieden. Met gigantische financiële gevolgen.
Maar dat is precies wat er misgaat bij bijv de toeslagaffaire. De data is te massief en te beoordelend geworden dat niemand op persoonlijke basis gaat zeggen dat iets niet klopt.
In jouw voorbeeld. Als er een fout is geslopen in het model van het dichtzetten van de stormvloed waardoor er bij sneeuw niets wordt dichtgezet, wil je juist dat er persoon die de situatie kan beoordelen en dat toch doet.
Fun fact: in de software die de stormvloedkering waren, na diepgaande analyse, wel wat gekke dingetjes gevonden die de beheerder als ongewenst zag.

Helaas is het gelinkte paper niet openbaar - vroeger was het gangbaar dat Springer geld vroeg voor toegang. Nu gelukkig steeds minder. edit: toch wel beschikbaar :) het is altijd maar zoeken welk van de 5 toegangswegen wel een paywall hebben en welke niet...

[Reactie gewijzigd door bwerg op 27 januari 2021 09:57]

En het overrulen van het logaritme, moet dat wel mogelijk zijn?
Interessant onderwerp... technisch gezien moet het sowieso mogelijk zijn.

Operationeel gezien is het de vraag hoe lang / succesvol het model draait. Sommige modellen worden al 30 jaar gedraaid en geoptimaliseerd. In die situatie zou iig de opdracht maar door een heel select groepje mensen gegeven mogen worden
Model houdt in ieder geval geen rekening met 'zwarte zwanen'.
Als ik de conclusie zo lees is wel juist wel sprake van black box algoritmen. Ook al kan je de source code lezen weet je niet waarom een algoritme zo in elkaar zit. Waarom worden deze twee input gerelateerd, en hoe propageert de verandering van de input door de rest van het systeem. En wat is de basis van de input, is het ruwe data, of is deze data al bewerkt in een ander systeem.
Neem bijvoorbeeld geslacht of gender. Voor het ene algoritme is het veilig om de ene te gebruiken, maar onveilig om de andere te gebruiken. En soms in het onveilig om deze input überhaupt te gebruiken. Als je niet kan voorleggen wat de keuze en effect van de input selectie is, dan wordt je algoritme al sneller een black box.
Dat klopt. In de praktijk zie ik in ieder geval dat hier onder analisten best veel aandacht voor is. Het lastige is de vertaalslag naar management en politiek aan de ene kant en de burger aan de andere kant. Ik ken zelf geen voorbeelden van een uitvoeringsdirecteur die bewust een keuze heeft gemaakt tussen de (rest)risico’s van het gebruik van een algoritme en de toegevoegde waarde. Er is ook helemaal geen wegingskader en bewustzijn bij die directeuren.

Volgens mij zou de primaire focus nu dan ook moeten zijn om te zorgen voor een ethisch wegingskader voor het management. Als dat er is, dan kunnen de analisten prima de juiste analyses doen en documentatie aanleveren.
Juist het feit dat het zo gruwelijk misging bewijst dat de ambtenaar niet in the lead was maar het systeem volgde. Dat is juist het risico wat gemanaged moet worden.

Het algoritme creëert mentale afstand tussen het besluit en degene over wie dat besluit gaat. Ariely heeft daar meermalen over gepubliceerd. Dus de Rekenkamer kan gelijk hebben maar identificeert niet het juiste probleem, en dat is niet de beruchte menselijke maat maar het vermogen van een ambtenaar de wet toe te passen zoals hij bedoeld is. Namelijk om de burger te beschermen.
Juist het feit dat het zo gruwelijk misging bewijst dat de ambtenaar niet in the lead was maar het systeem volgde. Dat is juist het risico wat gemanaged moet worden.
Dat denk ik dus ook. Als dit soort algoritmes gebouwd wordt om risico in te schatten, moet het niet gebruikt worden als beslissing. De beoordelende ambtenaar krijgt een advies van een algoritme om grondiger te kijken naar een specifieke zaak. De ambtenaar kan op basis van de beschikbare informatie zelf de beslissing nemen. Als de ambtenaar zijn schouders ophaalt en het algoritme de gehele beslissing laat maken, gaat er iets goed mis.

Het is net zo goed, of misschien wel meer, een proces kwestie dan een algoritme kwestie.
Ik denk dat dit het politieke gewenste rapport is of dat de onderzoekers beperkt* inzicht hebben gekregen van gebruikte algoritme.

Daarnaast wordt de assumptie gemaakt dat de persoon/ambtenaar de lead is, in de praktijk pakt dit toch anders uit. De waarschuwing is gegeven maar praktijk laat nu al zien dat het mis gaat.

Alleen de toeslag affaire & dat rapport zijn al het bewijs dat dit rapport van de rekenkamer onjuist is.

Hen waarschuwingen/kanttekeningen vinden in de praktijk namelijk al plaats.

*wordt eigenlijk al genoemd in het rapport

[Reactie gewijzigd door Jonathan-458 op 27 januari 2021 08:47]

Dat je een voorbeeld hebt wil dat niet zeggen dat er dus meer gevallen zijn. Je kan ook niet stellen dat als je niets kan vinden er ook niets is. Je toont met het voorbeeld van een geval van gebruik van een algoritme dus geen verband dat er meer moet zijn. Aangezien het rapport er ook zal zijn om te waarschuwen voor gebruik of ideeën waarbij het alsnog mis kan zijn is het waarschijnlijk meer de vraag hoe de makers en gebruikers met dit rapport kunnen zorgen dat ze zich bewust zijn van de mogelijke risico's en of ze er iets mee gaan doen om dat te voorkomen of stoppen.
@Pianist1985 omgekeerde bewijslast in specifiek soort zaken af te schaffen.
Daar ben ik het volledig mee eens. Omgekeerde bewijslast is een truck van de Overheid om de problemen op de burger af te wentelen. Dit terwijl de overheid veel meer middelen heeft om zaken te onderzoeken en met bewijzen te komen. Dus: "de computer zegt het" is onacceptabel.

[Reactie gewijzigd door janbaarda op 27 januari 2021 08:59]

Als de overheid nou eens een API beschikbaar stelt waar we alle algoritmes mee kunnen toetsen. Niet voor echte data, maar om te testen. We sturen er de data naartoe die we willen en we krijgen de conclusie van het algoritme terug die op basis van die data wordt gegenereerd.

Dan kunnen journalisten controleren of er stelselmatig gediscrimineerd wordt en kan iedereen zelf zien hoe de overheid werkt.

Op die manier zou ik veel minder moeite hebben met het 'black box' karakter van machine learning en dit is technisch prima te realiseren. Willen ze dit niet? Dan hebben we alle reden het algoritme te wantrouwen.

Op dit item kan niet meer gereageerd worden.


Apple iPhone 12 Microsoft Xbox Series X LG CX Google Pixel 5 Sony XH90 / XH92 Samsung Galaxy S21 5G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True