D66 en CDA willen dat waakhond toezicht gaat houden op gebruik algoritmes

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op een toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Nu is daar geen toezicht op.

Het is nog niet duidelijk of een bestaande toezichthouder die taak krijgt of dat het een nieuwe instantie gaat worden, schrijft NOS. Die toezichthouder moet een richtlijn in de praktijk gaan brengen die duidelijk maakt wanneer een overheid wel of niet algoritmes mag gebruiken, en hoe ver dat gebruik mag gaan.

D66 en CDA zijn beide regeringspartijen. Samen met regeringspartijen VVD en CU hebben zij een meerderheid in de Tweede Kamer. Omdat die partijen vaak elkaars moties steunen, bestaat er een kans dat de Kamer de motie aanneemt. De exacte tekst van de motie staat niet online, maar vermoedelijk verplicht die het kabinet niet direct om een richtlijn en toezichthouder te creëren. Het zou desondanks wel een sterk signaal zijn dat de meerderheid van de Tweede Kamer wil dat die er komen.

De Autoriteit Persoonsgegevens zei onlangs al dat overheden transparanter moeten zijn over het gebruik van algoritmes, bijvoorbeeld als die voorspellingen doen over wie vroegtijdig schoolverlater kan worden, of wanneer overheden met algoritmes proberen fraudeurs op te sporen.

Algoritmes baseren zich op bestaande data en zijn door selectie van die data gevoelig voor discriminatie, zeggen deskundigen. Behalve discriminatie is het ook een probleem dat ambtenaren moeilijk het advies van een algoritme kunnen negeren, zei bijvoorbeeld het Centrum Indicatiestelling Zorg. Daardoor hebben algoritmes indirect meer macht. Het is nu vaak voor mensen die onderwerp worden van fraudeonderzoek, niet duidelijk dat een algoritme hen eruit heeft gepikt.

Door Arnoud Wokke

Redacteur Tweakers

18-06-2019 • 08:26

100

Reacties (100)

100
97
59
18
1
26
Wijzig sortering
Ik wou dat ze een andere term gebruikten in plaats van algoritme, dat is bij computers namelijk gewoon een stuk code met een eigen doel (min of meer wat een functie is). In bredere zin is het een stappenplan (een reeks instructies) die gegeven een invoer een aantal stappen uitvoert om tot een bepaald doel te komen.

Misschien iets als "(zelf)voorspellend algoritme"?
Ze bedoelen specifiek machine learning algoritmes maar dit mag best vermeld worden. Een algoritme is inderdaad een veel bredere term.
Ze schrijven "algoritme" . Ik zou geen aannames doen over wat ze precies bedoelen, dit zijn politici. Het is waar dat veel van de gebruikte voorbeelden inderdaad Machine Larning algoritmes zijn, maar de bovenliggende EU regel is niet beperkt tot Machine Learning algoritmes. Volgens de EU heeft elke burger recht op een menselijke tweede beoordeling, als de eerste beoordeling door een algoritme is gedaan.

(EU > Digital Single Market > Report on the Ethics guidelines for trustworthy AI, published 2019-04-08)
Is het meer een richtlijn of een heus recht wat gewaarborgd is in wetgeving?
Ik denk dat je niet helemaal thuis bent in de Europese politiek; een EU richtlijn is een "heus recht" wat door de lidstaten omgezet moet worden in nationale wetgeving.

Maar in dit geval gaat het nog over een EU rapport. Er is een EU-brede discussie aan de gang, en het is dus begrijpelijk dat D66 en het CDA meedenken.
Nee dat bedoelen ze niet. Ook met algoritmes die niet (geheel) zelfstandig hun regels samenstellen (dus allerhande machine learning algoritmes) kan een set informatie samengesteld worden waarmee ergens binnen de overheid een beslissing kan worden gemaakt met impact op een persoon, groep of gemeenschap.

Of de regels dus hardgecodeerd zijn of dynamisch uit input data sets worden geextraheerd maakt uit het oogpunt van de toezichthouder geen enkel verschil.

[Reactie gewijzigd door mindcrash op 22 juli 2024 13:42]

Maar zelfs dan nog: moet er nu echt een waakhond komen die spam filters bij de overheid gaat controleren? Ook dat is machine learning.

Ik begrijp het probleem wat ze willen oplossen, maar dit komt mij echt weer over als een gevalletje: We begrijpen het niet, en dus vinden we het eng.
Ik begrijp het probleem wat ze willen oplossen, maar dit komt mij echt weer over als een gevalletje: We begrijpen het niet, en dus vinden we het eng.
Vind jij het niet eng? Hoe we op razend tempo aan het automatiseren zijn en steeds meer laten beslissen door "de computer", terwijl de meeste mensen die er over beslissen niet begrijpen hoe het werkt?

Ik weet genoeg van AI, psychologie en de overheid om me grote zorgen te maken. Niet omdat ik slechte bedoelingen vrees, maar omdat mensen heel veel onterecht vertrouwen in dit soort systemen hebben, en geneigd zijn om het oordeel van de computer blind te volgen en de fouten goed te praten in plaats van zeer kritisch te zijn.
Overigens denk ik niet dat we op een ramp afstevenen of dat dit het einde van de vrije wereld is of zo iets dramatisch. Volgens mij kunnen we prima met de risico's omgaan en er beter van worden, maar we moeten wel alert zijn en geen blackbox-computer-systemen invoeren en al helemaal niet als die onvolledig of oneerlijk worden getrained. Daar is passend toezicht voor nodig.
Inderdaad, zelfs een kookrecept is al een algorithme te noemen.
Anoniem: 51637 @RedPixel18 juni 2019 09:47
Helemaal mee eens. Hierdoor wordt het begrip 'algoritme' besmet, wordt het exponentiëel lastiger om zaken aan leken uit te leggen, ontstaat onbegrip en krijg je antivax-toestanden. Bij het voorgaande bericht hierover had ik al een reactie geplaatst dat ik juist van een tech-site verwacht dat hier zorgvuldiger mee om wordt gegaan.
Helemaal mee eens. Hierdoor wordt het begrip 'algoritme' besmet, wordt het exponentiëel lastiger om zaken aan leken uit te leggen, ontstaat onbegrip en krijg je antivax-toestanden. Bij het voorgaande bericht hierover had ik al een reactie geplaatst dat ik juist van een tech-site verwacht dat hier zorgvuldiger mee om wordt gegaan.
Ik heb het al opgegeven. Dit woord zijn we kwijt. Net als "hacker" en "cloud" (en "cyber", maar dat mogen ze hebben van mij ;) ).

Het doet me het meest denken aan het woord "theorie". In de wetenschap is een theorie iets dat vrij zeker is, er is sterk bewijs dat de "theorie" klopt en weinig of geen bewijs dat de "theorie" weerlegt. In het dagelijkse taalgebruik betekent theorie zoiets als "onbewezen, het tegenovergestelde van de praktijk, fantasie". Vervolgens komen er allerlei wijsneuzen met het argument dat X "maar een theorie is". "Evolutie is maar een theorie" of "Klimaatverandering is maar een theorie" en beweren dat hun eigen verzinsels net zo goed een "theorie" zijn. Die verzinsels heten wetenschappelijk gezien "hypotheses", maar de meeste mensen weten het verschil niet tussen een theorie en een hypothese en noemen alles een "theorie".

Dat komt nooit meer goed, de wetenschap kan beter op zoek naar een nieuwe woord voor een "wetenschappelijke theorie". Het is niet eerlijk, maar ik geloof niet dat het zin heeft om het gevecht aan te gaan. Net zo voor "algoritme". Dat betekent inmiddels zoveel als "de computer beslist", al dan niet met behulp van "kunstmatige intelligentie". Ik verwacht dat de term "kunstmatige intelligentie" als volgende gaat worden ingepikt.

[Reactie gewijzigd door CAPSLOCK2000 op 22 juli 2024 13:42]

Is het niet vreemd dat algoritmes discriminatie in de hand werken? Het zijn toch gewoon de feiten?

Feiten die maken dat de kans dat bepaalde groepen (gebaseerd op welk kenmerk dan ook) eerder de fout in gaan?

En of dat nu zzp-ers in de bouw zijn, Marokkanen, tuinders of advocatenkantoren, maakt toch niet uit? Of bevallen sommige feiten niet?
Die algortimes baseren zich op de resultaten van een bestaand systeem, dat een menselijke voorgeschiedenis heeft, en dus vooroordelen. Bijvoorbeeld wat hiervoor al werd geantwoord: Amazon gebruikte een algoritme om te bepalen wie ze uitnodigen voor een sollicitatiegesprek, met als learning set alle voorgaande beslissingen. Resultaat: mannen worden vaker uitgenodigd, want dat is wat de mensen deden (bewust of onbewust).

Maar goed, nu denk je natuurlijk: wel, tweak je algoritme, en haal factors zoals geslacht, ras en leeftijd uit de input, dan KAN het algoritme niet meer discrimineren!
Helaas werkt dat niet: dan zie je dat het algoritme alsnog dezelfde beslissingen neemt op basis van proxies. Als ik een hele bak aan data over jou heb, dan kan ik namelijk met erg grote zekerheid zeggen of jij man of vrouw bent, wat jouw leeftijd ongeveer is, en ja, ook wat je ras is.
Simpel voorbeeld: jouw postcode en diploma. Zeker in de VS waar segregatie in de praktijk nog echt zichtbaar is, zijn er simpelweg nog altijd blanke/zwarte scholen en buurten.

Maar zelfs als je enkel naar 'relevante feiten' kijkt moet je uitkijken voor negatieve feedback loops, het algoritme dat dus zijn eigen sturing als bevestiging ziet.
Voorbeeld: in enkele Amerikaanse steden worden algoritmes gebruikt om te bepalen hoe vaak er patrouilles in welke wijken lopen. Het algoritme baseert zich daarvoor op gerapporteerde incidenten en arrestaties. Lijkt eerlijk toch?
Behalve dat je vanzelf het resultaat krijgt dat meer patrouilles betekent dat er meer incidenten worden opgemerkt door de politie. Het is een self-fulfilling prophecy: als je geen patrouilles stuurt naar buurt X, zal je ook geen arrestaties hebben in buurt X, en bam: je voorspelling kwam uit met 100% accuracy!
En daarnaast heeft de patrouille zelf vooroordelen waardoor ze bvb een hangjongere in de ene buurt aanpakken maar in de andere niet.
Dat zorgde ervoor dat binnen de kortste keren er constant patrouilles reden in arme (zwarte) wijken, en niet in rijkere (blanke) buurten. Dit was totaal buiten proportie vergeleken met de door de bewoners gerapporteerde misdaad, maar dat deed er niet toe: het algoritme was 'eerlijk', baseerde zich op 'feiten', en de voorspellingen van het algoritme kwamen uit: telkens ze patrouilles in de zwarte buurt stuurden was er ergens wel een hangjongere te vinden die een jointje op zak had.

Tldr: het is niet zo simpel.

Daarnaast is er ook het ethische punt dat iedereen in onze maatschappij het in mijn ogen verdient als individu behandeld te worden, niet als 'deel van groep X in Hokje Y'.

[Reactie gewijzigd door kiang op 22 juli 2024 13:42]

Dat algoritme gaat er dan al vanuit dat de criminaliteit op elke plek hetzelfde is. Stel dat dat zo is zou je toch bij gelijkblijvende criminaliteit een stijging van het aantal incidenten moeten zien als er in een wijk minder gepatrouilleerd gaat worden?
Dan ga je er van uit dat patrouilleren een effectief preventiemiddel zijn. En dat zal ook wel voor bepaalde soorten misdaad zoals (ik heb geen cijfers maar gok nu even) overvallen en inbraken.

Maar voor kleine dingen zoals wiet roken, openbare dronkenschap, geluidsoverlast, en 'loitering' (wij hebben er geen werkwoord voor, wat hangjongeren doen) werkt dat niet, en zie je dus als enige resultaat dat die incidenten vaker worden opgemerkt en geregistreerd door de politie.
Een voorbeeld hoe het verkeerd kan toegepast worden is zichtbaar in Amerika. Nu heeft Microsoft bepaald om niet aan California's politie facial recognition te verkopen. Dit omdat het misbruikt kan worden. In Amerika heb je veel agressieve en corrupte politie agenten. Je hoort vaak genoeg hoe mensen worden neer geschoten daar. Dit omdat de politie daar een kortere opleiding krijgt en omdat ze eerder toegang hebben tot wapens.

Nu is het zo dat Amazon wel wil verkopen en Amazon's facial recognition zeer vatbaar is voor discriminatie. Ook heeft San Francisco verboden om het te mogen gebruiken als overheidsinstellingen en gaat California state kijken of ze het ook kunnen verbieden wat de politie niet zo prettig vindt.

Maar ja, facial recognition en algoritmes kunnen inderdaad verkeerd gebruikt worden. Een ander voorbeeld is hoe iemand een facial recognition software heeft opgezet om te kijken wie transgender is en IIRC ook (of iemand anders heeft dat gedaan) om te kijken hoe trans personen er voor hun transitie uitzagen. Dit kan leiden tot makkelijkere discriminatie of mishandeling van trans personen.

En inderdaad algoritmes zijn zeer beïnvloed door mensen hun input. Voorbeeld van machine learning gone wrong is Tay van Microsoft.
Leuk voorbeeldje: Amazon had paar jaar terug een algoritme getest bij personeelszaken, om te besluiten wie uitgenodigd werd voor sollicitatiegesprek en wie niet. Keurig ingevoerd wie er de voorgaande tien jaar was uitgenodigd, brieven en CVs in database enzo. Nu bleek dat het systeem voor bepaalde plaatsen geen vrouwen voordraagt, terwijl die wel veel solliciteerden. Apart. Wat blijkt? Pre-algoritme hadden de mannen die erover gingen heel weinig vrouwen aangenomen, dus systeem had geconcludeerd dat dat niet de bedoeling was, afgaand op de keuzen afgelopen 10 jaar. Oeps.

Artikel bij Reuters: https://www.reuters.com/a...ainst-women-idUSKCN1MK08G
Gelukkig kan je wel degelijk corrigeren voor bias ;-) dit blijft een goed voorbeeld waarom je trainingsset zeer belangrijk is. Werkt het zelfde als bij mensen, je omgeving (informatie) bepaaldt voor een Groot gedeelte gedrag.
Maar die bias moet je dan wel eerst detecteren.
En aangezien meesta ai een "black box" systeem gebruiken voor hun keuze's. Is dat achteraf bijna niet te doen. Tenzij je een heel team er continu opzet, maar dan kun je net zo goed geen AI gebruiken
En de mensen die het snappen weten, maar die gaan op een gegeven moment uit dienst of oid en hun opvolgers volgen gewoon de machine: "want het werkt ja prima?!"
Er zit altijd een bias in de trainingset, omdat er nog steeds menselijke beoordelingsfactoren in zitten verstopt. Dat data eerlijk is, is dan ook op zijn zachts gezegd naïef.

Data kan zeker helpen, evenals de acceptatie dat het niet 100% eerlijk is.
Daar heb je gelijk in maar je kan wel bewuster keuzes maken. Ook bij blackbox weet je nog steeds wat voor data je ter beschikking stelt. De data die het model gebruikt is Dan niet duidelijk. Voor dit soort doeleinden is het mss better om geen blackbox te gebruiken. Voor risico profielen vindt ik het geen probleem. Profileren mag van mij zo effectief mogelijk, daadwerkelijke acties moeten wel zorgvuldig met "open data' worden genomen.
Voor risico profielen vindt ik het geen probleem. Profileren mag van mij zo effectief mogelijk, daadwerkelijke acties moeten wel zorgvuldig met "open data' worden genomen.
Stel dat je meer betaalt voor je autoverzekering omdat je in een buurt woont met veel jongeren. Dan is profileren ineens iets minder grappig.
Niet grapppig nee, blijkt het risico veel hoger te zijn dan vindt ik het logisch om meer te betalen. Aan de andere Kant verzekeringen draag je met iedereen. Het hele idee gaat wat verloren als de verschillen in premie enorm zijn
Niet grapppig nee, blijkt het risico veel hoger te zijn dan vindt ik het logisch om meer te betalen.
Het probleem is dus dat 'jouw' risico niet bepaald wordt, maar dat van je omgeving. Als je bijvoorbeeld een letter achter je huisnummer hebt kan je zo fors meer betalen. Dit is naar mijn idee een goed voorbeeld van een algoritme probleem, aangezien je toch moeilijk kan beargumenteren dat een letter achter je huisnummer er voor zorgt dat je onveiliger gaat rijden.
Dit is echt een heel goed voorbeeld van hoe het mis kan gaan! Het algoritme trekt zelf de conclusie dat vrouwen niet geschikt zijn en kiest daardoor nooit vrouwelijke kandidaten. De afdeling weet dit niet en gaat akkoord met de conclusies van het algoritme. De afdeling verwacht ook niet dit soort "gedrag" van het algoritme, dus het kan heel lang onopgemerkt blijven.
Een algoritme is niet zozeer zelf-lerend, maar zichzelf-versterkend. Zolang wij geloven dat ze zelf-lerend zijn en dus een mate van intelligentie herbergen, zullen we de plank misslaan in het gebruik ervan. Dat gaat een tijdje goed want het merendeel heeft dit mechanisme niet door, en ze zien weinig verschil met het verleden dus zal het wel kloppen. En daarmee bevestigt het algoritme in feite zijn eigen gelijk - zie je wel, mensen gáán ook echt veel naar die website, dus geef ze meer van dat. En een dag later: zie je wel, het is echt zo!
Alleen de feiten die je invoert. Dus als je dataset al een bias bevat, dan ziet het algoritme dat als feit.
Exact. Om een voorbeeld te geven: in de VS wordt een algoritme gebruikt te bepalen of verdachten van een misdaad bail mogen betalen of in voorarrest moeten blijven, en wat de hoogte van deze geldsom is.

Het systeem berekend dit met de bekende historie van deze persoon, er wordt niet gekeken naar ras, leeftijd etc. In theorie klinkt dit goed.

Nu is het zo dat bepaalde bevolkingsgroepen veel vaker gecontroleerd/gearresteerd worden. Zo worden mensen met een donkere huidskleur in de VS 3.73x vaker opgepakt voor het bezit van cannabis.
https://norml.org/marijua...rity-in-marijuana-arrests

Het algoritme werkt dus met feiten gevoed worden door een systeem (politie etc.) dat niet objectief is, waardoor het algoritme dus nooit echt objectief kan zijn.

Edit: ik durft niet zo te zeggen in welke staten dit systeem gebruikt wordt.

[Reactie gewijzigd door tweakertjee op 22 juli 2024 13:42]

Daarbij is het ook het vermelden waard dat dit soort algoritmes zichzelf kunnen versterken: er worden al meer zwarten opgepakt, algoritme concludeert dat zwarten een risicogroep zijn die meer moet worden gecontroleerd, waardoor er meer zwarten worden opgepakt, waardoor het algoritme concludeert dat …
Waardoor er meer false positives worden geintroduceerd wat er voor zorgt dat het weer minder wordt :P
Ja, in theorie wel maar in de praktijk moeilijk. Het algoritme mag namelijk geen rekening houden met huidskleur, dus ziet huidskleur + geen crimineel niet als een false positive. De meer 'objectieve' criteria waar het wel rekening mee kan houden zijn dan weer heel divers. Als je dan aan de ene kant een dataset hebt (politieagenten die liever mensen met een andere huidskleur oppakken, en ook alleen daarom) en aan de andere kan een algoritme die daar kaas van moet maken obv objectieve criteria (afkomst kan, als er een homogene groep is tenminste) krijg je gewoon een rare 'lerende' mismatch. Een algoritme zou ik daar dan nooit niet-biased noemen.

Interessant leesvoer: https://www.nytimes.com/2...mpas-sentencing-bias.html

[Reactie gewijzigd door UTADDICT op 22 juli 2024 13:42]

Sorry, maar dit is een gekke redenering. Aan de ene kant zou zo'n netwerk leren om huidskleur te herkennen via secundaire kenmerken als adres of opleiding, maar aan de andere kant zou datzelfde netwerk niet leren van false positives op adres of opleiding?
Nee, dan begrijp je me niet goed. Aan de ene kant krijgt het netwerk data binnen die totaal NIET gebaseerd is op adres / opleiding (maar bias), en aan de andere kant probeert datzelfde netwerk dat wel te VERKLAREN door bijvoorbeeld adres/opleiding.
Beetje vreemd dat die eigenschappen niet worden opgenomen, kun je meteen zien met welke andere eigenschappen ze correleren of hetzelfde effect hebben. Als huidskleur oid in zo'n model nog steeds significante voorspellingen geeft weet je in ieder geval dat je wat onderliggende parameters mist.
Het is dus van belang dat er goed (random) gesampled wordt. Of, men pakt alle data (voor zover dat mogelijk is momenteel). De “bias” die er dan nog in zit, is intrinsieke feitelijke informatie van de populatie.

Het probleem is met name dat de meeste relaties die gevonden zullen worden op basis van associatie tot stand zijn gekomen. Een niet-Westerse allochtoon pleegt misschien vaker misdaden dan Westerse allochtonen (ik verzin het waar je bij staat, het voorbeeld doet er niet toe), maar niet omdat ze niet-Westers zijn.

Als het veronderstelde algoritme ambtenaren gaat vertellen intensiever niet-Westerse allochtonen te fouilleren, zijn we niet veel meer dan een etnisch profilerende politie staat aan het worden.

EDIT: punt van Tweakertjee hieronder is ook van belang!

[Reactie gewijzigd door DrSnuggles op 22 juli 2024 13:42]

Het doel van een algoritme is nou net om niet random te sampelen, maar gericht te zoeken naar risicovolle gevallen.
Als 99,9% van de gevallen zich keurig aan de regels houdt, en 0,1% dus niet, dan is de kans erg groot dat die 0,1% noot random gesampled wordt. En juist die wil je met een algoritme boven zien te krijgen.

Je zult dus selectiecriteria in moeten voeren om juist die 0,1% te vinden. En in de selectiecriteria ligt het gevaar van de discriminatie.
Stel het is in het nieuws dat er een club Bulgaren aan het frauderen is met toeslagen (=praktijkvoorbeeld). Dan is het een terechte aanname dat er een grote kans is dat ze hun trucjes ook aan buren en bekenden vertellen. Dát zullen veelal óók Bulgaren zijn. Je zou dus een best kunnen beargumenteren dat het Bulgaar zijn een criterium is om een bepaalde groep eens nader te bekijken. Je mist dan alleen alle Nederlandse/Poolse/Italiaanse enz. kennissen die ze ook hebben. Slechts de Bulgaren worden onderzocht.

Is dat terecht ? Of niet ? En wat doe je ná dat onderzoek. Laat je dan dat criterium (ongemerkt ?) open staan ? Hoe lang dan ?

En dát is nou precies wat D66 en CDA willen dat die waakhond gaat monitoren.
Ja, maar in jouw voorbeeld is er dus juist niet goed (random) gesampled, dan wel de gehele populatie bekeken.
Misschien moet je mijn eerste zin nog eens lezen. Het gáát juist om het niet random sampelen !

Aan random sampelen heb je niet zoveel. Je wil juist criteria inbouwen. En dat is nou net wat gevaren oplevert.
Anoniem: 470811 @T-men18 juni 2019 09:51
Maar die criteria zou je eerst primair moeten baseren op gedrag, niet op demografie.

Demografie kan wel op basis van uitsluiting (iedere niet in NL woonachtende individu), en beter niet op insluiting (zoek naar Bulgaren).

Dan krijg je iets als: zoek naar fraudegevallen op basis van dit gedrag bij alle niet in NL wonende individuen. Dan komt het algoritme vanzelf met een lading Bulgaren en vast nog wel andere bevolkingsgroepen.

Heb je dan veel false positives dan moet je uitzoeken waarom dat zo is. En bijvoorbeeld de vraag stellen: waarom heeft het gedrag die trigger gegeven en waarom is het geen fraude, en dat aan je model toevoegen.

Edit: en omdat veel data-engineers ed hier niet heel veel kaas van hebbem gegeten is een waakhond meer dan terecht (en zou ook moeten voor de private sector)

[Reactie gewijzigd door Anoniem: 470811 op 22 juli 2024 13:42]

We praten langs elkaar en volgens mij snap je niet precies wat random sampling precies is.

Bij het opbouwen van de dataset om het algoritme op te trainen is het van belang dat deze zo bias free mogelijk tot stand komt. Dat doet men in alle redelijkerwijs door random te samplen.
Om bij je voorbeeld te blijven, dan werkt het algoritme toch naar behoren? Als de resultaten veranderen zal het model zich daar aan aanpassen. E.g. veel allochtonen gecontroleerd, niets gevonden, lager risico, minder snel allochtonen controleren.
Juist als je daar aan gaat rommelen omdat de resultaten je niet bevallen wordt het gevaarlijk en introduceer je bias.

Edit: ik ga er natuurlijk vanuit dat de aantallen die gesampeled worden fatsoenlijk worden meegenomen in de betrouwbaarheid van de resultaten. N=1 verhaal.

[Reactie gewijzigd door Mathi159 op 22 juli 2024 13:42]

Het probleem is hoe je de cijfers interpreteert. Allochtonen zijn soms crimineel, dus "niets gevonden" is onwaarschijnlijk, zeker als je algoritme goed is en ook andere factoren meeweegt. Dan vind je inderdaad criminelen, óók onder allochtonen.

Het probleem ontstaat wanneer het algoritme alleen kijkt naar absolute aantallen gevonden criminelen, in plaats van naar het relatieve aantal (voorspeld/gevonden). Het algoritme is problematisch als het consequent teveel criminaliteit in een deel-populatie voorspelt.
Ik proef uit het stuk dat als de dataset geen bias heeft dat de betreffende politieke partijen nog steeds niet altijd even gelukkig zijn met het gebruik van algoritmes in specifieke toepassingen. En dat is een beetje raar natuurlijk.
Tja.... de partijen hebben als ideaal dat iedereen gelijk is. Toch zul je gericht verdachte gevallen in je dataset willen vinden. Dan moet je bepaalde criteria aanleggen.

'Vroegah' lieten we mensen door kaartenbakken kijken. Die konden op basis van hun ervaring zomaar de fraude gevallen op gevoel aanwijzen. Wanneer men vervolgens vroeg waarom er nou net dat geval uitgelicht werd dan bleek daar vaak een grote discriminerende component in te zitten.

Dat wilde men niet.

De oplossing was dan laten we het een computer doen. "Die kijkt 100% onbevooroordeeld naar de data en kan dus niet discrimineren." zo dacht men.
Totdat de selectiecriteria ingevoerd moeten worden. Nu blijken die weer dezelfde soort fouten te bevatten als de criteria van de ervaren menselijke kaartenbakken scanners.

Oplossing van de politiek: zet er een commissie/waakhond op. (alsof dat helpt... 8)7 )
De feiten in de databases zijn op deze manier ook discriminerend, maar wel gewoon een feit.

Feiten:
geslacht dief: Auto diefstal zal bijvoorbeeld 80% gepleegd worden door een man, 20% door een vrouw.
kenmerk goed: Het merk van de meest gestolen auto is Duits.

Twijfelpunt:
leeftijd dief: En de categorie 20-30 jaar zal een stuk groter zijn als autodief dan de 60-70 jarigen.

Discriminatie:
afkomst of opleiding dief: ...
wijk waarin diefstal plaatsvind: ...

Mijn respect voor de agenten die ondanks wat ze als feiten aantreffen in hun eigen administratie toch zonder te discrimineren hun werk doen.
Anoniem: 167912 @iAR18 juni 2019 09:00
En zo wordt alles uitgelegd in het kader van de politieke correctheid.
De feiten zijn dat sommige groepen oververtegenwoordigd zijn in bepaalde statistieken.
Dit simpele feit ontkennen of, erger nog, toedekken helpt niemand een meter vooruit. Als men de problemen niet onder ogen durft/wil/mag zien kan men ze ook niet oplossen, wat leidt tot het tegenovergestelde effect van hetgeen de "politiek correcten" willen bekomen.
Ja, maar als dus nu al duidelijk is dat die groepen oververtegenwoordigd zijn, is geen ander algoritme nodig om ons daar op te wijzen, of wel?
Anoniem: 167912 @DrSnuggles18 juni 2019 09:14
Als sommige groepen oververtegenwoordigd zijn in bepaalde statistieken, zijn ze dat misschien ook in andere statistieken waar we nu nog geen weet van hebben, misschien kunnen de algoritmes oorzaken van de discrepantie vinden zodat we daarnaar kunnen handelen
Anoniem: 167912 @DrSnuggles18 juni 2019 12:39
Knap hoe je erin slaagt om exact de tegenovergestelde conclusie te trekken van wat ik zei
Jep, je hebt gelijk. Verkeerd gelezen! :)
Is het niet vreemd dat algoritmes discriminatie in de hand werken? Het zijn toch gewoon de feiten?
Ze worden door mensen gemaakt en die kunnen de resultaten sturen. Algoritmes an sich discrimineren niet.
Jawel. En zelfs op precies dezelfde manier als je zou zien onder groepen mensen. Men volgt de kudde en die kudde heeft een mening, en omdat we het allemaal vinden zijn andere meningen minder geldig. Dan zit je al erg dicht bij discriminatie. Laat het nog wat langer sudderen en alle andere meningen zijn ongeldig want het algoritme bevestigt zijn eigen gelijk. In de basis is elke keuze een vorm van discriminatie: de andere keuzeopties hebben een lagere prioriteit gekregen.

Het is een kenmerk van een algoritme dat zich baseert op zijn eigen resultaten. De grote vraag is hoe je uberhaupt een algoritme maakt dat volledig neutraal is. Hoe ziet dat er dan uit? Je moet 'iets' érgens op baseren. Als alles hetzelfde gewicht heeft, dan is je algoritme eigenlijk gewoon 'RNG', en dan kan je net zo goed een dobbelsteen gooien.

Wat je misschien eigenlijk wel moet willen is een algoritme dat bewust fouten maakt en variatie/ruis introduceert, en misschien zelfs een beetje druk zet om die variatie voldoende aandacht te geven. Maar ja, ervaren we dat als een efficiente en handige werkwijze? Worden we dan niet op gevoelige teentjes getrapt? We zullen raar opkijken als de computer ons een 'fout' of onverwacht antwoord geeft...

[Reactie gewijzigd door Vayra op 22 juli 2024 13:42]

"Resultaten uit het verleden zijn geen garantie voor de toekomst". Als je als overheidsinstantie bepaalde groepen benadeelt omdat vergelijkbare personen in het verleden een risicogeval bleken behandel je ze niet als individu. De bias die daaraan ten grondslag ligt is enorm lastig uit data te halen, zelfs grote jongens als Google en Amazon stoeien hiermee.
Wat @iAmRenzo zegt. En aanvullend daarop, alles wat je niet invoert wordt niet naar gekeken. Hierdoor kun je een totaal fout beeld van iemand krijgen omdat je niet het volledige plaatje ziet.

Daarnaast kunnen er ook trends ontstaan. Als 40% van de Tweakers blijkt de frauderen met Bitcoins hoeft dit helemaal niet van toepassing te zijn op de andere 60%. Maar als die er wel standaard uitgeplukt worden en overlast ondervinden terwijl ze helemaal niks met Bitcoins doen.
Omdat de mensen die ze schrijven ze in het begin tweaken en beter maken, en die tweakers zijn net mensen, dus discriminerend
Nee.
Algoritmes zijn gebaseerd op aannames; zij creëren zelf geen nieuwe aannames, met als gevolg dat er enkel dieper wordt gedifferentieerd. Wat dus dicriminatie in de hand werkt.
Om discriminatie te verhelpen, is het juist nodig om nieuwe inzichten en patronen toe te passen; een andere werkwijze aan te nemen. En dat is nu net niet hoe de meeste algoritmes tot stand komen; dat zijn slechts geautomatiseerde stellingnames.
Is het niet vreemd dat algoritmes discriminatie in de hand werken
Dat is niet altijd het geval. Dat soort bias ontstaat via een door de ontwikkelaar of analist gemaakte aanname (in hardgecodeerde algoritmes) of model gemaakte aanname (in machine learning algoritmes). Het eerste tegengaan is niet zo heel erg eenvoudig, het tweede wel (door bijvoorbeeld datasets door een adversarial network te trekken waardoor de bias wordt verkleind)
Vorig jaar is er al in de NRC een week lang aandacht besteed aan 'machine learning software', zoals ze het daar noemen, waarbij bedrijven zoals Netflix, Booking.com, je aankopen voorspellen. De banken en de overheid gebruiken dit vooral om fraude op te sporen. Het grote risico is dat als je naam hierbij naar boven komt, dit best foutief kan zijn. Omdat het 'algoritme' dit echter aangeeft en niemand die dit gebruikt er verstand van heeft wordt dit altijd als correct aangemerkt. Erg gevaarlijk.
Aanrader: Weapons of Math Destruction - How Big Data Increases Inequality and Threatens Democracy

Een boek dat kijkt naar hoe machine learning en big data momenteel worden ingezet, en wat de valkuilen zijn. Zeker nu de zomer er is een erg interessant en vlot geschreven boek om even te lezen ;)
bol
amazon
En voor zij die audible hebben
+1 echt fijn leesvoer (en hele schrijnende voorbeelden waar algoritmes hopeloos de fout in gaan).
voorwaarde is dus dat er aan de basis van een algoritme een algoritme moet staan welke de afweging oplevert of het nakomende algoritme wel ten dienste staat van de gewenste samenleving.
Niet zo'n nieuw verschijnsel omdat immers zoiets als de 10 geboden ook al een dergelijk algoritme is waar de samenleving aan zou moeten voldoen.
Dit lijkt een beetje op zo'n Black Mirror aflevering. Nogal zorgwekkend inderdaad.
Electrowolf Moderator Aboforum 18 juni 2019 10:11
Lastige situatie waar de politiek direct een oplossing voorsteld in plaats van duidelijk het probleem definieert. Want is op dit moment is dat de grootste uitdaging: wat is nou eigenlijk precies het probleem?

We, en dus ook de overheid, gebruiken al decennia algoritmen. Denk bijvoorbeeld aan de "expert systemen" uit de jaren 80'. Je rekent je lunch af in de kantine? Een algoritme.

Het lastige is dat in de media en de politiek het woord "algoritme" gelijk is gaan staan aan "machine learning" en neurale netwerken. Dit terwijl dit maar een extreem klein deel zijn van alle algoritmen die we gebruiken. Wat niet helpt is dat dit verschil door bijvoorbeeld de NOS en velen in de tweede kamer niet worden gezien. Als ik dit artikel van Tweakers lees heb ik er ook m'n twijfels over.

Op een positieve noot is dit beeld ook bekend bij de rijksoverheid en wordt er op dit moment al gewerkt aan dingen als richtlijnen, kaders, een transparantielab en andere initatieven om antwoorden te geven op de (zeer terechte) vragen vanuit de maatschappij. Persoonlijk denk ik dat een dergelijke waakhond dit proces alleen maar zal frustreren en vertragen :/.

[Reactie gewijzigd door Electrowolf op 22 juli 2024 13:42]

Ik merk dat het woord Algoritme een soort hype woord is geworden. Het lijkt me duidelijk dat we wat beter moeten gaan weten wat ze bedoelen in Den Haag met het begrip algoritme. (En daar kan je aardig een boompje over opzetten). Als de lui in Den Haag door het grote gebrek aan ICT kennis niet weten waarover ze praten lopen we de kans een controlerende instantie in leven te roepen die eigenlijk niet weet wat het moet doen. En dus ook geen nuttig maatschappelijke bijdrage kan leveren. Het risico is dat een dergelijke initiatief als een hindermacht gaat optreden bij allerlei belangrijke vitale ict processen in ons land.
Ik merk dat het woord Algoritme een soort hype woord is geworden. Het lijkt me duidelijk dat we wat beter moeten gaan weten wat ze bedoelen in Den Haag met het begrip algoritme.
Ben het erg met je eens. Vroeger gebruikte we ook “zelf lerende” queries. Dat was vanuit het valgebied databasemarketing. Het gebruik van het woord algoritme maakt deze discussie diffuus. Het is veel eenvoudiger; De query wordt dynamisch door gebruik te maken van data uit het verleden. Het gaat dus om een dynamic query obv historische data niet om een algoritme.
Als je iemand het algoritme-resultaat zal geven om daarover te beslissen, dan zal daar een bias uit ontstaan. Nu zou een rechter daar niet sterk door worden beinvloed omdat dat zijn werk is, maar voor de mensen die een zaak beoordelen *voordat* een rechter dat doet is dat lastiger. Bovendien zal dan het takenpakket veranderen van "beoordeel of deze persoon vervolgd moet worden" naar "beoordeel of dit algoritme de juiste conclusie trekt." En als je dat met de bias van het gegeven resultaat moet doen, zal dat een lastiger taak zijn waar minder mensen geschikt voor zijn, en wat dus ook een grotere kostenpost wordt voor de regering.
Precies wat ik wilde toevoegen! Algoritmes nemen geen beslissingen. Mensen nemen de beslissing een voorstel van een algoritme te volgen. Of nemen de beslissing dat een algoritme op basis van een eigen beslissing een stap verder mag ik het proces.
Dat zou mooi zijn, maar juist hiernaar is in de begintijd van expertsystemen vrij veel onderzoek verricht. Als een programma op basis van invoer van een expert een beslissing neemt, heeft die expert een veel grotere neiging om tot hetzelfde besluit te komen als het programma. Zelfs als dit tegen de wet is!

Waar dit alles om draait is juist dat voorkomen moet worden dat dit soort systemen een “black box” vormen waarvan je als burger niet meer kunt nagaan hoe deze tot een besluit is gekomen. “Computer says no”.

Computers zijn wel logisch, maar niet redelijk.
Hmm ja dat is wel kwalijk ja. Maar wat ik ook bedoel is dat 'computer says no' dus eigenlijk niet kan. Want uiteindelijk blijft het toch een mens die dat overneemt. We kunnen ons niet verschuilen achter algoritme.

Ben ook van mening dat het altijd een transparante box moet zijn. Was daar niet pas ook iets over te doen? Met software leveranciers die hun algoritmes niet vrij willen geven omdat het hun verdienmodel is? Vind dat we die algoritmes als overheid niet moeten willen gebruiken. Want dan is ook nooit te herleiden waarom een beslissing gemaakt is.
Ja, en een mens dat een advies van een algoritme naast zich neerlegt en daar geen harde reden voor kan opgeven… die komt dan in de problemen als iets fout gaat. Dus als een algoritme berekend heeft dat iets een hoge kans heeft, hoe kan een menselijke beslisser daar dan zomaar vanaf wijken?

Vooral in situaties waar beslissingen aan de lopende band gemaakt moeten worden, wie gaat er nog tegen het computer advies in? (een rechter ja, maar een gewone ambtenaar die een bijvoorbeeld een verblijfsvergunning moet beoordelen?)
De uiteindelijke beslissing over een boete of iets dergelijks zal best worden gecontroleerd ja. Maar het hele probleem is dat een algoritme wordt gebruikt om te kijken wie een boete zou moeten krijgen. En dat leid dus tot buitensporig controleren van bepaalde groepen.
Dat is ook juist de bedoeling want anders kun je net zo goed geen algoritme gebruiken en random personen eruit pikken.
Ik heb altijd geleerd dat mensen code 'algoritme' gaan noemen, zodra ze niet weten wat het doet.

Het klinkt weer als een cliché overheid-IT situatie, waarin de beleidsvormers zich totaal niet verdiepen in wat er nou daadwerkelijk gebeurd, maar vooral naar buiten toe een leuk signaal willen afgeven.
De overheid doet waar het goed in is, meer en meer clubjes, commissies en andere orgaantjes opstarten die de burger onnodig belasting kosten en er geen enkel doel mee heiligt (puur werkverschaffing). Dit land betaalt zich groen en geel aan belastingen en niemand die weet wat er nu precies met al dat geld gebeurt. Afgezien van de megalomane mislukte ICT projecten die waarschijnlijk op jaarbasis meer dan een miljard kosten en miljarden die naar Brussel gaan om vervolgens de kassen van Zuid- en Oost Europese landen te spekken. Toezicht houden op algoritmes, wat is dat nu voor kolder?

[Reactie gewijzigd door jordees op 22 juli 2024 13:42]

Dit land betaalt zich groen en geel aan belastingen en niemand die weet wat er nu precies met al dat geld gebeurt.
Welnu, de rekenkamer weet dit:
Het is onze missie om met ons onderzoek het presteren en functioneren van de rijksoverheid te helpen verbeteren. We onderzoeken of: de rijksoverheid netjes en volgens afspraken met het haar toevertrouwde geld omgaat; ... burgers waar voor hun geld krijgen.
https://www.rekenkamer.nl...kamer/missie-en-strategie
Jaarlijks verdampt 4 tot 5 miljard euro door falende ICT-projecten. Hoewel er sprake is van verbetering, is nog altijd niet meer dan 30 procent van alle projecten succesvol.

https://www.aanbestedings...verheid-4-5-miljard-euro/

[Reactie gewijzigd door Unsocial Pixel op 22 juli 2024 13:42]

Een algoritme is een serie handelingen om een probleem op te lossen. In theorie zou deze groep zich ook bezig moeten houden met websites die rubix cubes oplossen vanuit iedere positie :+
Een algoritme hoe niet eens geautomatiseerd te zijn; dus laat ze maar eens kijken naar de algoritmes van de diversie rijksoverheden.. :p
Gras niet betreden, algoritmen aan de lijn. (Behalve bubblesort, die mag gewoon loslopen.)

[Reactie gewijzigd door dez11de op 22 juli 2024 13:42]

Dit is typisch weer een voorbeeld van hoe onze overheid de plank misslaat. De fout zit hem al in het feit (vele voorbeelden in de discussies(s) hierboven) dat je niet voor elk probleem klakkeloos machine-learning of deep-learning moet inzetten.

Zo wordt in de VS deep-learning ingezet om te voorspellen of iemand in aanmerking komt voor 'parole'. Echter moet je als overheid voor een rechter kunnen uitleggen waarom die persoon daarvoor in aanmerking komt. Als je dan een feature space met duizenden features hebt wordt dit een heel lastig verhaal, dit is voor een rechter onmogelijk te beoordelen.

Zelfde geldt voor bias in ML. Als je een vraag beantwoord d.m.v. ML moet je natuurlijk heel goed kijken naar de opbouw van je trainingsset en of deze distributie daadwerkelijk overeenkomt met die van het probleemdomein. Imbalanced classes, geen representatieve distributie(s) en overfitting zijn zaken die ik in de dagelijkse praktijk veel tegenkom. En veel data-scientists die roepen 'gooi er maar meer data tegenaan, dan werkt het wel'. Omdat ML op dit moment zo'n hype is en er veel online cursussen bestaan die je in 7 lessen 'data scientists' pretenderen te maken wil niet zeggen dat je het vakgebied beheerst.

De overheid zou eens moeten beginnen met mensen aannemen die de materie echt snappen en managers aannemen die dit soort situaties goed kunnen inschatten wanneer wel/niet ML in te zetten en m.n. HOE dat dan dient te gebeuren. Dan hebben we achteraf ook geen politici nodig die weer allerlei duurbetaalde adviseurs moeten neerzetten om de schijn op te houden dat er ook daadwerkelijk controle is. Zie alle problemen bij de belastingdienst, het enorme aantal ZZP'ers bij de overheid en het enorme verloop. Begin eens met IT als een VAK te zien binnen de overheid en niet als kostenpost, dan kom je al een heel eind....
Hoe denken ze aan personeel te komen?
Dat personeel gaan ze inhuren via de bekende kanalen tegen de hoofdprijs. Achteraf gaan ze constateren dat de kostenoverschrijding van ICT projecten nog groter wordt vanwege deze extra externe inhuur. |:( |:(

Ik voorspel je, binnen 7 jaar komt er een nieuwe parlementaire enquete over ICT uitgaven bij de overheid. Dan zij er weer nieuwe kamerleden die deze geschiedenis niet hebben meegekregen en denken dat òòk zij het weer beter weten.
Wat is je alternatief? Weet je hoe competetief de AI markt is? Die skills kun je simpelweg niet krijgen voor een ambtenarensalaris, die moet je inhuren op de commerciële markt.

Ik ben het met je eens, de overheid moet het probleem oplossen dat ze inhuren via de bekende, niet-functionerende kanalen. Maar je ontkomt niet aan het inhuren van externen.
Ik hoef geen alternatief te bedenken want ik ben geen politicus en ook niet lid van een politieke partij. Ik geef alleen maar aan wat de consequenties zullen zijn indien dit beleid gaat worden.
Of genoeg betalen, of genoegen nemen met mensen die er eigenlijk niet zo veel van snappen :p
Volgens mij begrijp je niet helemaal hoe het werkt.

Er komen toezichthouders die er geen zak van snappen die vervolgens externen mensen moeten inschakelen met de ‘juiste expertise’.
Die moeten weer andere partijen inschakelen om een aantal situaties te simuleren omdat de algoritmes op een dusdanige manier zijn ingericht dat je niet zomaar even run-scenario kunt draaien.

Resultaat is dat wanneer er iets mis gaat er een beroep wordt gedaan op een bureaucratie die extreem stroperig is. Een onderzoek laat zich dan doodleuk meerdere maanden, zoniet jaren op zich wachten.


Wat je wilt is dat de software run-scenario kan draaien en de uitkomsten kunt toetsen.
Waar je dan tegenaan kijkt is de mogelijkheid dat een organisatie de boel bedot en die mogelijkheid moet je kunnen uitsluiten. Uber heeft dat een keer vb gedaan.

Die expertise moet de overheid deels zelf in huis hebben en niet zomaar bouwen op externe partijen. Vrije markt en uitbesteden is allemaal leuk en aardig, maar daar zitten ook grenzen aan.

Op dit item kan niet meer gereageerd worden.