Door Arnoud Engelfriet

ICT-jurist / Specialist internetrecht

Hoe beperken we de risico's van AI?

Ict-jurist Engelfriet over de AI Act

25-09-2022 • 06:01

47

AI Act

Ken je die mop van de uitgeputte programmeur in de badkamer? Inderdaad: 'Aanbrengen, uitspoelen, herhalen', stond er op de shampoofles. Dat algoritme was niet helemaal volledig. Een uitgeputte jurist zul je om die reden niet snel aantreffen; die is gewend zulke instructies naar redelijkheid zelf in te vullen. Deze mop laat precies zien waarom het zo vaak misgaat in discussies over AI, machinelearning en de regulering van algoritmes.

De angst voor algoritmes

Al-Chwarizmi.
Al-Chwarizmi

Zijn die instructies op de shampoofles een algoritme? Wie de gebruikelijke definities erbij pakt, komt bij termen als 'stappenplan' of 'recept om een wiskundig of informaticaprobleem op te lossen', al dan niet onder verwijzing naar de naam van de Perzische wiskundige Al-Chwarizmi. Die termen zijn zo breed dat die shampoofles er zeker onder valt. In de maatschappij, en dus ook bij juristen, wordt de term 'algoritme' vooral gebruikt voor complexe stappenplannen of recepten, waar je zonder computer er zeker niet uitkomt. En om het nog ingewikkelder te maken: die algoritmes worden ook gebruikt voor uitkomsten van machinelearningsystemen.

Algoritmes nemen steeds vaker beslissingen die grote impact hebben op mensen, en dat is voor juristen een grote bron van zorg. Al sinds 2018 zien we bijvoorbeeld pleidooien voor een speciale algoritmetoezichthouder om deze 'vierde macht', naast de wetgevende, uitvoerende en rechtsprekende machten, aan banden te kunnen leggen. Want die vierde macht is een black box, kan ongecontroleerd vooringenomenheid toepassen en mensen zonder enige transparantie of verantwoording rechten afnemen en sancties opleggen. Anders gezegd: er is geen grip en we zien niet hoe het werkt, maar we zien het wel steeds meer toenemen en de zorgen worden steeds groter.

Het antwoord vanuit wet- en regelgevers en juristen is dan natuurlijk ‘regulering’. Nieuwe trends en ontwikkelingen moeten toch in goede banen worden geleid, met als bijkomstig doel het minimaliseren van nadelige gevolgen of schadelijke neveneffecten. Het lastige is alleen, zoals hoogleraar Law & Data Science Bart Custers al signaleerde, dat dan doorgaans bestaande reguleringskaders als uitgangspunt worden genomen. En die zijn daar dan vaak niet helemaal op toegesneden.

De zorg over gegevensverwerking

De zorgen over AI en besluitvorming zijn indirect te herleiden tot de geboorte van het vakgebied van de gegevensverwerking. Dat begint ergens rond de tweede industriële revolutie, toen grote groepen mensen naar de steden trokken. Als overheid getalsmatige uitspraken doen op basis van geregistreerde gegevens, was een manier om grip te krijgen op deze grote verandering. De snelgroeiende complexiteit van deze gegevensverwerking was een bron van technologische innovatie, met de telmachines van Herman Hollerith, later IBM, als bekendste exponent.

Automatische, weliswaar mechanische, gegevensverwerking werd begin twintigste eeuw enorm populair bij overheden en grote bedrijven. Een veelgehoorde klacht in die tijd was dat hiermee de menselijke maat verdween: met rekenmachines kon men op grote schaal abstracte uitspraken doen zoals wie er wel of geen uitkering kon krijgen of wie moest verhuizen vanwege nieuwe gebiedsontwikkeling. Een individueel gek geval, of zelfs maar een fout geregistreerd geval, had dan al snel een enorm probleem.

Een belangrijk inzicht was dat van Leavitt en Whisler in 1958: informatietechnologie is het vakgebied waarin grote hoeveelheden informatie worden verwerkt voor informatiegebaseerde besluitvorming en voor simulatie van denken van hogere orde. Dit vestigde de aandacht op het belang van informatie in bedrijfsprocessen, wat goed aansloot bij een nieuwe technologische innovatie: de databank, die in de jaren zeventig nog een zetje kreeg door het relationele model en de zoektaal SQL.

Relationele databanken en SQL, en aanverwante technieken, maakten dat het aantal gegevensverzamelingen, en alle bedrijven en overheden die er gebruik van maakten, snel groeide. Dat leidde weer tot een grotere gegevenshonger, want als er zoveel kan, dan is er snel behoefte aan meer. Dat gaf aanleiding tot meer zorgen en protesten over de bescherming van de burger, die zich bijvoorbeeld niet kon verweren tegen fouten in een databank. Een simpele reden was omdat hij niet wist dat hij erin stond. Maar minstens zo hardnekkig was, en is, de overtuiging dat ‘de computer gelijk heeft’; gegevens in een databank hebben een aura van juistheid.

In de jaren zestig en zeventig zagen we een groei in grootschalige dataverzameling. Eerst bij de overheid: volkstellingen, gezondheidszorg en openbare veiligheid. Maar ook in de private sector. Kredietorganisaties automatiseerden bijvoorbeeld hun dataverwerking, zodat veel meer bedrijven konden toetsen of een consument wel financieel betrouwbaar was. Ook konden bedrijven met automatische systemen massaal post versturen, vooral reclame. Dit gaf veel zorg en protest, met de roep om nieuwe wetgeving als gevolg. Het zette het onderwerp gegevensbescherming ook bij juristen op de agenda.

In Duitsland raakte het gebruik van elektronische databanken erg populair bij politiediensten, in reactie op terroristische dreigingen en aanslagen die het land in zijn greep hielden. Met enorme databanken en zoekwerk probeerden de politiediensten de plegers te lokaliseren. Dit gaf veel ophef en discussie: de politie wist zo ongeveer alles van iedereen, zonder enige juridische grip daarop. Het gevolg was de Bundesdatenschutzgesetz van 1976, de eerste wet die expliciet gegevensverwerking aan banden legde. Ook in Nederland was in die periode groot verzet: de volkstelling van 1971, die geautomatiseerd zou plaatsvinden, gaf heftige commotie. Dat leidde tot uitstel, dat in 1991 afstel werd met afschaffing van de Volkstellingswet.

Als gevolg van bovengenoemde protesten en juridische zorgen zien we vanaf de jaren tachtig meer wetgeving verschijnen die de omgang met persoonsgegevens aan banden legt. Van groot belang was het in 1981 vanuit de Raad van Europa geïnitieerde Verdrag tot bescherming van personen met betrekking tot de geautomatiseerde verwerking van persoonsgegevens, ook wel het Verdrag van Straatsburg of Conventie 108 genoemd. Conventie 108 was, en is nog steeds, het enige internationale wettelijk bindende instrument op het gebied van gegevensbescherming. Het verdrag regelt de omgang met persoonsgegevens bij zowel de private sector als de overheid. Veel elementen van de Algemene Verordening Gegevensbescherming (2018) zijn direct terug te vinden in dit verdrag.

De volkstelling van 1983 in Duitsland, uiteraard met geautomatiseerde gegevensverwerking, leidde tot een zaak bij het Hooggerechtshof dat de betreffende wet ongrondwettig verklaarde: de burger heeft het recht van informatieve zelfbeschikking, een recht van zeggenschap over informatie die hem betreft. Dit is de kern geworden van de Europeesrechtelijke visie op persoonsgegevens. Het gaat om zelfbeschikking, om zeggenschap, niet per se over de private ruimte of de persoonlijke levenssfeer.

Dat recht van zeggenschap komt ook terug in de discussie over AI’s die beslissen over mensen: het is een vorm van ontmenselijking als een computer bepaalt waar jij juridisch aan toe bent, zeker als je niet eens in staat bent een weerwoord te geven. En hier zit een stukje beeldvorming waar ik me elke keer over kan opwinden: bij publicaties over juridische AI zien we altijd een robot met een pruik op of een rechtershamer, maar een robot redeneert niet zoals een jurist.

Machines die leren redeneren

De discussie over regulering van AI is enorm vertroebeld door de zienswijze dat computers zelf aan het denken zijn geslagen, en als een soort pseudomens zich zijn gaan bemoeien met onze menselijke bedrijfs- en maatschappelijke processen. “The question of whether computers can think is like the question of whether submarines can swim”, zoals de Nederlandse computerwetenschapper Edsger W. Dijkstra het ooit formuleerde. Computers denken helemaal niet, ze rekenen.

De bedenkers van het concept 'artificial intelligence' wisten dat in 1956 heel goed: 'every aspect of learning or any other feature of intelligence can be so precisely described that a machine can be made to simulate it'. Het ging daarbij om simuleren, om nadoen; het is nooit een streven geweest om daadwerkelijk een nieuwe vorm van intelligentie te realiseren, als dat al zou kunnen. Ook de Turingtest en de Chinese kamer van John Searle gingen altijd over het niet meer kunnen onderscheiden van mensen met simulaties van computerintelligentie.

In de onderzoekswereld rondom AI ging de meeste aandacht uit naar formele logica en expertsystemen die redeneren op basis van vooraf geprogrammeerde beslisregels en databases met kennis. Alle mensen zijn sterfelijk; Socrates is een mens, dus Socrates is sterfelijk. Door genoeg van dergelijke beslisregels te formuleren en genoeg databases aan te bieden om kennis te kunnen extraheren, 'de volgende items zijn planten', 'deze items zijn dieren', zou de computer over alles een beslissing kunnen geven, was de gedachte. Na diverse prille successen in de jaren zeventig en tachtig werd het echter stil in de AI-onderzoekswereld, omdat het opzetten van werkelijk generieke en geavanceerde expertsystemen een stuk ingewikkelder bleek dan gedacht.

AI

Een alternatieve onderzoeksrichting die lange tijd ondergesneeuwd bleef, ging uit van patroonherkenning: machinelearning, ofwel ML. Ook de basis voor dit werk werd al in de jaren vijftig gelegd. Patroonherkenning werkt het beste met grote hoeveelheden data, en daar schortte het nogal aan in de jaren zeventig en tachtig. Ook het verwerken van data kostte veel opslag en rekentijd. Bovendien waren de uitkomsten niet zeker, maar waarschijnlijkheden. Dit terwijl regelgebaseerde expertsystemen juist wel zekerheid konden bieden. ML bleef dan ook lange tijd een ondergesneeuwd kind, totdat begin jaren tien de groei van bigdataverwerking het ineens haalbaar maakte om ML praktisch in te zetten. En dat gebeurde massaal.

ML-systemen zijn technisch zeer knap, maar ook heel ondoorzichtig. Het fundamentele punt is immers dat de machine zelf een patroon of scheidslijn zoekt in de data en op die basis nieuwe invoeren classificeert, bij voorkeur zelfs zonder een startset met door mensen aangebrachte labels. (Ik had nog een grap over dnn's, maar ik krijg hem niet uitgelegd.) En dat leidt weer tot een wezenlijk aspect dat vaak niet wordt begrepen: een ML-uitspraak is niet te herleiden tot de beslisregels die mensen gebruiken om tot een gelijksoortige uitspraak te komen. Volgens een klassiek expertsysteem is dat dier een konijn vanwege de pluizige staart en korte oren; volgens een ML-systeem is dit zo omdat bepaalde neuronen veel waarde aan dat label toekenden.

Er is een cartoon in omloop van een wetenschapper die een statistische plot heeft, er een schilderijlijst omheen doet en het AI noemt. Daar zit een kern van waarheid in: veel AI-toepassingen zijn niet meer dan aangeklede statistiekgedreven processen waarbij de uitvoer ongecontroleerd het vervolgproces in gaat. En dat is best spannend als je dat inzet in een overheids- of bedrijfsproces dat iets doet met mensen.

Machines die beslissen over mensen

Er zijn veel incidenten geweest waarbij AI, zowel klassieke expertsystemen als ML-gedreven systemen, pijnlijke of juridisch onjuiste uitspraken deden. Dat varieert van een ML-gedreven systeem met een grote, maar vooringenomen dataset, zoals het Compas-systeem dat de kans op recidivisme berekent, tot de Fraudescorekaart, een enorme Excel-sheet waarmee gemeentes bijstandsgerechtigden profileerden op frauderisico, op basis van nooit geteste factoren. Vanuit China zijn veel verhalen bekend over socialcreditscoring, waarbij burgers op basis van algoritmisch bepaalde plus- en minpunten sociale rechten ontnomen worden. Uit Terminator 2 is bekend dat autonome wapensystemen de wereld kunnen vernietigen. En nee, dat is geen grap: beeldvorming uit de media is van enorme invloed op het risicogestuurd denken bij juristen en de wetgever. Onze wetgeving tegen computercriminaliteit is direct te herleiden tot WarGames, bijvoorbeeld.

De zorgen over deze besluitvorming zijn al net zo oud als het vakgebied van de gegevensbescherming, maar de eerste grote mijlpaal was in 1995: de Richtlijn bescherming persoonsgegevens (waar onze Wbp vandaan komt), de voorloper van de AVG, bepaalde toen dat mensen niet onderworpen mochten worden aan geautomatiseerde besluitvorming op basis van een profiel. Een profiel is een verzameling persoonsgegevens dat iets over een persoon zegt, en dat geacht wordt representatief voor die persoon te zijn. De bepaling was nogal vaag geformuleerd en werd, net als de rest van de Richtlijn, vrij breed genegeerd door de techsector, mooie woorden in privacystatements daargelaten. Pas met de introductie van de AVG, die concreet een forse boete hing aan een overtreding, begonnen bedrijven zich zorgen te maken over compliance bij automatische besluitvorming en onderscheid te maken op basis van gegevensprofielen.

De recentste poging van de wetgever om dit soort systemen aan banden te leggen heet de AI Act, de verkorte naam voor het 'Voorstel voor een verordening van het Europees Parlement en de Raad tot vaststelling van geharmoniseerde regels betreffende artificiële intelligentie', ofwel de Wet op de artificiële intelligentie. Deze leidde tot wijziging van bepaalde wetgevingshandelingen van de Unie. De insteek: risicobeperking voor Europese burgers en beschermen van grondrechten, vooral gericht op problemen vanuit ondoorzichtigheid, complexiteit, afhankelijkheid van data en autonoom gedrag van AI-systemen. De lijst van voorbeelden loopt van bescherming van werknemers tot surveillance in de openbare ruimte, subliminale beïnvloeding en zelfrijdende auto’s. Dat komt door de nogal brede definitie van AI, die nogal wat losmaakte.

AI, expertsystemen, regelgebaseerde algoritmes, zelflerende systemen, ML: er zijn nogal wat termen in omloop die ongeveer hetzelfde bedoelen, maar net op een iets andere manier. Voor de juridische praktijk is de definitie van de EU-expertgroep uit 2019 de belangrijkste: een systeem dat uit ontvangen gegevens informatie extraheert, daarmee beslist welke handelingen het beste een gesteld doel kunnen halen en die handelingen vervolgens uitvoert. Dergelijke handelingen zijn bijvoorbeeld een voorspelling, een aanbeveling of een beslissing, maar kunnen ook zelfgegenereerde uitvoer zoals teksten of afbeeldingen zijn. Een systeem is dus niet pas AI als het autonoom rondloopt of de besluiten zelf oplegt; een door de mens trouw gevolgde aanbeveling maakt een systeem óók AI.
Dit lijkt enorm breed, want een Excel-filter op je klantenbestand, of bestand met bijstandsgerechtigden, loslaten, maakt dus dat je straks onder die AI Act gaat vallen. Maar dat is dan ook precies de bedoeling.

Machines die beslissen

ML-systemen, en meer algemeen AI-systemen, trekken conclusies op basis van invoer en verbinden daar een handeling aan. Een auto die zichzelf netjes inparkeert, een camera die een gezicht matcht met een lijst geautoriseerde bezoekers, of een algoritme dat antwoorden op vragen aan het EHRM voorspelt, de lijst is in beginsel eindeloos. Deze flexibiliteit en schaalbaarheid heeft een enorme populariteit gegeven aan ML-gebaseerde beslissystemen.

Camera politie China
Afbeelding van een test uit 2018 door de Chinese politie in Peking, waarbij brillen met camera's gebruikt werden om verdachten in mensenmassa's op te sporen.

Er is echter een cruciaal aspect van ML-systemen en dat is hoe deze tot hun conclusies komen. Menselijke beslissers werken, net als expertsystemen, met redeneerregels. Bijvoorbeeld: als iemand samenwoont, en hun gezamenlijke inkomen is meer dan 12.000 euro en de gasrekening bedraagt meer dan 150 euro per maand, dan nader onderzoeken op toeslagenfraude. We noemen dit ook wel deductie, het afleiden van conclusies uit algemene regels. In het voorbeeld is de algemene regel dat de drie factoren elk indicatoren zijn voor fraude, en met zijn drieën genoeg voor nader onderzoek.

ML-systemen werken inductief: zij leiden redeneerregels af uit de data en passen die vervolgens toe op nieuwe situaties. Bijvoorbeeld: de data laat zien dat een gasrekening van meer dan 150 euro vaak samengaat met fraudeurschap, net als een leeftijd hebben tussen de 18 en 32 jaar. De redeneerregel wordt dan: als de gasrekening boven de 150 euro is of de leeftijd is 18 tot 32 jaar, dan nader onderzoeken op toeslagenfraude. In dit voorbeeld is de leeftijdscategorie een toevallige samenloop met fraudeurschap, maar het systeem heeft hier wel de regel mede op gebaseerd omdat de data dit laat zien.

Dit verschil raakt aan de uitlegbaarheid van uitspraken en beslissingen van AI. Redeneerregels van menselijke beslissers zijn te motiveren, omdat de algemene regels beschikbaar zijn. Uit inductie verkregen regels zijn dat niet: het algoritme weet dat de leeftijdscategorie van 18 tot 32 jaar relevant is, maar kan daar geen waarom aan koppelen. Hoewel wetgeving, zoals de AVG, artikel 13 lid 2 sub f, eist dat uitleg over de onderliggende logica gegeven wordt bij automatische beslissingen zoals deze, is dat in de praktijk dus zo goed als onmogelijk. Dat maakt inzet van AI fundamenteel problematisch.

Een belangrijk probleem bij analyse van datasets is vooringenomenheid, oftewel bias. Dit is het verschijnsel dat een ML-systeem patronen in de data heeft gevonden die negatief uitpakken voor bepaalde groepen. Veel mensen noemen dit dan discriminatie. Strikt gesproken zit er geen bedoeling bij om groepen te benadelen. Een algoritme handelt zuiver op basis van de data, en zoekt de verdeling die het beste past bij het gestelde doel. Er is voor ML geen verschil tussen 'geen' uit het veld 'werkervaring' of 'vrouwentennis' uit het veld 'hobby’s' correleren aan 'afgewezen sollicitant'; bits hebben geen kleur. Voor mensen is het onderscheid tussen deze informatie-elementen echter enorm: het is niet de bedoeling dat we mensen afwijzen omdat ze vrouw zijn.

Vanwege deze problemen is de insteek van de AI Act zuiver risicogebaseerd: het doet er niet toe of je werkt met ML, expertsystemen of met een filter in Excel, waar het om gaat is of er risico’s ontstaan voor mensen. AI met zeer hoge risico’s, zoals socialcreditscoring, wordt verboden; bij hoge risico’s, zoals het screenen van sollicitanten, moet de leverancier zware maatregelen nemen om deze in te perken. Deze aanpak heeft het voordeel van daadwerkelijke technologieneutraliteit: het maakt niet uit hoe het werkt, als het maar veilig is.

Regulering van machines

De structuur van de voorgestelde AI Act is opgezet op drie niveaus. Op het hoogste niveau bevinden zich de onacceptabele AI’s: inzet daarvan is in strijd met fundamentele waarden in de EU, zoals bij socialcreditscoring of de inzet van subliminale technieken om mensen schade toe te brengen, zoals analyseren of iemand ongelukkig is en haar dan haarlemmerolieproducten aansmeren. Deze producten mogen niet worden gebruikt in de hele EU.

Europarlement

Het middenniveau zit in AI’s met een hoog risico voor mensen bij ongecontroleerde inzet. Denk hier aan biometrie in de openbare ruimte, beheer van de infrastructuur, selectie en werving van personeel, rechtshandhaving of grenscontroles. Dergelijke systemen zijn alleen toegelaten als ze aan strenge regels worden onderworpen, vooral een AI Impact Assessment om de risico’s vooraf in kaart te brengen, een gedocumenteerd ontwerp- en verbeterproces en transparantie over de manier van werken. Overige AI’s noemen we 'laag risico' en die mogen in principe hun gang gaan. Blijkt het dan toch mis te gaan, dan kan de Europese Commissie ze alsnog 'hoog risico' verklaren.

De AI Act moet nog door het Europees Parlement worden beoordeeld, dus het zal nog even duren voordat, een enige versie van, deze wet erdoor is. Maar het signaal is duidelijk genoeg: het gaat niet om wat AI is, het gaat erom welke risico’s mensen lopen. En die risico’s gaan we aan banden leggen.

Reacties (47)

47
47
27
9
0
18
Wijzig sortering
ML-systemen zijn technisch zeer knap, maar ook heel ondoorzichtig. Het fundamentele punt is immers dat de machine zelf een patroon of scheidslijn zoekt in de data en op die basis nieuwe invoeren classificeert, bij voorkeur zelfs zonder een startset met door mensen aangebrachte labels. (Ik had nog een grap over dnn's, maar ik krijg hem niet uitgelegd.) En dat leidt weer tot een wezenlijk aspect dat vaak niet wordt begrepen: een ML-uitspraak is niet te herleiden tot de beslisregels die mensen gebruiken om tot een gelijksoortige uitspraak te komen.
Dit vind ik wat te kortzichtig. Het is inderdaad waar dat de 'klassieke' AI simpelweg patronen zoekt en dat je uit dat soort modellen bij retrospectief onderzoek er geen beslisregels uit kan herleiden. Echter, er wordt veel werk verzet in 'explainable AI' waarbij we precies kunnen terugleiden hoe een AI tot een bepaalde beslissing is gekomen en welke gegevens daarbij een rol hebben gespeeld. De focus ligt daarbij op uitlegbaarheid en statistische significantie. Is het model tot een bepaalde keuze gekomen maar ligt deze dichbtbij de 'beslisgrens' dan weet je dat. Een mooi voorbeeld van een recent ontwikkeling op dit gebied zijn XBN's, oftewel Explainable Bayesian Networks (zie: https://arxiv.org/abs/2101.11844). Je zegt verder:
Er is echter een cruciaal aspect van ML-systemen en dat is hoe deze tot hun conclusies komen. Menselijke beslissers werken, net als expertsystemen, met redeneerregels. Bijvoorbeeld: als iemand samenwoont, en hun gezamenlijke inkomen is meer dan 12.000 euro en de gasrekening bedraagt meer dan 150 euro per maand, dan nader onderzoeken op toeslagenfraude.
En hoe zijn mensen tot deze regels gekomen? Die zijn toch gebaseerd op onderzoek? Als we weten welke gegevens een rol gespeeld hebben dan kunnen we op dezelfde manier de output van AI modellen koppelen aan onderzoek. Als dat niet mogelijk is dan moeten we óf de uitslag niet accepteren omdat we deze niet kunnen uitleggen óf we doen meer onderzoek waarbij we proberen het gevonden verband te verklaren.

edit: typo

[Reactie gewijzigd door langestefan op 22 juli 2024 22:52]

Eens met wat je zegt, en ik ken het werk rond XAI. Mijn punt is iets fundamenteler: de uitleg van een AI komt in mijn beleving altijd neer op zeg maar "leeftijd was tussen 18-25 en rekening 150 euro daarom fraudesignalering". Dat is mooi maar hoezó is dat een factor van belang?

Natuurlijk heb je bij klassieke menselijke besluitvorming ook soms vage criteria. Hoezo moet je 18 zijn om een auto te mogen besturen? Als je dan dieper graaft, kom je soms bij onderzoek uit de jaren dertig dat men iemand van 18 als volwassen ziet, en dat volwassenen auto's moeten kunnen besturen. (En dus tegenspraken dat je ook alcohol mag kopen terwijl dat medisch gezien pas bij 25+ niet zo onverstandig is.) Of dat het om pragmatische redenen handig uitkwam, die 18. Maar dan wordt de regel gedragen door de maatschappij.

Anders gezegd: de menselijke regel kán uit onderzoek komen, maar dat hoeft niet. Maar een menselijke regel wordt gewoonlijk wel gedragen door wat mensen vinden, en is in ieder geval begrijpelijk langs menselijke factoren zoals "volwassenen bepalen zelf hun gezondheid". Dat heeft een AI niet noodzakelijkerwijs, zelfs niet als je die loslaat op een representatieve dataset van de maatschappij. En dat zie ik als een fundamenteel punt, want hoe overtuig je iemand van de juistheid van je argument als jouw betoog niet loopt langs de lijnen die de ander belangrijk vindt?
Eens met wat je zegt, en ik ken het werk rond XAI. Mijn punt is iets fundamenteler: de uitleg van een AI komt in mijn beleving altijd neer op zeg maar "leeftijd was tussen 18-25 en rekening 150 euro daarom fraudesignalering". Dat is mooi maar hoezó is dat een factor van belang?
Daar hebben we dan weer experts voor. Die kunnen de causale verbanden leggen, op basis van relevant onderzoek. De paper die ik deelde geeft een mooi voorbeeld:
The final type of probabilistic reasoning in BNs is inter-causal reasoning, which relates to mutual causes of a common effect – typically indicated by a v-structure in the network.
...
From the Asia network, we observe a v-structure between Tuberculosis, Lung Cancer and Tuberculosis or Cancer (see Figure 2a). Here, Tuberculosis is independent from Lung cancer. Suppose we observe the patient has either Tuberculosis or Cancer – indicated by the green (or light grey if viewed in grey-scale) bar in Figure 2b – then this observation increases the probabilities of the parent nodes, Tuberculosis and Lung Cancer. However, if it is then revealed that the patient does, in fact, have Tuberculosis it, in turn, lowers the probability of a patient having Lung Cancer (see Figure 2c). We can then say Lung Cancer has been explained away.
Natuurlijk heb je bij klassieke menselijke besluitvorming ook soms vage criteria. Hoezo moet je 18 zijn om een auto te mogen besturen? Als je dan dieper graaft, kom je soms bij onderzoek uit de jaren dertig dat men iemand van 18 als volwassen ziet, en dat volwassenen auto's moeten kunnen besturen. (En dus tegenspraken dat je ook alcohol mag kopen terwijl dat medisch gezien pas bij 25+ niet zo onverstandig is.) Of dat het om pragmatische redenen handig uitkwam, die 18. Maar dan wordt de regel gedragen door de maatschappij.
Dit vind ik wel een goed punt op zich, niet alles is uit data af te leiden en daar kijk ik ook vaak overheen.
Anders gezegd: de menselijke regel kán uit onderzoek komen, maar dat hoeft niet. Maar een menselijke regel wordt gewoonlijk wel gedragen door wat mensen vinden, en is in ieder geval begrijpelijk langs menselijke factoren zoals "volwassenen bepalen zelf hun gezondheid". Dat heeft een AI niet noodzakelijkerwijs, zelfs niet als je die loslaat op een representatieve dataset van de maatschappij.
In een Bayesian network kunnen we regels en aannames expliciet definiëren, dit noem ik voorkennis. Experts kunnen voorkennis definiëren door het opstellen van een set regels. Of die regels gebaseerd zijn op onderzoek of dat het een menselijke regel is doet er dan niet toe. Zulke regels vormen een beperking voor het model (vaak 'model constraint' of 'regularization' genoemd).
En dat zie ik als een fundamenteel punt, want hoe overtuig je iemand van de juistheid van je argument als jouw betoog niet loopt langs de lijnen die de ander belangrijk vindt?
Ik volg je niet helemaal hier, dit is toch een probleem voor beleidvorming in het algemeen?
Daar hebben we dan weer experts voor. Die kunnen de causale verbanden leggen, op basis van relevant onderzoek. De paper die ik deelde geeft een mooi voorbeeld:
Dat kan werken in de exacte wetenschappen, maar in de juridische wereld zou ik écht niet de stelling aandurven dat er überhaupt een onderliggende eenduidige lijn is die zaken in schuldig/onschuldig gelijk/ongelijk verdeelt.
Ik volg je niet helemaal hier, dit is toch een probleem voor beleidvorming in het algemeen?
Ik zie het als heel fundamenteel dat een AI systeem niet verder komt dan "factoren A, B en C wogen het zwaarst". Of misschien iets generieker "factoren A, B en C zijn de efficiëntste verdeler tussen schuldig en onschuldig met slechts 0,01 false positive".

Maar wat moet ik met die factoren in mijn juridische redenering? Hoe leg ik aan een mens uit dat leeftijd, geldbedrag en zeg wel/niet roken indicatief zijn voor fraudeurschap?

Misschien is het onderliggende verschil wel dat er in de wetenschap regels zíjn en dat AI die kan ontdekken gegeven genoeg data. Dat is wat wetenschappers ook doen, falsifieerbare stellingen bedenken om tot theorieën te komen. Maar in kunsten zoals het recht zijn er geen harde regels die met genoeg data aangewezen kunnen worden. Alle regels zijn zacht en je moet maar hopen dat jouw regel generaliseerbaar is, daarbij geldt dat we interpretatie van regels langs andere lijn doen dan de lijnen die je in de data kunt herkennen. Dat is heel ingewikkeld.
Dat kan werken in de exacte wetenschappen, maar in de juridische wereld zou ik écht niet de stelling aandurven dat er überhaupt een onderliggende eenduidige lijn is die zaken in schuldig/onschuldig gelijk/ongelijk verdeelt.
Goed punt. In je artikel heb je het echter over indicatoren:
In het voorbeeld is de algemene regel dat de drie factoren elk indicatoren zijn voor fraude, en met zijn drieën genoeg voor nader onderzoek.
En verder zeg je:
Dergelijke handelingen zijn bijvoorbeeld een voorspelling, een aanbeveling of een beslissing, maar kunnen ook zelfgegenereerde uitvoer zoals teksten of afbeeldingen zijn. Een systeem is dus niet pas AI als het autonoom rondloopt of de besluiten zelf oplegt; een door de mens trouw gevolgde aanbeveling maakt een systeem óók AI.
Is het dan zo dat de classificatie schuldig/onschuldig juridisch niet houdbaar is, of is indicatie voor verder onderzoek dat al niet? Zit er dan nog verschil tussen een risico percentage of een classificatie wel/geen risico?
Daar heb je gelijk in, echter indicatoren hebben de neiging te verworden tot harde uitspraken: de computer zegt dat u verdacht bent, dus bent u schuldig want de computer heeft negen cijfers achter de komma, dat moet wel zeker zijn.

Ik denk dat juridisch gezien je een AI wel als mede-indicator kunt gebruiken: er zijn drie klachten over stankoverlast met weeïge geur, de energiemaatschappij geeft het signaal "ongebruikelijk veel stroom" en de AI zegt "mogelijk wietkweker", dat rechtvaardigt een huiszoeking. Een veroordeling enkel op een AI uitspraak zal er niet komen. Al is het maar omdat het strafrecht twee stuks bewijs eist, dus hoe dan ook naast de AI nog iets.

Maar de AI is hierin een black box, en dat vind ik zorgelijk. Ja, hij zal vast factoren noemen zoals "een huisnummer met toevoeging is vaker een wietkwekerij" en dat zal uit de data volgen, maar dat is geen factor waar wij als mens op reageren. "Ongebruikelijk veel stroom" plus "weeïge geur" plus "ongure types gemeld 's nachts in en uitgaand" dat zijn factoren die wij als mensen snappen, daar is iets niet pluis en die geur is typisch voor wiet. Maar zo'n huisnummer en wellicht dingen als "huurder is tussen 18 en 28, geen vaste baan en heel weinig pintransacties" daar moet je toch geen huiszoeking wegens wietkweken mee kunnen rechtvaardigen?
Bedankt voor je uitgebreide antwoorden, ik zit nog met veel meer vragen maar ik ga er nu eerst zelf even mee aan de slag. In mijn gebied (medische AI) is alles wat je genoemd hebt namelijk ook zeer relevant.

PS. Geef je wel eens gastcolleges over dit thema?
Zolang die black box niet te veel false positives of false negatives geeft, who cares. Dank zij die box worden er meer wietplantages opgeruimd.
Nope nope. Want een ai zet dingen gelijk vast voor de toekomst op basis van het verleden. Hier bijv zullen wiet kwekerijen in het Gooi waar alle rijke lui wonen nooit gepakt worden want ja, dat was in het verleden ook nooit. Je moet dat juist aan mensen overlaten, zodat we weten wat er gaande is en waarom.
...indicatoren hebben de neiging te verworden tot harde uitspraken...
Daar zit volgens mij de hele crux.

Ik denk bijvoorbeeld aan de belastingdienst. Het zoeken naar fraudeurs gebeurde ook al zonder AI. Inspecteurs die speur(d)en naar mogelijke fraudeurs zullen vast ook wat eenvoudige, soms dubieuze criteria hanteren om een eerste schifting te maken. Die criteria zullen misschien van persoon tot persoon verschillen en vrijwel nooit expliciet/doorzichtig zijn.

Ik denk dat je de AI in die rol moet zien. De eerste schifting. Je kunt zelfs eenvoudig meten hoe goed die eerste schifting is. Op zichzelf is dat prettig, sowieso vanuit efficientie oogpunt.

Vervolgens komt het punt dat je als inspecteur in de geselecteerde dossiers zult gaan kijken om te achterhalen of sprake is van fraude en eventueel het (juridisch) bewijs daarvoor te verzamelen.

De fout is inderdaad om die laatste stap over te slaan, en iedereen uit de eerste schifting direct als fraudeur te bestempelen. Financieel gezien wel enigszins begrijpelijk, maar vanuit teveel vertrouwen (wishful thinking) in de huidige stand van AI.
Zowel op model niveau (globaal) en op specifiek niveau (lokaal) zijn er technieken om de impact van je features in kaart te brengen (d.m.v. een surrogaatmodel die in essentie enkel naar de verandering in output van je model kijkt o.b.v. veranderende input, voordeel is dat het op ieder model toepasbaar is). Vooral SHAP wordt veel gebruikt (gebaseerd op shapley values) en LIME.

Verre van perfect, maar dat "Dat is mooi maar hoezó is dat een factor van belang?" is zeker wel antwoord op te geven. Ook met counterfactals ("Als de waarde van feature1 10 i.p.v. 20 was, was deze case niét als fraude gecategoriseerd.').

Causale "waaroms" zitten simpelweg niet in de meeste datasets (en is voor mensen ook enkel over te speculeren), dus kan je niet verwachten van een AI-systeem (alleen bij longitudinale data, en zelfs dan kan je effecten hebben dat het lijkt dat A de oorzaak is van B, maar eigenlijk is de ongemeten feature X de oorzaak van allebei).
Eens dat je het niet behoort te verwachten. Het probleem is dat beslissers/gebruikers dat toch wel doen en daarna zich in allerlei bochten gaan wringen om te duiden wat niet geduid kan worden. Ik zeg altijd: wij mensen zijn enorm goed in het verzinnen van patronen en verklaringen in chaos, en dat is een risico bij AI want dan ga je goedpraten wat de AI zegt omdat jij een patroon ziet in "leeftijd 18-24, draagt petje, rijdt Golf".
Gezien de enorme aantallen algoritmes overal, wie gaat er eigenlijk bepalen of een algoritme een hoog of laag risico heeft? Is een spamfilter van de bezwaarcommissie van een gemeente een hoog of laag risico AI?

Verder ben ik wel benieuwd naar de rol van bias. Mag een laag risico AI discriminerend zijn? En welke definitie van bias moet worden gehanteerd hierbij?
Dat gaat de Europese Commissie bepalen. Er zit een lijst bij ((Annex III) waarin staat wat ze nu al high-risk vinden (https://eur-lex.europa.eu.../?uri=CELEX%3A52021PC0206) en die lijst mag men herzien als daar aanleiding toe is.

Paar voorbeelden:
- biometrische identificatie
- screening van toelating bij onderwijs
- recruitment en evaluatie personeel
‘- predictive policing
Mooi artikel. Misschien goed om te vermelden dat de AI act nu nog bij de lidstaten ligt? De draft versie is al meerdere malen heen en waar is gegaan tussen de commissie en lidstaten, en veel scherpe puntjes over definitie en indeling in de categorieën zijn er al uitgehaald. Ook goed tussen de regels te lezen dat dit natuurlijk niet een "AI act" is maar een "algoritme act".

Waar ik nog wel zorgen over heb gaat over de suggesties die er zijn om AI te toetsen. Oorspronkelijk zou je eens per jaar je algoritme en data naar een werkgroep van de commissie moeten sturen. Dat is natuurlijk onmogelijk, los van het feit dat machine learning algoritmen of deep learning systemen op deze wijze ontoetsbaar zijn.
Ik vind de titel "Hoe beperken we de risico's van AI?" niet de juiste. Het gaat in het artikel voornamelijk om het verzamelen van data. Het zou eigen "Hoe beperken we de risico's van het verzamelen van steeds meer gegevens.

Als ik aan het risico van AI denk, dan denk ik aan het risico van AI ten opzichte van het voortbestaan van de mens. Beetje zonde dat ik door deze verwarring mijn laatste gratis premium artikel heb gespendeerd.
Als ik aan het risico van AI denk, dan denk ik aan het risico van AI ten opzichte van het voortbestaan van de mens
Omdat dit fictie is en het artikel praktijk beschrijft.
Zit er nog een wezenlijk verschil tussen de AI gebruiken om informatie te verzamelen en vervolgens op acteren? Uit het voorbeeld over de fraude bij meer dan 150 euro gasverbruik en leeftijd, als dit leidt tot actie, als fraudeur bestempelen en uitkering stoppen, is veel kwalijker dan een lijstje genereren met namen die eens goed onderzocht moeten worden (en dan dus ook alle bewijzen opnieuw bekijken).
Ik denk dat je dan uit komt op hetzelfde als wanneer de politie meer gaat patrouilleren in wijken waar eerder veel kleine criminaliteit plaats vond. Doordat de politie er vaker is, zullen ze vaker in moeten grijpen waardoor de cijfers omhoog gaan waardoor er nog vaker politie in de wijk is. Dat is prima als het de enige wijk is waar criminaliteit is, maar waarschijnlijk gebeurt er in de wijk ernaast precies net zo veel maar wordt het gewoon minder vaak gerapporteerd.

Wat jij voor stelt is misschien wel een weg naar een oplossing; wat als AI de "top 100" lijstjes met parameters waarmee de meest waarschijnlijke fraudegevallen naar voren zouden kunnen komen. In het voorbeeld zou een mens dus naar "150 euro gasverbruik en leeftijd 18-32 jaar" kunnen kijken en concluderen dat dit waarschijnlijk studenten zijn die illegaal onderverhuren. Op basis daarvan kan dan nogmaals naar de data gekeken worden en (ditmaal zonder dat je AI nodig hebt) een lijst genereren met mensen die aan deze voorwaarden voldoen.

Dan kom je alleen ook weer uit als situaties met de Bulgarenfraude waarbij de politiek strenger wilde optreden tegen alle (mogelijke) fraudeurs aan de hand van een klein voorbeeld, gevolgd door het ontdekken van toeslagenfraude gefaciliteerd door bepaalde bedrijven die toevallig(?) als klant een grote groep mensen met tweede nationaliteit hadden, waarna deze groep mensen meer werd onderzocht dan mensen met een enkele nationaliteit en wat uiteindelijk zorgde dat de meeste ontdekte "toeslagenfraude"-gevallen in de groep met tweede nationaliteit vielen. Deze combinatie maakte 1) dat mensen die (kleine) fraude pleegden hier enorm hard voor werden gestraft en 2) dat achteraf gezien bepaalde mensen een grotere kans hadden om betrapt te worden alleen maar omdat ze een tweede nationaliteit hadden en dus vaker werden gecontroleerd. Als in beide gevallen geen algoritmes maar steekproeven waren gehouden, was de consequentie op fraude nooit zo hoog geworden (alles terugbetalen) én waren er waarschijnlijk minder mensen daadwerkelijk betrapt op frauderen.
Denk dat daar idd het gevaar in zit: Door statistieken vertekend beeld, waarbij in dit voorbeeld de groepen die ook frauderen, maar niet matchen, niet meer in het profiel naar boven komen.
Je zult bij zo'n fraude AI (en anderen) ook altijd andere willekeurige (?) steekproeven moeten nemen.
Laat de AI een gewogen loting genereren, en gebruik de resultaten om het systeem te verbeteren.
We hebben bij Tesla's autopilot gezien dat blind varen op zelflerende algoritmes niet verstandig is.
Waar het probleem wat mij betreft ligt is dat de uiteindelijke controle door menselijke inspecteurs wordt gedaan en mensen zijn gevoelig voor vooroordelen, wat je dan kunt krijgen is dat als jij een bonnetje kwijt bent dat de inspecteurs het wegwuift met een "het zal wel kloppen" terwijl bij iemand die op de lijst staat hij eerder kan denken "Zie je wel, ik wist het. Terugvorderen dat geld" afhankelijk van welke criteria voor de lijst worden gebruikt loop je dan een groot risico op het ongelijk behandelen van verschillende bevolkingsgroepen. Hetzelfde met de toeslagenramp, het systeem deed alleen wat het systeem werd verteld te doen, het was de menselijke maat die volledig verdween door de overtuiging dat als je op de lijst staat dat je een fraudeur bent, en een zeer klein foutje werd vaak kolossaal afgestraft met volledige terugvordering en stopzetting, de menselijke maat was volledig verdwenen.
Als mensen (en dat zijn ze onbewust) gevoelig zijn voor bias (anchor of confirmation) dan komt die gevoeligheid ook terecht is AI/ML.

Elke programmeur /architect heeft wel een onbewuste blinde vlek en die gaan we terug zien in AI.
Wat ik aan wil geven is dat je prima een AI kunt maken die niet kijkt naar nationaliteit, geloof e.d. je bied die data niet aan en vertelt de AI niet het concept van nationaliteit, geloof e.d. en dan weet de AI niet eens van het bestaan van dergelijke dingen af. Ook kun je hem rustig vertellen dat hij bijvoorbeeld namen niet mag verwerken. Zo'n AI is eigenlijk net zo dom als een baksteen en doet alleen wat je wilt dat hij doet.

Echter komen er lijsten uit en de mens gaat daarin kijken, de mens kun je in tegenstelling tot een AI niet zover krijgen dat nationaliteit, geloof e.d. niet worden meegenomen in een afweging. Mensen zijn geen machines. Probleem met die lijsten is dat bevolkingsgroepen die oververtegenwoordigd zijn al snel door een mens anders worden aangekeken dan bevolkingsgroepen die daar amper in voorkomen en dan krijg je ondanks dat je AI keurig op orde is alsnog dat bijvoorbeeld Friezen veel strenger zouden worden behandeld dan Groningers.
Eigenlijk is in eerste (statistische) aanleg profilering helemaal niet zo erg. Het maakt voor de handhavingsdoelstelling immers helemaal niet uit wie de overtreding begaat. Profilering of niet, als je in overtreding bent zit je fout. Voor de kosten van handhaving is het gewoon efficiënt om de controle te richten op een selectie waar veel overtredingen voorkomen.

Wat ik zo vreemd vind is dat de statistische feedback loop die eindeloos profileren van dezelfde groepen niet lijkt te werken. Stel dat, in jaar 1, een systeem een etnische groep X profileert en alle controles zich voornamelijk op die groep zullen richten. In jaar 2 doet het systeem wegens succes in jaar 1 hetzelfde. Nu vinden we echter veel minder overtreders binnen etnische groep X want deze zijn in jaar 1 al tegen de lamp gelopen. In jaar 3 profileert het systeem nauwelijks meer op etnische groep X want de overtreders binnen die groep zijn uitgeput waardoor het systeem naar een andere profiel zoekt om het meeste rendement uit de controles te halen.

De enige manier waarop etnische groep X jaar op jaar gecontroleerd wordt is als er binnen die groep ieder jaar opnieuw veel overtreders zijn waardoor de bias bevestigd wordt.
Profilering kent vele gevaren, het kan een zelfvervullende voorspelling worden, want stel jaar 1 meer problemen bij groep X, dus ga je je meer richten op groep X. Als groep X in jaar 2 gemiddelde problemen zou geven dan zul je toch een bovengemiddelde hoeveelheid aantreffen omdat je die groep meer in de gaten houdt en controleert dan andere groepen en dat kan zich dan eindeloos herhalen. Andersom kun je een groep die in de eerste jaren geen problemen gaf over het hoofd gaan zien en dan een eventuele sterke toename in problematiek aldaar missen.

Daarnaast speelt ook nog mee dat een groep die je extra in de gaten houdt zich benadeelt zal gaan voelen, als men jou toch als een crimineel ziet en jou ook zo behandelt en het zelfs je maatschappelijke kansen zou gaan beïnvloeden, nou laat die schoolopleiding dan maar zitten beter steel je wat auto's en verkoop je wat drugs, en zo kan de profilering een oneindige cirkel worden.
Die feedbacklus werkt in de praktijk wel, omdat de groep X veelal groot genoeg is en/of weer instroom krijgt van de bestrafte overtreders. Meestal gaat het namelijk om kleine overtredingen met een geldboete of korte hechtenis, we hebben het niet over grootschalige moordpartijen of georganiseerde misdaad. Concreet bijvoorbeeld zwervers en winkeldiefstal of overlast/dronkenschap, zoals menig agent weet kun je een bus vullen met je wekelijkse recidivisten.

Dan klopt het als je elke week die bus beboet, want dat zijn dronken overlastgevers. Maar ondertussen laat je andere overlastgevers gaan én die zwervers komen niet meer los van de cirkel van steeds beboet/aangehouden waardoor ze niet bijvoorbeeld kunnen zoeken naar een baantje met daarna inkomen en mogelijk een baan. Of zelfs maar een traject bij de ggd, want steeds gearresteerd worden betekent afspraken missen en dus uit het traject.
Ik vind het een erg leuk geschreven en zeer informatief artikel, complimenten.

Het klinkt allemaal wel erg logisch en ik ben blij dat het de mensen verder moet beschermen na de paar zeer duidelijk situaties waarin het ontdekt is dat het mis gegaan is.

Na het lezen van het hele verhaal ben ik alleen wel benieuwd wat jij van de AI act vindt? Zou het genoeg zijn? AI/ML is natuurlijk een middel waarmee veel bedrijven (en mensen) veel geld mee verdienen, iets wat vaak niet gemakkelijk opgegeven wordt.
Het is een goed idee, met name door uit te gaan van risicofactoren in plaats van technologie. Dat maakt je echt toekomstbestendig.

Het is maar een concept dus lastig precies te zeggen waar het op uit zal komen.
TLDR: er zijn 3 "niveaus":
1. verboden: onacceptabel wegens in strijd met "de waarden van de EU"
2. hoog risico voor mensen bij ongecontroleerde inzet: alleen toegelaten als ze aan "strenge regels" voldoen
3. al de rest: doe maar op totdat we zien dat het misgaat, dan vlieg je een niveau hoger

Ben ik de enige die hier in de kortzichtigeheid van de wetgevende macht zie gecombineerd worden met lobbywerk van de techindustrie en voor de volledigheid iets wat er tussen valt?

Ik had gehoopt dat er inhoud ging gegeven worden aan het voorstel en concreet ging zijn, maar blijf na een half uurtje geschiedenis en een noob-guide to AI met een onvoldaan gevoel achter :/
Niveau 3 is een restcategorie omdat het onmogelijk is om alle AI te categoriseren, en van deze categorie vanuit kan worden gegaan dat er geen probleem is. Een paar voorbeelden waar we het over kunnen hebben:
- consumentenapparatuur. Zoals jouw stappenteller op je smartwatch. Of je een stap zet wordt "uitgerekend" door een AI algoritme. En alle andere functies op je smartwatch, telefoon etc. Of dat je aan het praten bent bij je ZOOM vergadering.
- onderzoek. zoals naar de invloed van wolken op de temperatuur / regenkansen in NL. Of dat jouw moedervlek onschuldig is. Idem al het andere onderzoek dat probeert uit data te begrijpen welke patronen een rol spelen in het fysieke of mogelijk sociale domein en daarna als hypothese verder worden onderzocht

Van dat soort algoritmen en AI regels zijn er veel. Heel veel. En het aantal groeit exponentieel. De waterkoker. De magnetron. Je airco in de auto (niet te spreken over de rest van je auto), je thermometer, je smart home apparaten (je RING deurbel!). Je CV ketel en je thermostaat. Het gaat echt maar door en door. En dat is dus allemaal AI

De EU heeft deze maar in de "rest" categorie gezet. No harm. Denken we nu.

[Reactie gewijzigd door oltk op 22 juli 2024 22:52]

Niveau 3 is een restcategorie omdat het onmogelijk is om alle AI te categoriseren, en van deze categorie vanuit kan worden gegaan dat er geen probleem is.
Dat is echter wat een wetgever wel zou moeten doen. Hetzelfde gebeurt immers met voertuigen: eens er een al dan niet mechanisch of elektrisch systeem in zit om het voort te laten bewegen is er regelgeving van toepassing en moet het aan speciale wetgeving voldoen (van een stepje tot een mobiele torenkraan).
Een paar voorbeelden waar we het over kunnen hebben:
- consumentenapparatuur. Zoals jouw stappenteller op je smartwatch. Of je een stap zet wordt "uitgerekend" door een AI algoritme. En alle andere functies op je smartwatch, telefoon etc. Of dat je aan het praten bent bij je ZOOM vergadering.
- onderzoek. zoals naar de invloed van wolken op de temperatuur / regenkansen in NL. Of dat jouw moedervlek onschuldig is. Idem al het andere onderzoek dat probeert uit data te begrijpen welke patronen een rol spelen in het fysieke of mogelijk sociale domein en daarna als hypothese verder worden onderzocht

Van dat soort algoritmen en AI regels zijn er veel. Heel veel. En het aantal groeit exponentieel. De waterkoker. De magnetron. Je airco in de auto (niet te spreken over de rest van je auto), je thermometer, je smart home apparaten (je RING deurbel!). Je CV ketel en je thermostaat. Het gaat echt maar door en door. En dat is dus allemaal AI

De EU heeft deze maar in de "rest" categorie gezet. No harm. Denken we nu.
denken ZIJ nu, zoals @Vincm al heeft aangegeven is die moedervlek-analyse al onderworpen aan medische regels, maar als je stappenteller data verstuurd over hoe fit je al dan niet bent, dan kan die ook gebruikt worden bij verzekeringsanalyse. Alles wat NIET verboden is, kan en zal op een bepaald moment commercieel worden uitgebuit.

Het is juist daarom dat wetgeving nodig is en deze laatste categorie mag daarom imho enkel bestaan voor devices zonder communicatiemogelijkheden zoals bvb een bewegingsdetector die enkel schakelt. Wat er achter die schakeling gebeurt is naast de kwestie qua wetgeving op de detector. Hang je een meter er aan die een notification stuurt, dan valt die meter in een andere categorie.
U bent zeker jurist en houdt van alles tot achter de komma doodregelen? Als u ziet aan welke regels je je moet houden inzake de AI act, zal de EU zichzelf hopeloos buitenspel zetten als onderzoek en ontwikkeling onderhevig is aan die act.

Het gaat hier om de "risicovolle toepassing".
Ik ben geen jurist nee, maar ik kan wel verder nadenken over wat er mogelijk is dan de meeste mensen. Als de wetgevende macht (zijnde de politiek) iets niet regelt, dan kan de rechterlijke macht (zijnde de rechtbank) er niet over oordelen en dus ook niet veroordelen, zelfs al vindt de rechter het zelf verwerpelijk en onwenselijk.

We hebben in het verleden gezien wat er bij onderzoek en ontwikkeling allemaal gedaan wordt als er onvoldoende wetgeving is. Proeven op mensen en later ook op dieren zijn pas strenger gereguleerd nadat mistoestanden aan het licht zijn gekomen. Zo mocht het leger lustig experimenteren met LSD op hun soldaten en pogingen gedaan om dierenhoofden te transplanteren, maar ook andere zaken zoals abortus op basis van geslacht van de foetus staan ter discussie.
Of dat jouw moedervlek onschuldig is
Software waarmee dit soort onderzoekjes/voorspellingen/diagnoses gedaan kunnen worden zijn een medisch hulpmiddel en die vallen in z'n algemeenheid in het huidige concept van de AI act by default in de categorie 'hoog risico'.

Er is in de wereld van medische hulpmiddelen, en dan met name bij Software-as-a-Medical-Device ontwikkelaars, veel te doen om de AI act. O.a. om deze shortcut naar hoog-risico (terwijl er wel degelijk laag-risico medische toepassingen te bednkene zijn) maar ook omdat er veel overlap is met de Europese wetgeving voor medische hulpmiddelen, daarin worden ook al (risico-gebaseerd) eisen gesteld aan de ontwikkelaars, het ontwikkelingsproces en natuurlijk het product zelf.

[Reactie gewijzigd door Vincm op 22 juli 2024 22:52]

Kan jij even doorlinken waar de software staat in de AI act? Ik heb geen softwarelijst gezien
Waar de software staat in de AI act? De hele AI act gaat min of meer over software.... Als je software-als-medisch-hulpmiddel bedoelt, zie pre-amble 30:
As regards AI systems that are safety components of products, or which are themselves products, falling within the scope of certain Union harmonisation legislation, it is appropriate to classify them as high-risk under this Regulation if the product in question undergoes the conformity assessment procedure with a third-party conformity assessment body pursuant to that relevant Union harmonisation legislation. In particular, such products are machinery, toys, lifts, equipment and protective systems intended for use in potentially explosive atmospheres, radio equipment, pressure equipment, recreational craft equipment, cableway installations, appliances burning gaseous fuels, medical devices, and in vitro diagnostic medical devices.
Los van het feit dat het hier dus niet om specifieke software gaat waar jij het over had ;) ben ik wel opgelucht. Want gelukkig maar. Ik heb ervoor geijverd dat onderzoek met AI uitgesloten is. En dat blijkt ook uit deze tekst dat ze het alleen hebben over producten.

En de toepassing in medische producten is uiteraard een ander verhaal.
Excuus, ik heb mijn eerste reactie wat aangepast om duidelijker te maken dat ik "software dat een medisch hulpmiddel is" bedoel.
En dan hebben we inderdaad nog de semantiek rondom "onderzoek", ik bedoel inderdaad geen wetenschappelijk onderzoek maar toepassingen als "onderzoek bij jezelf" c.q. een patient t.b.v. het voorspellen of stellen van een diagnose.
Ahh. Ja inderdaad. Medisch onderzoek is ook onderzoek. Die betekenis had ik even over het hoofd gezien! :)
Interessant artikel, dank.
Mooi een droge blik op AI en heldere geschiedenis ipv wat films maar ook blogs als waitbutwhy er vaak van maken. Nuttig daardoor imho.
Interessant artikel Arnoud. De ai act lijkt een raamwerk te gaan geven voor risico inschatting wat hopelijk weer gaat leiden tot een goed governance framework. De technische mogelijkheden tot risicobeheersing zijn er in ieder geval al wel, of worden ontwikkeld, in het mlops vakgebied
en haar dan haarlemmerolieproducten aansmeren. Deze producten mogen niet worden gebruikt in de hele EU.
Ik kende haarlemmerolie nog niet, mooi dat dat verboden is in de EU :+
Flauwe grappen daargelaten, interessante materie en leuk gebracht, met chronologie van het onderwerp.

Op dit item kan niet meer gereageerd worden.