Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie
Advertorial

Door Tweakers Partners

Operatie Volt: Politie zoekt ‘toevalsgarantie’ met AI-modellen in opsporing

23-02-2021 • 08:00

27 Linkedin

Tijdens Operatie Volt, het online event waarin Defensie en de politie de IT-aspecten van hun werkzaamheden laten zien, verzorgt Dominique Roest (politie) een presentatie over forensische data-analyse. Hoe vind je een speld in een digitale hooiberg?

Registreer je gratis.

Klik hier om een ticket te bemachtigen.

Als coördinator forensische data-analyse werkt Dominique voor de politie in Amsterdam, waar ze leidinggeeft aan een team IT-specialisten. Hun missie? Om collega’s in de ‘operatie’ te ondersteunen en zo meer rendement te halen uit de data die de Politie veiligstelt. Deze data zijn ontzettend divers, legt Dominique uit. “Denk aan foto’s en teksten, maar bijvoorbeeld ook aan gegevens uit telefoonmasten of routers. Alles wat data bevat, is relevant. Al die data uit verschillende bronnen samen hebben de kenmerken van big data. Het is veel, divers, ongestructureerd en vluchtig, en de betrouwbaarheid is soms lastig in te schatten. Denk bij dat laatste aan de opkomst van deep fakes, wat een grote uitdaging zal gaan vormen voor het politiewerk.”

Snelle conclusies uit grote datavolumes

Voor nu levert vooral een andere uitdaging een flinke kluif op, namelijk de snel toenemende hoeveelheden data. “Neem bijvoorbeeld de PGP-chats van EncroChat-gebruikers. Als politie kun je miljoenen onderschepte berichten niet zomaar even in beslag nemen om ze eens rustig uit te gaan lezen. Terwijl daar misschien wel relevante data tussen staan, bijvoorbeeld over een op handen zijnde liquidatie. Daarom zetten we AI-modellen in om sneller zo’n speld in de digitale hooiberg te vinden.”

Het streven bij deze zoekacties is iets wat Dominique ‘dataserendipiteit’ noemt. “Daarmee bedoel ik dat je dingen vindt waar je niet per se naar op zoek was, maar die wel relevant zijn voor een zaak. Een collega noemde het laatst ook ‘toevalsgarantie’. Met die dataserendipiteit wil je bereiken dat je als politieagent suggesties krijgt over wat er in die data zit, waarna je zelf kunt bepalen wat relevant is. Dan kom je uit op Recommender Systems. Zo’n AI-systeem goed inrichten is nog niet zo eenvoudig. Hoe zorg je namelijk dat je niet in een soort filter-bubble terechtkomt?”

Waarheidsvinding staat centraal

Het uitgangspunt in elke zaak is waarheidsvinding, zegt Dominique. “We willen allemaal dat de politie handelt op basis van feiten en reconstrueert wat er precies gebeurd is. Om dat te doen, is het extreem belangrijk dat je niet alleen maar naar bevestigende informatie zoekt. De toeslagenaffaire bij de Belastingdienst heeft iedereen wel laten zien hoe belangrijk dat is. Onderzoeken moet je zo breed mogelijk insteken en als je datascience toepast, moet je data goed interpreteren en steeds de juiste betekenis geven.”

In deze laatste uitdaging schuilt meteen een belangrijke motivatie voor Dominique om een sessie tijdens Operatie Volt te verzorgen. “Wij hebben mensen nodig die dat goed kunnen. Neem een gps-bolletje op een kaart. Dat kan zowel betekenen dat een telefoon op een bepaalde plek is geweest, als dat iemand een plaats bekeken heeft op Google Maps. Een wereld van verschil als het gaat om bewijsvoering. Daar willen we alert op zijn. We hebben sowieso een breed palet van specialismen nodig: mensen die hardcore kunnen programmeren en algoritmes schrijven, maar ook mensen die de uitkomsten van die algoritmes kunnen interpreteren en in staat zijn de vertaalslag te maken naar de operatie.”

volt-element

Koppeling tussen techniek en traditioneel politiewerk

Ben jij expert in IT? Maak er politiewerk van.

Als IT ergens topprioriteit heeft, dan is het wel bij de politie. Iedereen binnen deze organisatie draagt bij aan een succesvolle uitvoering van de politietaak, met een veiliger Nederland als doel. En dat geldt zeker ook voor de IT'ers. Klik hier voor de openstaande vacatures.

Het team van Dominique maakt naar eigen zeggen “heel praktische datascience-toepassingen”. Het idee is om gebruiksvriendelijke applicaties te ontwikkelen waarmee collega’s in de operatie snel en zelfstandig uit de voeten kunnen. De reden hierachter is simpel: “IT’ers zijn schaars en we missen de mankracht om alle forensische analyses zelf uit te voeren. Daarbij is het ook zo dat we onze kennis over big data willen koppelen met de kennis van de operatie. Daar zitten immers mensen die bijvoorbeeld uitstekend weten hoe crimineel gedrag eruitziet en daardoor met een andere blik kijken dan wij.”

Naast datascience-modellen heeft de politie ook tooling nodig. "Waar we nu naartoe bewegen, is het bouwen van microservices en het neerzetten van een pipeline. Daar is ook engineering power voor nodig, zodat we modellen overal in onze organisatie in kunnen zetten. Vanuit deze overwegingen hebben wij echt ingezet op verschillende specialismen die samenwerken in multi-talented teams, met daarin back-end developers, front-end- en UX-designers en datascientists.''

Voorbeelden van vraagstukken

In haar talk tijdens Operatie Volt zal ze - om voor de hand liggende redenen - geen operationele data delen, maar wel voorbeelden geven van vraagstukken waar de politie tegen aanloopt. "Dan gaat het er bijvoorbeeld om hoe je uit grote hoeveelheden beeldmateriaal een bepaald wapen, voertuig of bonnetje automatisch kunt herkennen. We werken daarvoor ook samen met universiteiten. Zo loopt er momenteel een onderzoek naar hoe je aan de hand van de achtergrond op een foto kunt bepalen op welke locatie hij is gemaakt. Ook loopt er een onderzoek naar het samenvatten van teksten met natural language processing. Voor dit soort toepassingen bestaan al algoritmes, maar politiedata zijn anders dan de generieke datasets waarop deze getraind zijn.”

Ook in het kader van het trainen van modellen is het belangrijk een goede samenwerking te hebben met de collega’s in de operatie. "Dat blijkt ook wel weer uit het voorbeeld van EncroChat. Zij moeten berichten labelen om het taalmodel te trainen. Dat kunnen wij niet alleen, zonder de operationele kennis hebben we geen idee welke data relevant zijn. Die wisselwerking is belangrijk.”

Succes op verschillende manieren meetbaar

Hoeveel zaken worden er nu eigenlijk opgelost dankzij het werk van Dominique en haar team? “Zo moet je dat niet zien”, zegt ze. “We zijn immers bezig met waarheidsvinding, wat niet altijd hetzelfde is als het oplossen van een zaak. Bewijs vinden dat scenario’s weerlegt is net zo relevant als bevestigend bewijs vinden. Maar om op de vraag terug te komen: we merken dat rechercheurs met onze tools het handmatig werk enorm kunnen verminderen. Bijvoorbeeld het bekijken van videobeelden, waar ze normaal gesproken drie weken over zouden doen, kan nu in twee uur. Daardoor vinden ze sneller relevante informatie, of kunnen ze sneller verder met het onderzoek als er geen extra informatie in de beelden is te vinden. Ook heeft het gebruik van combinaties van onze tools geleid tot doorbraken in onderzoeken naar crimineel verkregen vermogen en konden wij aan de hand van grote hoeveelheden bel- en chatinformatie uit telefoons herleiden wie sleutelfiguren waren in criminele bendes.”

Meld je aan!

Meer weten over forensische data-analyse bij de politie? Mis dan de talk van Dominique Roest niet! Voor het programma van - en inschrijven voor - het online event Operatie Volt, dat op 27 maart zal plaatsvinden, kun je klikken op onderstaande buttons.

Operatie Volt Meer info

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Reacties (27)

Wijzig sortering
Niet zo mooi voor Coolblue ;)
Exact. Het is continu een afweging tussen vals positieven en vals negatieven. En bovendien met de hand kijk je ook vooral naar de bekende zaken die opvallen. Wat we beogen is het handwerk (en de tunnelvisie die daarmee gepaard kan gaan) te verbeteren en te versnellen.

Voor ons is het steeds een dilemma. Als we de data wel hebben maar het belangrijke detail (achteraf redeneren en duiden is altijd makkelijk) niet hebben gezien, krijgen we (terecht) kritiek. Maar als we alles bekijken, doen we het ook niet goed want dan zijn we de grootste privacyschenders.

Ik wil techniek vooral inzetten om het handwerk te verminderen en doelgerichter informatie te vinden zonder alleen naar bevestiging te zoeken en mensen hun privacy onevenredig te schenden. Een voorbeeld, we lezen iemand zijn telefoons uit en vinden 300.000 foto's. De verdachte wordt verdacht van witwassen maar gaat ook vreemd en heeft veel naaktfoto's op zijn telefoon. Als we het met de hand bekijken zien we ook de naaktfoto's, terwijl als je met een model zoekt naar foto's van documenten, je dit alles niet hoeft te bekijken.
Voor dit soort gerichte opdrachten is het fantastisch. "Zoek overal naar notities" of "zoek overal naar blauwe tonnetjes".
Mooie vraag en over verkeerde toepassingen en excessen bij zowel overheid als bedrijfsleven maak ik me ook zorgen. Neem als voorbeeld verzekeraars die op basis van risicomodellen je niet willen verzekeren. Of dat je misschien wel geen bankrekening kan openen.

Ik denk dat we om te beginnen een onderscheid moeten maken tussen data, techniek en de toepassing of uitwerking ervan. Ik denk dat we als overheid heel terughoudend moeten zijn met het voorspellen op basis van data (de computer zei...) en dat er altijd een mens naar het resultaat moet kijken om dit te duiden en in een context te plaatsen. Zeker als je onverdachte burgers verdacht gaat maken met een model. Je moet dat heel erg goed weten wat er onder de motorkap gebeurt. Dit is waarom we ook een politielab AI hebben met phd-studenten die niet alleen onderzoek doen naar hoe 'the black box' werkt, maar ook naar de ethische kant van de modellen. Voor het inzetten van dwangmiddelen is overigens de extra waarborg van strafvordering en het openbaar ministerie/ Rechter Commissaris ook nog als toets van toepassing.

We hebben binnen de politie richtlijnen en een systeem om modellen en toepassingen te toetsen. Niet alleen vanuit juridisch perspectief, maar ook met de vraag, wat doet het algoritme precies, met welke data getraind en op welke data toegepast en welke bias zit er mogelijk in? Dat is denk ik een hele goede eerste stap. Neemt niet weg dat je nooit klaar bent en steeds weer heel alert moet zijn hoe techniek wordt toegepast. Dit is ook de reden dat we UX-designers hebben aangenomen om te onderzoeken hoe onze tools gebruikt worden en of dit wel is op de manier zoals we bedoeld hadden.
Hele goede vragen! En uiteraard zijn dat hele grote praktische problemen om goed modellen te kunnen ontwikkelen en testen. De politie kan écht niet over alle beschikbare data modellen gaan draaien en data analyse doen. WPG data is zoals je terecht aangeeft alleen bedoeld voor opsporingsonderzoek en niet voor IT ontwikkeling.
Ik zou 'm iets minder stellig willen formuleren. Zo kan ik me voorstellen dat art. 22 Wpg nog wat ruimte bied om bijvoorbeeld nieuwe opsporingsmethoden te ontwikkelen. Maar zeker ook voor de IT'ers die dergelijke ontwikkelingen uitvoeren is dat soort context erg relevant. Het onderscheid een zorgvuldige Politie van cowboys die overal maar machine learning tegenaan gooien als het maar kan. Op andere onderwerpen doet de Politie wel panisch (Nee! het is geen hacken. Hacken is strafbaar. Wat wij doen....) over dergelijke uitleg, maar hier zie ik dat niet.
Een van de onderwerpen die ons samen met OM en gegevensautoriteit veel denkwerk kost. We lopen qua strafvordering en WPG continu achter de feiten aan. En een van de moeilijkste vragen is, met welke data trainen (en hertrainen) we modellen. Zeker omdat onze data erg specifiek is en algemene trainingssets dus niet voldoen.

Voor wetenschappelijk onderzoek mag je data wel combineren en modellen trainen, echter je mag het dan niet toepassing in concrete opsporingsonderzoeken. Of als je iets vindt er geen opsporingsonderzoek op starten. We zijn hierover in gesprek juristen en experts van het Landelijk Parket en staf. Want je zou kunnen stellen dat het getrainde model geen data (en dus privacyschending) bevat.

Overigens zijn strafvordering en hoe wij vervolgens omgaan met het verwerken van gegevens wel twee verschillende dingen. En artikel 11 is inderdaad een lastig artikel wat op een aantal thema's wordt gebruikt. Ook omdat je vantevoren niet kan bepalen wat relevant en/of noodzakelijk is (dat weet je immers achteraf na het combineren).

Omdat het combineren van gegevens over onderzoeken heen erg complex is, bouwen wij nu vooral systemen die je kan toepassen op data uit een specifiek opsporingsonderzoek (artikel 9 WPG).

Je slaat de spijker op z'n kop dat je vaak eerst iets wil uitproberen, ook omdat je het dan pas echt over de concrete gegevensverwerking en de (onbedoelde) uitkomsten kan hebben. Dit is continu een afweging die we samen met het OM en privacyjuristen maken.
Bedankt voor het uitgebreide antwoord. Ik denk dat het voor (potentiële nieuwe) technische collega's hele relevante onderwerpen zijn. In de cursussen over anonimiseren en herleidbaarheid van gegevens die ik geef probeer ik ook in te gaan op risico's in machine learning modellen zoals bijvoorbeeld overfitting waardoor individuele input (vaak persoonsgegevens) te reconstrueren zijn uit het model of voorbeelden zoals GPT-2 waarbij duidelijke publiek gedocumenteerde voorbeelden zijn waarbij dat kan. Als de Politie dit soort technieken al toepast of ontwikkeld kan het bijna niet anders dan dat er DPIA's (art. 4c Wpg) zijn gemaakt of (art. 33b) voorafgaande raadplegingen zijn geweest waarin dit soort risico's besproken zijn. Dat lijkt me een zeer waardevol onderwerp voor een presentatie.

Edit: Overweging 75 van de AVG noemt specifiek de risico's van onbedoelde herleiding van gepseudoniniseerde (of eigenlijk ook de onterecht als geanonimiseerd aangemerkte persoonsgegevens) als risico-catagorie voor betrokkenen waaraan gedacht moet worden. Ik hoop dat de Politie bij Wpg DPIA's zich daar door laten inspireren. De Wpg zelf geeft iets minder duiding over de uitvoering namelijk.

[Reactie gewijzigd door Floort op 26 februari 2021 09:08]

Dank voor jou reactie! En het klopt dat dit onderwerp een eigen presentatie verdient. In 30 minuten gaat het me niet lukken om hier uitgebreid bij stil te staan. Los van dat dit zo complex is dat je er dagen over kan praten.

Ik zou zelf heel erg graag in de toekomst met burgers het gesprek aan willen gaan en dit soort dilemma's bespreken. Wat we merken is dat de wet zoveel ruimte biedt voor interpretatie, zeker voor nieuwe technieken, dat het voldoen aan de wet een doel op zich wordt. Uiteindelijk moeten wij als samenleving privacy vs publiek belang steeds tegen elkaar afwegen. Het streven is om de privacyschending zo gering mogelijk te laten zijn en de impact op 'onschuldige' burgers zo min mogelijk. Maar het blijft ingewikkeld. Als je te weinig data in beslag neemt, voldoe je niet aan je wettelijke taak van art. 3 PW en als je te veel doet schendt je de privacy van burgers. Steeds weer is de vraag hoe groot die schending dan is. En hoe weet je wat je wil weten als je nog niet weet naar welke informatie je op zoek bent? We moeten zeker geen fishing expedities gaan doen, maar het patroon wordt vaak pas duidelijk als je het grote geheel ziet (en dus achteraf!). Ben benieuwd hoe jij hiernaar kijkt en hoe je dit zou kunnen doen zonder persoonsgegevens te verwerken.
Mijn voorstel zou zijn om dat te combineren met de publicatie van enkele DPIA's waarin de risico's voor betrokkenen al uitgebreid in zijn uitgewerkt. Voor AVG-DPIA's is mijn ervaring dat alleen al de kennis dat een DPIA gedeeld gaat worden al motiveert om geen risico's over het hoofd te zien en dat het ook kaders geeft waarin externe input heel direct kan worden verwerkt. De Wpg DPIA's schrijven het verzamelen van input van betrokkenen (begrijpelijk) niet expliciet voor, maar die ruimte is er wel.

Daarbij zou ik ook niet alleen kijken naar het in beslag nemen van gegevens, maar vooral ook naar wat je erna doet. Bijvoorbeeld als je (terecht en rechtmatig) een berg data van een (toch niet zo goed) versleutelde communicatiedienst in beslag hebt genomen, hoe ga je om met gegevens over slachtoffer (of ander niet-verdachten)? Hoe zorg je dat algoritmen (e.v.t. in combinatie met menselijke zoekopdrachten) niet vooral zoeken naar potentiele "hits" maar ook zoeken naar bewijsmateriaal om hypotheses te ontkrachten? Hoe bereidt je voor op de (nog niet inwerking getreden) art. 32a verplichting om te loggen als het gaat om semi-autonome verwerkingen? Hoe kan de advocaat van een verdachte bijvoorbeeld controleren of de verwerking rechtmatig is uitgevoerd als de verwerking complexer wordt dan het digitale equivalent van de papieren dossiers?

Je laatste vraag volg ik niet helemaal. Ik denk niet dat het doel zou moeten zijn om het te doen zonder persoonsgegevens te verwerken. Ik denk dat je moet kijken naar manieren om een (zo expliciet mogelijke) grondslag te vinden voor verwerkingen die noodzakelijk zijn, Als dat anoniem kan is dat mooi. Maar volledig werken met anonieme data om mensen op te sporen is onmogelijk. Zo min mogelijk persoonsgegevens verwerken is wel een mooi streven, maar je wilt ook niet het risico lopen dat je gegevens onterecht anoniem noemt en daarmee de betrokkenen bescherming ontneemt die ze eigenlijk wel hadden moeten hebben.
Is dat niet eerder "bijvangst".
Want als de data rechtmatig verkregen bewijsmateriaal voor Zaak A is, maar daarin staan bv. berichten waar Zaak B wordt beraamd, waarom zou het dan voor Zaak B onrechtmatig zijn?
Vroeger noemden we dit onrechtmatig verkregen bewijsmateriaal, maar denk dat dataserendipiteit het beter doet bij de doelgroep.
Daar heeft het helemaal niets mee te maken; de AI speurt alleen in de dataset van geldig bewijsmateriaal, precies dezelfde gegevens die agenten anders met de hand hadden doorzocht. Het enige voordeel is dat de relevante dingen sneller gevonden worden. Je citeert net één zin, maar als je even de hele alinea erbij pakt, dan staat dat er gewoon meteen in:
Voor nu levert vooral een andere uitdaging een flinke kluif op, namelijk de snel toenemende hoeveelheden data. “Neem bijvoorbeeld de PGP-chats van EncroChat-gebruikers. Als politie kun je miljoenen onderschepte berichten niet zomaar even in beslag nemen om ze eens rustig uit te gaan lezen. Terwijl daar misschien wel relevante data tussen staan, bijvoorbeeld over een op handen zijnde liquidatie. Daarom zetten we AI-modellen in om sneller zo’n speld in de digitale hooiberg te vinden.”
De gedachtegang dat alles wat via EncroChat verstuurd is verdacht is, zelfs een bericht tussen twee gebruikers die beide niet bekend zijn bij de politie, daar kun je over vechten (al lijkt het me in dit specifieke geval prima verdedigbaar). Maar zodra je die beslissing hebt genomen dan is het geen enkel probleem om al die berichten aan een algorithme of een AI of wat dan ook te geven om de meest urgente zaken er vliegensvlug uit te halen.
Ik sluit me hier helemaal bij aan. We werken alleen met data die rechtmatig in beslag is genomen. De grondslag, proportionaliteit en subsidiariteit zijn hierin leidend.

Overigens is het continu een afweging tussen privacy schenden en opsporing en onze doelstelling als politie. We hebben daarvoor waarborgen in strafvordering, rechters en OM.

En steeds weer is het lastig. We kennen bijvoorbeeld 'voortgezette toepassing' in de analoge wereld. Stel je gaat iemand zijn huis doorzoeken omdat hij verdacht wordt van hacken. En je komt in de woning allerlei weegschalen tegen die gebruikt worden om drugs af te wegen. Dan ontstaat een nieuwe verdenking en mag je daarop verder. Maar hoe is dit in de digitale wereld? Als ik een telefoon automatisch doorzoek mag ik alleen zoeken op grond van mijn verdenking, cybercrime. Stel dat iemand ook actief is in het maken van kinderporno, dan mag ik daar niet naar zoeken, want ik heb geen verdenking. En dat betekent dat we dit dus niet kunnen stoppen, aangezien we het niet weten.

Ik heb het antwoord niet, want voor beide is wat te zeggen. Alleen de wetgeving gaat zo langzaam, dan we deze antwoorden ook niet op korte termijn krijgen.

[Reactie gewijzigd door DominiqueR op 25 februari 2021 15:37]

Natuurlijk kennen Domique en haar team AN wel. Dat is al jaren de standaard bij de politie. Het is dan ook het beste voorbeeld van een product dat als je daar veel data in gooit niet (meer) geschikt is voor een ‘normale’ gebruiker bij de politie.
Wat Selmar zegt. Ik begrijp de toon van deze post ook niet. Ik werk veel samen met Data-Expert en ken de IBM producten redelijk goed aangezien ik voor zowel AN als Ibase ooit ben opgeleid. Ik ken ook de beperkingen.

En het is precies wat Selmar zegt. AN is een mooi product om data te visualiseren, maar kan niet omgaan met grote hoeveelheden ongestructureerde data, video of afbeeldingen. En dat is waar wij het meeste mee te maken hebben. Bovendien werkt een relationele database niet meer lekker als je met gigantische hoeveelheden data te maken hebt en zal je over moeten gaan naar een graph-database of Elasticsearch om data te indexeren en snel te kunnen doorzoeken.

Ook geloof ik niet meer in tools die een alles-in-een oplossing zijn. Een Zwitsers zakmes is mooi, maar het schaartje knipt echt beroerd.
Volgens mij is (het niet) kunnen omgaan met AI, big data en algoritmes niet voorbehouden aan de overheid. Neem Facebook, Microsoft, maar ook banken en verzekeraars. Uitsluiting van bepaalde diensten of verschillende prijzen die je straks moet betalen omdat je in een risicogroep valt, is ook realiteit aan het worden. En hier is geen enkele controle op. En wat vinden we van censuur gedaan door big tech?

Wat overigens niet betekent dat ik niet vind dat de overheid een extra verantwoordelijkheid heeft naar burgers. Juist als je er bent om de zwakkeren in de samenleving te beschermen is het extra tragisch wat er gebeurd is. Dit is ook de reden dat ik dit werk doe, omdat ik geloof dat als je de wereld wil veranderen en dit soort dingen wil helpen voorkomen je dat beter van binnenuit kan doen.


Om te kunnen reageren moet je ingelogd zijn


Apple iPhone 12 Microsoft Xbox Series X LG CX Google Pixel 5 Sony XH90 / XH92 Samsung Galaxy S21 5G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True