Advertorial

Door Tweakers Partners

Operatie Volt: Politie zoekt ‘toevalsgarantie’ met AI-modellen in opsporing

23-02-2021 • 08:00

28 Linkedin

Tijdens Operatie Volt, het online event waarin Defensie en de politie de IT-aspecten van hun werkzaamheden laten zien, verzorgt Dominique Roest (politie) een presentatie over forensische data-analyse. Hoe vind je een speld in een digitale hooiberg?

Registreer je gratis.

Klik hier om een ticket te bemachtigen.

Als coördinator forensische data-analyse werkt Dominique voor de politie in Amsterdam, waar ze leidinggeeft aan een team IT-specialisten. Hun missie? Om collega’s in de ‘operatie’ te ondersteunen en zo meer rendement te halen uit de data die de Politie veiligstelt. Deze data zijn ontzettend divers, legt Dominique uit. “Denk aan foto’s en teksten, maar bijvoorbeeld ook aan gegevens uit telefoonmasten of routers. Alles wat data bevat, is relevant. Al die data uit verschillende bronnen samen hebben de kenmerken van big data. Het is veel, divers, ongestructureerd en vluchtig, en de betrouwbaarheid is soms lastig in te schatten. Denk bij dat laatste aan de opkomst van deep fakes, wat een grote uitdaging zal gaan vormen voor het politiewerk.”

Snelle conclusies uit grote datavolumes

Voor nu levert vooral een andere uitdaging een flinke kluif op, namelijk de snel toenemende hoeveelheden data. “Neem bijvoorbeeld de PGP-chats van EncroChat-gebruikers. Als politie kun je miljoenen onderschepte berichten niet zomaar even in beslag nemen om ze eens rustig uit te gaan lezen. Terwijl daar misschien wel relevante data tussen staan, bijvoorbeeld over een op handen zijnde liquidatie. Daarom zetten we AI-modellen in om sneller zo’n speld in de digitale hooiberg te vinden.”

Het streven bij deze zoekacties is iets wat Dominique ‘dataserendipiteit’ noemt. “Daarmee bedoel ik dat je dingen vindt waar je niet per se naar op zoek was, maar die wel relevant zijn voor een zaak. Een collega noemde het laatst ook ‘toevalsgarantie’. Met die dataserendipiteit wil je bereiken dat je als politieagent suggesties krijgt over wat er in die data zit, waarna je zelf kunt bepalen wat relevant is. Dan kom je uit op Recommender Systems. Zo’n AI-systeem goed inrichten is nog niet zo eenvoudig. Hoe zorg je namelijk dat je niet in een soort filter-bubble terechtkomt?”

Waarheidsvinding staat centraal

Het uitgangspunt in elke zaak is waarheidsvinding, zegt Dominique. “We willen allemaal dat de politie handelt op basis van feiten en reconstrueert wat er precies gebeurd is. Om dat te doen, is het extreem belangrijk dat je niet alleen maar naar bevestigende informatie zoekt. De toeslagenaffaire bij de Belastingdienst heeft iedereen wel laten zien hoe belangrijk dat is. Onderzoeken moet je zo breed mogelijk insteken en als je datascience toepast, moet je data goed interpreteren en steeds de juiste betekenis geven.”

In deze laatste uitdaging schuilt meteen een belangrijke motivatie voor Dominique om een sessie tijdens Operatie Volt te verzorgen. “Wij hebben mensen nodig die dat goed kunnen. Neem een gps-bolletje op een kaart. Dat kan zowel betekenen dat een telefoon op een bepaalde plek is geweest, als dat iemand een plaats bekeken heeft op Google Maps. Een wereld van verschil als het gaat om bewijsvoering. Daar willen we alert op zijn. We hebben sowieso een breed palet van specialismen nodig: mensen die hardcore kunnen programmeren en algoritmes schrijven, maar ook mensen die de uitkomsten van die algoritmes kunnen interpreteren en in staat zijn de vertaalslag te maken naar de operatie.”

volt-element

Koppeling tussen techniek en traditioneel politiewerk

Ben jij expert in IT? Maak er politiewerk van.

Als IT ergens topprioriteit heeft, dan is het wel bij de politie. Iedereen binnen deze organisatie draagt bij aan een succesvolle uitvoering van de politietaak, met een veiliger Nederland als doel. En dat geldt zeker ook voor de IT'ers. Klik hier voor de openstaande vacatures.

Het team van Dominique maakt naar eigen zeggen “heel praktische datascience-toepassingen”. Het idee is om gebruiksvriendelijke applicaties te ontwikkelen waarmee collega’s in de operatie snel en zelfstandig uit de voeten kunnen. De reden hierachter is simpel: “IT’ers zijn schaars en we missen de mankracht om alle forensische analyses zelf uit te voeren. Daarbij is het ook zo dat we onze kennis over big data willen koppelen met de kennis van de operatie. Daar zitten immers mensen die bijvoorbeeld uitstekend weten hoe crimineel gedrag eruitziet en daardoor met een andere blik kijken dan wij.”

Naast datascience-modellen heeft de politie ook tooling nodig. "Waar we nu naartoe bewegen, is het bouwen van microservices en het neerzetten van een pipeline. Daar is ook engineering power voor nodig, zodat we modellen overal in onze organisatie in kunnen zetten. Vanuit deze overwegingen hebben wij echt ingezet op verschillende specialismen die samenwerken in multi-talented teams, met daarin back-end developers, front-end- en UX-designers en datascientists.''

Voorbeelden van vraagstukken

In haar talk tijdens Operatie Volt zal ze - om voor de hand liggende redenen - geen operationele data delen, maar wel voorbeelden geven van vraagstukken waar de politie tegen aanloopt. "Dan gaat het er bijvoorbeeld om hoe je uit grote hoeveelheden beeldmateriaal een bepaald wapen, voertuig of bonnetje automatisch kunt herkennen. We werken daarvoor ook samen met universiteiten. Zo loopt er momenteel een onderzoek naar hoe je aan de hand van de achtergrond op een foto kunt bepalen op welke locatie hij is gemaakt. Ook loopt er een onderzoek naar het samenvatten van teksten met natural language processing. Voor dit soort toepassingen bestaan al algoritmes, maar politiedata zijn anders dan de generieke datasets waarop deze getraind zijn.”

Ook in het kader van het trainen van modellen is het belangrijk een goede samenwerking te hebben met de collega’s in de operatie. "Dat blijkt ook wel weer uit het voorbeeld van EncroChat. Zij moeten berichten labelen om het taalmodel te trainen. Dat kunnen wij niet alleen, zonder de operationele kennis hebben we geen idee welke data relevant zijn. Die wisselwerking is belangrijk.”

Succes op verschillende manieren meetbaar

Hoeveel zaken worden er nu eigenlijk opgelost dankzij het werk van Dominique en haar team? “Zo moet je dat niet zien”, zegt ze. “We zijn immers bezig met waarheidsvinding, wat niet altijd hetzelfde is als het oplossen van een zaak. Bewijs vinden dat scenario’s weerlegt is net zo relevant als bevestigend bewijs vinden. Maar om op de vraag terug te komen: we merken dat rechercheurs met onze tools het handmatig werk enorm kunnen verminderen. Bijvoorbeeld het bekijken van videobeelden, waar ze normaal gesproken drie weken over zouden doen, kan nu in twee uur. Daardoor vinden ze sneller relevante informatie, of kunnen ze sneller verder met het onderzoek als er geen extra informatie in de beelden is te vinden. Ook heeft het gebruik van combinaties van onze tools geleid tot doorbraken in onderzoeken naar crimineel verkregen vermogen en konden wij aan de hand van grote hoeveelheden bel- en chatinformatie uit telefoons herleiden wie sleutelfiguren waren in criminele bendes.”

Meld je aan!

Meer weten over forensische data-analyse bij de politie? Mis dan de talk van Dominique Roest niet! Voor het programma van - en inschrijven voor - het online event Operatie Volt, dat op 27 maart zal plaatsvinden, kun je klikken op onderstaande buttons.

Operatie Volt Meer info

Dit artikel is geen redactioneel artikel, maar gesponsord en tot stand gekomen dankzij de politie, Defensie en Tweakers Partners. Dit is de afdeling binnen Tweakers die verantwoordelijk is voor commerciële samenwerkingen, winacties en Tweakers events zoals meet-ups, Developers Summit, Testfest en meer. Kijk hier voor een overzicht van alle acties en events. Mocht je ideeën met ons willen delen over deze vorm van adverteren, dan horen wij dat graag. Hierover kun je met ons in gesprek via [Discussie] Reclame algemeen].

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Reacties (28)

28
28
9
3
1
17
Wijzig sortering
Presentaties zoals deze gaan voornamelijk over de techniek. Bij Machine Learning toepassingen in deze sector is de techniek absoluut zwaar ondergeschikt aan de menselijke maat. En daar gaat het bij dit soort initiatieven nagenoeg altijd mis.

De toeslagenaffaire is niet voort gekomen uit het gebruik van Machine Learning. Hij is voort gekomen uit de menselijke factor. Een combinatie van sterke drang vanuit de hoogste top om zoveel mogelijk fraudeurs te vinden gecombineerd met te weinig beschikbare tijd met als gevolg het denken dat het algoritme de waarheid verkondigt.

Bij de politie is dat niet anders; ook daar is er een sterke drang vanuit de top en te weinig beschikbare tijd. Ook daar ligt dit zelfde gevaar op de loer. Zolang we die combinatie niet aanpakken is het algoritme helemaal niet interessant. Het is echter wel aan de schrijvers van het algoritme om zich te houden aan de ethiek van de sector en daarmee te zorgen dat de randvoorwaarden voor zinnig gebruik in place zijn voordat het in gebruik genomen wordt.

Mijn vraag aan Dominique zou dan ook vooral zijn: Hoe gaat ze er voor zorgen dat deze tooling niet op de verkeerde manier gebruikt gaat worden? En dat is geen technisch vraagstuk.......
Daar dacht ik ook meteen aan. Er is wel een verschil tussen "wijs mij foto's aan waar misschien iets op gebeurt, zodat ik de rest niet hoef te bekijken" en "welke mensen vind je verdacht".
Maar dat is tegelijk een glijdende schaal.
Als je de administratie van een crimineel in beslag hebt genomen gaat het om het eerste geval - waarschijnlijk.
Maar tegelijk wijst de administratie naar leveranciers en klanten - en daar kan het wel misgaan.
Maar ook bij het handmatig doornemen van materiaal speelt dit. De persoon met de opvallende naam komt vaker naar boven, lijkt me ("alweer die? Goh").
Niet zo mooi voor Coolblue ;)
Exact. Het is continu een afweging tussen vals positieven en vals negatieven. En bovendien met de hand kijk je ook vooral naar de bekende zaken die opvallen. Wat we beogen is het handwerk (en de tunnelvisie die daarmee gepaard kan gaan) te verbeteren en te versnellen.

Voor ons is het steeds een dilemma. Als we de data wel hebben maar het belangrijke detail (achteraf redeneren en duiden is altijd makkelijk) niet hebben gezien, krijgen we (terecht) kritiek. Maar als we alles bekijken, doen we het ook niet goed want dan zijn we de grootste privacyschenders.

Ik wil techniek vooral inzetten om het handwerk te verminderen en doelgerichter informatie te vinden zonder alleen naar bevestiging te zoeken en mensen hun privacy onevenredig te schenden. Een voorbeeld, we lezen iemand zijn telefoons uit en vinden 300.000 foto's. De verdachte wordt verdacht van witwassen maar gaat ook vreemd en heeft veel naaktfoto's op zijn telefoon. Als we het met de hand bekijken zien we ook de naaktfoto's, terwijl als je met een model zoekt naar foto's van documenten, je dit alles niet hoeft te bekijken.
Voor dit soort gerichte opdrachten is het fantastisch. "Zoek overal naar notities" of "zoek overal naar blauwe tonnetjes".
Mooie vraag en over verkeerde toepassingen en excessen bij zowel overheid als bedrijfsleven maak ik me ook zorgen. Neem als voorbeeld verzekeraars die op basis van risicomodellen je niet willen verzekeren. Of dat je misschien wel geen bankrekening kan openen.

Ik denk dat we om te beginnen een onderscheid moeten maken tussen data, techniek en de toepassing of uitwerking ervan. Ik denk dat we als overheid heel terughoudend moeten zijn met het voorspellen op basis van data (de computer zei...) en dat er altijd een mens naar het resultaat moet kijken om dit te duiden en in een context te plaatsen. Zeker als je onverdachte burgers verdacht gaat maken met een model. Je moet dat heel erg goed weten wat er onder de motorkap gebeurt. Dit is waarom we ook een politielab AI hebben met phd-studenten die niet alleen onderzoek doen naar hoe 'the black box' werkt, maar ook naar de ethische kant van de modellen. Voor het inzetten van dwangmiddelen is overigens de extra waarborg van strafvordering en het openbaar ministerie/ Rechter Commissaris ook nog als toets van toepassing.

We hebben binnen de politie richtlijnen en een systeem om modellen en toepassingen te toetsen. Niet alleen vanuit juridisch perspectief, maar ook met de vraag, wat doet het algoritme precies, met welke data getraind en op welke data toegepast en welke bias zit er mogelijk in? Dat is denk ik een hele goede eerste stap. Neemt niet weg dat je nooit klaar bent en steeds weer heel alert moet zijn hoe techniek wordt toegepast. Dit is ook de reden dat we UX-designers hebben aangenomen om te onderzoeken hoe onze tools gebruikt worden en of dit wel is op de manier zoals we bedoeld hadden.
Het streven bij deze zoekacties is iets wat Dominique ‘dataserendipiteit’ noemt. “Daarmee bedoel ik dat je dingen vindt waar je niet per se naar op zoek was
Vroeger noemden we dit onrechtmatig verkregen bewijsmateriaal, maar denk dat dataserendipiteit het beter doet bij de doelgroep.

Ik bedoel dit als grapje, natuurlijk is het niet per sé onrechtmatig. Ik krijg wel een beetje een naar gevoel bij hoe weinig aandacht er is voor de rechten van verdachten en hun contacten (die mogelijk niet eens verdachte zijn) bij dit soort grootschalige dataprojecten. Natuurlijk moet het mogelijk zijn soms ver te gaan bij de bestrijding van georganiseerde criminaliteit, maar waar liggen de waarborgen?
in de VS is er een juridisch concept genaamd Fruit of the poisonous tree wat betekend dat onrechtmatig verkregen bewijs niet gebruikt kan worden in een rechtzaak. In Nederland kennen we dat niet. Illegaal verkregen bewijs is nog steeds bewijs. Natuurlijk kan de politie een onderzoek instellen naar zijn eigen medewerker en deze vervolgen, maar als verdachte in een strafzaak heb je daar natuurlijk weinig aan.
In Nederland zal de rechter het ook mee moeten nemen als het bewijs onrechtmatig verkregen is. Normaal gesproken zal er dan bewijsuitsluiting toegepast worden. In de praktijk zie je dat dat niet altijd gebeurt, maar het is wel de basis in Nederland.
Is dat niet eerder "bijvangst".
Want als de data rechtmatig verkregen bewijsmateriaal voor Zaak A is, maar daarin staan bv. berichten waar Zaak B wordt beraamd, waarom zou het dan voor Zaak B onrechtmatig zijn?
Vroeger noemden we dit onrechtmatig verkregen bewijsmateriaal, maar denk dat dataserendipiteit het beter doet bij de doelgroep.
Daar heeft het helemaal niets mee te maken; de AI speurt alleen in de dataset van geldig bewijsmateriaal, precies dezelfde gegevens die agenten anders met de hand hadden doorzocht. Het enige voordeel is dat de relevante dingen sneller gevonden worden. Je citeert net één zin, maar als je even de hele alinea erbij pakt, dan staat dat er gewoon meteen in:
Voor nu levert vooral een andere uitdaging een flinke kluif op, namelijk de snel toenemende hoeveelheden data. “Neem bijvoorbeeld de PGP-chats van EncroChat-gebruikers. Als politie kun je miljoenen onderschepte berichten niet zomaar even in beslag nemen om ze eens rustig uit te gaan lezen. Terwijl daar misschien wel relevante data tussen staan, bijvoorbeeld over een op handen zijnde liquidatie. Daarom zetten we AI-modellen in om sneller zo’n speld in de digitale hooiberg te vinden.”
De gedachtegang dat alles wat via EncroChat verstuurd is verdacht is, zelfs een bericht tussen twee gebruikers die beide niet bekend zijn bij de politie, daar kun je over vechten (al lijkt het me in dit specifieke geval prima verdedigbaar). Maar zodra je die beslissing hebt genomen dan is het geen enkel probleem om al die berichten aan een algorithme of een AI of wat dan ook te geven om de meest urgente zaken er vliegensvlug uit te halen.
Ik sluit me hier helemaal bij aan. We werken alleen met data die rechtmatig in beslag is genomen. De grondslag, proportionaliteit en subsidiariteit zijn hierin leidend.

Overigens is het continu een afweging tussen privacy schenden en opsporing en onze doelstelling als politie. We hebben daarvoor waarborgen in strafvordering, rechters en OM.

En steeds weer is het lastig. We kennen bijvoorbeeld 'voortgezette toepassing' in de analoge wereld. Stel je gaat iemand zijn huis doorzoeken omdat hij verdacht wordt van hacken. En je komt in de woning allerlei weegschalen tegen die gebruikt worden om drugs af te wegen. Dan ontstaat een nieuwe verdenking en mag je daarop verder. Maar hoe is dit in de digitale wereld? Als ik een telefoon automatisch doorzoek mag ik alleen zoeken op grond van mijn verdenking, cybercrime. Stel dat iemand ook actief is in het maken van kinderporno, dan mag ik daar niet naar zoeken, want ik heb geen verdenking. En dat betekent dat we dit dus niet kunnen stoppen, aangezien we het niet weten.

Ik heb het antwoord niet, want voor beide is wat te zeggen. Alleen de wetgeving gaat zo langzaam, dan we deze antwoorden ook niet op korte termijn krijgen.

[Reactie gewijzigd door DominiqueR op 25 februari 2021 15:37]

Ik vind het heel jammer dat ik geen talks op het programma zie staan die expliciet ingaan op de (juridische) waarborgen. Het zou heel leerzaam zijn om ook iets te horen over de risico-analyses vooraf en bijvoorbeeld hoe de voorafgaande raadplegingen (art. 33a Wpg) verlopen. Ook ben ik benieuwd hoe de Politie omgaat met beperkingen zoals het alleen mogen verwerken als het noodzakelijk is voor specifieke onderzoeken (art. 11 Wpg) terwijl er ook een behoefte is om de systemen te ontwikkelen/testen. Zeker wanneer het gaat om de data-analyses die afhankelijk zijn van complexe eigenschappen van de data die lastig in fictieve test-data te stoppen is.
Hele goede vragen! En uiteraard zijn dat hele grote praktische problemen om goed modellen te kunnen ontwikkelen en testen. De politie kan écht niet over alle beschikbare data modellen gaan draaien en data analyse doen. WPG data is zoals je terecht aangeeft alleen bedoeld voor opsporingsonderzoek en niet voor IT ontwikkeling.
Ik zou 'm iets minder stellig willen formuleren. Zo kan ik me voorstellen dat art. 22 Wpg nog wat ruimte bied om bijvoorbeeld nieuwe opsporingsmethoden te ontwikkelen. Maar zeker ook voor de IT'ers die dergelijke ontwikkelingen uitvoeren is dat soort context erg relevant. Het onderscheid een zorgvuldige Politie van cowboys die overal maar machine learning tegenaan gooien als het maar kan. Op andere onderwerpen doet de Politie wel panisch (Nee! het is geen hacken. Hacken is strafbaar. Wat wij doen....) over dergelijke uitleg, maar hier zie ik dat niet.
Een van de onderwerpen die ons samen met OM en gegevensautoriteit veel denkwerk kost. We lopen qua strafvordering en WPG continu achter de feiten aan. En een van de moeilijkste vragen is, met welke data trainen (en hertrainen) we modellen. Zeker omdat onze data erg specifiek is en algemene trainingssets dus niet voldoen.

Voor wetenschappelijk onderzoek mag je data wel combineren en modellen trainen, echter je mag het dan niet toepassing in concrete opsporingsonderzoeken. Of als je iets vindt er geen opsporingsonderzoek op starten. We zijn hierover in gesprek juristen en experts van het Landelijk Parket en staf. Want je zou kunnen stellen dat het getrainde model geen data (en dus privacyschending) bevat.

Overigens zijn strafvordering en hoe wij vervolgens omgaan met het verwerken van gegevens wel twee verschillende dingen. En artikel 11 is inderdaad een lastig artikel wat op een aantal thema's wordt gebruikt. Ook omdat je vantevoren niet kan bepalen wat relevant en/of noodzakelijk is (dat weet je immers achteraf na het combineren).

Omdat het combineren van gegevens over onderzoeken heen erg complex is, bouwen wij nu vooral systemen die je kan toepassen op data uit een specifiek opsporingsonderzoek (artikel 9 WPG).

Je slaat de spijker op z'n kop dat je vaak eerst iets wil uitproberen, ook omdat je het dan pas echt over de concrete gegevensverwerking en de (onbedoelde) uitkomsten kan hebben. Dit is continu een afweging die we samen met het OM en privacyjuristen maken.
Bedankt voor het uitgebreide antwoord. Ik denk dat het voor (potentiële nieuwe) technische collega's hele relevante onderwerpen zijn. In de cursussen over anonimiseren en herleidbaarheid van gegevens die ik geef probeer ik ook in te gaan op risico's in machine learning modellen zoals bijvoorbeeld overfitting waardoor individuele input (vaak persoonsgegevens) te reconstrueren zijn uit het model of voorbeelden zoals GPT-2 waarbij duidelijke publiek gedocumenteerde voorbeelden zijn waarbij dat kan. Als de Politie dit soort technieken al toepast of ontwikkeld kan het bijna niet anders dan dat er DPIA's (art. 4c Wpg) zijn gemaakt of (art. 33b) voorafgaande raadplegingen zijn geweest waarin dit soort risico's besproken zijn. Dat lijkt me een zeer waardevol onderwerp voor een presentatie.

Edit: Overweging 75 van de AVG noemt specifiek de risico's van onbedoelde herleiding van gepseudoniniseerde (of eigenlijk ook de onterecht als geanonimiseerd aangemerkte persoonsgegevens) als risico-catagorie voor betrokkenen waaraan gedacht moet worden. Ik hoop dat de Politie bij Wpg DPIA's zich daar door laten inspireren. De Wpg zelf geeft iets minder duiding over de uitvoering namelijk.

[Reactie gewijzigd door Floort op 26 februari 2021 09:08]

Dank voor jou reactie! En het klopt dat dit onderwerp een eigen presentatie verdient. In 30 minuten gaat het me niet lukken om hier uitgebreid bij stil te staan. Los van dat dit zo complex is dat je er dagen over kan praten.

Ik zou zelf heel erg graag in de toekomst met burgers het gesprek aan willen gaan en dit soort dilemma's bespreken. Wat we merken is dat de wet zoveel ruimte biedt voor interpretatie, zeker voor nieuwe technieken, dat het voldoen aan de wet een doel op zich wordt. Uiteindelijk moeten wij als samenleving privacy vs publiek belang steeds tegen elkaar afwegen. Het streven is om de privacyschending zo gering mogelijk te laten zijn en de impact op 'onschuldige' burgers zo min mogelijk. Maar het blijft ingewikkeld. Als je te weinig data in beslag neemt, voldoe je niet aan je wettelijke taak van art. 3 PW en als je te veel doet schendt je de privacy van burgers. Steeds weer is de vraag hoe groot die schending dan is. En hoe weet je wat je wil weten als je nog niet weet naar welke informatie je op zoek bent? We moeten zeker geen fishing expedities gaan doen, maar het patroon wordt vaak pas duidelijk als je het grote geheel ziet (en dus achteraf!). Ben benieuwd hoe jij hiernaar kijkt en hoe je dit zou kunnen doen zonder persoonsgegevens te verwerken.
Mijn voorstel zou zijn om dat te combineren met de publicatie van enkele DPIA's waarin de risico's voor betrokkenen al uitgebreid in zijn uitgewerkt. Voor AVG-DPIA's is mijn ervaring dat alleen al de kennis dat een DPIA gedeeld gaat worden al motiveert om geen risico's over het hoofd te zien en dat het ook kaders geeft waarin externe input heel direct kan worden verwerkt. De Wpg DPIA's schrijven het verzamelen van input van betrokkenen (begrijpelijk) niet expliciet voor, maar die ruimte is er wel.

Daarbij zou ik ook niet alleen kijken naar het in beslag nemen van gegevens, maar vooral ook naar wat je erna doet. Bijvoorbeeld als je (terecht en rechtmatig) een berg data van een (toch niet zo goed) versleutelde communicatiedienst in beslag hebt genomen, hoe ga je om met gegevens over slachtoffer (of ander niet-verdachten)? Hoe zorg je dat algoritmen (e.v.t. in combinatie met menselijke zoekopdrachten) niet vooral zoeken naar potentiele "hits" maar ook zoeken naar bewijsmateriaal om hypotheses te ontkrachten? Hoe bereidt je voor op de (nog niet inwerking getreden) art. 32a verplichting om te loggen als het gaat om semi-autonome verwerkingen? Hoe kan de advocaat van een verdachte bijvoorbeeld controleren of de verwerking rechtmatig is uitgevoerd als de verwerking complexer wordt dan het digitale equivalent van de papieren dossiers?

Je laatste vraag volg ik niet helemaal. Ik denk niet dat het doel zou moeten zijn om het te doen zonder persoonsgegevens te verwerken. Ik denk dat je moet kijken naar manieren om een (zo expliciet mogelijke) grondslag te vinden voor verwerkingen die noodzakelijk zijn, Als dat anoniem kan is dat mooi. Maar volledig werken met anonieme data om mensen op te sporen is onmogelijk. Zo min mogelijk persoonsgegevens verwerken is wel een mooi streven, maar je wilt ook niet het risico lopen dat je gegevens onterecht anoniem noemt en daarmee de betrokkenen bescherming ontneemt die ze eigenlijk wel hadden moeten hebben.
Enigszins schaamteloze zelfpromotie, maar Tweakers heeft een mooi artikel geschreven over het DPIA-proces: nieuws: Google en de overheid: hoe doe je daar privacyonderzoek naar?
De focus is veelal op de ontwikkeling van Machine Learning modellen, maar men ziet vaak over het hoofd dat het grootste gedeelte hiervan het ontwikkelen van de productie pipeline is. Een veelgehoorde klacht bij data scientists: "Ik heb binnen een maand een goed model werkend, maar het duurde een jaar om het in productie te nemen".
Het (snel(ler)) in productie nemen van nieuwe ML modellen en nieuwere versie van bestaande ML modellen, wordt ook wel MLOps genoemd (https://en.wikipedia.org/wiki/MLOps) als gespecialiseerde vorm van DevOps. Dat zie je ook terugkomen in de vacatures al wordt er niet specifiek om "MLOps" specialisten gevraagd.
Lijkt er meer op dat de politie wat reclame heeft gekocht op tweakers om wat meer IT experts te werven.
Anoniem: 428562
23 februari 2021 11:03
Waarschijnlijk hebben Dominique en zijn mensen nog nooit gehoord van "analyst notebook", IBM software die doet wat in het artikel beschreven wordt. Een licentie is niet goedkoop maar vele malen minder duur dan een hobby project waar heel veel uren in worden gestopt.

https://www.dataexpert.nl...bm-i2-analyst-s-notebook/
IBM i2 Analyst’s Notebook is wereldwijd de standaard software oplossing voor operationele criminaliteits-analyse en visualisatie, met als doel het creëren van relevante inlichtingen uit grote hoeveelheden data.

Diverse soorten gestructureerde gegevens (email, telefoongesprekken, transacties, IP-adressen etc.) worden over elkaar gelegd en gevisualiseerd door middel van heatmaps, relaties, histo- en diagrammen etc. Relationele netwerken, geografische en chronologische weergave worden in één oogopslag duidelijk. De gegevens worden meestal in een relationele IBM i2 iBase database of in IBM i2 Enterprise Insight Analysis (Big Data) verwerkt en opgeslagen.

Naast Analyst’s Notebook kunnen analisten beschikken over verschillende add-ons die de mogelijkheden van het programma verrijken. Hiermee kan specifieke data zoals OSINT, Cyber of ongestructureerde data beter geaggregeerd en geanalyseerd worden.

[Reactie gewijzigd door Anoniem: 428562 op 23 februari 2021 11:30]

Natuurlijk kennen Domique en haar team AN wel. Dat is al jaren de standaard bij de politie. Het is dan ook het beste voorbeeld van een product dat als je daar veel data in gooit niet (meer) geschikt is voor een ‘normale’ gebruiker bij de politie.
Wat Selmar zegt. Ik begrijp de toon van deze post ook niet. Ik werk veel samen met Data-Expert en ken de IBM producten redelijk goed aangezien ik voor zowel AN als Ibase ooit ben opgeleid. Ik ken ook de beperkingen.

En het is precies wat Selmar zegt. AN is een mooi product om data te visualiseren, maar kan niet omgaan met grote hoeveelheden ongestructureerde data, video of afbeeldingen. En dat is waar wij het meeste mee te maken hebben. Bovendien werkt een relationele database niet meer lekker als je met gigantische hoeveelheden data te maken hebt en zal je over moeten gaan naar een graph-database of Elasticsearch om data te indexeren en snel te kunnen doorzoeken.

Ook geloof ik niet meer in tools die een alles-in-een oplossing zijn. Een Zwitsers zakmes is mooi, maar het schaartje knipt echt beroerd.
Iedere keer als ik de titel zie van deze serie, denk ik dat het politieke reclame is. Beetje ongunstige naam in deze weken.
Anoniem: 1367312
23 februari 2021 08:39
Elke keer dat ik nu Big data, AI of Algoritme hoor bij de overheid, denk ik oh... over 5 jaar valt het kabinet dus weer.

Is dit handig als Advertentie? je zou toch denken dat dit niet het meest handige moment is, een paar weken na het val van het kabinet vanwege een ander overheidsinstantie die software inzette als opsporingsmiddel.

[Reactie gewijzigd door Anoniem: 1367312 op 23 februari 2021 08:41]

Volgens mij is (het niet) kunnen omgaan met AI, big data en algoritmes niet voorbehouden aan de overheid. Neem Facebook, Microsoft, maar ook banken en verzekeraars. Uitsluiting van bepaalde diensten of verschillende prijzen die je straks moet betalen omdat je in een risicogroep valt, is ook realiteit aan het worden. En hier is geen enkele controle op. En wat vinden we van censuur gedaan door big tech?

Wat overigens niet betekent dat ik niet vind dat de overheid een extra verantwoordelijkheid heeft naar burgers. Juist als je er bent om de zwakkeren in de samenleving te beschermen is het extra tragisch wat er gebeurd is. Dit is ook de reden dat ik dit werk doe, omdat ik geloof dat als je de wereld wil veranderen en dit soort dingen wil helpen voorkomen je dat beter van binnenuit kan doen.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee