Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 28 reacties

Het Nederlandse Forensisch Instituut werkt aan een verbeterde hostingomgeving voor zijn opsporingstool Xiraf. Xiraf wordt onder meer gebruikt voor het opsporen van kinderporno. De tool wordt zoveel gebruikt dat nieuwe hosting nodig is.

De tool voor opsporing van onder meer kinderporno werd door het vele gebruik trager. Er wordt niet alleen steeds meer data per zaak aangedragen, ook het aantal zaken dat een plek moeten krijgen in de database is fors toegenomen. Er is daarom een overeenkomst gesloten met NCIM voor het verbeteren van de hosting. Daarnaast zal het it-bedrijf een deel van de helpdesktaken uitvoeren en bovendien kijken hoe het systeem ook in andere landen kan worden gebruikt. De ingreep is nodig, omdat de infrastructuur achter Xiraf de afgelopen jaren complexer is geworden.

De servers zijn buiten de eigen muren geplaatst, maar niet bij een commerciële partij. Van Eijk mag vanuit veiligheidsoverwegingen niet in detail ingaan op hoe de infrastructuur is geregeld, maar benadrukt dat veiligheid hoog in het vaandel staat. "We hebben redelijk wat firewalls ingebouwd en authenticatie gebeurt bijvoorbeeld met een 2-factor", zegt Erwin van Eijk, expert Digitale Technologie bij het NFI, tegenover Tweakers.net

Er is ook een gehoste versie van Xiraf voor andere opsporingsdiensten. Agenten blijken ondanks de complexe mogelijkheden van het systeem in staat om redelijk eenvoudig hun weg te vinden. "Het concept van Google is iedereen wel duidelijk. Uiteraard zit er meer in de tool dan alleen een zoekveld, maar het is redelijk eenvoudig in gebruik." De gehoste cloudversie van Xiraf verschilt overigens van de versie die het NFI gebruikt voor zijn eigen zaken, al draait die ook op Xiraf.

Hoewel de database van Xiraf steeds groter wordt, wil Van Eijk geen concrete cijfers noemen. "De Wet van Moore lijkt bij ons feilloos op te gaan. Elke 18 maanden zien we een verdubbeling van de hoeveel te analyseren data. Elke zaak die wordt onderzocht bevat al snel meer dan zeven miljoen sporen, die allemaal in de database moeten worden opgeslagen. We hebben gemerkt dat dit invloed heeft op de prestaties van het systeem."

Er zijn al maatregelen genomen om het systeem te versnellen. "We hebben overwogen om op strategische plekken ssd's in te zetten", aldus Van Eijk. "Het performancevoordeel was niet groot genoeg ten opzichte van de kosten om het nu al toe te passen. Meer geheugen bleek profijtelijker."

Wel is inmiddels het opslagformaat aangepast.  "In een van de eerste versies van de tool maakten we gebruik van xml als opslagformaat. Dat bleek, naarmate het systeem groeide, echter voor prestatieproblemen te zorgen. Inmiddels hebben we een eigen opslagformaat ontworpen om dat probleem op te lossen."

Xiraf is door de engineers van het NFI ontwikkeld in een poging tijd te besparen bij het digitaal rechercheren. Xiraf wordt inmiddels niet alleen door het NFI gebruikt, maar is ook beschikbaar voor politiekorpsen. De afgelopen tijd is gebleken dat steeds meer korpsen de tool gebruiken, waardoor ook steeds meer data aan het NFI wordt aangeboden om te analyseren en op te slaan. Hoewel er sprake is van redundancy, zegt Van Eijk dat er op dat punt nog zaken verbeterd kunnen worden.

Moderatie-faq Wijzig weergave

Reacties (28)

7 miljoen records in een XML file... nee das niet snel. SSD's gebruiken is gezien het prijs niveau in maar zeer weinig gevallen echt te verantwoorden er zijn veel al een heleboel andere methodes te vinden die meer kosten efficiënt zijn dan SSD's.
Een 2 factor authenticatie hoeft niet veel veiliger te zijn dan een standaard login en password (kijk maar naar het aantal banken dat nog wel eens in de problemen komt hier mee) maar ik neem aan dat het NFI wel een beetje weet wat het doet op dit gebied.

Wat ik me wel af vraag is waarom de split tussen de platte pet versie en de versie voor de mensen met verstand van zaken? Uiteindelijk hebben beide het zelfde doel voor ogen en zou het handiger zin als beide bij de zelfde data kunnen. Het kan nog al een verschil maken als het NFI bepaalde sporen als niet relevant heeft aan gemerkt maar een agent juist op basis daar van zijn onderzoek in een bepaalde richting stuurt. Of als een agent nieuwe sporen vind en het NFI hier niet van op de hoogte is. De frontend kan nog zo anders zijn maar de backend zou toch wel gedeeld moeten zijn.

Dat ze steeds maar meer data nodig hebben is niet zo heel erg gek kijk voor de grap eens naar de hoeveelheid data die een gemiddelde telefoon tegenwoordig wel niet bevat, als je binnen een zaak een aantal computers en een aantal telefoons in beslag neemt. Daar naast ook nog even de gegevens op vraagt van de telecom bedrijven en de internet providers als mede alle andere gegevens die organisaties als de belasting dienst, uitkeringsinstanties en andere overheid gerelateerde clubjes over de 25 mensen die onderdeel van het onderzoek zijn hebben verzameld opslaat. Dan kan dat nog wel eens aardig wat data op leveren.
En die data groeit elk jaar weer en het zou me niets verbazen als over een paar jaar het NFI de handdoek in de ring moet gooien en simpel weg oudere zaken alleen nog maar als backup en niet meer online doorzoekbaar beschikbaar heeft. Nu is dat vast nu ook al het geval als je een aantal jaren terug gaat maar gezien de enorme hoeveelheden data die men nu moet verwerken lijkt het me dat de periode dat data online beschikbaar blijft erg snel een stuk korter wordt.
Wat ik me wel af vraag is waarom de split tussen de platte pet versie en de versie voor de mensen met verstand van zaken? Uiteindelijk hebben beide het zelfde doel voor ogen en zou het handiger zin als beide bij de zelfde data kunnen.
Dat is niet zomaar toegestaan. Het systeem stelt een team in staat gegevens van een eigen onderzoek in te zien, anderen mogen daar niet bij. De eigen onderzoeken van het NFI gebeuren ook met Xiraf maar dan op een separaat systeem. Dit heeft te maken met het feit dat het NFI de data langer moet bewaren ivm bewijslast bijvoorbeeld.
7 miljoen is peanuts, en het werd (natuurlijk) niet opgeslagen als een flatfile! Dit werd gedaan in XML database. Paar steekwoorden op Google: MonetDB Xquery XIRAF Boncz
7 miljoen wat? links? foto’s? video’s? hashes? er staat geen „grootheid” bij dus aan alleen de eenheid heb je hier helemaal niks. 7 miljoen linkjes neemt niet zoveel ruimte in, maar 7 mil filmpjes en/of foto’s wel.
7 miljoen records in een XML file...
Tags dus. Het is meta informatie.
Dat document lijkt wel wat ouder te zijn, of lees ik het nu verkeerd? In het document wordt namelijk gesproken over XML als opslagformaat, terwijl hier in het artikel staat dat ze dat al van de hand hebben gedaan wegens performanceproblemen (waar ik heel goed in kan komen).
MonetDB4/XML werd vroeger in Xiraf gebruikt. Performance problemen zijn 'relatief', zeker met die database. Het CWI is een van de eersten geweest die highperformance XML kon opslaan en queryen. Daarboven op lag een fulltext search PF/Tijah. Ik heb begrepen dat ze bij het NFI niet lukte om van MonetDB4 naar MonetDB5 te gaan, en de XML frontend werkt dus niet op MonetDB5 (in tegenstelling tot de SQL frontend). Ik dacht vernomen te hebben dat het nu op Oracle draaide, maar dat weet ik niet meer zeker.

Voordeel sowieso van MonetDB is dat het een van de snelste database is en was voor hele grote datasets. Overigens een ander leuk feitje, de Wouter Alink en A.P. de Vries van dat paper zitten nogsteeds in de zoekbusiness met het CWI spin-off bedrijfje: Spinque.

[Reactie gewijzigd door Skinkie op 5 augustus 2011 15:54]

Wat mij altijd verbaasd is dingen ala
Wel is inmiddels het opslagformaat aangepast. "In een van de eerste versies van de tool maakten we gebruik van xml als opslagformaat. Dat bleek, naarmate het systeem groeide, echter voor prestatieproblemen te zorgen. Inmiddels hebben we een eigen opslagformaat ontworpen om dat probleem op te lossen."
Met het vooruitzicht op grote hoeveelheden data ga je toch al snel richting een relationele database aankijken (MySQL voor de OpenSource georienteerde, MSSQL/Oracle voor het licensiewerk?).. Van die DB's is aangetoond dat ze veel data kunnen indexeren,verwerken en queryen....
Relationele databases zorgen er ook voor dat je niet willekeurig informatie kan uitbreiden. En is dat nu net niet wat je wilt in opsporing, willekeurige feiten aan elkaar koppelen? Zie overigens mijn posts hierboven. Dan wordt gelijk duidelijk dat grote hoeveelheden niets met een representatie formaat te maken heeft.

Het is exclusief een manier om bij je data te komen, via xquery in tegenstelling tot bijvoorbeeld sql en te renderen in xml, in tegenstelling tot kolommen. En als je goed hebt opgelet in het laatste nieuws weet je dat Microsoft ook bezig is met een alternatief query/render model.

XQuery databases:
http://basex.org/
http://www.monetdb-xquery.org/

Microsofts query dingetje:
http://www.odata.org/
daarnaast is het gebruik van MySQL in een dergelijk grote database nou ook niet echt performancewaardig ;)
Dan kun je eerder richting de MSSQL PostgreSQL en Oracle gaan (al noemde je die ook wel :) )
Hier is een redelijk helder, niet technisch, verhaal te vinden over de werking van Xiraf: http://www.security.nl/ar...tegen_kinderporno%22.html
Wat word er nu concreet bedoeld met ''sporen'' & ''data'' ? Moet ik hierbij denken aan puur linkjes naar ongewenst materiaal of fora e.d. of echt aan (video)files zelf of iets heel anders?

Enfin het is dus een soort van ''privé'' google voor de NFI en bepaalde politiekorpsen maar dan nog ben ik erg benieuwd naar de inhoud van deze database en dus de betekenis van ''sporen'' & ''data''.

Toch nog een edit;
"Het concept van Google is iedereen wel duidelijk. Uiteraard zit er meer in de tool dan alleen een zoekveld, maar het is redelijk eenvoudig in gebruik."

Aan wat voor zoek opdrachten moet ik dan denken ? Zoeken op de naam/nickname van een persoon of .... ?

[Reactie gewijzigd door Perkouw op 5 augustus 2011 15:05]

In dit geval word er denk ik alles mee bedoelt. Dit systeem slaat gewoon files op en kan die koppelen aan dublicates. Dit zou effectief zijn als niet al dit soort bestanden in een file met een encryptie verstuurt zou worden. Ik zou wel eens cijfers willen zien hoe succesvol dit systeem is. Als je het zo leest lijkt er namelijk alleen maar een stijging in te zitten.

Edit: Reactie is nogal ongewenst. Heb het aangepast..

[Reactie gewijzigd door HaX0r op 5 augustus 2011 17:07]

Wat ik tot zover heb begrepen van dit soort systemen is dat ze een hash maken van bestanden (dus foto's , video's e.d.) die kinderporno bevatten. Vervolgens gooien een scanner heen over de data die in beslag genomen is, deze haalt hier allerlei bestanden uit en die hashen ze ook om deze vervolgens met de opgeslagen hashes te vergelijken.

Edit: Na het lezen van de link van skinkie, komt er op neer dat ze tools zoals ik net beschreef gebruiken om sporen te vinden. Dit systeem verzamelt alle sporten tot een grote database zodat de onderzoeker er weer op kan zoeken.

[Reactie gewijzigd door BlackHawkDesign op 5 augustus 2011 15:24]

Wat ik tot zover heb begrepen van dit soort systemen is dat ze een hash maken van bestanden (dus foto's , video's e.d.) die kinderporno bevatten. Vervolgens gooien een scanner heen over de data die in beslag genomen is, deze haalt hier allerlei bestanden uit en die hashen ze ook om deze vervolgens met de opgeslagen hashes te vergelijken.
Dat geeft je dus alleen een match als het bestand bit voor bit identiek is aan mogelijke 'verdachte' gevallen. Verander je voor mijn part één bit in de EXIF-informatie van een foto, dan valt die hash in principe dus al door de mand.

Het liefste zou je fuzzy matching willen toepassen, maar dan heb je weer veel te veel risico dat je false positives meeneemt. Een goed voorbeeld is de site van AbbyWinters.com die (onterecht) door het Australische kinderporno-filter is gesnapt omdat ze vrouwen (20-25+) op de site hadden staan die nogal klein uitgevallen waren.
't Is eerder gebaseerd op iets als Tineye: een digitale fingerprint. Dat wil zeggen dat operaties als croppen en resizen nog steeds dezelfde fingerprint opleveren, en die kun je dus in de database zetten. Compleet nieuwe images leveren een compleet nieuwe fingerprint op.
De meeste kinderporno wordt gewoon met proxy's op 4CHAN en IRC uitgewisseld.
Ik ben er vrij zeker van dat de meeste kinderporno zal uitgewisseld worden via media die NIET beschikbaar zijn door zomaar de juiste url in te geven. Denk eerder aan legale fora waar op uitnodiging kiddie porn sections zichtbaar worden, .onion sites, darknet netwerken en filesharing van encrypted archives die onmiddellijk terug van de host worden gehaald na downloading...

Ontopic:
Bijzonder sterk dat ze effectief zoveel data verzameld krijgen dat hun database eronder knarst. Op zich is dat al een overwinning voor hun opsporingstechnieken. Nu nog hopen dat er uit die massa ook veel bruikbare gegevens gedistilleerd kunnen worden.

[Reactie gewijzigd door UmbraDei op 5 augustus 2011 15:18]

Bijzonder sterk dat ze effectief zoveel data verzameld krijgen dat hun database eronder knarst. Op zich is dat al een overwinning voor hun opsporingstechnieken. Nu nog hopen dat er uit die massa ook veel bruikbare gegevens gedistilleerd kunnen worden.

Of het een overwinning is voor hun opsporingstechnieken hangt natuurlijk af van hoeveel er echt kinderporno is. Als je heel veel data binnenhaalt die bijna nooit kinderporno is, dan doe je het juist heel slecht.
Inderdaad, dat denk ik ook.
Ik heb wel eens naar de werking van Freenet gekeken en uiteraard daar ook wat op rondgesurft, daar staat ook genoeg dergelijke rommel op.

Freenet is een van de meest populaire clients om een darknet mee op te zetten.
Het is gewoon een database met microsoft photodna achtige hashfiles van bekende kiddypron plaatjes. Een webcrawler loopt verschillende sites door en hashed alle plaatjes en zodra er een match is gaat dit richting het meldpunt kinderporno.
ikzelf heb Xiraf in werking gezien en ik moet zeggen dat het een hele mooie tool is =]
Dan hoop ik dat je aan je geheimhoudingsverplichting denkt terwijl je dit soort reacties op een site plaatst.
Ik ben tegelijk met Anthrax daar geweest, en we hebben verder niks moeten tekenen geloof ik? Ik kreeg ook het gevoel dat er vaak rondleidingen worden gegeven. Dus wat dat betreft is het allemaal niet zo dichtgetimmerd. NFI maakt trouwens ook veel open source, Xiraf is daar helaas niet 1 van.

Xiraf is zeker een mooie tool, je gooit daar bijvoorbeeld een dump van het geheugen van een iPhone in, en Xiraf maakt het makkelijk om dan bijv de laatste gebelde nummers te zoeken, de locaties die opgeslagen zijn (NFI was wel blij dat de iPhone een database bijhield van de laatste locaties), foto's en plaatjes die er op staan (inclusief plaatjes die de iPhone maakt om de animaties soepel te laten verlopen, dus complete screenshots).
wat had jij aan dan? :o

ik vond mijn timescrambler vraag naar die gozer wel goed :)
"Redelijk wat firewalls ingebouwd"
[sarcasm]Dan moet het wel heel veilig zijn. Stel je voor dat ze het aantal firewalls nog eens gaan verdubbelen. [/sarcasm]

Ik snap sowieso niet hoe dit Computable nieuws (want dat is het), op Tweakers.net komt. Dit is niets anders dan reclame.
Al die tools zijn wel leuk, maar als je onzichtbaar bent dan kunnen ze je toch niet vinden. je kunt zelfs onzichtbaar hosten, dat is nog leuker :P

Ik gebruik de onzichtbaarheid trouwens niet voor porno ofzo, ik zou het zinloos vinden aangezien ik niet zo'n kinderfanatiekeling ben ;)

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True