Tool voor detectie malafide sites wint Dutch Open Hackathon

Het team dat de CrimeBusterBot ontwikkelde was afgelopen weekend de winnaar van de Dutch Open Hackathon, die voor de vierde keer gehouden werd. De tool kan geautomatiseerd netwerken van malafide websites blootleggen.

De CrimeBusterBot maakt gebruik van webcrawling en dns-analyse om een site als mogelijk malafide aan te merken en op basis daarvan te zoeken naar vergelijkbare malafide sites. De ontwikkelaars pasten machine learning toe voor de werking van de tool, waarbij ze gebruik konden maken van api's en datasets van de partijen die de Dutch Open Hackathon mogelijk maakten, zoals de politie en SIDN.

De keuze van de jury viel op CrimeBusterBot 'omdat het een relevant probleem aanpakt en tevens goed gebruikmaakt van de data die de partners beschikbaar hebben gesteld'. Ook Tweakers was partner bij het evenement: ontwikkelaars van de site waren in de jury verantwoordelijk voor de technische beoordeling van wat er uit de handen van de teams kwam. Team CrimeBusterBot won met zijn eerste plaats een bedrag van 7500 euro en sleepte ook de pioniersprijs van het SIDN Fonds in de wacht.

Team Syntax nam de tweede plek in, met de ontwikkeling van het platform Afwijken.com, dat mensen helpt geschikte woonruimte buiten de grote steden te vinden, op basis van factoren als veiligheid, beschikbare scholen en prijs. De publieksprijs ging naar A-ware International. Dat team ontwikkelde een site om consumenten bewuster te maken van de gevaren van ransomware. De incubatieprijs ging naar Sharefox, een applicatie voor het veilig delen van bestanden.

In totaal deden er 23 teams mee aan de Dutch Open Hackathon, een initiatief van Stichting Dutch Open Innovation, Big Data Innovatiehub, het Kadaster, Koninklijk Instituut Van Ingenieurs, KPN, Politie, PostNL en SIDN. Het evenement werd afgelopen weekend gehouden in de Dutch Innovation Factory in Zoetermeer.

Door Olaf van Miltenburg

Nieuwscoördinator

29-05-2018 • 08:50

28 Linkedin

Reacties (28)

28
26
22
7
1
1
Wijzig sortering
"De ontwikkelaars pasten machine learning toe" Waar dan precies?
https://github.com/AnykeyNL/CrimeBusterBot/issues/4

[Reactie gewijzigd door darkdeathrip op 29 mei 2018 12:30]

We hebben voor het Machine Learning gedeelte gebruik gemaakt van https://customvision.ai. Hierdoor konden we tijdens de hackathon snel itereren en prototypen. Deze tool heeft ook als voordeel dat je het model als Tensorflow kan downloaden en gebruiken. Dit hebben we overigens door tijdsgebrek helaas niet kunnen gebruiken. Verder is de genoemde github repository niet alle code die we hebben gemaakt, dit staat in private repositories omdat de data ook niet gedeeld mag worden.
Hier:https://github.com/Anykey...rBot/blob/master/Check.py laden ze fakesites.txt's in
Wellicht dat ze dat als dataset gebruiken.. Ik snap alleen niet zo goed hoe ze weten of een site fake is doormiddel alleen te zoeken of de content "shopping_cart" of "checkout" bevat. checkout is misschien wel wat raar met een lege basket.. maar hoezo zou shopping_cart niet legit zijn?
Dat heb ik ook gezien... 8)7
Ik zit om die reden ook met de dezelfde vraag als @darkdeathrip
Ik gok dat CrimeBusterBot ook redelijk snel de aandacht zal krijgen van de diverse opsporings- en veiligheidsdiensten. Gefeliciteerd dus met deze prijs!

Afwijken.com ben ik nu even aan het bekijken, de site zelf laadt vrij snel, maar het duurt erg lang voordat er resultaten worden getoond (loopt al bijna 2 minuten), terwijl ik helemaal geen vreemde criteria heb ingevuld.
Wel vraag ik me af waar de site de 'te koop' aangeboden huizen vandaan haalt. Worden deze van Funda gescraped, om dit dan te combineren met veiligheidsrapportages en locaties van scholen?
Of zijn ze afhankelijk van huizen die worden geplaatst op de site (door makelaars of andere verkopende partijen)?

Edit: Ik zie dat er door de organisatie een aantal datasets beschikbaar zijn gesteld, dus de data zal van die datasets komen en niet gescraped worden van een Funda oid. Dit verklaart ook waarom afwijken.com (nog) geen resultaten laat zien.

[Reactie gewijzigd door walteij op 29 mei 2018 09:09]

Als ik op afwijken.com de standaard waardes laat staan heb ik ook maar een paar zoekhits. Het lijkt mij dat er voor max 250k en verder geen criteria ik in bijna heel Nederland prima zou kunnen wonen... :/
Ik denk wel dat dit een leuk platform zou kunnen worden, maar dit is (gesimplificeerd) niets meer dan een leuke GUI over wat BI heen.
Je zou dit, zodra je de datasets beschikbaar hebt, een soortgelijk iets ook in PowerBI kunnen maken.
Er is al een connector voor CBS Open Data/Statline, waarmee je dus de veiligheid en kindvriendelijkheid al kunt bepalen. Dan heb je alleen nog een verbinding met iets als Funda nodig (en toestemming van Funda uiteraard) om mensen direct huizen te tonen die aan de wensen voldoen.
Het leuke daarbij is dat je dan nog véél meer criteria kunt gebruiken dan die door afwijken.com zijn gespecificeerd.
Als je echt van de lijstjes, vergelijken, alles dood-analyseren bent én een beetje handig bent met PowerBi moet je een aardig eind kunnen komen.
datasets met allerlei buurtgegevens zijn openbaar verkrijgbaar via het CBS, dus als ze gebruik maken van die informatie, kun je vrij snel een heel uitgebreid profiel van een bepaalde buurt maken waarin je b.v. zou kunnen selecteren op: criminaliteit, opleidingsnivo, inkomensnivo, scholing/openbare voorzieningen, etc, etc. a.d.v. die informatie zouden buurten geselecteerd kunnen worden die in aanmerking komen en als dan op basis daarvan een call richting b.v. funda uit gaat, dan moet je toch wel wat hits krijgen.

sommige gemeenten maken ook gebruik van deze gegevens om b.v. een gemeentedashboard te maken (zie: https://maastricht.incijfers.nl/dashboard). De gegevens die op dat dashboard staan, zijn er ook op postcodenivo (dus buurtnivo)...
Op https://www.leefbaarometer.nl heb je al een mooi overzicht van de leefbaarheid van buurten op basis van allerlei openbare gegevens zoals voorzieningen in de buurt, enquetes van gemeenten etc.
Deze tool is enkel voor het matchen van de meeste geschikte buurt op basis van je woonwensen. Er worden dus geen huizen aangeboden.

De data is afkomstig van het CBS, het Kadaster en de Politie.
De resultaten zijn nu nog niet erg schokkend met deze vragenset, dit is slechts een proof of concept. Uiteindelijk is er nog ontelbaar veel meer informatie beschikbaar over alle buurten.
Dus, zoals ik hier al schreef zou je dat ook met een PowerBI dashboard kunnen doen.
Begrijp me niet verkeerd, ik vind het een leuke gedachte, maar er zijn al aardig wat manieren om dit dus te kunnen realiseren, zonder dat je daarbij zelf veel code hoeft te schrijven..
Ik hielp zelf mee met de technische jury. Zeker een terechte winnaar als je het mij vraagt! Het mooie was dat niet alleen werd nagedacht over het opsporen van malafide websites, maar ook over het achterhalen van andere malafide websites op basis van het domain record. Gefeliciteerd!

Wij (Instruqt, een leerplatform voor IT professionals, zie https://instruqt.com) waren aanwezig met een retro arcadekast waarop de deelnemers challenges moesten oplossen. De hackathon zelf was goed verzorgd qua organisatie. Wellicht tot de volgende editie!

[Reactie gewijzigd door bastichelaar op 29 mei 2018 11:29]

kunnen we dan deze tool ook ergens gratis downloaden?
We hebben de code op github staan. Maar de software werkt met data van SIDN (.nl domain namen). Dit is niet publiekelijke beschikbare data. Dit werd speciaal voor de hackathon beschikbaar gesteld om juist te kijken of daar dus leuke ideeën uit voort kwamen.

Wij gaan in gesprek met SIDN om te kijken of dit wel publieke beschikbaar kan komen of dat zij een active rol hier in gaan spelen.
Gaan jullie de lijst die jullie gevonden hebben ook ergens publiceren? Dat kan in ieder geval al helpen, mochten mensen een aankoop doen op een bepaalde website.

Misschien ook interessant om dit in de toekomst uit te gaan breiden naar andere domeinextensies!
Waar zit ergens het ML deel? Kan het niet vinden...
Zeker
https://github.com/AnykeyNL/CrimeBusterBot?files=1
(Google is your friend :p)

[Reactie gewijzigd door proditaki op 29 mei 2018 10:30]

hoe kan ik het "programma/tool" dan runnen zie namelijk geen EXE in de repository.
Het is ook een EXE programma. Het is zo te zien geschreven in Python, dus je hebt python nodig om dit te draaien. Makkelijkste is om dit op een Linux bak te doen, omdat daar native al Python ingebakken zit. Op Windows kan het ook, maar dan zal je python voor Windows moeten downloaden.
Je zult hiervoor Python moeten installeren op je Windows system.
Python voor Windows kun je hier downloaden.
Fellow nerds,

Laten we hem opleiden in plaats van afwijzen, we zijn allemaal ergens begonnen :)

Just my 2 cents
de 2 die mij afkraken zijn tevens wel 2 personen die veel sarcastische comments hebben gemaakt op andere topics.
-----------------
ik vraag vooral om een exe variant zodat ik zelf deze niet hoef te compileren tot een werkende tool gezien veel githubs repo's ook een exe variant hebben.
-----------------
daarnaast zou een exe variant vooral handig zijn voor de "non-IT groep {ouderen}"
zodat deze de tool zonder enig gedoe kunnen instaleren en zo veiliger online zijn.
Ik denk eerlijk gezegd dat het nog niet klaar is voor de consument om het te gebruiken.
Leuk event om bij te zijn en zeer terechte winnaars :) Hopen dat er volgend jaar weer wat meer datasets beschikbaar zijn!
Veilig delen van bestanden, laat Tim Kuik het maar niet horen.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee