Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 42 reacties

Amerikaanse onderzoekers zeggen dat een programma om auteurs van literaire werken te identificeren, aangewend kan worden om uit te vissen welke stukjes 'terroristische propaganda' van dezelfde schrijver zijn.

gemaskerde computerterrorist Volgens Hsinchun Chen van het Dark Web-project van de universiteit van Arizona laten schrijvers van postings op het web onbedoeld sporen achter die kunnen worden gebruikt om verschillende teksten tot dezelfde persoon te herleiden. De aanhef van de tekst, de gebruikte woorden en interpunctie, maar ook de wijze waarop attachments worden gecodeerd: het zijn allemaal potentiële features die de auteur kunnen ontmaskeren.

Het programma Writeprint van de universiteit is afgeleid van een literatuurtool die oorspronkelijk was ontwikkeld om de authenticiteit van werken van William Shakespeare te verifiëren. Het maakt gebruik van 480 verschillende factoren, waaronder woordfrequenties, het webadres, de gebruikte lettertypes en het gebruik van speciale karakters. Volgens Chen kan het programma met een nauwkeurigheid van 95 procent vaststellen of een posting of email van de hand van een bepaalde auteur is. Wie dat dan precies is, komt niet uit Writeprint rollen; enkel dat verschillende stukken tekst bijelkaar horen. Het identificeren van de schrijver is voor rekening van de inlichtingendiensten, waarvan er volgens de wetenschapper enkele op het punt staan de techniek toe te gaan passen.

Arnon Grunberg (Café de Wereld)Een vergelijkbare techniek werd in Nederland bekend door de affaire Marek van der Jagt: een computerprogramma ontdekte vijf jaar geleden dat Arnon Grunberg schuilging achter deze opvallend goede onbekende schrijver. De reden: Grunberg liet onbewust karakteristieke kenmerken in zijn schrijfsels achter, en het computerprogramma kon, doordat bij het comprimeren van de teksten van Van der Jagt en Grunberg gelijksoortige patronen opdoken, de onbekende schrijver ontmaskeren. Het verschil met de door de universiteit van Arizona ingezette techniek is dat laatstgenoemde met een voorgebakken featureset van 480 kenmerken werkt, terwijl de door Italiaanse wetenschappers ontwikkelde tool die Van der Jagt ontmaskerde, zelf op zoek gaat naar identificerende kenmerken.

Moderatie-faq Wijzig weergave

Reacties (42)

Doet me denken aan Das LebenDer Anderen. Alleen daar heeft de overheid (oost duitsland) een database met welke typmachines in het bezit van welke schrijvers zijn.

Het doel is niet nieuw dus, de methode des te meer.

Als het programma echter redelijk openlijk verkrijgbaar is kunnen alle schrijvers die propaganda schrijven
(want daar gaat het om, niet om die terrorist die eens hier en daar wat achterlaat)
Hun propagenda eerst zelf even testen om te kijken of het met hem gelinkt wordt.

edit: niet eens echt heel nieuw dus,(5 jaar geleden al gebruikt) maar wellicht wel weer sterk verbeterd.

[Reactie gewijzigd door MaffeMaarten op 12 november 2007 16:27]

Even aangenomen dat je inderdaad een stukje tekst kunt vergelijken met een andere tekst van jezelf en zo kunt tweaken aan die nieuwe tekst dat het zo weinig mogelijk overeenkomsten heeft met je originele teksten, dan nog denk ik niet dat je dat vaak zo kunt tweaken, want bij de 2e of 3e getweakte tekst zal je dat herschrijven op een (onbewust) vergelijkbare manier doen en dan ben je alsnog te herleiden.
Daarnaast zal zo'n getweakte tekst waarschijnlijk meer opvallen doordat deze niet heel natuurlijk meer verloopt.

Mocht het zo zijn dat ze je kunnen opsporen aan de hand van zo'n filter, dan zal je schrijfstijl ofwel redelijk moeten opvallen tussen de rest, of men heeft al andere redenen om je te verdenken. Ik betwijfel of het dan effectief is om zo'n test te doen voordat je de tekst vrijgeeft.
Brengt me trouwens wel weer op een idee. Heuristische spamfilters of Bayesian filters houden ook patronen bij....

Zo zou je dus ook patronen kunnen gaan bijhouden van mensen die jou e-mailen. Van daaruit kun je whitelisting gaan samenstellen van mensen die je vaak mailen. Dus in plaats van alle mail er uit halen die lijken op spam, laat je mail door die lijkt op dat van personen die je kent.

Misschien overdreven en je moet er echt veel training in stoppen. Daarnaast moeten de mensen die jou mailen natuurlijk ook veel te veel hetzelfde patroon aanhouden.

Maat het flitste even door mijn hoofd.

- Unomi -
Dus in plaats van alle mail er uit halen die lijken op spam, laat je mail door die lijkt op dat van personen die je kent.
En wat als je ineens mail krijgt van iemand van wie je nog nooit (of vrijwel nooit) mail hebt ontvangen?

Nee tot op heden is de spam het beste te filteren door spam als spam te classificeren en het helpt daarbij dat veel spammails bij veel mensen in dezelfde vorm aankomen (DCC/Pyzor checksum) en om het hier en daar wat te tweaken kun je mensen in de whitelist zetten puur op adres (of domeinnaam)
Met de tools die ik ken die dit kunnen (ik ken ze zeker niet allemaal) kan je ook teksten genereren. Dan kan je ook mensen verdacht gaan maken.
Het lijkt me inderdaad geen onmogelijke taak om met behulp van zo'n programma, een tekst zo te tweaken dat het overeenkomt met de schrijfstijl van iemand anders. Ik hoop dus niet dat de uitslag van een dergelijk programma als bewijs gebruikt gaat worden. Maar als opsporingsmethode vind ik het een erg mooie techniek.
Ik denk dat het afhankelijk is van het percentage geschreven tekst. Als je kleine snippets tekst gebruikt op fora (zoals deze bijv.) dan wordt het een jarenplan voordat je een 'dader' hebt ontmaskerd.

Maar met boeken zoals bij die Grunberg is het natuurlijk heel makkelijk. Je leest 2 a 3 boeken in en je kunt zo een patroon opstellen. Genoeg materiaal.

Hoe je op die manier weer sites over terrorisme wilt uitpluizen en herleiden naar cellen van groeperingen???

- Unomi -
Persoonlijk vind ik deze evolutie niet zo goed. Er zijn goede redenen waarom iemand anoniem wil blijven. Neem nu een Chinese journalist/blogger die 'staatsgevaarlijke' opiniestukken schrijft. Of gewoon nog maar iemand die een blog bijhoudt van wat er in zijn/haar bedrijf gebeurt.

Dat het modewoord 'terrorisme' hierbij ging vallen zag je al van ver aankomen. Er is echter niet veel fantasie nodig om in te zien dat deze manier van identificeren voor heel wat andere doeleinden kan worden gebruikt... net zoals een mes, alleen ben ik meer bezorgd om identificatietechnieken dan messen :)

[Reactie gewijzigd door TheBlackbird op 12 november 2007 16:44]

Als dit echt goed werkt, zal dat zeker een mooie ontwikkeling zijn.
Niet dat een terrorrist zich hier ook maar iets van zal aantrekken.

:P je bent een terrorrist of je bent het niet :P

Daarbij komt wel dat dit wellicht ook gebruikt kan worden door grote scholen.
Als er op websites dreigementen ofzo worden gepost tegenover docenten of medeleerlingen, kunnen ze zo misschien nagaan of het iemand van school is :)
Tsja en weer een techniek die dmv het woordje "anti-terrorisme" de hemel in geprezen wordt.
Je kunt deze technieken ook gebruiken om klokkenluiders op te sporen en mensen die minder geliefd zijn in bepaalde regimes. Denk even aan de verzetskrantjes die wij hier in de 2e wereldoorlog hadden.

Oftewel blijf altijd kritisch kijken naar ontwikkelingen.
lastig, in dat geval gaat het vaak om kleine stukjes tekst. Deze methode werkt alleen met minimaal een aantal pagina's aan woorden. kleine kans dat commentaar van een scholier tegenover een docent zo goed onderbouwt is.
Toch is het nooit bewijs natuurlijk. Ik kan me voorstellen dat mensen uit hetzelfde milieu, en die veel dezelfde boeken lezen, vanzelf een schrijfstijl krijgen die daarop lijkt.

En wie komen er juist vaak uit hetzelfde milieu en lezen vaak dezelfde boeken? Terroristen!
En wie komen er juist vaak uit hetzelfde milieu en lezen vaak dezelfde boeken? Terroristen!
En mensen die op dezelfde fora rondhangen
En mensen die dezelfde interesses hebben, zoals tweakers
En mensen die nogal religieus zijn
En mensen die nogal atheist zijn
En collega's
En BrEaZaH'z (of hoe dat taalverkloten tegenwoordig ook maar heet)

Kortom, het is echt niet zo dat (georganiseerd) terrorisme mensen op elkaar laat lijken. Het lijkt me dat er genoeg andere factoren zijn die in de praktijk wat zwaarder meewegen. De meeste 'terroristen' blijken vaak mensen te zijn van wie de omgeving dat nooit had verwacht, oftewel mensen met een leven.
Mijn reactie was ook juist bedoeld om de zwakte van het systeem aan te wijzen. Als veel schrijfstijlen van groepen op elkaar lijken is het veel lastiger om daaruit een individu te kiezen die "vast en zeker dit en dat artikel heeft geschreven".

IMO is het wel zo "dat (georganiseerd) terrorisme mensen op elkaar laat lijken"

en al die andere groepen laten schrijfstijlen ook op elkaar lijken.

des te moeilijker is het (des te knapper is het ) dat ze daar een individu uit selecteren
ken jij veel terroristen dan? lijkt me n beetje een loze opmerking om dat zomaar ff te roepen. Is misschien te generaliserend gesteld want tenzij jij erg dicht betrokken bent bij een "cel" lijkt het me niet dat je dit soort dingen kunt weten. Als je er wel bij zou zitten zou je dit natuurlijk niet kunnen laten merken door dingen die waar zijn te roepen en klopt t dus ook niet :+
4l$ 1k 0p d3z3 m4n13r $chr1jph, \/\/0rd7 h37 d4n 00k 0nd3r$ch3p7? :-P
j4h \/\/4n7 h4><><0r iz m33574l |_|/\/1e|<3r d4/\/ 93w0/\/3 73><7.

Met h4x0r zijn er veel meer manieren om een bepaalde letter uit te drukken dan met 'gewone' taal, en een persoon die 'handmatig' in h4x0r schrijft, gebruikt vaak dezelfde manier om een letter uit te drukken. Hierdoor word de manier van schrijven van een persoon nog specifieker: niet alleen de zinsstructuur en dergelijke is uniek, maar nu ook het schrijven van letters.

Natuurlijk zal een programma wel zodanig aangepast moeten worden dat het ook h4x0r letters kan herkennen, indien het daarop let.
Nou kan ik me voorstellen dat dit inderdaad prima werkt bij schrijvers omdat er gewoon heel veel materiaal beschikbaar is, maar voor een terrorist die eens hier en daar wat achterlaat lijkt me dit een stuk moeilijker, met als gevolg een boel false positives.
Dit is wel leuk. Je hebt tegenwoordig van die dingen die vergelijken op wie jij lijkt, maar als er ergens een tooltje is dat (uiteraard minder intensief) wat zoekt naar jouw schrijfstijl, is het wellicht toch leuk om eens je opstellen en papers voor Nederlands en Engels door dat ding heen te slaan, dan weet je misschien meteen in welke hoek je moet zoeken als je weer eens een boek wilt lezen...
Een soort LAST.FM, maar dan voor boeken.
Ervanuitgaand dat mensen graag boeken lezen in dezelfde stijl als dat ze die zelf zouden schrijven.

last.fm kijkt natuurlijk naar wat je verder luisterd, en ook niet naar wat je zelf maakt. Maar toch, het idee is leuk.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True