Analysesoftware Amerikaanse geheime dienst moet sarcasme herkennen

De Amerikaanse geheime dienst USSS wil software laten ontwikkelen voor de analyse van berichten op sociale media die sarcasme kan herkennen. Dat staat in documenten die de geheime dienst zelf online heeft gezet.

Sarcasme-bordje uit The Big Bang TheoryMet de detectie van sarcasme wil de geheime dienst, die los opereert van de bekendere FBI en NSA en zich onder meer bezighoudt met beveiliging van de president, vermoedelijk het aantal meldingen van de analysesoftware beperken. De geheime dienst wil de software gebruiken om sociale media realtime te monitoren op verdachte activiteiten. Een aantal van de 6500 medewerkers van de dienst zou tegelijk toegang moeten hebben tot het systeem, blijkt uit de gepubliceerde werkorder die de site NextGov ontdekte.

De eisen vermelden ook dat het systeem moet werken in Internet Explorer 8, de standaardbrowser bij de release van Windows 7. Met de werkorder nodigt de geheime dienst softwaremakers uit om het systeem te maken. Hoe het systeem om sarcasme te herkennen zou moeten werken, omschrijft de USSS niet.

Door Arnoud Wokke

Redacteur Tweakers

04-06-2014 • 18:25

82

Submitter: BenGenaaid

Reacties (82)

82
76
38
5
2
13
Wijzig sortering
Sarcasme heeft alles te maken met humor.
Voor iedereen die begrijpelijk uiterst kritisch is over AI herkenning hiervan, zijn mogelijk de volgende twee links interessant:

Onderzoek door Rada Mihalcea en Carlo Strapparava (2006)

Onderzoek door Antonio Reyes, Paolo Rosso en Davide Buscaldi, 2012, specifiek gericht op twitter, waarbij gebruik werd gemaakt van de tags #humor en #irony. Dat klinkt niet zo heel bijzonder, maar de abstract bevat wel een aantal aardige doorverwijzingen o.a. naar onderzoek over het herkennen van sarcasme.

[Reactie gewijzigd door Teun Spaans op 23 juli 2024 04:29]

Kennelijk is er wel iets haalbaar.
SASI, a Semi-supervised Algorithm for Sarcasm Identification, can recognize sarcastic sentences in product reviews online with pretty astounding 77 percent precision.
http://www.popsci.com/tec...-sarcasm-which-soooo-cool

[Reactie gewijzigd door dragonflyslayer op 23 juli 2024 04:29]

Als iemand die dagelijks bezig is met text mining, kan ik je vertellen dat dit enorm beperkt is.

Om sarcasme te detecteren heb je altijd extra informatie nodig. Soms, zoals in productreviews, is dat simpel, net zoals als je bijvoorbeeld op Twitter soms een smiley in het bericht hebt die het tegenovergestelde sentiment uitdrukt van de text (b.v. "Dat was weer lekker. :(").

De grote uitdaging is, hoe ga je om met zaken zoals "Wat is het toch lekker weer vandaag", zonder de kennis te hebben van wat voor weer het daadwerkelijk WEL is op de locatie van de gebruiker. In de praktijk blijkt dat meeste sarcasmegevallen in deze categorie vallen. Zonder echte common-sense kennis in de computers zijn dit soort gevallen voor algemene toepassingen onhaalbaar, en hard-AI duurt nog even.

DE manier om dit deels te ondervangen is door ZEER uitgebreide profielen van individuele gebruikers aan te leggen. Dan kan je namelijk de "algemene" voorkeur van individuele gebruikers en groepen gelijke gebruikers inzake veel issues minen, om vervolgens hetgene wat qua "topicality" overeenkomt maar qua sentiment afsteekt, gecombineerd met methodes zoals beschreven in jouw text, als sarcasme aan te kunnen duiden. Mijn vermoeden is dan ook, gelet op de toegang tot de data die ze al hebben, dat ze dit pad zullen kiezen.
Knap natuurlijk, maar dit lijkt mij een redelijke specifiek scenario met veel rand informatie (reviews over specifieke producten); een dergelijke systeem voor Twitter/Facebook/Email lijkt mij dusdanig meer complex dat een accuraatheid van 77% niet snel gehaald zal worden. Ze zullen waarschijnlijk blij moeten zijn met ~25%. Maar het is natuurlijk een begin.
Ik denk dat het tijd word om een chatapplicatie o.i.d. te maken die alle text van gebruikers omzet naar een afbeelding in een soort van captcha, dat zal het ze een stuk lastiger maken een sleepnet over alle berichten te halen. dit zal ook wel helpen met het aantal meldingen van de analysesoftware beperken.

[Reactie gewijzigd door M.l. op 23 juli 2024 04:29]

Mijn http://www.nonopticon.com zou gewoon in chatsoftware kunnen worden geimplementeerd. Als je dan in een "open modus" een chatgesprek hebt, leert het systeem JOUW taalgebruik, zodat hetgeen het systeem genereert als je een "veilige" chatlijn wilt hebben ook precies zo eruit ziet alsof jij het zou schrijven.
Zoiets heet encryptie en dat bestaat al sinds de Tweede Wereldoorlog (letterlijk). Maar ook encryptie is te omzeilen op allerlei manieren als je echt wilt.

[Reactie gewijzigd door TMC op 23 juli 2024 04:29]

Kleine correctie: 'zoiets heet cryptografie en bestaat al sinds het geschreven woord is uitgevonden en waarschijnlijk langer'.

Alle beschavingen van de oudheid, van China tot Griekenland, gebruikten vrij complexe cryptografische systemen. Sommige ervan zijn qua principe amper verschillend van wat we vandaag nog courant gebruiken.

[Reactie gewijzigd door Silmarunya op 23 juli 2024 04:29]

Het is meer obfuscaten. De informatie is gewoon leesbaar voor mensen omdat wij de letters kunnen herkennen, maar computers kunnen dit niet zo goed. Het idee is dat de tekst die word gepost word omgezet naar patronen die wat vervormd in een afbeelding word geplaatst met wat ruis op de achtergrond, dat is geen encryptie.
De boel encrypten kost vermoedelijk veel minder CPU cycles en gegarandeerd slechts een fractie van de bandbreedte. Bovendien werkt het beter en is het veel gebruiksvriendelijker...
Dat is zeker waar, maar dat is alleen toe te passen in gesloten sites e.d.. Wat ik hier reageer is publiek en een crawler kan alle tekst van de site halen en het analyseren. Als Tweakers b.v. dat niet wil zouden ze ervoor kunnen kiezen alle tekst om te zetten naar captcha-achtige afbeeldingen zodat men het nog steeds kan lezen, maar het maakt analyse bijna onmogelijk.
Natuurlijk is het hier niet praktisch om te gaan doen, maar op sites waar politiek gevoelige onderwerpen worden besproken zou het misschien goed te gebruiken zijn.
Als Tweakers b.v. dat niet wil zouden ze ervoor kunnen kiezen alle tekst om te zetten naar captcha-achtige afbeeldingen zodat men het nog steeds kan lezen, maar het maakt analyse bijna onmogelijk.
"Praktisch onmogelijk" dat is hopelijk sarcastisch bedoeld? Want computers kunnen ondertussen beter lezen als mensen en op de paar randgevallen waar computers toch problemen mee hebben wordt het gewoon op een porno-site gezet als captcha zodat een mens het wel vertaalt...
"Verdachte activiteiten." Want stel je voor dat een "terrorist" zich sarcastisch uit op een sociaal netwerk- dan kunnen we hem gelijk oppakken! Of een raket op hem smijten vanuit een UAV, op basis van de locatiegegevens van zijn telefoon.

Behalve dan het feit dat "terroristen" met meer dan een hersencel niet op sociale netwerken zitten. Dan blijft dus als enige optie over dat ze gewoon alles en iedereen willen monitoren. Maar goed, dat wisten we ook al lang.

[Reactie gewijzigd door 461943 op 23 juli 2024 04:29]

Ja of juist niet gelijk oppakken, omdat het sarcasme was :P
"@Ali, nog thermite gehaald voor die aanslag morgen? #jihad
Ook nog even een selfie doen voordat het in de fik gaat? #duckface"

Ik zie het al helemaal voor me :+

Maar goed, het woord "terrorist " word zo te pas en te onpas gebruikt dat het echt helemaal niets meer betekent. Hetzelfde geld voor "verdachte activiteiten," lekker vaag.

[Reactie gewijzigd door 461943 op 23 juli 2024 04:29]

Anoniem: 291608 @4619434 juni 2014 20:28
Uit recente onderzoek van het rijksuniversiteit Groningen is juist gebleken dat terroristen wel op social media zitten, zelfs hun propaganda is zonder enige probleem te bekijken of het word gelinkt. En dat is al lang niet meer te monitoren is blijkbaar, er is teveel en te weinig mankracht voor helaas.

Een 9/11 plan zullen ze heus niet ff sharen op FB. Maar voor de rest is het toch een bron van zeer belangrijke informatie.

OT: imho deze software is zeer welkom. Kan me herinneren dat een Ierse student werd geweigerd in the US vanwege een bericht op social media; We're gonna destroy USA tommorow!
En dat ging dus blijkbaar over opstap gaan in Las Vegas. Helemaal uit de context en zijn geboorteland hielp ook niet bepaald.

[Reactie gewijzigd door Anoniem: 291608 op 23 juli 2024 04:29]

Volgens mij is het de bedoeling om false positives er uit te filteren zodat je nog een klein aantal 'verdachte' berichten overhoud die door mensen gelezen word.
Oh, ongetwijfeld. Maar zoals ik al zei, welke terrorist gaat bij zijn volle verstand informatie op een sociaal netwerk ( of op het Internet op zich) zetten over dingen die hem mogelijk kunnen verraden?
Terroristen zullen denk ik niet zo snel te werk gaan over social media, maar bijvoorbeeld drugsdealers misschien wel.
Meer dan je denkt. De grotere, professionele netwerken weten wel hoe ze moeten communiceren, maar naïeve straatjochies van het type dat hier in Europa wel eens wordt gerekruteerd zijn prima in staat hun doen en laten op Facebook te gooien.

Je gaat er geen grote vissen mee vangen, maar met genoeg garnaaltjes heb je ook een aardige maaltijd.
Zal wel grappig zijn, de verschillende gradaties sarcasme.
Neem aan dat ze deze data het best uit de Nederlander en Engelse kunnen halen.
Anoniem: 428323 @NLKornolio4 juni 2014 18:44
Het herkennen van sarcasme gaat nog verder dan het begrijpen van zinnen. En soms krijgt een woord een nieuwe betekenis wat daarvoor niet zo was: "Je hebt die flensjes niet te lang gebakken hoor, pannenkoek!".
Het is de vraag of in dit voorbeeld het woord pannekoek überhaupt deel uitmaakt van het sarcasme. Ik denk het namelijk niet. Als je stelt dat de verbrande flensjes nog rauw zijn; ja, dat is sarcasme.
In dit geval is het volstrekt onmogelijk om sarcasme te detecteren. Pannenkoek kan een koosnaampje voor je partner zijn of een bijnaam van een vriend, maar ook een aanduiding voor een suf persoon.

Sterker nog, het is mogelijk dat je een weddenschap hebt lopen dat als de flensjes nog een keer worden verprutst er volwaardige pannenkoeken gebakken moeten worden. "Je hebt die flensjes niet te lang gebakken hoor (sarcasme), [tijd voor] pannenkoek!".

In het eerste geval (bij/koosnaam) kan het gewoon oprecht zijn. Als de flensjes wèl te lang gebakken zijn is het sarcasme. Als ze juist te kort zijn gebakken dan is het bericht weer oprecht, maar dan met denigrerende ondertoon.

Gegeven dat we niet weten wat de staat van de flensjes is kunnen we ook geen oordeel vellen. En de software dus al helemaal niet.

Dan heb je nog de persoon die het zegt. Als ik zeg "stemcomputers zijn kut!", dan is het oprecht. Als Plasterk het zegt is het sarcasme. Dus moet je ook naar de geschiedenis van een persoon kijken. Technisch gezien kan dat wel (in hoeverre de technologie hier op dit moment toe in staat is is een ander verhaal), maar de software moet dan de meningen en het doen en laten van iedereen leren. Dat is nogal een opgave.

[Reactie gewijzigd door Mentalist op 23 juli 2024 04:29]

Anoniem: 14038 4 juni 2014 18:28
Dat gaat ze zeker lukken.
Je reactie is meesterlijk, helaas realiseert zich de Tweaker-goegemeente dit niet. Waarschijnlijk wegens kapotte sarcasme detector ;)

Ik werk al sinds jaar en dag aan intelligente software voor herkenning van vanalles en nog wat in allerlei bronnen (teksten, beelden, volumetrische data etc.)

Ik zou niet weten hoe je sarcasme zou moeten detecteren. Ik vrees ook niet dat het veel gaat uithalen. Stel dat Bin Laden had gesteld : "Goh, jongens, zou het niet heel erg zijn als er twee vliegtuigen...? ;)"
Anoniem: 406468 @0rbit4 juni 2014 19:01
"helaas realiseert zich de Tweaker-goegemeente dit niet"

Nee, het moderatiesysteem discrimineert niet tussen sarcastische en 'gewone' opmerkingen. Ongewenst is ongewenst.
ongewenst is 0 niet -1, dat is voor trolls en flaimbait.
Zou ik toch nog eens goed kijken. De titel zegt dat -1 voor "Ongewenst" is ;)
Er staat gelukkig een uitleg onder die titel, voor diegenen die niet direct snappen wat ongewenst in dit geval betekent.

Ongewenst voor t.net, niet "dit zie ik persoonlijk liever niet". ;)
Hoewel je reactie op 0 is gemodereerd vind ik het zeker wel een relevante bijdrage; het is een perfect voorbeeld van een bericht dat zou moeten worden herkend als sarcastisch.
Testcases:
"Duizend bommen en granaten." zei kapitein Haddock
"Duizend bommen en granaten." zei bin laden
"Duizend bommen en granaten." zei Donald Rumsfeld
This is the FBI you are under arrest because of terrorist things!
Anoniem: 67950 4 juni 2014 18:50
Ze krijgen natuurlijk nu de NSA in de topic top 100 van het (ICT) nieuws is natuurlijk geen stom eind eraan gebreid over wie er verkeerd over spreekt.
En wat als de terroristen nu sarcastisch met elkaar gaan praten over een aanslag maar dit wel serieus bedoelen, om dit systeem te omzeilen? ;)
Zou wel ontzettend knap zijn. Sarcasme is één van de lastigste dingen in text-mining.

Op dit item kan niet meer gereageerd worden.