Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 108 reacties

Een nieuw computermodel moet dubbelzinnige grappen beter kunnen identificeren. Dat gebeurt door te checken of woorden en zinsdelen ook voorkomen in erotisch werk. Het model heeft nog wel een hoog percentage 'false positives'.

Het model gebruikt een methode die door de onderzoekers in de onderzoekspaper DEviaNT wordt genoemd: Double Entendre via Noun Transfer. De methode checkt zinnen op zinsdelen die ook in erotisch werk worden gebruikt. Zo concludeerden de onderzoekers dan een zin met het woord 'banaan' erin meer kans heeft om dubbelzinnig bedoeld te zijn dan een zin met het woord 'deur'.

Naast woorden worden ook zinsdelen onder de loep genomen. Via een berekening moet vervolgens achterhaald worden hoe groot de kans is dat een zin dubbelzinnig is bedoeld. Het doel van het onderzoek is het verbeteren van het begrip van humor door computers. Dat slaagt deels: het model levert nog veel 'false positives', waarbij een zin onnodig als dubbelzinnig wordt opgevat, omdat er woorden in worden gebruikt die ook in erotisch werk terugkomen.

De onderzoekers richtten zich specifiek op 'That's What She Said'-grappen uit de comedyserie The Office. Daarbij spreekt iemand een normale zin uit, die echter dubbelzinnig wordt gemaakt doordat iemand anders de zin 'That's what she said' eraan toevoegt.

Formule dubbelzinnige grap

Moderatie-faq Wijzig weergave

Reacties (108)

Wat betekent die afbeelding precies?
Laten we links beginnen en dan bovenaan. Daar staat een beschrijving van een functie VS die opgebouwd is uit een kansfunctie P, het standaardsymbool hiervoor.

P(A) is te omschrijven als de kans dat situatie A zich voordoet. P(B ) is de kans dat situatie B zich voordoet. Dan is er nog de 'gekke E' ∈ en die geeft aan in welke verzameling (set) een bepaald iets zich bevindt. Je ziet dit soort dingen bijvoorbeeld ook in de algebra, waarbij je aangeeft dat x zich in de verzameling van reŽle getallen moet bevinden, dus x ∈ ℝ. Dit helpt al met het begrijpen van de afbeelding, maar er zijn nog verticale strepen |. P(A|B) is de kans dat A zich voordoet, met als gegeven dat B ook al gebeurd is.

De kansfunctie van eerste regel laat zich dus vertalen tot 'de kans dat s zich in SE, terwijl v zich in s bevindt.'

De tweede regel is dan niet zo moeilijk te begrijpen, is een vermenigvuldiging en een deling.

Overigens weet ik niet of dit plaatje puur illustratief is of daadwerkelijk onderdeel is van het principe achter het algoritme.

[Reactie gewijzigd door nXXt op 30 april 2011 15:04]

Nu nog een formule op de vrouwen te begrijpen xD
Kan niet, vrouwen zijn Turing-compleet en het probleem van het begrijpen is dus undecidable.

OT: er is niets te zien aan die formule: het is een heel simpele afhankelijke kans ("kans dat woord V dubbelzinnig is, is gelijk aan de kans dat de zin S in een seksuele corpus (hihihi) zit, gegeven dat V in S zit" -- zoiets), gevolgd door een omgeschreven vorm n.a.v. de stelling van Bayes (echt het derde wat je leert bij kansrekening).

Als dit de basis is van het onderzoek, hebben de onderzoekers niet echt hun best gedaan en is het niet gek dat er nogal wat false positives optreden.

[Reactie gewijzigd door 164019 op 1 mei 2011 09:28]

Die formule weet je nooit, omdat ie elke keer anders en onvoorspelbaar is ;)
Ik wil niemands feestje verpesten: maar wat is het nut??

Voor internetwebfilters lijkt het me een zeer kleine markt. Ik zou me eerder kunnen bedenken dat er een achterliggend doel is, maar welke is dat dan :)?
En voor toekomstige AI's
Zoals gemeld wordt in het artikel:
"Het doel van het onderzoek is het verbeteren van het begrip van humor door computers."
Begrip is misschien een groot woord, herkenning is waarschijnlijk meer op z'n plaats. Echter is dit essentiŽel onderzoek willen computers ooit taal/tekst echt "begrijpen".
Dat ligt dan wellicht aan mij, maar ik heb niet zo'n behoefte aan een grappige computer. Ze doen nu al niet wat ze moeten doen, straks gaan ze er nog grappen over maken ook...

En no offense, maar mij is altijd geleerd dat taal iets is wat je moet leren, het is niet te begrijpen.

OT: Maar begrijp ik nu dat de computer alleen de grap snapt uit The Office, of begrijpen ze nu alle grappen met dubbelzinnigheid?

[Reactie gewijzigd door naarden 4ever op 1 mei 2011 08:54]

klopt, maar voor spraakherkenning is dit weer een leuk dingetje. een computer kan prima communiceren met de buitenwereld door middel van teksten op het scherm. een simpele droge tekst kan hij ook wel maken. alle gramatica en spellingsregels die wij gebruiken kan een computer in principe veel sneller toepassen en daardoor zou hij net zo snel moeten kunnen "praten" als een mens. dat hij dan ook de humor van degene die tegen hem praat snapt kan hij al veel natuurlijker een "gesprek" voeren.
Zoals gemeld wordt in het artikel:
"Het doel van het onderzoek is het verbeteren van het begrip van humor door computers."
Zodat we eindelijk kunnen beginnen aan het programmeren van GlaDOS? :Y)

Aan de andere kant, misschien dat ze dit nog aan Iran kunnen slijten voor hun halal-internet.
Als nut kan ik me voorstellen dat mensen/bedrijven hun eigen teksten willen controleren voordat ze deze publiceren, net als een soort spellings-/grammaticacontrole.

Dit om te controleren of hun serieus bedoelde tekst niet ongewenst dubbelzinnig geÔnterpreteerd kan worden waardoor.
Ik denk dat het gemakkelijker is om het Higgs boson particle te vinden :P
Ik denk dat het gemakkelijker is om het Higgs boson particle te vinden :P
Dat zouden ze wel eens gevonden kunnen hebben, volgens dit bericht.

Als het waar is horen we daar binnenkort vast wel meer van.
nee, dat zal wel niet waar zijn, want dat xou namelijk een enorme doorbraak moeten zijn en dan zou er al veel meer informatie over moeten zijn!
nee, dat zal wel niet waar zijn, want dat xou namelijk een enorme doorbraak moeten zijn en dan zou er al veel meer informatie over moeten zijn!
Ja zeg, gun die jongens wat tijd... Er staat niet een etiketje "Ik ben een Higss boson" op zo'n dingetje geplakt hoor, en een streepjescode of catalogusnummer heeft het vast ook niet. :)
BAMMM..... uw opmerking wordt geblokkeerd vanwege dubbelzinnigheid
Dat kan niet, want formules gaan uit van logisch nadenken en beredeneren.
Beide zijn niet aanwezig bij vrouwen :X

HAHA en meteen weggemodereerd (door een vrouw waarschijnlijk... Zit er toch wat logica in blijkbaar :D)

[Reactie gewijzigd door DaManiac op 30 april 2011 13:48]

Lol, If women ruled the world there would be no wars. Just a bunch of jealous countries not talking to each other.
Voor het woord 'zwaks' verdien jij het om weggemodereerd te worden, en 'misogynist' staat bij wikipedia in het portaal 'discriminatie'. Zegt wel iets, maar we leven in een vrij land. Nee, ik heb een X en een Y chromosoom per lichaamscel.

ONtopic:
Ik snap nou niet echt hoe ze hier ooit een formule van kunnen maken. Ik definieer 'synoniemgrappen', zoals 'Een naaimachine naait en een nietmachine niet', als een zin die op een alternatieve manier kloppen, en die 'reactie', gedachtesprong is niet helemaal het goede woord, maar wel zoiets, levert een 'grap' op. Hoe ik dit in een programma zou zetten:
if (voorspelbare mogenlijkheid != (redelijk) vergezochte mogenlijkheid)
{
tekst = grappig
}
Hierin mag redelijke vergezochte mogenlijkheid niet langer dan 2 sec duren om te vinden, al zal dit per persoon verschillen.

Om dit om te zetten in puur (en werkende) programmataal ben je JAREN bezig. Ik kan dus niet begrijpen hoe ze nu een formule kunnen maken van een nog veel ingewikkeldere type grap.
We hebben het hier wel over Amerikanen die een computermodel opzetten over grappen uit "The Office". Mijns inziens is humor nooit echt een sterk punt geweest van de mensen uit de US of A. En hoewel The Office oorspronkelijk Brits is, kunnen ook die grappen mij niet echt aan het lachen maken.

Maar als ik iets beter lees, lijkt dit weinig meer dan een simpel classificatiesysteem op basis van tekst. Zulke dingen zijn al bedacht, ze worden nu alleen voor het eerst gebruikt in een poging flauwe humor te ontdekken. Daarvoor is het alleen maar voor nuttige dingen gebruikt, zoals de vergelijkbare producten van Amazon, of het assignen van nieuwe bugs aan developers in een bug tracker.
Wel al mijn lichaamscellen. Die jij bedoelt zijn geen lichaamscellen ;)
Jij vind dat je rode bloedcellen (geen kern, dus geen chromosomen) geen lichaamscellen zijn?
Dus je kunt de dubbelzinnigheid van grappen in een wiskundig model zetten? Vreemd. Je kan niet alles in formules beschrijven, toch?
Uiteindelijk wel, lijkt mij.

Als de mens het kan begrijpen, moet een computer het ook kunnen, mits de computer krachtig genoeg is en voldoende informatie heeft. (en geen enkele computer heeft dat deze dagen)
Hm, ik denk niet dat dit ooit word bereikt, want abstract denken, uitvinden en sommige verre verbanden leggen is vrijwel onmogelijk te beschrijven.
In 1800 dacht men ook niet dat men ooit de maan zou bereiken.
In 1800 zullen er dan ook nog niet echt raket geleerden hebben geleefd.

Een computer is ook in wiskundige vorm nu eenmaal een machine die berekent. Berekenen kost tijd en oneindige tijd is niet redelijk in de wereld waarin we leven.

Een menselijk brein begrijpt zukke grappen bijvoorbeeld op een semantische manier, wat de betekenis erachter kan zijn hoeft niet dmv "logische" formules uitgetekent te worden, er hoeft uberhaubt geen kennis van te worden genomen via een dergelijke logische (systematische) manier.

Computers kunnen (nog) alleen syntactisch beredeneren en elke betekenis die aan die syntax wordt toegekent is door mensen aan de computer gegeven in de vorm van regels. Deze formule is daar wederom een voorbeeld van.

Wanneer we ooit computers kunnen maken die hun eigen acties begrijpen dan zullen dergelijke formules niet meer nodig zijn, maar dit artikel draait er juist om dat we het tot die tijd maar op deze manier moeten doen.
IMHO komen we daar uiteindelijk wel.

Het menselijk brein werkt heel kort door de bocht door elektrische signalen.
Hoewel het erg complex is, is het brein niet meer dan een super-geavanceerde bio-computer.
Computers vandaag zijn net als vliegtuigen tegenover vogels: ze kunnen een deel van de elementen die een vogel een vogel maken zeer snel uitvoeren, maar een vliegtuig is ver van de simpele efficiente finesse die de vogel heeft bereikt na miljoenen jaren evolutie.

Het feit blijft echter, dat ooit de computers die wij maken dermate op het menselijk brein zullen lijken, dat ze ook zo zal functioneren.

Grappen zullen dan uiteindelijk door het gehele systeem begrepen worden, hoewel lachen niet per se een resultaat hoeft te zijn (een echte ai zal ook bijeffecten als smaak hebben), dat begrijpen is dan nog steeds gebaseerd op het wiskundig berekenen, al zal het niet een enkele formule zijn die het beschrijft maar een extreem complexe en organische set van instructies.
Het enige helaas is, dat wij niet bepaald werken met nulletjes en eentjes, waarbij een PC dat wel moet doen. En dat is dus enorm beperkend.
eigenlijk is ons brein ook geprogrammeerd op prikkels regels en andere impulsen
en daardoor dus een biologische computer. hoewel computers qua snelheid al veel sneller als ons zijn, maar het probleem is dat wij alles op een veel efficiŽntere manier verwerken en op bepaalde manieren (onbewust) kunnen multi tasken in een manier die bij een computer alleen in een cloud bereijkt is en dan is cloud nog een primatieve manier. doordat verschillende doelen op verschillende servers te plaatsen en bij ons alles in een (hersen)pan zit. denk aan lichaam bewegen en tegelijk praten en daarbij denken. onbewust denken wij nog meer als je in de gaten hebben. tegelijk is je metabolisme bezig met voedsel. andere delen met weerstand. je onderbewustzijnis bezig met gedachtes, instellingen, karakter en je gevoel, het verwerken van je emoties en belevingen. en dat terwijl we nog geen 10% van onze hersencapaciteit gebruiken.

lachen is bij ons gewoon een regel die je aan geleerd heb. omdat wij iets grappigs registreren. ik denk dat computer dit ook kunnen bereiken maar alleen als wij onze brein en de werking van die grijze massa pas begrijpen. iedereen kan een script schijven die zodra hij een "voor geprogrameerde" grap krijgt voor geschoteld een echo van "hahaha" laat zien maar dat is geen emotie of het registreren van humor.
daar zou je dan ook gek van worden. bij elke grap wordt een pagina met "hahahahahahaha" uitgeprint.

moet je kijken wat dat kost
Dan heb ik een interessante stelling voor je:

Stel je hebt een mens afgesloten van de wereld opgevoed, zonder dubbelzinnige teksten. Als je hem dan op volwassen leeftijd dubbelzinnige tekst voert, zal hij dat dan meteen er uit halen?

Zo niet dan betekent het dat het eerst "geleerd" moet worden. Dat kan bijvoorbeeld door het optreden van een cabaretier en reactie publiek te analyseren. Dat kun je dan wel weer laten automatiseren :)

Het probleem is denk ik voornamelijk dat dubbelzinnigheid meer trendgevoelig is, dwz voor bepaalde woorden wel omdat dat een voordehandliggende combi is b.v. of omdat bekend figuur y er mee aan kwam zetten. Als je een intelligente computer door een woordenboek laat ploeteren vindt hij waarschijnlijk veel meer mogelijke dubbelzinnigheden dan daadwerkelijk gebruikt worden irl (bv. omdat ze te "ingewikkeld" zijn en daardoor niet snel genoeg verwerkt kunnen worden door de mens om het humoristisch te maken)
Je kunt het ook zo bekijken: als we eenmaal volledig begrijpen hoe onze hersenen werken, en je maakt deze volledig na in een computermodel. Moet dit dan niet ook alles kunnen wat een mens ook kan, inclusief bijna perfect dubbelzinnige grappen herkennen :P.
Perfect dubbelzinnige grappen herkennen?

Ik ken toch genoeg mensen die totaal dubbelzinnige grappen niet herkennen. Uiteindelijk is het vaak veel meer context dan iets anders.

Als jij in een fruitzaak staat en je gaat een banaan schillen is dat misschien dubbelzinnig, dat hang er toch echt vanaf welke mensen erom heen staan. In de bananenbar zal zo'n opmerking iets eerder dubbelzinnig worden opgevat ;-)
Daarom zei ik ook "bijna" ervoor. Omdat mensen het ook niet perfect kunnen, maar we gaan volgens mij redelijk offtopic hier.
Zal het ooit lukken dan zal die formule niet op 5 pagina's beschreven kunnen worden. Het zal een aardig grote verzameling(en) moeten worden om dicht bij de werkelijkheid te kunnen komen. De uitspraken in "The Office" zullen maar een klein deel dekken :P

[Reactie gewijzigd door dano.ferrari op 30 april 2011 15:18]

Jouw DNA past anders ook wel op een floppy disk.
Euh, nee. De 3 miljard basenparen van het menselijk genoom nemen ongeveer 700MB in(2 bits per basenpaar).
Uh, ja.

The 2.9 billion[14][15] base pairs of the haploid human genome correspond to a maximum of about 725 megabytes of data, since every base pair can be coded by 2 bits. Since individual genomes vary by less than 1% from each other, they can be losslessly compressed to roughly 4 megabytes.
4MB > 1.44MB
Compressie
De bijbel ook. En de bijbel > 5blz.

Het is aardig dat ze er mee bezig zijn maar ik vrees dat ze het nooit 100% accuraat kunnen maken.
Jouw DNA past anders ook wel op een floppy disk.
Mijn DNA past als druppel op een gloeiende plaat. :D
Dit is al een jaar of vijf geleden uitgevonden. Om dat dan om te zetten in iets dat op een menselijke tijdschaal werkt, is een ander probleem.
Ik denk dat je meer in de war bent met lineaire verbanden. Je kan niet alles in een lineaire verband leggen maar betekend niet dat je van iets geen wiskundige model kan maken.

Zolang je genoeg variabelen hebt en de juiste model die bij je specificaties passen kun je wel een redelijke formule maken om de werkelijkheid te benaderen.
De formule die hier bij het artikel staat is kans berekening, bekijk eens bayesiaanse netwerken. Er staat iets in de trend van de kans dat v (deel uitmaakt van) VS is gelijk aan de kans dat element s onder Se valt als element s van v is. Eronder staat de formule uitgewerkt naar de bekende variabelen die je hebt.

Dezelfde technieken worden gebruikt voor google translate en het feit dat google feiten kan opspuwen (hoofdstad van land achtige dingen, is taal analyse).

[Reactie gewijzigd door analog_ op 1 mei 2011 21:10]

"Het model heeft nog wel een hoog percentage 'false positives'."

Lachen toch? Lijkt mij een leuk stukje software om op een zaterdagavond wat lol mee te hebben, ik durf te wedden dat je onder de tafel schuift van het lachen als zo'n apparaat dubbelzinnige opmerkingen oppikt waar ze niet bedoelt zijn...
Dan is denk ik de site TVtropes echt wat voor jou, vooral de "Unusual Euphimism" pagina.
Het is wel grappig dat een programma volgens een aantal regels sommige dubbelzinnige zinnen beter zou kunnen herkennen dan ik (autistische storing volgens de psych), nu moet ik die regels nog zien toe te passen ;)
nu moet ik die regels nog zien toe te passen ;)
De methode checkt zinnen op zinsdelen die ook in erotisch werk worden gebruikt.
Eindelijk een geldig excuus om zoveel mogelijk erotisch werk te lezen? ;)
Ach... soms hoef je alleen maar iets wat niet dubbelzinning bedoeld was te herhalen, en het is het wel.
Ach er zijn veel factoren die meespelen die niets met tekst te maken hebben

-Tegen wie zeg je het
-Hoe kijk je erbij (en andere non verbale lichaamstaal)
-In welke omgeving
-Tijdstip van de dag

Bij een bepaalde persoon maakte ik er een sport van om dubbelzinnige opmerking te maken, wat uiteindelijk ook tot false postives leide.
Formule voor dubbelzinnige grappen?
Ik hoop dat dat een dubbelzinnige grap is, want het is gewoon standaard kansverdeling in de trant van:
Als een deel van de uitspraak deel uitmaakt van een bepaalde set (waarschijnlijk de set "erotisch werk") dan is er een bepaalde kans dat deze uitspraak dubbelzinnig is. (ervanuitgaande dat de sets onafhankelijk zijn)

Not rocket science als je het mij vraagt...

[Reactie gewijzigd door DaManiac op 30 april 2011 13:47]

Lijkt me inderdaad eerder een soort veredelde 'random ja - nee generator'. Kans dat ie goed zit is dan niet echt hoog, maar daarvoor is het laatste zinnetje in de eerste alinea alles betekenend.

[Reactie gewijzigd door Chubbchubb op 30 april 2011 13:48]

Persoonlijk ben ik het niet helemaal eens met "Het doel van het onderzoek is het verbeteren van het begrip van humor door computers.". Zoals ik het lees gaat het om herkenning van humor. Hoewel we al behoorlijk ver zijn met AI denk ik niet dat nu de robots al begrip hebben. hehe... Stel je voor, je komt de terminator tegen.. die wilt je van kant maken... maar je vertelt heb dat je naar huis moet om je kinderen eten te geven. Hij heeft daar begrip voor en laat je gaan. hehe...
Maar goed, op zich vind ik het wel 'grappig' om als dit door ontwikkelt wordt een robot grappen kan gaan vertellen. "2 robots lopen over straat zegt de ene tegen de andere, hey je transistor zit los. Zegt de andere, that's what she said"
Soms is het onderzoeken het grote doel achter een onderzoek, nu vind ik dit meer een project "omdat het kan", dan een echt onderzoek, maar toch.
Het identificeren van humor.. ik zie dingen als het identificeren van leugens etc. al aankomen, wat veel moeilijker is, maar misschien kan dit onderzoek/project daar weer aan meehelpen. :)
Het lijkt me dat dit gebruikt kan worden voor opsporing en filtering van seksistische grappen op o.a. video sites.
Dan worden alle video's over bananen verwijderd, lijkt me ook niet de bedoeling

He, Ernie, Ernie. Er zit een banaan in je oor. Er zit een banaaaaan in je ooor
Als dit algoritme simpelweg alles met bananen wegsluist zou het geen algoritme zijn. Dan noem je het een woordfilter.
Woordfiltering zit ook vaak een algoritme achter hoor. Alleen lang niet zo ingewikkeld als contextherkenning.
Ach zolang zoveel mensen de helft van de grappen nog niet herkennen, zal een computer er ook nog wel even moeite mee hebben.
Hmmm...dit model kun je ook aanpassen naar andere modellen, waarbij je scant/zoekt naar achterliggende motieven voor aanslagen, of dubbelzinnig taalgebruik in minder ernstige delicten. Zoiets bestaat toch al lang? Kan mij niet indenken dat er geen modellen bestaan voor dubbelzinnig taalgebruik.. :)

Mooie toepassing voor games en Second Life wellicht? Een paar dubbelzinnige woorden in een zin en een andere (vrouwelijke) bot-player gaat uit de kleren? :9~
Hmmm...dit model kun je ook aanpassen naar andere modellen, waarbij je scant/zoekt naar achterliggende motieven voor aanslagen, of dubbelzinnig taalgebruik in minder ernstige delicten.
Zoiets als: "De kalkoen is net langsgeweest. De eieren zijn nog vers. Ik herhaal, de kraai is net langs geweest, de eieren zijn nog vers."

Met uiteraard een even cryptische reactie die waarschijnlijk weer naar de omeletten zal verwijzen. :Y)

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True