Computeralgoritme raadt sekse van auteur

Een groep onderzoekers is in staat met behulp van een algoritme het geslacht van een auteur te bepalen aan de hand van zijn tekst, zo meldt Boston Globe Online. De onderzoekers hebben een algoritme ontwikkelde dat een anonieme tekst kan doorkijken en kan voorspellen of de auteur mannelijk of vrouwelijk is. De voorspellingstechniek is gebaseerd op het gebruik van kleine woorden: 'je', 'ik', 'een' of 'veel' kan al weggeven of de schrijver wel of geen piemel in zijn broek heeft hangen . Het gebruik van veel persoonlijke voornaamwoorden wijst op een vrouwelijke auteur; mannen gebruiken veel aanwijzende voornaamwoorden en telwoorden.

Woordenboek woord boek Ook het gebruik van bepaalde woordconstructies kan verraderlijk zijn: waar mannen het hebben over een 'tuin met rozen', spreken vrouwen over een 'rozentuin'. Om dit soort merkwoorden te achterhalen, hebben de onderzoekers ruim zeshonderd teksten uit het British National Corpus onderzocht. Allereerst werden alle woorden die kenmerkend waren voor het onderwerp van het boek verwijderd. De overgebleven teksten worden door een algoritme gevoerd. Dit algoritme zocht naar woorden die veel vaker voorkwamen in de teksten van een bepaald geslacht en gaf een dergelijk woord een geslachtsindicatie mee.

Uit de zeshonderd teksten kwamen ongeveer vijftig woorden rollen, die zouden moeten kunnen aangeven van welk geslacht de auteur zou moeten zijn. Na een test met nieuwe teksten bleek tachtig procent van de voorspellingen aan de hand van deze techniek te kloppen. Een verklaring voor deze dingen ligt in het oude gezegde "Vrouwen praten over mensen, mannen over dingen." Om mensen aan te geven gebruik je persoonlijke voornaamwoorden, voor dingen maak je meer gebruik van telwoorden. Juist door dergelijke ouderwetse vooroordelen en gezegden stuitte het onderzoek op veel kritiek:

vrouwtje A rather controversial one, too. When the group submitted its first paper to the prestigious journal Proceedings of the National Academy of Sciences, the referees rejected it ''on ideological grounds,'' Koppel maintains. ''They said, `Hey, what do you mean? You're trying to make some claim about men and women being different, and we don't know if that's true. That's just the kind of thing that people are saying in order to oppress women!' And I said `Hey-I'm just reporting the numbers.'''

Door Tamara van Hal

Nieuwsposter

08-07-2003 • 07:08

56

Bron: Boston Globe Online

Reacties (56)

56
56
37
11
1
10
Wijzig sortering
Ik vind het praten over dingen armer dan praten over mensen, dus waarom zouden we hiermee dan de vrouwen willen onderdrukken? Ik denk juist dat dit het tegendeel zou betekenen. De meeste leiders en managers zijn op dit moment mannen en die vergeten toch wel heel erg vaak het menselijk aspect. In die zin geloof ik best wel dat vrouwen over het algemeen betere managers en leiders zouden kunnen zijn dan mannen. Als je het generaliseert tenminste. Aan beide "kanten" heb je uitzonderingen.
Inderdaad, er zijn nou eenmaal verschillen en het ontkennen daarvan vind ik juist een indicatie dat mannen op vrouwen neer kijken of vrouwen tegen mannen opkijken. Ik denk dat je die verschillen juist goed moet bestuderen en van elk geslacht de positieve en negatieve kanten moet bekijken. Dan kunnen we veel meer van elkaar leren dan door de verschillen te negeren. En dan denk ik dat het aantal positieve punten van vrouwen t.o.v. mannen even groot is als het aantal negatieve punten, voor zover je over positieve en negatieve punten kunt spreken.
De vrouwelijke managers die mij hebben mogen managen (arme drommels) waren over het algemeen een stuk strenger en minder buigzaam dan de mannelijke managers die ik heb mogen 'ervaren'. Ik heb altijd het idee dat de vrouwelijke managers sterker vast houden aan regels e.d. dan hun mannelijke tegenhangers die nog wel eens, mits goed beargumenteerd, wat doelgerichter lijken te zijn en zodoende ook bereid zijn regels te buigen/breken. Maar ik generaliseer hier natuurlijk heftig.
Nu ik mijn stukje weer terug lees realiseer ik me dat dit niet zoveel te maken met het menselijk aspect waar jij het over hebt. :) Toch probeer ik hier het punt te maken dat ik het idee heb dat vrouwen toch vaak strenger zijn en juist niet rekening houden met het 'menselijk aspect'.

Als freelancer wissel ik overigens regelmatig van manager.
Gelijk heb je, er zijn nu eenmaal verschillen op psycholigisch en lichamelijk gebied. En met dat laatste bedoel ik niet het genoemde aanhangsel.

Een feit is bijvoorbeeld dat medicijnen op mannen en vrouwen een verschillend effect kunnen hebben. Bepaalde pijnstellers werken bijvoorbeeld enkel bij mannen naar behoren.

Het niet rekening houden met sexe verschillen is praktisch gezien hetzelfde als het ontkennen van deze verschillen. Je kunt dus stellen dat het niet onderkennen van de verschillen juist een sexistisch effect heeft.

Zelfs met deze kennis in het achterhoofd vindt ik het knap wat ze berijkt hebben. Een computer aan de hand van teksten alleen in 80% van de gevallen goed te laten raden is indrukwekkend. Ik denk dat de meeste mensen vele malen slechter zullen presteren.

reactie op " tomatoman":

"Een score van 80% vind ik helemaal niet indrukwekkend. Als je een chimpansee at random laat kiezen, komt hij al tot een score van 50%."

Klopt, maar doe jij het beter dan 50%???
Zelfs met deze kennis in het achterhoofd vindt ik het knap wat ze berijkt hebben. Een computer aan de hand van teksten alleen in 80% van de gevallen goed te laten raden is indrukwekkend. Ik denk dat de meeste mensen vele malen slechter zullen presteren.
Een score van 80% vind ik helemaal niet indrukwekkend. Als je een chimpansee at random laat kiezen, komt hij al tot een score van 50%.

Bovendien vind ik het onderzoek nogal onwetenschappelijk.
Waar mannen het hebben over een 'tuin met rozen', spreken vrouwen over een 'rozentuin'. Om dit soort merkwoorden te achterhalen, hebben de onderzoekers ruim zeshonderd teksten uit het British National Corpus onderzocht. Allereerst werden alle woorden die kenmerkend waren voor het onderwerp van het boek verwijderd.
Is een woord als 'rozentuin' dan niet kenmerkend voor het onderwerp :?? En verderop staat
Een verklaring voor deze dingen ligt in het oude gezegde "Vrouwen praten over mensen, mannen over dingen."
Nogal tegenstrijdig, want ze hadden juist alles wat kenmerkend is voor het onderwerp verwijderd. |:(

Dat onderzoek is zeker door een vrouw gedaan ;)
Tsss.

Dat kan veel simpeler:

getUserData("Hoe voel je je?:");
if (timeout)
return "man";
if (bufferOverflow)
return "vrouw";
of op irc :
<nick1> ASL?
<nick2> hallo iedereen!!!!

nick1=man
nick2=vrouw (owja ... breezah :P )
"Hey, what do you mean? You're trying to make some claim about men and women being different, and we don't know if that's true. That's just the kind of thing that people are saying in order to oppress women!"
What the FUCK, anders steek je je hoofd nog even iets dieper in de grond! Pffft.. zoiets kan alleen een verstokte feminist met oogkleppen op verzinnen |:(
Je quote was de reactie van de onderzoekers op het afwijzen, op zijn minst natuurlijk gekleurd. Het probleem van statistisch onderzoek is dat je alles wat je wil ermee aan kan tonen.
Dit onderzoek toont bijvoorbeeld aan dat er een selecte groep woorden is waarmee bepaald kan worden met een 80% betrouwbaarheid welk het geslacht van een auteur is. Het toont niet aan dat er een verschil is tussen mannen en vrouwen. Het toont alleen aan dat er een verschil is tussen de huidige teksten die door mannen en die door vrouwen geschreven zijn.
De reden voor dit verschil wordt niet gegeven en kan niet achterhaald worden. Iedereen die concludeert op basis van dit onderzoek dat er "dus" een verschil is tussen mannen en vrouwen, of dat een mannelijke auteur die als vrouw gekenmerkt wordt vast wel gay is, snapt statistiek niet helemaal.
De reden voor het verschil kan namelijk ook heel ergens anders liggen. Het is bijvoorbeeld ook mogelijk dat hun teststukken niet helemaal willekeurig waren (Science tegenover de Libelle), maar waarschijnlijker is dat het eeuwenoude rollenpatroon, dat pas in de laatste paar jaren goed doorbroken begint te worden, er toe heeft geleid dat er een zekere discrepantie is ontstaan in de onderwerpen die door mannen en die die door vrouwen worden besproken. Uit deze discrepantie volgt uiteraard dat er een verschil is tussen die teksten, want dat is de discrepantie zelve. Het artikel is dan ook waarschijnlijk geweigerd omdat de mogelijke gevolgen van het publiceren van een dergelijk onderzoek (met de gebrekkige kennis die mensen hebben van statistiek en vooral de betekenis van statistisce gegevens) niet wenselijk zijn. Ook dat is een ideologische grond.
Vergelijk het maar met onderzoeken hoeveel Afrikanen een universitaire graad hebben tegenover het aantal Europeanen... Hoeveel mensen denk je dat na het onderzoek concluderen dat "zwarten dommer zijn dan blanken"?
Het probleem van statistisch onderzoek is dat je alles wat je wil ermee aan kan tonen.
Ben ik met je eens. Het is gewoon lastig. En met verkeerd woordgebruik wordt het alleen maar onduidelijker:
Dit onderzoek toont bijvoorbeeld aan dat er een selecte groep woorden is waarmee bepaald kan worden met een 80% betrouwbaarheid welk het geslacht van een auteur is.
Dit is dus onjuist. Dit onderzoek toont aan dat het algoritme 80% van de gevallen goed heeft voorspeld. Dat is wat anders dan dat er met een betrouwbaarheid van 80%.
mannen en vrouwen zijn anders..
zowel fysiek als psychologisch.

Maar Anders != ondergeschikt of minderwaardig!

Het word tijd dat dat soort mensen niet vechten om er voor te zorgen dat we een a-sexuele samenleving krijgen maar een gelijkwaardige samenleving.

(zelfde geld ook voor racisme etc.)
iedereen is anders, maar tevens ook zo gelijk!
Een groep onderzoekers is in staat met behulp van een algoritme het geslacht van een auteur te bepalen aan de hand van zijn tekst, zo meldt Boston Globe Online.
ik gok dat het een man is...
Ik ben geen taalwonder dus ik kan het verkeerd hebben, maar volgens mij is auteur een mannelijk woord en moet het dus "zjn tekst" zijn.
idd.
Het is nl een bezittelijk vnw. en in Nederland referreert dat naar het onderwerp van een (sub)zin. In dit geval is dat dus de auteur.

Als het een vrouw was dan stond er haar tekst.
Mijn statistiek is een beetje roestig, maar voor een keuze die maar twee kanten op kan gaan vind ik 80% accuraatheid, niet veel op mij overkomen.
Ha, gaaf dat de comp het nu ook kan. Ben 5 jaar chatverslaafd geweest en op een gegeven moment leer je idd het verschil tussen man en vrouw te zien, zelfs de gemoedsrust :D
De voorspellingstechniek is gebaseerd op het gebruik van kleine woorden: 'je', 'ik', 'een' of 'veel' kan al weggeven of de schrijver wel of geen piemel in zijn broek heeft hangen

Als je zegt een piemel in zijn broek hangen is dat sowieso een man |:(
Ik zat net te denken, hij kan ook staan. Dat levert weer een extra mogelijkheid...
tja... lezen kunnen wij mannen dus blijkbaar weer niet zo goed
Wat zou dit algoritme bij Maarten t Hart voorspellen? :+
Ik denk een stack-overflow op het willy-up-routine 8-)
Renate Dorrestein of Maarten 't Hart, wie heeft de broek aan?
Ik zat meteen aan Kelly te denken, die wordt nog moeilijker.. ;)
Kan die schrijven dan??? :?
Het was toch "Maartje 't Hart"? }>
Een verklaring voor deze dingen ligt in het oude gezegde "Vrouwen praten over mensen, mannen over dingen." Om mensen aan te geven gebruik je persoonlijke voornaamwoorden, voor dingen maak je meer gebruik van telwoorden. Juist door dergelijke ouderwetse vooroordelen en gezegden stuitte het onderzoek op veel kritiek:
Waarom is het nu zo'n probleem? Als het onderzoek zo'n vooroordeel nou bevestigt, gewoon door dingen te tellen? Kennelijk is het dan zo, niets aan de hand toch.
En als we dan nu weten dat dit zo is hoeven we niet langer over vooroordeel te spreken maar over een constatering.

Overigens blijft het spreekwoord wel een generalisering van de constatering aangezien 'maar' 80% goed geraden wordt en het dus blijkbaar niet voor elke vrouw en/of man geldt.

Tot zover mijn filosofische bui :+
DIt klinkt een beetje als een creatieve toepassing van het Bayes algorithme wat de laatste tijd zo populair is als spam filter. Nog even en je hebt spamfilters die van de overgebleven mail ook meteen de geestelijke gesteldheid van de afzender vermelden ;)
goed idee voor de nieuwe mozilla ? junkmail filter en 'femail' filter ;)

Op dit item kan niet meer gereageerd worden.