Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 46 reacties
Submitter: dvdgrs

Onderzoekers van de Universiteit van Amsterdam hebben een algoritme ontwikkeld dat voorspelt welke opkomende onderwerpen dusdanig in de belangstelling staan dat ze een eigen Wikipedia-artikel verdienen. Het algoritme maakt hiervoor gebruik van Twitter.

De Universiteit van Amsterdam maakte de bevindingen dinsdag bekend. De onderzoekers passen de bestaande named entity recognition-technologie toe in combinatie met een zelfontwikkeld algoritme om  personen, locaties en organisaties te herkennen die nog niet op Wikipedia staan maar dat wel zouden verdienen. De software leest tweets uit en bepaalt eerst of de inhoud ervan al op Wikipedia terug te vinden is. Wanneer ze over al bekende zaken gaan en wat taalgebruik aangaat van een voldoende niveau zijn, worden ze door het algoritme doorgezet als voorbeelden van hoe Twittergebruikers over onderwerpen schrijven die al op Wikipedia staan.

Het algoritme kijkt onder andere naar zaken als hoofdlettergebruik en de lengte en volgorde van woorden om te leren hoe Twittergebruikers formuleren en bij welk Wikipedia-lemma die formuleringen horen. Hoe meer voorbeelden het algoritme aan het named entity recognition-systeem voorschotelt, hoe beter het in staat is de patronen te herkennen bij tweets die over voor Wikipedia onbekende onderwerpen gaan.

Deze kennis wordt vervolgens toegepast op Twitterberichten die niet herkend worden als tweets met een geassocieerd Wikipedia-lemma. Het door het algoritme gevoede nerc-model stelt daarna vast of een tweet over bijvoorbeeld een persoon, locatie of organisatie gaat. Op het moment dat een van die zaken vaak genoeg op dezelfde manier de revue passeert op Twitter, zal het nerc-model vaststellen dat het gaat om een onderwerp dat genoeg onder de aandacht van Twittergebruikers is gekomen om een eigen Wikipedia-lemma te rechtvaardigen.

NERC-model UvA

Het algoritme, dat als werktitel 'Unsupervised Pseudo-ground Truth' heeft, werkt op het moment bij personen, locaties en organisaties. Echter, met weinig aanpassingen kan het ook werken om bijvoorbeeld titels van boeken en films te herkennen. Het zal in de praktijk vooral nut hebben voor trendwatchers en mensen die bijdragen aan Wikipedia. David Graus, promovendus bij de Universiteit van Amsterdam en hoofdontwikkelaar van het algoritme, stelt tegenover Tweakers dat hij door wil gaan met de ontwikkeling en een live-versie van het algoritme online wil zetten, maar wanneer dat gaat gebeuren, is nog niet bekend. Ook zijn er plannen om in de toekomst het algoritme opensource te maken.

Moderatie-faq Wijzig weergave

Reacties (46)

Maar begrijp ik dit niet of zie ik het nut gewoon niet? Het programma kan onderwerpen die op Wikipedia populair gaan worden / zijn herkennen. Leuk, maar het enige praktische nut is dus pagina's volzetten met rode links die verwijzen naar een pagina die nog niet bestaat?
Bij dit soort dingen is er niet een direct nut maar gaat het voornamelijk om de techniek er achter. Met Twitter heb je een enorme stroom aan data en bij Wikipedia heb je enorme hoeveelheid gestructureerde data. Met behulp van die twee dingen kan je algoritmes gaan ontwikkelen die beter snappen hoe mensen `praten` wat een volgende stap moet zijn voor betere tekst/spraak herkenning.

Uiteindelijk willen we er naar toe dat een computer net zo goed snapt wat we bedoelen als dat we tegen een mens praten. Dit soort onderzoeken zijn telkens kleine stapjes daar naar toe.

Als ze dat echt goed voor elkaar zouden krijgen dan zouden ze dus zelfs al zelf pagina's kunnen gaan vullen op basis van de tweets die ze tegenkomen. Maar ook dat zal eerder een studieobject zijn dan een daadwerkelijk doel.
Hoe zit dat met verschillende talen? en afkorting ect
...kleine stapjes ...en er komt een moment dat een computer je afkorting ook nog eens corrigeert.
Maar het is wel interessant! Althans dat vind ik. Het is weer een klein stukje automatisering van het web. En trendwatching/marketing is een gebied waar veel geld in om gaat.
Maar laat ze wikipedia met rust laten.Wikipedia is geen roddelblad en het lijkt me tot erg veel vervuiling leiden als dit algoritme daarop wordt losgelaten.
Je begrijpt het wel. Ze bepalen gewoon aan de hand van veel voorkomende onderwerpen in tweets op een slimme manier of een pagina op wikipedia erover zou moeten zijn. Nu gok ik dat het deze wetenschappers meer gaat om het achterliggende "pattern recognition" algoritme dan de wiki onderwerpen zelf (vandaar ook slechts rode linkjes inderdaad :D).

Het algoritme opzich kan zeker wel nuttig zijn en twitter is gewoon een leuke "random" source van actuele content om mee te testen wat ook redelijk te valideren is op gevoel. Bijvoorbeeld het nummer MH 370 zegt op zich zelf niet veel maar door al het nieuws betreft het Maleisische vliegtuig is het ineens wel een goed resultaat.
Als je in plaats van wikipedia makkelijk een andere db eraan kan koppelen dan heb je toch wel een heel waardevol iets in handen.

Wikipedia is leuk, maar koppel het bijv aan nieuwsarchief van de afgelopen maand en je kan voorspellen wat je morgen als headline moet gaan zetten en wat achteraan kan komen en waar er nog iemand een stukje over moet gaan schrijven
Maar zijn dit ook allemaal nuttige paginas? Ik bedoel, "Aleyrodinae" ( van de http://nl.wikipedia.org/wiki/Speciaal:GevraagdePaginas) zal wel nodig zijn voor iemand maar dit algoritme zou onderwerpen moeten zoeken die actueel zijn en vaak gebruikt worden. Het algemeen belang van whatever Aleyrodinae mag zijn is vast niet zo heel groot en actueel :P

[Reactie gewijzigd door Genetai op 16 april 2014 20:22]

En het algemeen belang van twitter inhoud is per definitie wel groot? Die gevraagde pagina's staan daar, omdat die het meeste verwijzingen hebben in andere pagina's. Ook al weten jij en ik niet wat Aleyrodinae is, er wordt wel 1718 keer naar verwezen op wikipedia.
Maar dat zegt alleen dat er veel pagina's zijn die ernaar verwijzen. Dat is niet gelijk aan belangrijkheid, tenzij je belang hebt bij het beschrijven van onderwerpen waar veel naar gelinkt wordt.

Het onderzoek maakt het juist mogelijk dat trends op Twitter gebruikt worden als half bewijs ("pseudo-ground truth") van dat die onderwerpen belangrijk of in ieder geval trendy zijn. Als je die bovenaan in de lijst zet, dan krijg je als Wikipedia misschien wel sneller trendy onderwerpen in je encyclopedie. Dat klinkt natuurlijk hartstikke interessant als je een encyclopedie bent (het actuele, niet per se het trendy, want Wikipedia streeft neutraliteit na). Hopelijk draagt het ook bij aan de kwaliteit van die artikelen, maar dat zal vast vervolgonderzoeken vergen.

Twitter is enkel gebruikt voor hipheidsfactor en omdat het een enorme database van informatie bevat, grotendeels openbaar. Daarmee hoop je als wetenschapper toch een aardig beeld van de trends te kunnen ontdekken. Een ander kanaal, bijv. nieuwsberichten, zal vast de wat algemenere trends in beeld brengen. Het is echter veel meer werk om alle nieuwskanalen te inventariseren ipv één twitterdatabase te gebruiken die zelf al op trends let.

[Reactie gewijzigd door erikieperikie op 16 april 2014 20:57]

Dat snap ik, mijn punt was meer dat trendy in mijn ogen ook niet direct iets te maken heeft met de mate van belangrijkheid. In feite kan je daarover hetzelfde zeggen: er wordt via tweets veel naar een onderwerp verwezen, maar dat maakt het nog niet per se belangrijk. Wel populair / trendy.

Maar ach, we komen met zijn allen natuurlijk ook weer niet alleen op wiki voor onderwerpen van wetenschappelijk of maatschappelijk belang. Ik zoek vaak genoeg ook even naar info over muzikanten e.d. Niet per se belangrijk, maar op zo'n moment wel interessant voor mij :).
Inderdaad. Toch kan een urgent onderwerp ("ik moet naar de wc", urgent en in zekere mate ook belangrijk) toch voorrang krijgen op een belangrijk onderwerp ("ik moet nog naar de supermarkt", belangrijk, maar niet urgent). Natuurlijk kun je over de urgentie en de belangrijkheid van mijn twee alledaagse voorbeelden discussiëren, maar dat is niet mijn punt.

Mijn punt is dat je Twitter wel kunt gebruiken voor zeer recente ontwikkelingen. Voordat een nieuwsredactie over een recent onderwerp schrijft, kun je op Wikipedia al een automatisch gegenereerde pagina op basis van pseudowaarheid hebben gemaakt. Twitter kan de urgentie van een onderwerp bevestigen. Ongeacht of het belangrijk is of niet, maar dat zou het zomaar kunnen zijn.
En precies daarom kan dit algoritme het kaf het koren scheiden. In ieder geval op basis van Twitter trends. Je zou dit algoritme echter ook kunnen baseren op media (waar schrijft/praat men publiekelijk over?), journalistiek (wat is het laatste nieuws?), publicatietrends (wat wordt veel besproken in de wetenschap?).

Dit onderzoek uit Amsterdam laat zien dat het mogelijk is met Twitter. Twitter laat natuurlijk zien waar de twitteraar het over heeft, niet zozeer wat voor iedereen belangrijk of een trend is.

Het zou hartstikke interessant zijn voor Wikipedia om de gewenste pagina's te kunnen sorteren op wetenschappelijke waarde of belangrijkheid vanuit een bepaalde optiek. Als dit algoritme een database van trends en belangrijkheid kan maken vanuit verscheidene openbare bronnen (dus niet alleen Twitter), dan lijkt me dit een erg goede uitbreiding voor Wikipedia en legio andere bedrijven.
Algemeen belang betekent bij een encyclopedie niet uitsluitend je richten op populaire artikelen, als je miljoenen niet-populaire artikelen hebt, dien je alsnog het algemeen belang.
Wikipedia is een encyclopedie. Die is per definitie eigenlijk niet bedoelt om zo actueel mogelijk te zijn. Daar heb je nieuws voor.
Iets als 'Aleyrodinae' is iets dat juist wel in een encyclopedie tuishoort.

Iets dat actueel is is meestal over een paar weken weer onzinnige kennis om op te slaan. Een complete beschrijving van de dieren op aarde (waar Aleyrodinae er 1 van is), dat is kennis waar je in de toekomst echt nog iets aan hebt.
Als het schaamhaar van kanye west trending topic is op twitter dan zal niemand erom rouwen dat dat niet op wikipedia terecht komt.

Dit algoritme gaat volgens mij voor ernstige vervuiling van wikipedia zorgen waardoor er gemiddeld minder geld overblijft om de betere artikelen te blijven hosten.
En dat is jammer omdat wikipedia voor veel onderwerpen een goede bron is.
Wel vervelend dat we nu dus niet weten wat Aleyrodinae is... Want er is geen wikipediapagina van!!!!! :+

[Reactie gewijzigd door madmaxnl op 16 april 2014 23:29]

http://eol.org/pages/8992604/overview
Vanwege maatschappelijk belang presenteer ik u de Aleyrodinae.

Ik kan toch niet de enige zijn die dit heeft gegoogled.
Ja die zocht ik eigenlijk, maar vond Gewenste Artikelen ook wel de lading van mijn bericht dekken :p
https://twitter.com/searc...naald&src=typd&f=realtime algoritme lijkt me voor deze toepassing idd nutteloos. Maar, zoals in het artikel staat is het voor trends misschien beter. Alhoewel ik echt grote moeite heb om waardevolle informatie terug te vinden via twitter. Aantallen zijn echt het enige waar je wat aan hebt van twitter

[Reactie gewijzigd door MrHankey op 16 april 2014 20:24]

4chan, doe je ding!
Inderdaad, want wat opeens 100 miljoen mensen tegelijk roepen is ook meteen waarheid... |:(
er zijn wel meer mensen religieus hoor... ;)
Als 100 miljoen mensen vinden dat Justin Bieber een goede zanger is, dan kan je dat op z'n wiki pagina zetten....
Ik denk niet dat dit algoritme weet wat waarheid is en wat niet.
Precies. Er komt geheid weer een nieuw door de interwebs bedacht onderwerp dat.. niet normaal is, om het maar zo te zeggen, maar het algoritme gaat het geheid herkennen en omzetten in een wikipage. Daar worden de trending topics dan zelfs op ontworpen.
Inderdaad, zoiets doen ze wel vaker. Zoals op evenementen van die twitterboards spammen met 'adult' content, dat zou grappig kunnen zijn maar vaak gaan ze net iets te ver.
Het zal wel een interessant algoritme zijn verder. Ik vind alleen het koppelen van Twitter met Wikipedia totaal niet nuttig. Dat is hetzelfde als dat je gaat bepalen aan de hand van gesprekken bij de kapper wat er in een encyclopedie moet worden opgenomen.
Twitter is juist een interessant bron om te gebruiken. Als het op nieuws aankomt heeft Twitter meestal een aardig voorsprong t.o.v. klassieke media. Bijvoorbeeld de komeet die laatst over Nederland heen ging, vanuit ongeveer elke hoek in Nederland kwamen berichten over een licht in de ruimte dat een lange staart achter liet en na een tijdje kwam er steeds meer informatie vrij. Dus wat kun je hier uithalen, locatie Nederland, gebeurtenis grote komeet dringt de atmosfeer binnen. Dit is misschien een erg kleine en niet interessante gebeurtenis, maar denk eens over olielekken of andere grote rampen waar informatie over vrijkomt via Twitter.

Ze zeggen dat op het moment nog alleen nog maar de volgende entiteiten worden gebruikt: personen, locaties en organisaties. Maar het zal ze niet veel moeite kosten om meer te implementeren, zo heeft Satoshi Sekine al meer dan 100 entiteiten geïdentificeerd en is er al een berg aan literatuur over NERC.
"Twitter is juist een interessant bron om te gebruiken. Als het op nieuws aankomt heeft Twitter meestal een aardig voorsprong t.o.v. klassieke media."

Maar een encyclopedie is helemaal geen nieuwspublicatie.
Het is dus best wel onzin om een informatiebron als twitter direct aan wikipedia te hangen.
Wikipedia zou over feiten moeten gaan. Twitter gaat vooral over perceptie en eigen mening.
Een compleet uit de lucht gegrepen verhaal kan op twitter best wel een hot topic zijn terwijl het dan niet op wikipedia thuishoort.
Twitter lijkt me ook onzinnig om als bronvermelding op te geven op wikipedia. Zo van 'Iemand op twitter zei:'.
Ben ik deels met je eens. Vraag is ook of dit algoritme nog aangepast wordt. Zrg maar bijvoorbeeld als iedereen op Twitter zegt Rusland heeft de Krim geannexeerd. Dat hij het aantal berichten telt en zegt oke ik heb 90000000 berichten nodig die dit zeggen dan is het een feit. En pas ik wikipedia daar op aan.

In dat geval kan dat handig zijn. Overigens, ik weet niet welke dataminer dit gemaakt heeft. maar die gast moet wel geniaal zijn. Dit is echt niet iets wat je makkelijk maakt. En ik vraag me ook af of dit op een testserver is getest?
Ben ik deels met je eens. Vraag is ook of dit algoritme nog aangepast wordt. Zrg maar bijvoorbeeld als iedereen op Twitter zegt Rusland heeft de Krim geannexeerd. Dat hij het aantal berichten telt en zegt oke ik heb 90000000 berichten nodig die dit zeggen dan is het een feit. En pas ik wikipedia daar op aan.
Je past helemaal niets automatisch aan, dit algoritme kan enkel richtingen aangeven waarin nieuwe artikelen geschreven moeten worden (/bestaande uitgebreid).

Op het moment dat je het automatisch laat aanpassen dan ben je overgeleverd aan 4chan etc.
Inderdaad. De laatste nieuwe onnozele meme is geen stof voor Wikipedia.

Willen we artikels die bijdragen aan de educatie van de mensheid of willen we artikels over Twitch Plays Pokemon?
klinkt leuk, maar lijkt me vrij spam gevoelig. Commerciële belangen en zelfpromotie zijn toch al zaken waar de moderators op Wikipedia vrij druk mee zijn.
Het algoritme kijkt onder andere naar zaken als hoofdlettergebruik en de lengte en volgorde van woorden om te leren hoe Twittergebruikers formuleren en bij welke Wikipedia-lemma die formuleringen horen.
Wat, echt? Met zo weinig letters gaan mensen écht geen grammaticaal juiste en net geformuleerde zinnen ophoesten. Wat is er trouwens mis met de trending topics op Twitter ... die kun je zo uitlezen en bijv. na verloop van tijd (als iets populair blijft) een Wikipedia pagina van maken bijvoorbeeld.

Achja, je moet toch ergens op afstuderen dan denk ik ...
tja of dit nou het einde is... Denk zelf dat er van twitter niet veel te leren valt als we naar alle twitteraars kijken
Wat lezen mensen slecht. De wetenschappers hebben enkel iets bedacht om te kijken wat hiaten zijn in Wikipedia. De tool zorgt niet voor de content op de pagina's.
Het begin van het einde als je het aan mij vraagt :\
Twitter wordt te serieus genomen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True