Onderzoekers van de Universiteit van Amsterdam hebben een algoritme ontwikkeld dat voorspelt welke opkomende onderwerpen dusdanig in de belangstelling staan dat ze een eigen Wikipedia-artikel verdienen. Het algoritme maakt hiervoor gebruik van Twitter.
De Universiteit van Amsterdam maakte de bevindingen dinsdag bekend. De onderzoekers passen de bestaande named entity recognition-technologie toe in combinatie met een zelfontwikkeld algoritme om personen, locaties en organisaties te herkennen die nog niet op Wikipedia staan maar dat wel zouden verdienen. De software leest tweets uit en bepaalt eerst of de inhoud ervan al op Wikipedia terug te vinden is. Wanneer ze over al bekende zaken gaan en wat taalgebruik aangaat van een voldoende niveau zijn, worden ze door het algoritme doorgezet als voorbeelden van hoe Twittergebruikers over onderwerpen schrijven die al op Wikipedia staan.
Het algoritme kijkt onder andere naar zaken als hoofdlettergebruik en de lengte en volgorde van woorden om te leren hoe Twittergebruikers formuleren en bij welk Wikipedia-lemma die formuleringen horen. Hoe meer voorbeelden het algoritme aan het named entity recognition-systeem voorschotelt, hoe beter het in staat is de patronen te herkennen bij tweets die over voor Wikipedia onbekende onderwerpen gaan.
Deze kennis wordt vervolgens toegepast op Twitterberichten die niet herkend worden als tweets met een geassocieerd Wikipedia-lemma. Het door het algoritme gevoede nerc-model stelt daarna vast of een tweet over bijvoorbeeld een persoon, locatie of organisatie gaat. Op het moment dat een van die zaken vaak genoeg op dezelfde manier de revue passeert op Twitter, zal het nerc-model vaststellen dat het gaat om een onderwerp dat genoeg onder de aandacht van Twittergebruikers is gekomen om een eigen Wikipedia-lemma te rechtvaardigen.
Het algoritme, dat als werktitel 'Unsupervised Pseudo-ground Truth' heeft, werkt op het moment bij personen, locaties en organisaties. Echter, met weinig aanpassingen kan het ook werken om bijvoorbeeld titels van boeken en films te herkennen. Het zal in de praktijk vooral nut hebben voor trendwatchers en mensen die bijdragen aan Wikipedia. David Graus, promovendus bij de Universiteit van Amsterdam en hoofdontwikkelaar van het algoritme, stelt tegenover Tweakers dat hij door wil gaan met de ontwikkeling en een live-versie van het algoritme online wil zetten, maar wanneer dat gaat gebeuren, is nog niet bekend. Ook zijn er plannen om in de toekomst het algoritme opensource te maken.