De Information and Language Processing Systems-groep van de Universiteit van Amsterdam heeft een onderzoeksproject genaamd MoodViews lopen om veranderingen van stemmingspatronen in weblogs te meten en in kaart te brengen. De software van de wetenschappers hengelt per dag circa 150.000 blogposts binnen en houdt in totaal bij circa twee miljoen bloggers de vinger aan de pols. De software heeft een aantal interessante toepassingen; zo werd bijvoorbeeld een relatie gevonden tussen de stemming van bloggers onmiddelijk na het uitkomen van een film en de uiteindelijke opbrengst ervan. Onder meer het marketing- en het bankwezen zouden dan ook grote interesse voor de software hebben.
De onderzoekers vatten het probleem van stemmingsbepaling op als variatie op het tekstclassificatieprobleem (bepaal voor een gegeven tekst de meest waarschijnlijke categorie), zij het dat niet de afzonderlijke blogs worden geclassificeerd maar hele verzamelingen tegelijk. Voor een gegeven verzameling blogs schat het algoritme op gezette tijden het totale aantal postings die een gegeven gemoedstoestand reflecteren; dit is de gezochte mood intensity van een verzameling blogpostings op een gegeven tijdstip.
Vaak wordt een tekstclassificatiealgoritme eerst getraind op een verzameling teksten waarvan de categorie bekend is, wat veelal neerkomt op het handmatig annoteren ('labelen') van grote hoeveelheden teksten. Weblogs, zo stellen de onderzoekers, hebben echter de eigenschap dat het humeur van de blogger vaak expliciet wordt vermeld, waardoor er - ook dankzij de populariteit van bloggen - de beschikking is over grote hoeveelheden geannoteerde data. Deze data kan vervolgens worden gebruikt om woorden en woordcombinaties op te sporen die veel worden gebruikt bij een bepaald humeur. Het feit dat niet alle blogs expliciet zijn over hun gemoedstoestand wordt hierbij voor lief genomen; de enorme hoeveelheid beschikbare blogs maakt het mogelijk de niet-expliciete schrijfsels als ruis in de data op te vatten, zo stellen de onderzoekers.
