Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 9 reacties
Submitter: Stroopwafels

Yahoo heeft een dataset gebaseerd op geanonimiseerde interacties tussen gebruikers en verschillende feeds van Yahoo vrijgegeven om te gebruiken bij onderzoek naar kunstmatige intelligentie of machine learning.

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar. Yahoo noemt de dataset de Yahoo News Feed Dataset. De set bestaat uit interacties van gebruikers op de Yahoo homepage, News, Sports, Finance, Movies en Real Estate.

De set is beschikbaar als onderdeel van het Yahoo Labs Webscope-datadeelprogramma. Webscope is een bibliotheek van geanonimiseerde data voor wetenschappelijk onderzoek. De anonieme data is gecategoriseerd op leeftijd, geslacht en geografische data. Aan de andere kant zijn er de items zelf waarin titel, samenvatting en belangrijke zinnen uit de nieuwsartikelen zijn opgenomen. Ook is deels zichtbaar op wat voor apparaat de items zijn bekeken.

Yahoo Labs hoopt met het vrijgeven van de sets dat de data nuttig gebruikt wordt door de machine learning-community en datawetenschappers voor het valideren van modellen met 'datasets uit de echte wereld'. Labs hoopt dat de set een benchmark kan worden voor grote systemen.

yahoo labs

Moderatie-faq Wijzig weergave

Reacties (9)

Als iemand behoefte heeft aan nog meer datasets, https://archive.ics.uci.edu/ml/ is een van de bekendere waaronder de veelgebruikte 'iris dataset'.

Het mooiste aan machine learning, classificatie en clusteren is uiteraard kijken hoe algoritmes omgaan met uitzonderingen en/of uitschieters in combinatie met de benodigde tijd om een volledige set te verwerken.
Die iris dataset is echter ongeschikt voor ML van web interacties en ook nog eens heel klein. Mooi van Yahoo dat ze dit doen.

[Reactie gewijzigd door divvid op 15 januari 2016 09:31]

Omdat die iris set zo klein en eenvoudig is, zijn veel basisprincipes in ML juist heel goed te visualiseren en te doceren.
en daarmee dus weer niet geschikt om verbeteringen in ML algoritmen die op grote datasets werken te testen. Vaak zie je dramatische verschillen bij opschalen die een praktische implementatie onmogelijk maakt
Dat is een klassieke ML set, inderdaad.

Deze set van Yahoo is echter voor precies wat je zegt gepubliceerd, maar dan op de grootst mogelijke schaal: supercomputers, ultiem optimaal gebruik maken van rekenkracht, e.d. Op een schaal van 110 miljard events moet je namelijk focussen of efficiŽntie en rekenkracht, daarna pas op welk ML algoritme je gaat gebruiken.

Ik hoop dat deze set een van de benchmarks wordt waarop wiskundigen en datawetenschappers nieuwe krachtige rekenmethodes op ontwikkelen.
Datasets van deze omvang kun je beter in een cluster stoppen en dan bijvoorbeeld met Spark selecties maken, data bewerken en modellen bouwen. Voor text data kun je bijvoorbeeld naar Elasticsearch uitwijken

Daarnaast vergeten mensen nogal eens dat je voor veel vraagstukken ook prima met een sample van de data kunt werken en je dus niet alle data nodig hebt. Alleen voor zeldzame events zoals fraude detectie is het een ander verhaal natuurlijk.
Vandaag voor een Cybersecurity werkcollege toevallig de Adult dataset gebruikt i.c.m. met R. Met als doel de 2/3 anonymity counts te verlagen door generalization & suppression etc. toe te passen.

Top dat Yahoo nu ook een enorme dataset vrijgeeft. Misschien dat ik zelf nog een keer ga prutsen met een subset..

[Reactie gewijzigd door JJ93 op 14 januari 2016 19:50]

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar.
Een snelle zoekopdracht geeft aan dat Yahoo 800 miljoen actieve gebruikers heeft per maand, dat is 40 keer zoveel dus. Kom je op 540 TB; maal 4 geeft 2 PB aan data per jaar. Bizarre hoeveelheden data generen die gebruikers eigenlijk, en dan is dit nog maar van 1 website van de talloze, die welliswaar (slechts?) op de vijfde plaats staat bij Alexa.
Inderdaad en de dataset is dan nog eens sterk beperkt in de breedte ook (belangrijke zinnen ipv volledige artikel, beperkte informatie over devices, beperkt gebruikersprofiel, ...)

Op dit item kan niet meer gereageerd worden.



Samsung Galaxy S7 edge Athom Homey Apple iPhone SE Raspberry Pi 3 Apple iPad Pro Wi-Fi (2016) HTC 10 Hitman (2016) LG G5

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True