Yahoo geeft dataset voor machine learning vrij

Yahoo heeft een dataset gebaseerd op geanonimiseerde interacties tussen gebruikers en verschillende feeds van Yahoo vrijgegeven om te gebruiken bij onderzoek naar kunstmatige intelligentie of machine learning.

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar. Yahoo noemt de dataset de Yahoo News Feed Dataset. De set bestaat uit interacties van gebruikers op de Yahoo homepage, News, Sports, Finance, Movies en Real Estate.

De set is beschikbaar als onderdeel van het Yahoo Labs Webscope-datadeelprogramma. Webscope is een bibliotheek van geanonimiseerde data voor wetenschappelijk onderzoek. De anonieme data is gecategoriseerd op leeftijd, geslacht en geografische data. Aan de andere kant zijn er de items zelf waarin titel, samenvatting en belangrijke zinnen uit de nieuwsartikelen zijn opgenomen. Ook is deels zichtbaar op wat voor apparaat de items zijn bekeken.

Yahoo Labs hoopt met het vrijgeven van de sets dat de data nuttig gebruikt wordt door de machine learning-community en datawetenschappers voor het valideren van modellen met 'datasets uit de echte wereld'. Labs hoopt dat de set een benchmark kan worden voor grote systemen.

Door Krijn Soeteman

Freelanceredacteur

14-01-2016 • 18:49

9 Linkedin

Submitter: Stroopwafels

Reacties (9)

9
9
9
1
0
0
Wijzig sortering
Als iemand behoefte heeft aan nog meer datasets, https://archive.ics.uci.edu/ml/ is een van de bekendere waaronder de veelgebruikte 'iris dataset'.

Het mooiste aan machine learning, classificatie en clusteren is uiteraard kijken hoe algoritmes omgaan met uitzonderingen en/of uitschieters in combinatie met de benodigde tijd om een volledige set te verwerken.
Die iris dataset is echter ongeschikt voor ML van web interacties en ook nog eens heel klein. Mooi van Yahoo dat ze dit doen.

[Reactie gewijzigd door divvid op 15 januari 2016 09:31]

Omdat die iris set zo klein en eenvoudig is, zijn veel basisprincipes in ML juist heel goed te visualiseren en te doceren.
en daarmee dus weer niet geschikt om verbeteringen in ML algoritmen die op grote datasets werken te testen. Vaak zie je dramatische verschillen bij opschalen die een praktische implementatie onmogelijk maakt
Dat is een klassieke ML set, inderdaad.

Deze set van Yahoo is echter voor precies wat je zegt gepubliceerd, maar dan op de grootst mogelijke schaal: supercomputers, ultiem optimaal gebruik maken van rekenkracht, e.d. Op een schaal van 110 miljard events moet je namelijk focussen of efficiëntie en rekenkracht, daarna pas op welk ML algoritme je gaat gebruiken.

Ik hoop dat deze set een van de benchmarks wordt waarop wiskundigen en datawetenschappers nieuwe krachtige rekenmethodes op ontwikkelen.
Datasets van deze omvang kun je beter in een cluster stoppen en dan bijvoorbeeld met Spark selecties maken, data bewerken en modellen bouwen. Voor text data kun je bijvoorbeeld naar Elasticsearch uitwijken

Daarnaast vergeten mensen nogal eens dat je voor veel vraagstukken ook prima met een sample van de data kunt werken en je dus niet alle data nodig hebt. Alleen voor zeldzame events zoals fraude detectie is het een ander verhaal natuurlijk.
Vandaag voor een Cybersecurity werkcollege toevallig de Adult dataset gebruikt i.c.m. met R. Met als doel de 2/3 anonymity counts te verlagen door generalization & suppression etc. toe te passen.

Top dat Yahoo nu ook een enorme dataset vrijgeeft. Misschien dat ik zelf nog een keer ga prutsen met een subset..

[Reactie gewijzigd door JJ93 op 14 januari 2016 19:50]

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar.
Een snelle zoekopdracht geeft aan dat Yahoo 800 miljoen actieve gebruikers heeft per maand, dat is 40 keer zoveel dus. Kom je op 540 TB; maal 4 geeft 2 PB aan data per jaar. Bizarre hoeveelheden data generen die gebruikers eigenlijk, en dan is dit nog maar van 1 website van de talloze, die welliswaar (slechts?) op de vijfde plaats staat bij Alexa.
Inderdaad en de dataset is dan nog eens sterk beperkt in de breedte ook (belangrijke zinnen ipv volledige artikel, beperkte informatie over devices, beperkt gebruikersprofiel, ...)

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee