Yahoo geeft dataset voor machine learning vrij

Yahoo heeft een dataset gebaseerd op geanonimiseerde interacties tussen gebruikers en verschillende feeds van Yahoo vrijgegeven om te gebruiken bij onderzoek naar kunstmatige intelligentie of machine learning.

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar. Yahoo noemt de dataset de Yahoo News Feed Dataset. De set bestaat uit interacties van gebruikers op de Yahoo homepage, News, Sports, Finance, Movies en Real Estate.

De set is beschikbaar als onderdeel van het Yahoo Labs Webscope-datadeelprogramma. Webscope is een bibliotheek van geanonimiseerde data voor wetenschappelijk onderzoek. De anonieme data is gecategoriseerd op leeftijd, geslacht en geografische data. Aan de andere kant zijn er de items zelf waarin titel, samenvatting en belangrijke zinnen uit de nieuwsartikelen zijn opgenomen. Ook is deels zichtbaar op wat voor apparaat de items zijn bekeken.

Yahoo Labs hoopt met het vrijgeven van de sets dat de data nuttig gebruikt wordt door de machine learning-community en datawetenschappers voor het valideren van modellen met 'datasets uit de echte wereld'. Labs hoopt dat de set een benchmark kan worden voor grote systemen.

yahoo labs

Vorig nieuwsartikel Volgend nieuwsartikel

Door Krijn Soeteman

Freelanceredacteur

Feedback • 14-01-2016 18:49
9 • submitter: Stroopwafels

14-01-2016 • 18:49

Submitter: Stroopwafels

Lees meer

Gerucht: diverse Amerikaanse providers willen Yahoo kopen Nieuws van 25 maart 2016

Microsoft gebruikt Minecraft voor kunstmatige-intelligentieonderzoek Nieuws van 14 maart 2016

Wetenschappers leren robots menselijk gedrag door het lezen van fictie Nieuws van 28 februari 2016

Yahoo komt met plan om kosten te drukken Nieuws van 1 februari 2016

Microsoft maakt deep-learning-toolkit opensource Nieuws van 25 januari 2016

Google gebruikt kunstmatige intelligentie voor onbekende zoekopdrachten Nieuws van 26 oktober 2015

Google komt met projecten voor verbeteren mens-machine-interactie Nieuws van 29 mei 2015

'EU wil groot onderzoek naar gedrag van techbedrijven en zoekmachines' Nieuws van 17 april 2015

Facebook gaat kennis over bezoekers inzetten voor advertenties op andere sites Nieuws van 29 september 2014

Meer producten en artikelen

Wetenschap Yahoo

IT-banen

Meer vacatures

Reacties (9)

-Moderatie-faq

Wijzig sortering

geekeep 14 januari 2016 19:11

Als iemand behoefte heeft aan nog meer datasets, https://archive.ics.uci.edu/ml/ is een van de bekendere waaronder de veelgebruikte 'iris dataset'.

Het mooiste aan machine learning, classificatie en clusteren is uiteraard kijken hoe algoritmes omgaan met uitzonderingen en/of uitschieters in combinatie met de benodigde tijd om een volledige set te verwerken.

divvid @geekeep • 14 januari 2016 20:07

Die iris dataset is echter ongeschikt voor ML van web interacties en ook nog eens heel klein. Mooi van Yahoo dat ze dit doen.

[Reactie gewijzigd door divvid op 22 juli 2024 19:43]

erikieperikie @divvid • 14 januari 2016 21:10

Omdat die iris set zo klein en eenvoudig is, zijn veel basisprincipes in ML juist heel goed te visualiseren en te doceren.

divvid @erikieperikie • 15 januari 2016 09:40

en daarmee dus weer niet geschikt om verbeteringen in ML algoritmen die op grote datasets werken te testen. Vaak zie je dramatische verschillen bij opschalen die een praktische implementatie onmogelijk maakt

erikieperikie @geekeep • 14 januari 2016 19:14

Dat is een klassieke ML set, inderdaad.

Deze set van Yahoo is echter voor precies wat je zegt gepubliceerd, maar dan op de grootst mogelijke schaal: supercomputers, ultiem optimaal gebruik maken van rekenkracht, e.d. Op een schaal van 110 miljard events moet je namelijk focussen of efficiëntie en rekenkracht, daarna pas op welk ML algoritme je gaat gebruiken.

Ik hoop dat deze set een van de benchmarks wordt waarop wiskundigen en datawetenschappers nieuwe krachtige rekenmethodes op ontwikkelen.

Morrar @erikieperikie • 14 januari 2016 23:59

Datasets van deze omvang kun je beter in een cluster stoppen en dan bijvoorbeeld met Spark selecties maken, data bewerken en modellen bouwen. Voor text data kun je bijvoorbeeld naar Elasticsearch uitwijken

Daarnaast vergeten mensen nogal eens dat je voor veel vraagstukken ook prima met een sample van de data kunt werken en je dus niet alle data nodig hebt. Alleen voor zeldzame events zoals fraude detectie is het een ander verhaal natuurlijk.

JJ93 @geekeep • 14 januari 2016 19:49

Vandaag voor een Cybersecurity werkcollege toevallig de Adult dataset gebruikt i.c.m. met R. Met als doel de 2/3 anonymity counts te verlagen door generalization & suppression etc. toe te passen.

Top dat Yahoo nu ook een enorme dataset vrijgeeft. Misschien dat ik zelf nog een keer ga prutsen met een subset..

[Reactie gewijzigd door JJ93 op 22 juli 2024 19:43]

Aikon 14 januari 2016 19:38

De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar.

Een snelle zoekopdracht geeft aan dat Yahoo 800 miljoen actieve gebruikers heeft per maand, dat is 40 keer zoveel dus. Kom je op 540 TB; maal 4 geeft 2 PB aan data per jaar. Bizarre hoeveelheden data generen die gebruikers eigenlijk, en dan is dit nog maar van 1 website van de talloze, die welliswaar (slechts?) op de vijfde plaats staat bij Alexa.

moozzuzz @Aikon • 15 januari 2016 09:56

Inderdaad en de dataset is dan nog eens sterk beperkt in de breedte ook (belangrijke zinnen ipv volledige artikel, beperkte informatie over devices, beperkt gebruikersprofiel, ...)

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (9)

Sorteer op:

Weergave: