Yahoo heeft een dataset gebaseerd op geanonimiseerde interacties tussen gebruikers en verschillende feeds van Yahoo vrijgegeven om te gebruiken bij onderzoek naar kunstmatige intelligentie of machine learning.
De totale set bestaat uit ongeveer 110 miljard gebeurtenissen en beslaat in totaal 13,5TB aan data. Yahoo verzamelde de interacties van ongeveer 20 miljoen gebruikers tussen februari 2015 en mei datzelfde jaar. Yahoo noemt de dataset de Yahoo News Feed Dataset. De set bestaat uit interacties van gebruikers op de Yahoo homepage, News, Sports, Finance, Movies en Real Estate.
De set is beschikbaar als onderdeel van het Yahoo Labs Webscope-datadeelprogramma. Webscope is een bibliotheek van geanonimiseerde data voor wetenschappelijk onderzoek. De anonieme data is gecategoriseerd op leeftijd, geslacht en geografische data. Aan de andere kant zijn er de items zelf waarin titel, samenvatting en belangrijke zinnen uit de nieuwsartikelen zijn opgenomen. Ook is deels zichtbaar op wat voor apparaat de items zijn bekeken.
Yahoo Labs hoopt met het vrijgeven van de sets dat de data nuttig gebruikt wordt door de machine learning-community en datawetenschappers voor het valideren van modellen met 'datasets uit de echte wereld'. Labs hoopt dat de set een benchmark kan worden voor grote systemen.