YouTube begint Research Program waarmee onderzoekers metadata kunnen analyseren

Google gaat onderzoekers meer toegang geven tot data over YouTube. Er komt een api beschikbaar waarmee wetenschappers toegang krijgen tot metadata van video's. Onderzoekers krijgen onbeperkt toegang tot die data.

Het YouTube Research Program is in feite een uitbreiding van de beperkte, bestaande Data-api die YouTube al langer aanbood. Het nieuwe onderzoeksprogramma betekent dat voortaan iedere wetenschapper toegang kan krijgen tot die data, maar ook dat de data uitgebreid wordt. Wetenschappers krijgen 'schaalbare toegang' tot publieke metadata over YouTube-video's zonder dat er een limiet zit aan het aantal requests dat ze kunnen doen. Ook krijgen onderzoekers technische ondersteuning van YouTube zelf als ze hulp nodig hebben bij hun onderzoek.

Onderzoekers kunnen de api-data gebruiken om te kijken naar waar video's vandaan komen of hoe bijvoorbeeld beïnvloedingscampagnes op het platform werken. Verschillende onderzoekers zeggen daar blij mee te zijn, al merken sommige op dat het nog steeds om een relatief kleine stap gaat in het transparantieproces van 's wereld grootste videowebsite. Wetenschappers vragen grote techbedrijven al jaren om meer inzicht in de werking van bijvoorbeeld feedalgoritmes of de herkomst van posters.

Wetenschappers moeten zichzelf eerst als zodanig aanmelden bij het programma. YouTube zegt dat studenten of werknemers van universiteiten en scholen ook toegang kunnen krijgen tot de data. Er zijn geen beperkingen op welke data de wetenschappers mogen benaderen. Wetenschappers zijn volgens de beleidsregels verplicht hun onderzoeksresultaten openbaar te maken. Ook moeten ze YouTube verplicht toegang geven tot de onderzoeksdata die ze verzamelen.

YouTube Research Program

Door Tijs Hofmans

Nieuwscoördinator

13-07-2022 • 14:08

23

Reacties (23)

23
21
14
5
0
4
Wijzig sortering
Zozo. Dus nu wordt 's werelds grootste advertentieplatform (en internetprovider en social-media-gigant en it-infrastructuur (hard- en software) gigant ook nog eens 's werelds grootste 'CBS'? Een ecosysteem met proprietary en winstgestuurde datavergaring waar een nieuwe generatie researchers, gewapend met een enorm vertrouwen in de tent die ook al hun mailbox beheert en met een kersvers big-data-im-hard-bruce-lee-machine-learning diploma op zak dan zich volledig in gaat onderdompelen onder het mom van kennisuitbreiding en waarheidsvinding? Wel interessant hoe Alphabet de onderzoekers steeds verder 'faciliteert'. Communiceren met email, papers schijven en grafiekjes genereren met Google write en google spreadsheets, de data uiteraard veilig (en gratis) bij google in de cloud, en de zoekresultaten van collega-onderzoekers.... natuurlijk ook fijntjes in beheer bij Google Scholar.

Het is een interessante voorwaarde dat wetenschappers ook niet vrij zijn in waar ze hun bevindingen vervolgens publiceren: het is verplicht open access (dus niet in Nature, niet in de gebruikelijke vakbladen oid). Wil je op basis van de data andere vragen stellen dan moet je toestemming vragen.

Google is hierin gewoon geen onafhankelijke partij. Ze heeft commerciele belangen bij hun imago mbt deze data, er moeten dus geen dingen naar buiten kunnen komen die haaks staan op financiele belangen. Nou, en dat kan er dus wel prima uitkomen.

Bovendien, wie heeft al die dataverzameling betaald? Wie heeft de algoritmes geschreven, wie heeft het videoplatform in de lucht gehouden? Google. Daarmee zijn ze ook geldschieter van elk onderzoek (want dat kost allemaal geld) en daarmee is er direct sprake van belangenverstrengeling. Het is niet in het belang van een onderzoeker om buiten de lijntjes van Google's (eenzijdig aanpasbare) guidelines te gaan omdat onderzoekers in een afhankelijkheidspositie verkeren tegenover de data-leverancier. Want natuurlijk is de data 'gratis'.

En dat werkt gewoon niet zo. Normaliter kost data verzamelen geld, en moet dataverzameling door een ethische toetsingscommissie (in Nederland, volgens Nederlandse wetgeving) worden getoetst op allerlei vlakken zoals privacy, dataopslag, etc. Dat proces is transparant.

Het zoveelste 'gratis' product waarmee weer een nieuwe groep gebruikers hopeloos in de fuik loopt. Ik ben vooral bezorgd om die jongste generatie onderzoekers die het woordje 'googelen' al hun hele leven kennen maar het woordje 'cbs' een nerderig en ingewikkeld iets is uit de studie en die dan Hele Hippe research proposals gaan schrijven over gender- en diversiteitsissues waarin ze van plan zijn big data analyses *kuch ook van google....* los gaan laten op google data op google machines in een google infrastructuur.

Ben ik te cynisch? Of deugt het gewoon principieel niet dat een zwaar commerciele advertentieboer nu ineens allemaal maatschappelijk betrokken 'programma's' gaat lopen organiseren, for the greater good? Straks gaat google ziekenhuizen bouwen. Of scholen. En dit gaat richting dat laatste. Een dikke vette vinger in de pap in onafhankelijke subsidiegestuurde door belastinggeld betaalde wetenschap. Ik zou het met grote argwaan bekijken.

Maar daar zal een hele generatie enthousiaste onderzoekers zich niet aan storen. Wat is er nou aantrekkelijker om naar te luisteren (en subsidie aan te geven): een spetterend onderzoeksvoorstel over het toch nog wel een beetje hippe en indrukwekkende Google (en een Researchers Program) en een N = 3.352.000 en big data en AI en open access en blablabla? Of een mopperende zuurpruim die daar bedenkingen bij heeft en liever onder 50 of 60 studenten vragenlijsten afneemt en een MANOVA draait en daar voorzichtig wat over concludeert in het (betaalde) british journal of media and digital communication? Tsja, dat is natuurlijk heel makkelijk, welk voorstel daar gaat winnen in de subsiedieronden.

Dit is wel een heel erg grote uitdaging van het (naar mijn mening) door de bank genomen matigjes ontwikkeld ethisch besef / verantwoordelijkheidsgevoel / integriteit van onderzoekers. Dat wereldje staat altijd onder druk vanwege geldzorgen (linkse hobby he), en daar moet niet een Google ineens met een bordje 'free data!(volgensonzevoorwaarden)' gaan lopen wapperen. Hier gaan een hoop gedragswetenschappers opduiken, en niet omdat ze willen weten hoe mensen denken, maar omdat het hip en cool is en geld aantrekt.
Ik denk dat je inderdaad iets te cynisch bent. Natuurlijk is dit voor Google een manier om hun imago wat op te vijzelen, maar het ontsluiten van data voor onderzoeksdoeleinden is in principe een goede stap. Ook staat nergens dat je alleen in open access tijdschriften mag publiceren. Heb je daar een linkje van? In de link uit de laatste alinea staat alleen dat resultaten "publicly available" moeten zijn. Dat kan gewoon door een blog, een white paper, een pre-print, of door de Taverne regeling waarbij universiteiten hebben afgesproken 6 maanden na de eerste publicatie in een tijdschrift de gepubliceerde versie zelf gratis aan te bieden op hun website.

De big data beweging zorgt natuurlijk wel voor een grotere focus op het voorspellen van variabelen in plaats van het bewijzen van causale verbanden. Dat is niet per se een goede ontwikkeling, maar beide typen onderzoek kunnen prima naast elkaar bestaan.
"Heb je daar een linkje van? "

Yes, puntje 6a van de policies:
https://research.youtube/...s-and-use-of-program-data

"In a manner consistent with Open Science Principles, you agree to use reasonable efforts to publish all Researcher Publications in Open Access journals or publications and/or as Open Access resources on other websites."

Daarmee scoor je nu natuurlijk ook punten, want als je op dit moment een beetje in de picture wil staan als wetenschapper hou je je niet alleen bezig met big data en ai, maar ben je natuurlijk ook principieel proponent van Open Acces etc. Ze wekken dus de indruk van een progressief, mogelijk zelfs links, maatschappelijk betrokken standpunt. Weg met de grote geldverslindende kolossen zoals Elsevier en all the power to the people. Of niet?

Ik geloof niet meer in een Alphabet die altruistisch de samenleving gaat helpen. Dit vriendjes maken met de 'intelligentia' heeft vooral als doel om Alphabet verder te helpen, dat moet je denk ik nooit vergeten.

"Het ontsluiten van data voor onderzoeksdoeleinden is in principe een goede stap"

Jazeker, en gratis 1GB inbox aanbieden was ook een goeie stap. Die gratis zoekmachine was ook een hele goeie stap, google earth was een fantastische stap. Google staat bol van de fantastische stappen. Chrome was een goeie stap, google Calender een mooie stap. Android, ook al zo'n mooie stap. Internetbalonnen, Google Fiber - fijne stap. Allemaal prima. En dan zouden ze nu aan de input-pipeline gaan liggen (allemaal helemaal gratis natuurlijk) van onze wetenschappelijke machinery. Bovendien geven ze ook al grants uit voor researchonderwerpen die Google interessant vindt. 80k overgemaakt krijgen als professor - helemaal gratis, dat is toch ook zo'n mooie stap. Moet je natuurlijk wel een goedkeuringsstempel krijgen van Google: je moet het wel over big data en machine learning en human machine interaction hebben. Het zijn geen altruisten: je moet je altijd afvragen wat hun belang daarbij is: en dat is de banden met de jonge talentvolle wetenschappers van de komende eeuw heel, heel innig aanhalen. Je moet je goed bedenken als samenleving of je wil dat je publiek systeem zo wordt 'gegroomed' door een tent die waarvan je je sowieso al af kan vragen of hun huidige grip op de samenleving via enkel al hun 'gratis' consumentenproducten niet al wat ver gaat.

Dit is gewoon grooming, ik heb er geen andere visie op. Vandaag gratis snoep, de rekening komt later.

Ik sta volledig open voor de alternatieve hypothese. Dat is deze: dat Google heeft gedacht: weet je, wij schrapen zo gruwelijk veel miljarden af van de samenleving, laten we eens wat terugdoen. Wij willen 's nachts ook lekker slapen, wij willen de wereld echt, echt beter maken. Wie heeft er een mooi plan, dien maar in, over 3 maanden maken we een keus. Aha, wat dacht je van het volgende: laten we eens onze core asset, onze metadata over gebruikers, datgene dus wat ons momenteel stink en stinkrijk maakt, laten we dat nou eens geheel belangeloos vrijgeven in het belang van de wetenschap! Welke aandeelhouder gaat daarmee nou akkoord, wat voor geld zit daar in? Dat klopt toch niet?

[Reactie gewijzigd door Znorkus op 25 juli 2024 11:59]

In a manner consistent with Open Science Principles, you agree to use reasonable efforts to publish all Researcher Publications in Open Access journals or publications and/or as Open Access resources on other websites."

Daar staat expliciet niet dat je het niet in commerciële context mag publiceren.
Nee er staat dat je jezelf ertoe verplicht om het, indien redelijkerwijs mogelijk (dwz experiment niet verkloot of vergissing of niet-publicabel nulresultaat), in een open access journal te publiceren. En dus niet bij een traditionele uitgever.

Op zich is dat een prima ontwikkeling natuurlijk.
"Ook moeten ze YouTube verplicht toegang geven tot de onderzoeksdata die ze verzamelen."
Wow, dit is de wereld op zn kop als ik zie hoe Google zich zelf gedraagt met datavergaring.
Dit moet dan de definitie van een dubble standaard zijn,dat kan niet anders.
Omdat het informatie betreft die van Google is,is de andere partij verplicht deze te tonen.
Dat hadden ze zelf moeten doen,vanaf het moment dat ze onze data verzamelden,en dan nog kun je nu niet alle data inzien die deze toko verzamelt.
Je kunt de data dit in Youtube van jou verzameld is gewoon inzien, en downloaden via Google Takeout.
https://myaccount.google.com/u/0/yourdata/youtube?hl=nl
wauw, volgens die link word ik al 3 jaar niet meer bijgehouden bij spul. alles heeft een datum van 2019.
En hoe zit het met de privacy m.b.t. deze data? Voordat er straks een wetenschappelijk artikel online komt waarin staat dat 40% van de Europeanen met strafblad naar kattenfilmpjes uit Azië kijkt ofzo.
Zou het heel bijzonder vinden als het hebben van een strafblad in de metadata van Youtube te vinden zou zijn.
Zal je verbazen welke informatie iemands zoekresultaten kan bevatten.
daarom is het ook tijd om je eigen zoekmachine te maken, en alle tracking buiten de deur te houden. :)

In het filmpje word mooi uitgelegd hoe je op basis van een raspberry pi en docker je eigen zoekmachine maakt.

https://www.youtube.com/watch?v=ifT6npY39Dw
Een filmpje over hoe je de invloed van Google buiten de deur kan houden.... Gehost op Youtube. 8)7
Platform met grote reach.
Wat staat daar dan zoal in?
Nee, strafblad niet. Maar wel persoonsgegevens zoals accountnaam, naam, locatie etc.. Aan de hand daarvan kan natuurlijk veel meer informatie opgezocht worden (hopelijk doen ze dat dus niet).
dat soort info vind je ook niet, geen naam, locatie, accountnaam. eerder leeftijd van de doepgroep, provincie/stad en heeft ook gekeken naar...
Kan je als onderzoeker ook zien hoeveel dislikes erzijn? Dan kan ik die weer zien via de dislike addon op mijn browser. Als ik zoek hoe naar een goede tutorial is dat erg belangrijk.
Ik ga even onderzoeken of er een correlatie is met de verkoop van mijn product nadat (*insert domme vlogger die invloedrijk is op 13 jarige) voor een leuk bedragje sluikreclame voor me heeft gemaakt, en het aantal views van die video.

Ik zie commerciële instellingen die hier aardig misbruik van kunnen maken door te kijken of bepaalde reclame effectief is bij verschillende soorten video's.
Ook wetenschappers uit discutabele landen?
Waar heb je het over?

Op dit item kan niet meer gereageerd worden.