CERN geeft 300 TB aan meetgegevens van LHC vrij

CERN heeft een groot gedeelte van de gegevens die door de Large Hadron Collider zijn verzameld vrijgegeven voor het publiek. Geïnteresseerden kunnen door 300 TB aan data spitten die is verzameld door de CMS-detector in het jaar 2011.

In de datasets staan gegevens over het botsen van protonen met een energie van 7 TeV. De data is vrijgegeven omdat CERN deze inmiddels zelf heeft geanalyseerd, en de organisatie het nu tijd vindt dat ook anderen er toegang toe krijgen. Wie geïnteresseerd is in de protonenbotsingen moet zich naar de Open Data Portal van het CERN begeven. Daar kunnen met de ingebouwde software simulaties worden gedaan waarbij ook beelden gemaakt kunnen worden. CERN heeft hier zelf een voorbeeld van online gezet.

CERN visualisatie

Wetenschappers kunnen de zogenaamde primaire datasets downloaden, om hiermee onderzoek te kunnen doen. Andere belangstellenden, zoals scholen, kunnen de afgeleide datasets downloaden. Dit onderscheid is gemaakt omdat de afgeleide datasets veel gemakkelijker in het gebruik zijn en dus minder expertise vereisen voor de analyse. Volgens CERN zijn er positieve ervaringen met het vrijgeven van data, onder meer via samenwerkingen met onderzoekers van technologie-instituut MIT.

Overigens laat de LHC sinds vorig jaar al met energieniveaus van 13 TeV protonen op elkaar botsen, maar de vrijgegeven data is afkomstig uit 2011, toen de botsingen nog minder krachtig waren. Na een upgrade in 2022 is het overigens de bedoeling dat er nog veel krachtigere bundels met deeltjes op elkaar worden geschoten.

In de wetenschappelijke wereld is het delen van datasets afkomstig uit onderzoek controversieel. Zo zijn veel instellingen niet bereid brongegevens te delen, onder meer uit concurrentieoverwegingen. De EU heeft recentelijk een groot onderzoeksprogramma aangekondigd om wetenschappelijke data beter te ontsluiten en met elkaar te koppelen. Zo kunnen de conclusies van de onderzoekers gevalideerd worden en moet worden voorkomen dat onderzoek onnodig wordt herhaald.

Door RoD

Admin Mobile

24-04-2016 • 10:01

33 Linkedin

Submitter: Rafe

Reacties (33)

33
32
20
4
0
2
Wijzig sortering
Hoewel 300 TB veel data is, betekent dat bij de LHC dat er al heel veel gegevens gefiltered zijn. Vrijwel alle events zijn totaal niet interessant en worden nog voordat de data opgeslagen wordt al gefilterd.

Als je benieuwd bent hoe die analyse pipeline in elkaar zit dan raad ik deze presentatie aan die geschikt is voor computer scientists.
Je kan ook naar de sheets kijken, de uitleg begint rond sheet 20 in deze presentatie.

Het is wel een ontzettend mooi voorbeeld van open toegang tot wetenschappelijke data. Tegelijkertijd is dat vrijgeven voor CERN een relatief makkelijke keuze; Het zijn geen persoonsgegevens, geen proprietary informatie of metingen waar nog significant signaal van een onbekend proces in zit. Het zijn enkel fysische gebeurtenissen.

edit:
url tag...

[Reactie gewijzigd door ANdrode op 24 april 2016 10:20]

Vrijwel alle events zijn totaal niet interessant en worden nog voordat de data opgeslagen wordt al gefilterd.
denken ze. hopen ze.

zat laatst een TED talk te kijken over een ster met een heel interessant felheidsverloop. maar het voldeed niet aan de zoekparameters (ze waren op zoek naar planeten) en was dus door de computer genegeerd.

de data werd door 'citizen scientists' handmatig bekeken en die vonden wel deze interessante ster.

je weet niet wat je niet weet dus misschien worden er wel heel interessante gegevens weggefilterd omdat we niet wisten dat ze interessant zijn.

maarja, je moet wel filteren. zonder zijn er gewoon te veel gegevens om te analyseren.
[...]
denken ze. hopen ze.

je weet niet wat je niet weet dus misschien worden er wel heel interessante gegevens weggefilterd omdat we niet wisten dat ze interessant zijn.

maarja, je moet wel filteren. zonder zijn er gewoon te veel gegevens om te analyseren.
Dat klopt helemaal. En alles bewaren is compleet onmogelijk. Damned if you do damned if you don't :).

Dit is wel een iets andere situatie. In deze situatie natuurlijk weet je dat de gegevens die je weggooit enkel een sample uit bewaard ontzettend waarschijnlijk zijn in het natuurkundige model waar je vanuit gaat. Je zoekt juist de events die niet te verklaren zijn/ontzettend onwaarschijnlijk zijn onder het hudige model.

Als deze veel beter passen onder een andere theorie, dan zijn genoeg observaties samen een statistische onderbouwing dat de nieuwe theorie "beter" is/beter aan sluit bij de waarnemingen.
Ook heeft Tweakers zelf een mooi 3 delig item gemaakt over CERN dat zeker de moeite waard is om te bekijken!

[Reactie gewijzigd door Cowamundo op 24 april 2016 15:25]

Er komt van de LHC grofweg een petabyte per dag aan data binnen en na eerste analyse (grotendeels geautomatiseerd) blijft er jaarlijks zo'n 30 petabyte aan data over voor de wetenschappers om in te duiken.

Zie http://home.cern/about/computing

Dus die 300TB is al fors minder dan de data die in één jaar overblijft. Ruim een factor 100 minder zelfs. :)

[Reactie gewijzigd door Wildfire op 24 april 2016 11:06]

Ruwe data -> Wat er langs triggers komt -> Bewaarde ruwe data -> Reconstructed events

Er zijn meerdere lagen waarin er data wordt gefilterd omdat wat er gebeurt niet interessant is. Daar bewaar je een heel klein deel van om detector te calibreren etc. De software filtert de "bijzondere gevallen".

Geinformeerde gok: 30PB is waarschijnlijk de ruwe data van de events. 300TB zouden de reconstructed events kunnen zijn.
Ik las ergens 2MB per 'botsing'. Een miljard botsingen per seconden. Ze mogen er maar 200 opslaan i.v.m. de enorme hoeveelheid data. Maarja, wélke 200 is dan de vraag :)
of metingen waar nog significant signaal van een onbekend proces in zit.
Dit lijkt me nog niet zo zeker? Ze hebben nu uit de data gehaald wat ze eruit verwachtten te halen.

Het kan best dat er nog "geheimen" in de data zitten waar nog niemand goed naar gekeken heeft denk ik?

Of is werkelijk elk signaal in die 300TB getoetst aan de op dit moment geldende natuurkundige wetten?
Anoniem: 387522
@ANdrode24 april 2016 20:30
Het is wel een ontzettend mooi voorbeeld van open toegang tot wetenschappelijke data.
Dat dit mooi is, komt voornamelijk omdat de achtergrond zo lelijk is. Iets wat met miljarden publieksgeld is gebouwd, zou altijd openbaar moeten zijn. Dat geldt voor alle door gemeenschapsgeld betaalde wetenschap vind ik. Ook de datasets waarin er geen effect wordt gevonden.

Het zou normaal moeten zijn, open toegang. Loftrompet prima, maar zeg er dan meteen even bij dat het schandalig is als het niet gebeurt.
Ik vind het onwijs sterk van CERN dat ze hun data delen. Ik denk dat er twee goede redenen zijn om dit te doen. 1) Je bent publieke instelling die onderzoek doet en daar uit algemeen geld betaald wordt, dus waarom zou niet iedereen in je data mogen snuffelen als er geen persoonsgegevens etc. tussen staan en 2) als het mogelijk is dat er iemand nog meer uit die data kan halen dan jij hebt gedaan, dan wordt het ook nog daadwerkelijk nuttig om de data te delen.

Een tijdje geleden las ik over een project waarbij amateurs werden gevraagd door telescoopdata heen te spitten, omdat astronomen dit niet allemaal kunnen processen. Ik denk dat dit twee mooie voorbeelden zijn waar de wetenschappelijke wereld heen zou moeten gaan.

Een ander sterk punt van de NASA en CERN is dat je behoorlijk wat informatie van ze kunt vinden over technologische keuzes die ze hebben gemaakt. Voor mijn werk zoek ik regelmatig naar verschillende vacuümtoepassingen en dan zijn papers of presentaties van hen over lijmen, schoonmaaktechnieken, design keuzes etc. best wel relevant en i.t.t. bedrijven geven zij wel redelijk wat details vrij.

[Reactie gewijzigd door heintjeput op 24 april 2016 11:32]

Ik vind het onwijs sterk van CERN dat ze hun data delen.
Onwijs sterk?? Ik vind het niet meer dan normaal. CERN kost handenvol belastingsgeld (en ik betaal graag mee overigens), het is logisch dat daar iets voor terugkomt. Niet 1x maar constant.
Ze delen hun data met de hele wereld en dus niet alleen met instellingen in landen die meebetalen.
De data komt in het publiek domein. Dat is net zoals NASA het doet. Dat is gewoon het beste voor iedereen. Eerst en vooral gaat het nog altijd over wetenschappelijke data. Het doel van deze data is meer te ontdekken over het universum waar we in leven. Alles achter slot en grendel houden helpt hier niet.

Hoe dan ook, de data van de LHC is al lang verspreid naar alle relevante universiteiten. Dit is zowel in Europa als internationaal. Dit is het grote pluspunt van het CERN netwerk. Met dit kunnen nu ook andere wetenschappers door de berg van data graven.
Wetenschappers die vanuit een concurrentieperspectief denken zijn niet slim bezig en snijden zichzelf in de vingers. Bovendien is het in strijd met het simpele gegeven dat ze werken met publiek geld. Volkomen logisch dat ze hun datasets online pleuren.
Dat het normaal zou moeten zijn, moet ik je gelijk in geven, maar momenteel gebeurt het bijna nergens en dan vind ik het sterk dat zij het wel doen. Ik denk dat het moraal zou moeten zijn bij dit soort instellingen, hoe kunnen wij zoveel mogelijk opleveren voor de samenleving, i.p.v. hoe kan ik zorgen dat ik de beste publicaties krijg, zodat ik vervolgens weer zoveel mogelijk subsidie kan krijgen.
Het CERN heeft inderdaad geen geheimen.
Ik dacht dat dit ook zo in de overeenkomst of dergelijke staat.

Ik was er enkele weken geleden en je mag echt alles fotograferen en filmen wat je ziet en waar je komt.
Ik vind het onwijs sterk van CERN dat ze hun data delen. Ik denk dat er twee goede redenen zijn om dit te doen.
Derde puntje: hoe meer mensen profiteren van deze data, hoe makkelijker het is om geld voor het volgende project te krijgen. Als je miljarden aan subsidie vraagt dan heb je een goed verhaal nodig om te verklaren dat het goede investering is.
Ik ben eigenlijk ook wel benieuwd hoe ze die 300 TB beschikbaar stellen.Nu kan ik mij voorstellen dat er geen miljoenen 'hits' op komen, maar het alsnog enorm veel data die naar buiten moet!
Mooi om te lezen dat we al in de toekomst leven:

"Overigens botst de LHC sinds vorig jaar al met energieniveau's van 13 TeV protonen op elkaar, maar de vrijgegeven data is afkomstig uit 2011, toen de botsingen nog minder krachtig waren. Na een upgrade in 2022 is het overigens de bedoeling dat er nog veel krachtigere bundels met deeltjes op elkaar worden geschoten."

Ik denk dat hier een ander jaartal hoort: 2012


Edit: verkeerd gelezen dank voor correctie.

[Reactie gewijzigd door Jordy R. op 24 april 2016 12:15]

Anoniem: 463321
@Jordy R.24 april 2016 10:20
2012 is al geweest dus dan klopt die zin niet meer.
Na een upgrade over 6 jaar kunnen ze krachtiger bundels gebruiken.
Nee. In 2022 komt er een upgrade waarna er "nog veel krachtigere bundels met deeltjes op elkaar worden geschoten."

Staat er letterlijk...
Alle wetenschappelijke instituten zouden wat mij betreft zo te werk moeten gaan, maar voor mijn gevoel is dit toch een beetje symbool politiek. De mensen die namelijk de middelen en de vaardigheden in huis hebben om daadwerkelijk met CERN data te kunnen werken, werken bij 't CERN of bij collaborators.
Ik denk dat er een heel grote groep natuurkundigen is die er zeker wel wat mee kan. Je moet heel wat in huis hebben om bij het CERN toponderzoeker te worden, en net daaronder zit een gigantisch grote laag mensen die net niet het talent, de gelegenheid, de juiste geboortedatum, het juiste geslacht, of wat dan ook hadden om bij het CERN naar binnen te rollen, maar die toch zeker veel met de data kunnen - wellicht nog wel meer dan het relatief hele kleine clubje van CERN zelf. Velen weten meer dan weinig.
Veel wetenschappelijk onderzoek is ook "open" data, al dan niet na request, met voorwaarden aan.
Dat weet ik en daarom weet ik ook dat je niet zomaar in een weekend een hippe analyse in elkaar draait. Tuurlijk, het is goed dat ze het doen, en inderdaad, stel je toch eens voor dat iemand per toeval tóch iets heel tofs vindt, dan werpt het z'n vruchten wel af, maar het is toch een beetje voor de bune.

Al is het natuurlijk ook goede onderwijs disseminatie. Misschien was ik vanmiddag iets de kritisch. ;)
Op zich waar. Maar de onderzoekers moeten ook data over de meetinstrumenten vrijgegeven.

Als je niet weet wat de meetopstelling is kan je niks met de data. Informatie over de opstelling is lastiger over te brengen.
Anoniem: 683502
24 april 2016 11:01
Volgens mij is het gewoon een grote Stargate. Om poorten naar dimensies te openen :P
Deze man, hahaha! Die opmerking maakt echt mijn dag!
zo werkt de stargate niet!!
De NWO probeert de poort naar de demonen die hun vereren te openen, lukt maar niet dus voeren ze de knallen steeds verder op. ;-)
Ik denk niet dat ze het element naquadah al hebben gevonden :)
Ben er enkele weken geleden geweest, best wel een serverparkje! Natuurlijk ook niet overdreven groot maar toch.
Heb er nog enkele foto's van.

[Reactie gewijzigd door Mylan Piron op 24 april 2016 17:44]

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee