CERN geeft 300 TB aan meetgegevens van LHC vrij

CERN heeft een groot gedeelte van de gegevens die door de Large Hadron Collider zijn verzameld vrijgegeven voor het publiek. Geïnteresseerden kunnen door 300 TB aan data spitten die is verzameld door de CMS-detector in het jaar 2011.

In de datasets staan gegevens over het botsen van protonen met een energie van 7 TeV. De data is vrijgegeven omdat CERN deze inmiddels zelf heeft geanalyseerd, en de organisatie het nu tijd vindt dat ook anderen er toegang toe krijgen. Wie geïnteresseerd is in de protonenbotsingen moet zich naar de Open Data Portal van het CERN begeven. Daar kunnen met de ingebouwde software simulaties worden gedaan waarbij ook beelden gemaakt kunnen worden. CERN heeft hier zelf een voorbeeld van online gezet.

CERN visualisatie

Wetenschappers kunnen de zogenaamde primaire datasets downloaden, om hiermee onderzoek te kunnen doen. Andere belangstellenden, zoals scholen, kunnen de afgeleide datasets downloaden. Dit onderscheid is gemaakt omdat de afgeleide datasets veel gemakkelijker in het gebruik zijn en dus minder expertise vereisen voor de analyse. Volgens CERN zijn er positieve ervaringen met het vrijgeven van data, onder meer via samenwerkingen met onderzoekers van technologie-instituut MIT.

Overigens laat de LHC sinds vorig jaar al met energieniveaus van 13 TeV protonen op elkaar botsen, maar de vrijgegeven data is afkomstig uit 2011, toen de botsingen nog minder krachtig waren. Na een upgrade in 2022 is het overigens de bedoeling dat er nog veel krachtigere bundels met deeltjes op elkaar worden geschoten.

In de wetenschappelijke wereld is het delen van datasets afkomstig uit onderzoek controversieel. Zo zijn veel instellingen niet bereid brongegevens te delen, onder meer uit concurrentieoverwegingen. De EU heeft recentelijk een groot onderzoeksprogramma aangekondigd om wetenschappelijke data beter te ontsluiten en met elkaar te koppelen. Zo kunnen de conclusies van de onderzoekers gevalideerd worden en moet worden voorkomen dat onderzoek onnodig wordt herhaald.

IT-banen

Reacties (33)

ANdrode 24 april 2016 10:16

Hoewel 300 TB veel data is, betekent dat bij de LHC dat er al heel veel gegevens gefiltered zijn. Vrijwel alle events zijn totaal niet interessant en worden nog voordat de data opgeslagen wordt al gefilterd.

Als je benieuwd bent hoe die analyse pipeline in elkaar zit dan raad ik deze presentatie aan die geschikt is voor computer scientists.
Je kan ook naar de sheets kijken, de uitleg begint rond sheet 20 in deze presentatie.

Het is wel een ontzettend mooi voorbeeld van open toegang tot wetenschappelijke data. Tegelijkertijd is dat vrijgeven voor CERN een relatief makkelijke keuze; Het zijn geen persoonsgegevens, geen proprietary informatie of metingen waar nog significant signaal van een onbekend proces in zit. Het zijn enkel fysische gebeurtenissen.

edit:
url tag...

[Reactie gewijzigd door ANdrode op 23 juli 2024 15:00]

Countess @ANdrode • 24 april 2016 14:00

Vrijwel alle events zijn totaal niet interessant en worden nog voordat de data opgeslagen wordt al gefilterd.

denken ze. hopen ze.

zat laatst een TED talk te kijken over een ster met een heel interessant felheidsverloop. maar het voldeed niet aan de zoekparameters (ze waren op zoek naar planeten) en was dus door de computer genegeerd.

de data werd door 'citizen scientists' handmatig bekeken en die vonden wel deze interessante ster.

je weet niet wat je niet weet dus misschien worden er wel heel interessante gegevens weggefilterd omdat we niet wisten dat ze interessant zijn.

maarja, je moet wel filteren. zonder zijn er gewoon te veel gegevens om te analyseren.

ANdrode @Countess • 24 april 2016 14:27

[...]
denken ze. hopen ze.

je weet niet wat je niet weet dus misschien worden er wel heel interessante gegevens weggefilterd omdat we niet wisten dat ze interessant zijn.

maarja, je moet wel filteren. zonder zijn er gewoon te veel gegevens om te analyseren.

Dat klopt helemaal. En alles bewaren is compleet onmogelijk. Damned if you do damned if you don't

.

Dit is wel een iets andere situatie. In deze situatie natuurlijk weet je dat de gegevens die je weggooit enkel een sample uit bewaard ontzettend waarschijnlijk zijn in het natuurkundige model waar je vanuit gaat. Je zoekt juist de events die niet te verklaren zijn/ontzettend onwaarschijnlijk zijn onder het hudige model.

Als deze veel beter passen onder een andere theorie, dan zijn genoeg observaties samen een statistische onderbouwing dat de nieuwe theorie "beter" is/beter aan sluit bij de waarnemingen.

Cowamundo @ANdrode • 24 april 2016 11:50

Ook heeft Tweakers zelf een mooi 3 delig item gemaakt over CERN dat zeker de moeite waard is om te bekijken!

[Reactie gewijzigd door Cowamundo op 23 juli 2024 15:00]

Wildfire

@ANdrode • 24 april 2016 11:05

Er komt van de LHC grofweg een petabyte per dag aan data binnen en na eerste analyse (grotendeels geautomatiseerd) blijft er jaarlijks zo'n 30 petabyte aan data over voor de wetenschappers om in te duiken.

Zie http://home.cern/about/computing

Dus die 300TB is al fors minder dan de data die in één jaar overblijft. Ruim een factor 100 minder zelfs.

[Reactie gewijzigd door Wildfire op 23 juli 2024 15:00]

ANdrode @Wildfire • 24 april 2016 12:10

Ruwe data -> Wat er langs triggers komt -> Bewaarde ruwe data -> Reconstructed events

Er zijn meerdere lagen waarin er data wordt gefilterd omdat wat er gebeurt niet interessant is. Daar bewaar je een heel klein deel van om detector te calibreren etc. De software filtert de "bijzondere gevallen".

Geinformeerde gok: 30PB is waarschijnlijk de ruwe data van de events. 300TB zouden de reconstructed events kunnen zijn.

Verwijderd @Wildfire • 25 april 2016 09:02

Ik las ergens 2MB per 'botsing'. Een miljard botsingen per seconden. Ze mogen er maar 200 opslaan i.v.m. de enorme hoeveelheid data. Maarja, wélke 200 is dan de vraag

GeoBeo @ANdrode • 24 april 2016 10:54

of metingen waar nog significant signaal van een onbekend proces in zit.

Dit lijkt me nog niet zo zeker? Ze hebben nu uit de data gehaald wat ze eruit verwachtten te halen.

Het kan best dat er nog "geheimen" in de data zitten waar nog niemand goed naar gekeken heeft denk ik?

Of is werkelijk elk signaal in die 300TB getoetst aan de op dit moment geldende natuurkundige wetten?

Verwijderd @ANdrode • 24 april 2016 20:30

Het is wel een ontzettend mooi voorbeeld van open toegang tot wetenschappelijke data.

Dat dit mooi is, komt voornamelijk omdat de achtergrond zo lelijk is. Iets wat met miljarden publieksgeld is gebouwd, zou altijd openbaar moeten zijn. Dat geldt voor alle door gemeenschapsgeld betaalde wetenschap vind ik. Ook de datasets waarin er geen effect wordt gevonden.

Het zou normaal moeten zijn, open toegang. Loftrompet prima, maar zeg er dan meteen even bij dat het schandalig is als het niet gebeurt.

heintjeput 24 april 2016 11:22

Ik vind het onwijs sterk van CERN dat ze hun data delen. Ik denk dat er twee goede redenen zijn om dit te doen. 1) Je bent publieke instelling die onderzoek doet en daar uit algemeen geld betaald wordt, dus waarom zou niet iedereen in je data mogen snuffelen als er geen persoonsgegevens etc. tussen staan en 2) als het mogelijk is dat er iemand nog meer uit die data kan halen dan jij hebt gedaan, dan wordt het ook nog daadwerkelijk nuttig om de data te delen.

Een tijdje geleden las ik over een project waarbij amateurs werden gevraagd door telescoopdata heen te spitten, omdat astronomen dit niet allemaal kunnen processen. Ik denk dat dit twee mooie voorbeelden zijn waar de wetenschappelijke wereld heen zou moeten gaan.

Een ander sterk punt van de NASA en CERN is dat je behoorlijk wat informatie van ze kunt vinden over technologische keuzes die ze hebben gemaakt. Voor mijn werk zoek ik regelmatig naar verschillende vacuümtoepassingen en dan zijn papers of presentaties van hen over lijmen, schoonmaaktechnieken, design keuzes etc. best wel relevant en i.t.t. bedrijven geven zij wel redelijk wat details vrij.

[Reactie gewijzigd door heintjeput op 23 juli 2024 15:00]

ColdRain @heintjeput • 24 april 2016 11:35

Ik vind het onwijs sterk van CERN dat ze hun data delen.

Onwijs sterk?? Ik vind het niet meer dan normaal. CERN kost handenvol belastingsgeld (en ik betaal graag mee overigens), het is logisch dat daar iets voor terugkomt. Niet 1x maar constant.

downtime @ColdRain • 24 april 2016 12:05

Ze delen hun data met de hele wereld en dus niet alleen met instellingen in landen die meebetalen.

Niosus @downtime • 24 april 2016 13:30

De data komt in het publiek domein. Dat is net zoals NASA het doet. Dat is gewoon het beste voor iedereen. Eerst en vooral gaat het nog altijd over wetenschappelijke data. Het doel van deze data is meer te ontdekken over het universum waar we in leven. Alles achter slot en grendel houden helpt hier niet.

Hoe dan ook, de data van de LHC is al lang verspreid naar alle relevante universiteiten. Dit is zowel in Europa als internationaal. Dit is het grote pluspunt van het CERN netwerk. Met dit kunnen nu ook andere wetenschappers door de berg van data graven.

Znorkus @Niosus • 24 april 2016 23:02

Wetenschappers die vanuit een concurrentieperspectief denken zijn niet slim bezig en snijden zichzelf in de vingers. Bovendien is het in strijd met het simpele gegeven dat ze werken met publiek geld. Volkomen logisch dat ze hun datasets online pleuren.

heintjeput @ColdRain • 24 april 2016 12:01

Dat het normaal zou moeten zijn, moet ik je gelijk in geven, maar momenteel gebeurt het bijna nergens en dan vind ik het sterk dat zij het wel doen. Ik denk dat het moraal zou moeten zijn bij dit soort instellingen, hoe kunnen wij zoveel mogelijk opleveren voor de samenleving, i.p.v. hoe kan ik zorgen dat ik de beste publicaties krijg, zodat ik vervolgens weer zoveel mogelijk subsidie kan krijgen.

Mylan Piron @heintjeput • 24 april 2016 22:46

Het CERN heeft inderdaad geen geheimen.
Ik dacht dat dit ook zo in de overeenkomst of dergelijke staat.

Ik was er enkele weken geleden en je mag echt alles fotograferen en filmen wat je ziet en waar je komt.

CAPSLOCK2000 @heintjeput • 24 april 2016 12:30

Ik vind het onwijs sterk van CERN dat ze hun data delen. Ik denk dat er twee goede redenen zijn om dit te doen.

Derde puntje: hoe meer mensen profiteren van deze data, hoe makkelijker het is om geld voor het volgende project te krijgen. Als je miljarden aan subsidie vraagt dan heb je een goed verhaal nodig om te verklaren dat het goede investering is.

Douweegbertje 24 april 2016 22:00

Ik ben eigenlijk ook wel benieuwd hoe ze die 300 TB beschikbaar stellen.Nu kan ik mij voorstellen dat er geen miljoenen 'hits' op komen, maar het alsnog enorm veel data die naar buiten moet!

Jordy R. 24 april 2016 10:15

Mooi om te lezen dat we al in de toekomst leven:

"Overigens botst de LHC sinds vorig jaar al met energieniveau's van 13 TeV protonen op elkaar, maar de vrijgegeven data is afkomstig uit 2011, toen de botsingen nog minder krachtig waren. Na een upgrade in 2022 is het overigens de bedoeling dat er nog veel krachtigere bundels met deeltjes op elkaar worden geschoten."

Ik denk dat hier een ander jaartal hoort: 2012

Edit: verkeerd gelezen dank voor correctie.

[Reactie gewijzigd door Jordy R. op 23 juli 2024 15:00]

Verwijderd @Jordy R. • 24 april 2016 10:20

2012 is al geweest dus dan klopt die zin niet meer.
Na een upgrade over 6 jaar kunnen ze krachtiger bundels gebruiken.

Swerfer @Jordy R. • 24 april 2016 10:20

Nee. In 2022 komt er een upgrade waarna er "nog veel krachtigere bundels met deeltjes op elkaar worden geschoten."

Staat er letterlijk...

DrSnuggles 24 april 2016 13:47

Alle wetenschappelijke instituten zouden wat mij betreft zo te werk moeten gaan, maar voor mijn gevoel is dit toch een beetje symbool politiek. De mensen die namelijk de middelen en de vaardigheden in huis hebben om daadwerkelijk met CERN data te kunnen werken, werken bij 't CERN of bij collaborators.

Znorkus @DrSnuggles • 24 april 2016 23:04

Ik denk dat er een heel grote groep natuurkundigen is die er zeker wel wat mee kan. Je moet heel wat in huis hebben om bij het CERN toponderzoeker te worden, en net daaronder zit een gigantisch grote laag mensen die net niet het talent, de gelegenheid, de juiste geboortedatum, het juiste geslacht, of wat dan ook hadden om bij het CERN naar binnen te rollen, maar die toch zeker veel met de data kunnen - wellicht nog wel meer dan het relatief hele kleine clubje van CERN zelf. Velen weten meer dan weinig.

svennd @DrSnuggles • 24 april 2016 14:23

Veel wetenschappelijk onderzoek is ook "open" data, al dan niet na request, met voorwaarden aan.

DrSnuggles @svennd • 24 april 2016 21:00

Dat weet ik en daarom weet ik ook dat je niet zomaar in een weekend een hippe analyse in elkaar draait. Tuurlijk, het is goed dat ze het doen, en inderdaad, stel je toch eens voor dat iemand per toeval tóch iets heel tofs vindt, dan werpt het z'n vruchten wel af, maar het is toch een beetje voor de bune.

Al is het natuurlijk ook goede onderwijs disseminatie. Misschien was ik vanmiddag iets de kritisch.

Thomas M @DrSnuggles • 25 april 2016 17:42

Op zich waar. Maar de onderzoekers moeten ook data over de meetinstrumenten vrijgegeven.

Als je niet weet wat de meetopstelling is kan je niks met de data. Informatie over de opstelling is lastiger over te brengen.