Migo Müller heeft een achtergrond in natuurkunde en rolde langzaam de astronomie in. Hij hield zich onder meer bezig met het bestuderen van planeten en asteroïden en is inmiddels al jarenlang als onderzoeker en calibration scientist werkzaam bij de Rijksuniversiteit Groningen. Hier houdt hij zich bezig met de kalibratie van data die afkomstig is van ruimtetelescopen. Eerder waren dat bijvoorbeeld Spitzer en Herschel, maar al enige tijd staat vooral de James Webb-telescoop op zijn radar. De in Duitsland geboren Müller vertelt over het belang van datareductie en hoe dat er grofweg uitziet.
Hoe ben je in dit veld gerold?
"Nadat mijn studie natuurkunde was afgerond, vroeg ik me af wat ik verder wilde doen. Ik had wel een voorkeur voor iets wetenschappelijks. Ik wilde iets doen met stringtheorie, maar hoe meer ik ervan kwam te weten, hoe minder zin ik erin had. Het stond voor mij toch te ver van de realiteit. In die tijd woonde ik in Berlijn en werd me een project aangeboden over asteroïden. Dat vond ik wel grappig en ik moest meteen denken aan de film Armageddon met Bruce Willis; hoe je met een kernbom naar een asteroïde gaat. Dat onderwerp leek me wel grappig. Ik heb er letterlijk voor de grap naar gesolliciteerd. Tijdens de sollicitatie bleek dat ik het hartstikke leuk vond en ik kon ook heel goed overweg met mijn baas. Sindsdien ben ik actief in de astronomie, bij de Duitse tegenhanger van de Nederlandse ruimtevaartorganisatie SRON. Ik was aanvankelijk alleen met onderzoek bezig, maar we kregen meer en meer data van de ruimtetelescoop Spitzer. Ik merkte dat ik het heel interessant vond hoe dat gekalibreerd was."
Hoe ben je vervolgens in Groningen terecht gekomen?
"Tien jaar terug zochten ze in Groningen een calibration scientist. Dat was in het begin nog niet voor James Webb, maar voor ruimtetelescoop Herschel. Die had een instrument genaamd HIFI, ofwel Heterodyne Instrument for the Far Infrared. Dat instrument is grotendeels in Nederland gebouwd en gekalibreerd. Herschel doet het helaas al een paar jaar niet meer, omdat het helium voor de koeling van de telescoop op is. Ik ben zo'n vier jaar met het project bezig geweest. Toen het was afgelopen, begon ik meer werk te krijgen voor MIRI, het midinfrarode instrument van James Webb. Dat werk gebeurde ook in Groningen. Daarmee ben ik van project veranderd en bij MIRI betrokken geraakt, inmiddels zo'n zes jaar geleden."
Hoe komt het dat Groningen een vrij prominente rol speelt bij dit onderwerp?
"Rijksuniversiteit Groningen heeft samen met Dwingeloo en Westerbork een lange traditie als het om radioastronomie gaat. Het was na de Tweede Wereldoorlog een bewuste keuze om daar de focus op te richten. Gewone optische astronomie werd over de hele wereld al beoefend. Bovendien moet je daarvoor hoge bergen en liefst geen wolken hebben. Het zou in Nederland dus niet zo handig zijn geweest. Met radiotelescopen kun je echter door de wolken heen 'zien'. Van radio is het een kleine stap richting lang-infrarood en mid-infrarood. Op dat laatste richt MIRI zich. Zo werd Groningen een beetje het centrum van de infraroodastronomie in Nederland. Aan de Universiteit Leiden gebeurt ook veel, aan de andere Nederlandse universiteiten stukken minder."."
Wat moeten we ons in een notendop voorstellen bij datareductie?
"Datareductie is het omzetten van de ruwe data die je van de detector krijgt, bijvoorbeeld bij het meten van spanningen, stroom en temperatuur. Het gaat om elektronen die per pixel op de chip worden uitgelezen. Dat zegt alleen nog niet zoveel; het is iets dat niemand wil weten. Wat je echt wil weten, is hoe helder een ster is en waar hij zich precies bevindt. Dat moet je omrekenen. Je moet weten waar men naar heeft gekeken met de telescoop, zodat je kunt zeggen welke pixel voor welk deel van de hemel staat. Als we voor bijvoorbeeld 23 seconden fotonen hebben vergaard en we krijgen daar een bepaald aantal elektronen van, dan betekent dat een bepaalde helderheid. Daar komen heel veel details bij kijken en dat is wat de datareductie-pipeline doet. De datareductie-pipeline is eigenlijk een heel groot softwarepackage waarbij in verschillende etappes de data van technische gegevens steeds meer wordt omgezet in interessante data. Het eindproduct moet iets zijn waar de astronomen wat mee kunnen."
"Het gaat met name om de vraag hoe nauwkeurig bepaalde zaken zijn gemeten. Stel, een asteroïde heeft een bepaalde helderheid. Hoe weten we dat zo precies? Onder astronomen zeggen we altijd: datareductie is eerder een data-explosie, want de hoeveelheid neemt juist toe. Dat gebeurt overigens pas op de computers van wetenschappers op aarde die de data analyseren. De telescoop doet daar niets mee. James Webb stuurt 'rauwe' data terug naar aarde via het Deep Space Network. De datareductie en kalibratie vinden op aarde plaats. Daarvoor hebben we een uitgebreid softwaresysteem, genaamd de JWST science calibration pipeline die eerder 'data-reduction pipeline' werd genoemd. Het is geen compressie; de data van James Webb en specifiek MIRI wordt niet gecomprimeerd en zeker niet lossy."
Ariane 5 met daarin James Webb.
Waarom is dat proces van datareductie niet volledig geautomatiseerd?
"In een perfecte wereld zouden we gewoon een computer kunnen laten draaien en hoeven we niks anders meer te doen dan de gegevens in de modellen te stoppen. In werkelijkheid is het wat ingewikkelder. Er zijn wat kalibratiestappen die afhangen van wat voor soort bron je precies bekijkt. Dat weet de wetenschapper wel, maar de computer niet. Als je een imager hebt, is er een filter dat het golflengtebereik beperkt. Dan is de vraag welk profiel zichtbaar wordt. Krijgen we meer blauwe fotonen, of meer rode? De vraag is wat je bron is; is hij blauw of rood? Het antwoord daarop betekent iets voor die ene golflengte in het midden van dat filter, en dat wil je weten."
"Wij houden ons wat meer bezig met spectrometers en dan moet je weten of de bron in ruimtelijke zin klein is, dus een puntbron. Of is hij wat groter en vult hij een pixel of twee? Dan doet dat andere dingen met de patronen die de detector produceert en dat moet je op een andere manier eruit halen. Dit soort dingen weet een computer niet zomaar, dus in de laatste etappes moeten wetenschappers meestal nog een beetje met de pipeline sleutelen. Dat kan gelukkig, want alles wat met de pipeline heef te maken, is openbaar en staat op GitHub."
Dus in theorie zou iedereen mee kunnen helpen?
"Het staat in principe open voor iedereen, maar om er iets nuttigs mee te kunnen doen, moet je wel goed weten hoe die instrumenten in elkaar zitten. Het gaat zeker gebeuren dat wetenschappers die nauw betrokken zijn bij sommige waarnemingen, eigen routines bedenken voor hoe ze sommige artefacten eruit halen. Misschien gaan ze dat ook wel delen op GitHub of elders. Dat soort dingen zijn bij eerdere missies gebeurd en ik ga ervan uit dat dat nu ook met James Webb gaat gebeuren. Zulke collaboratieve gedachten spelen wel."
Je houdt je bij het kalibratiewerk veel bezig met fringes. Wat zijn dat precies?
"Dit speelt bij vrijwel alle spectrometers die astronomen gebruiken. Het gaat onder meer om de gains. Je krijgt een bepaald aantal fotonen binnen die je later kunt uitlezen. In een ideale wereld met een ideale detector zou dat constant zijn of een functie die je makkelijk kunt beschrijven en kalibreren. Maar in het echt oscilleert het met golflengten. Dat komt omdat in de chip zelf de fotonen heen en weer gekaatst kunnen worden, en dat geeft een resonantie-effect. Dat is zeer ongewenst, maar daar kun je niets aan doen; dat heb je altijd bij spectrometers. Daarom is het van belang om dat vooraf heel goed te kwalificeren en op te meten om deze artefacten eruit te halen. Dat geeft je een modulatie of afwijking van in sommige gevallen 20 tot 25 procent. Dat is heel veel; wij proberen op een paar procent nauwkeurig te zijn. Dus een procent of 20 is reusachtig en moeten we zeker eruit proberen te halen. Dat kunnen we ook, al zijn we nog bezig met wat losse eindjes."
Het opzetten van die pipeline zal wel behoorlijk ingewikkeld zijn geweest.
"In de pipeline hebben we een file opgezet, genaamd de fringe flat. Dat is de eerste stap. Hiermee elimineren we een deel van de fringes. Dat was heel veel werk met testdata en algoritmes, waarbij we ook meenemen wat we over de fysica van het systeem weten en hoe het licht wordt weerkaatst over verschillende afstanden. Dat bepaalt op zijn beurt weer de golflengte. Het wordt heel snel heel ingewikkeld. Hiermee ben ik met collega's zeker drie jaar mee bezig geweest. Het is nu bijna af en is klaar als we de eerste data van James Webb binnenkrijgen. Dan kunnen mensen daar direct mee aan de slag."
"Er is ook een tweede stap. We bekeken testpatronen waarvan we weten dat ze een redelijk saai spectrum hebben en waarbij de helderheid naargelang de golflengte niet zo heel veel verandert. Wat we zagen, is dat er oscillaties voorkwamen. Die haalden we met een fringe-fitter eruit en dan kun je later kijken hoeveel van die periodes of oscillaties je nog over hebt. Daarvan kun je proberen te berekenen hoeveel het er zijn en die er ook weer uithalen. Dat is de tweede stap. Daarmee komen we in de meeste gevallen heel goed uit, maar het wordt nog spannend als we met een echte telescoop in de ruimte zijn. Dan krijgen we te maken met echte bronnen en interessantere spectra, en wordt het wel iets spannender en moeilijker."
Waarschijnlijk moet je ook veel weten over de werking van de detectors waar het licht op valt?
"Ja, we hebben van de chips die nu de ruimte in gaan jarenlang in laboratoria gemeten en onderzocht wat er allemaal gebeurt onder verschillende omstandigheden. Daarbij is ook gemeten hoe de fringes er precies uitzien. Dat kun je uit de data halen."
De algemene werking van de infrarooddetectors in de verschillende instrumenten van James Webb. Rechts is een module zichtbaar met in het groen een MIRI-detector met een 1024x1024-pixelstructuur.
"Je moet er van alles over leren. Bij MIRI hebben we drie detectoren, elk met zo'n 1024x1024 pixels. Sommige pixels daarvan doen het niet zo heel goed. Dat heb je ook met een gewone ccd, in de vorm van dark pixels of hot pixels. Sommigen zijn wat nauwkeuriger dan andere; dan heb je een flat field. Dat soort dingen moet je weten. Bij een spectrometer buigen we het licht en gaat het over de detector heen en dat is ook afhankelijk van de golflengte. Je moet weten hoe dat precies gebeurt, want niet overal op de chip gebeurt het op exact dezelfde manier. Die informatie moeten we er goed uithalen en berekenen."
Zijn de detectors van MIRI nog wel enigszins te vergelijken met een sensor van een smartphonecamera?
"In grote lijnen wel, maar ze zijn vooral veel interessanter. Bij een gewone ccd in je smartphone of camera druk je op een knop, komt er licht op de detector, worden er ergens elektronen vergaard en wordt het beeld uitgelezen. Onze detectoren kunnen we tussen het begin en het einde van dat proces meerdere keren nondestructief uitlezen. Als je bij je eigen camera uitleest, zijn de elektronen weg. Je hebt je plaatje en je bent klaar. Dat is bij ons wat ingewikkelder. We kunnen na tien seconden lezen, maar het gaat gewoon door. Na de volgende tien seconden lezen we nog een keer uit, en dat gaat zo verder en verder, tot we aan het einde stoppen. Dan resetten we de detector en gaan alle elektronen terug naar nul. Op die manier krijgen we enorm veel data. We willen weten hoeveel fotonen er binnenkomen, ervan uitgaande dat dat constant blijft. Dat is de eerste grote stap in de pipeline."
Hoe speel je in op storende elementen als dode pixels?
"Als we naar een bron kijken, kijken we niet één keer, maar normaal gesproken vier keer. Daartussen bewegen we de spiegel een klein beetje, om in te spelen op dode pixels. Die ontstaan soms spontaan en dat heb je niet altijd meteen door. Als de bron precies op die dode pixel ligt, is je hele waarneming onbruikbaar en dat zou jammer zijn. Door een beetje heen en weer te bewegen, beperk je dat risico. Sowieso is de detector niet overal hetzelfde. Als je het een beetje verdeelt, wordt het beeld evenmatiger. De waarnemers kunnen zelf bepalen hoe vaak ze de spiegel bewegen. Voor sommige waarnemingen is het goed om dat vaak te doen, maar als je de spiegel veel beweegt, kost dat meer tijd. Dus dat wil men wel beperken."
Vergt datareductie in het algemeen veel rekenkracht of valt dat mee?
"Sommige stappen vergen veel rekenkracht, maar niet op het ruimteschip. Datareductie gebeurt allemaal op aarde. Als je een groot gebied van de hemel in kaart brengt en de beelden met elkaar combineert, kom je snel in een situatie waarin een gemiddelde laptop niet meer genoeg is. Dan heb je wel een wat steviger computer nodig, al hebben we het dan nog niet echt over een supercomputer. In Groningen hebben we bewust zo'n computer gekocht om MIRI-data snel te analyseren zodra hij binnenkomt. Dat heeft overigens niet zoveel met kalibratie te maken, al maak ik soms wel gebruik van die computer."
Waarom werk je alleen met de data van MIRI, en bijvoorbeeld niet die van NIRSpec?
"Er gebeurt wel veel soortgelijks en veel stappen in de datareductie-pipeline zijn hetzelfde bij de verschillende instrumenten van James Webb. De detectoren werken ook grotendeels op dezelfde manier, maar de optics verschillen enorm per instrument. Hoe je in het begin de data moet reduceren, is ongeveer hetzelfde, maar in latere etappes verschilt het wat meer. Dan veranderen de stappen en moet je zaken opsplitsen. Je krijgt van die als-dan-constructies: als MIRI dit doet, dan moeten we dat doen en als NIRSpec dat doet, dan moet er weer iets anders gebeuren. Daar komt bij dat de fringes waar wij mee werken, sterk samenhangen met specifieke golflengtes en de verhouding tot de detector zoals bij MIRI het geval is. Dus dat kun je niet zo goed overhevelen en toepassen op de data van bijvoorbeeld NIRSPec."
Maak je je nog zorgen over een specifiek onderdeel van de missie, zoals het openklappen van het zonneschild?
"Ja, het uitvouwen van de vijf lagen van het zonneschild wordt spannend. Wat hier overigens ook bij speelt, is iets dat ik van collega's van het Operations Center in Baltimore heb gehoord, namelijk dat de NASA niet de enige ruimtevaartorganisatie in de Verenigde Staten is, en zelfs niet de grootste. De grootste is de Air Force. Ze zeiden zoiets als: 'er zijn dingen die ik je niet mag vertellen, maar ik ben niet zo bang als jij'. Een heel groot schild zoals dat van James Webb kunnen ze, denk ik, niet stiekem al eens hebben opengeklapt, want dat zou wel zijn opgevallen. Ik weet niet wat de luchtmacht precies heeft gedaan, maar blijkbaar hebben ze daar wel al wat ervaring met het opklappen van dit soort dingen. Daar ben ik blij mee."
Dit artikel kun je gratis lezen zonder adblocker
Alle content op Tweakers is gratis voor iedereen toegankelijk. Het enige dat we van je vragen is dat je de advertenties niet blokkeert, zodat we de inkomsten hebben om in Tweakers te blijven investeren. Je hoeft hierbij niet bang te zijn dat je privacy of veiligheid in het geding komt, want ons advertentiesysteem werkt volledig zonder thirdpartytracking.
Bekijk onze uitleg hoe je voor Tweakers een uitzondering kunt maken in je adblocker.
Ik vraag me af; die handelingen die momenteel nog handmatig nodig zijn op basis van kennis/kunde/expertise van wetenschappers om data correct te reduceren, kunnen die in de toekomst niet alsnog geautomatiseerd worden door middel van machine learning?
Het ligt er natuurlijk nog steeds aan wat je eindresultaat is dat je wilt dat machine learning gaat geven. Als je kijkt naar foto's bewerken in lightroom, kan je natuurlijk een rode lijn opzetten voor waar elke foto, adhv de scene, aan moet voldoen qua belichting en kleur. En daar machine learning, of zelfs simpele logica tegenaan gooien om de schuifjes te verschuiven.
Echter is het vooral dat je altijd een 'custom' toepassing hebt voor een foto... Bij de ene foto wil je A meer accentueren, bij een andere foto meer B. Ik verwacht dat dit ook zo is met datareductie voor de data van de James Webb telescoop. Echter zal het wel iets verder gaan dan belichting. Wat ik kan verzinnen na dit artikel gelezen te hebben: of bv een pixel een constante hoeveelheid fotonen binnenkrijgt, of dat er een versterking, verzwakking of een patroon in zit? Het is maar een voorbeeld van een 'custom' toepassing, zo zullen er vast nog 'tig' zijn. Machine learning zou vast wel iets kunnen betekenen in het verhaal, en mogelijk dat ze het ook wel (gaan) toepassen, maar ik verwacht geen 'universal solution'.
[Reactie gewijzigd door Mic2000 op 25 december 2021 22:50]
Dat gaat heel erg moeilijk zijn. Bij ML moet je namelijk weten wat je wilt wijzigen/aanpassen/etc en wat de gewenste toestand moet zijn. Aangezien dit wetenschappelijke metingen betreft en niet per se een plaatje (dat is meer voor de bühne) moet het wel aanwijsbaar/verklaarbaar zijn wat het algoritme daar doet. De sterrenkundigen/wetenschappers doen de data reductie op basis van kennis van het hele optische systeem in combinatie met de sensor die de fotonen opneemt. Op het moment dat je dit voor één systeem gedaan hebt, zou je mogelijk een ML model kunnen ontwikkelen dat dit voor je nabootst, maar dat zal niet zo goed zijn als een pipeline die alle kennis er in heeft zitten die er in moet zetten. Daarnaast is het ML model een benadering van wat men met alle kennis voor elkaar krijgt, dus het zal nooit zo goed zijn (extrapoleren is iets waar ML niet per se goed in is).
Het onderscheid tussen een "foto" en een wetenschappelijke opname/data is ontzettend van belang. De foto is slechts één representatie van de wetenschappelijke opname/data. En nu al helemaal is het "vreemd", omdat het golflengtegebied er één is waar wij als mensen niets kunnen waarnemen met onze ogen. Wij zien alleen maar zaken in het optische gebied. Daarbij kiest men er voor om een bepaalde "mapping" van golflengte naar kleur te maken.
Jeetje, en dan zit ik als leek gewoon maar op de mooie plaatjes van de Webb te wachten
Diep respect voor mensen die hier hun hele ziel en zaligheid in stoppen zodat wij straks die mooie plaatjes hebben
de data van James Webb en specifiek MIRI wordt niet gecomprimeerd en zeker niet lossy.
Dat lijkt me heel sterk, je gaat die data vanaf de James Webb naar de aarde toch niet ongecomprimeerd versturen? Een vorm van lossless datacompressie lijkt me het verzenden sneller en betrouwbaarder te maken? Waarom volledig ongecomprimeerd versturen? Ik zie daar geen voordeel in. Natuurlijk niet lossy, en die data reductie stap is natuurlijk ook geen datacompressie stap, maar een vertaling. Maar het versturen naar de aarde, als je dat ongecomprimeerd doet duurt dat toch enkel onnodig lang met meer kans op verstoringen?
Ik dacht hetzelfde.
Hier kan bedoeld worden dat de data ongecomprimeerd en lossless aankomt bij de data engineers.
Van de andere kant een stabiel en snel signaal kan baat hebben bij geen of minimale compressie. Denk aan ethernet/wifi. Checksums met hertransmissie uit buffers kan.
Stel ondanks checksums er is permanent 1% data verloren, bij encoding/compressie is het hele data-bestand verpest, denk aan een JPG MP3 of ook DAB radio. Bij BMP WAV of FM (geen compressie) mis je alleen het betreffende fragment van de data. Niet dat dit alles verklaart, maar wel een consideratie bij grote bergen data.
[Reactie gewijzigd door Barryke op 26 december 2021 02:58]
Tegen dataverlies in de transmissie zijn genoeg goede protocollen in de laag erboven, dat hoef je niet in het bestand zelf op te lossen. Maar wel: hoe korter het bestand, hoe korter de tijd, dus bij een gelijke verstoring minder verlies (er is minder om te verliezen).
Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.
Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.
Functioneel en analytisch
Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie.
Meer details
janee
Relevantere advertenties
Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht.
Meer details
Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.
Ingesloten content van derden
Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden.
Meer details