Zaterdag 20 februari lanceert Northrop Grumman een Antares-raket met een Cygnus-capsule richting het internationale ruimtestation ISS. De bevoorradingsmissie heeft niet alleen proviand aan boord, maar ook de HPE Spaceborne Computer-2. Die computer is gebouwd door Hewlett Packard Enterprise, in opdracht van de Amerikaanse ruimtevaartorganisatie NASA.
:strip_exif()/i/2004157184.jpeg?f=thumblarge)
Hoofdonderzoeker Spaceborne Computer-2
Het systeem bestaat uit twee modules met HPE-servers, met hardware die niet anders is dan die op aarde ook door tal van bedrijven wordt gebruikt. Het is de tweede keer dat HPE en de NASA zo'n commercial off-the-shelf-systeem naar het ISS sturen. Dat is opvallend, want computersystemen aan boord van ruimtevaartuigen zijn meestal totaal anders dan wat er voor gewone stervelingen op aarde verkrijgbaar is.
Waarom gaat er zo'n reguliere computer de ruimte in, wat zijn de specificaties, kan die hardware de extreme omstandigheden doorstaan en wat wordt er precies gedaan met het systeem? Daarover praat Dr. Mark Fernandez ons bij in een videomeeting. Hij is de voormalige hpc technology officer van HPE en nu als hoofdonderzoeker betrokken bij de HPE Spaceborne Computer-2.
Oude hardware in de ruimte
Al decennialang schiet de mensheid computers de ruimte in, maar die zijn meestal sterk verouderd ten opzichte van wat er op hetzelfde moment op aarde te krijgen is. Want voordat chips zijn goedgekeurd voor bedrijfskritisch gebruik, wordt er langdurig getest en worden er aanpassingen gedaan om ze bestand te maken tegen barre omstandigheden zoals radioactiviteit.
Heeft een chip zich eenmaal bewezen, dan blijven ruimtevaartorganisaties die tientallen jaren gebruiken voor kritieke systemen. Zo draaien de boordcomputers van het internationale ruimtestation ISS nog op Intel 80386-processors en NASA's nieuwste Marsrover Perseverance, die volgende week landt op de rode planeet, werkt met dezelfde RAD750-processor als zijn voorganger Curiosity. Die 200MHz-processor is gebaseerd op de IBM PowerPC 750-architectuur en vergelijkbaar met de processor uit Apples eerste iMac die in 1998 verscheen.
Het gebrek aan rekenkracht in de ruimte wordt opgevangen door data eerst naar de aarde te sturen en daar te verwerken op snellere computers. De afstand tot het internationale ruimtestation ISS is relatief kort. Daardoor is er een snelle 600Mbit/s-verbinding mogelijk met de aarde en geen noodzaak voor een supercomputer op het ruimtestation. Ook een levenloze Marsrover kan prima af met een trage processor. Als het robotwagentje op een probleem stuit waar veel rekenkracht tegenaan gegooid moet worden, kan er best een aantal uur of zelfs dagen gewacht worden op het antwoord.
Dat wordt anders als er mensen naar Mars gaan. Het duurt gemiddeld 26 minuten om een signaal van Mars naar de aarde te sturen en weer antwoord te ontvangen. Dat staat nog los van de snelheid van het verzenden van data. De Mars Reconnaissance Orbiter, die rondjes vliegt om de rode planeet, communiceert via het Deep Space Network met de aarde met een snelheid van 0,5 tot 4Mbit/s.
Het uitbesteden van rekentaken aan computers op aarde is door de grote afstand en trage verbinding geen oplossing voor toekomstige astronauten op Mars. Als zij voor acute complexe vraagstukken komen te staan, moet er lokale rekenkracht voorhanden zijn. De NASA en HPE experimenteerden daarom een aantal jaar geleden met een krachtige commercial off-the-shelf-computer in het ISS: de Spaceborne Computer.
De eerste HPE Spaceborne Computer
Experimenteren met de eerste Spaceborne Computer
Het shielden van hardware en bestand maken van chips tegen straling duurt jaren, kost miljoenen en voegt ballast toe, legt Fernandez uit. Tegen de tijd dat zo'n proces is afgerond, is de gekozen hardware alweer verouderd. Rond 2014 vroeg de NASA aan HPE of het mogelijk was om een klein deel van de Pleiades-supercomputer mee te nemen naar het ISS, simpelweg om te kijken of dat zonder aanpassingen werkt in de ruimte.
De ruimtevaartorganisatie stelde een Express Rack in het ISS beschikbaar aan HPE. Dat is geen serverrack, maar een gestandaardiseerd payload rack in de Destiny-module van het ruimtestation, waar allerlei experimenten in kunnen worden gehangen. HPE stopte twee 1U-nodes van zijn Apollo 40-servers in zo'n rack. De eerste Spaceborne Computer was voorzien van Intel Xeon-processors van de Haswell-generatie. Hoewel HPE de Apollo 40-systemen aan klanten levert met Nvidia P100-gpu's, waren die niet aanwezig in de computer voor het ISS. Het doel was simpelweg om te kijken of de servers voor high performance computing zouden werken zonder hardwarematige aanpassingen.
:strip_exif()/i/2004157166.jpeg?f=imagearticlefull)
Softwarematige hardening
Het plan van HPE was om de hardwarematige hardening van chips softwarematig af te vangen. Dat deed de fabrikant door continu de externe omstandigheden te monitoren, zoals de temperatuur en de hoeveelheid straling, en daar de snelheid van het systeem op aan te passen. Volgens de fabrikant is het mogelijk om rekenfouten door externe effecten te voorkomen door bijvoorbeeld throttling toe te passen.
Volgens Fernandez is de monitoring van componenten in datacenters steeds verder verwijderd van de nodes zelf. Bij de Spaceborne Computers wordt het tegenovergestelde toegepast. De servers houden zelf alles bij en doen bij afwijkingen zelf aanpassingen. Ieder systeem is zelfvoorzienend: het heeft zijn eigen foutdetectie en kan isolatie toepassen. HPE wil de software die het hiervoor maakt, ook gaan toepassen voor servers op aarde die ingezet worden onder extreme omstandigheden. Inmiddels werkt HPE aan zeven verschillende patenten met betrekking tot deze softwarematige hardening.
Succesvol experiment
HPE's eerste Spaceborne Computer heeft uiteindelijk bijna twee jaar aan boord van het ISS zijn werk gedaan. De computer werd als experiment naar het ruimtestation gestuurd en het primaire doel was om te kijken hoe de hardware zich staande zou houden tijdens de lancering en tijdens gebruik in de ruimte. Het systeem draaide RedHat 6.8 en heeft gedurende zijn verblijf in het ruimtestation niet veel anders gedaan dan het draaien van Linpack-benchmarks, die ook gebruikt worden om de Top500-lijst van supercomputers te bepalen. Daarmee haalde het systeem een score van ruim 1 teraflops en de softwarematige aanpassingen zorgden nauwelijks voor vertraging. Tijdens de missie heeft de eerste Spaceborne Computer de benchmark ruim 50.000 keer succesvol afgerond. De rekenkracht van de eerste Spaceborne Computer is ook enige tijd beschikbaar gesteld aan wetenschappers. Dat gebeurde omdat de servers langer aan boord bleven van het ruimtestation dan gepland.
/i/2004157164.png?f=imagenormal)
Wetenschappelijk onderzoek met Spaceborne Computer-2
Na het voltooien van het eerste experiment met hpc-servers in het ruimtestation zijn er plannen gemaakt voor een vervolg. HPE brengt in samenwerking met de NASA nu wederom commerciële serverhardware naar het ISS: de Spaceborne Computer-2, die twee keer zoveel rekenkracht moet bieden als het eerste model.
De SBC-2 heeft niet alleen meer rekenkracht dan zijn voorganger; het nieuwe systeem zal ook primair ingezet worden voor wetenschappelijke doeleinden. Het plan is dat het systeem in de komende twee tot drie jaar gebruikt kan worden aan boord van het ISS. Niet geheel toevallig is dat ook de verwachte duur van de eerste bemande missies naar Mars. De NASA en HPE zullen met de SBC-2 aan boord van het ISS dus kijken of de servers zo lang in de ruimte kunnen functioneren.
De NASA heeft HPE dubbel zoveel ruimte gegeven voor SBC-2. Er zijn nu twee Express Racks beschikbaar en HPE vult die met twee identieke systemen. Dat betekent dat rekentaken redundant uitgevoerd kunnen worden als dat nodig is. Dat gebeurt alleen als onderzoekers daarom vragen. Het is ook mogelijk om de systemen los van elkaar te laten werken, wat dus meer capaciteit oplevert.
:strip_exif()/i/2004157144.jpeg?f=imagearticlefull)
Onderzoek aan boord van het ISS
Welke onderzoeken er precies uitgevoerd zullen worden op de SBC-2, is nog niet bekendgemaakt, maar aan ideeën is geen gebrek. Fernandez noemt als voorbeeld de Twin Study van de NASA, waarbij een astronautentweeling werd onderzocht. De een aan boord van het ISS, de ander op aarde. Voor dat onderzoek moest dna-data steeds naar de aarde worden gestuurd voor analyse. Volgens Fernandez zou de time-to-solution twintig keer zo snel zijn geweest als wanneer de dna sequencing aan boord van het ISS had plaatsgevonden. Voor dergelijk onderzoek is veel rekenkracht nodig en dat is iets waar de SBC-2 toe in staat is. Zoiets zou in de toekomst ook gebruikt kunnen worden op Mars. Als de eerste astronauten op Mars bijvoorbeeld gewassen kweken en er schimmel optreedt, kan met dna sequencing mogelijk geïdentificeerd worden of dit schadelijk is.
Ook wordt gedacht aan het modelleren en voorspellen van stofstormen op aarde. De data die dat oplevert, zou kunnen helpen bij het voorspellen van stofstormen op Mars. De hevige zandstormen op de rode planeet zijn een risico voor toekomstige missies, omdat die de energietoevoer flink kunnen belemmeren als zonnepanelen weinig of geen licht meer opvangen.
Verder zijn er ambitieuze plannen om krachtige computers bepaalde taken aan boord van het ISS te laten automatiseren. De bewoners van het internationale ruimtestation moeten dagelijks lange checklists afgaan om bijvoorbeeld filters en andere onderdelen handmatig te controleren. Toen het ruimtestation decennia geleden gebouwd werd, was er nog geen aandacht voor de automatisering daarvan. Fernandez stelt zich voor dat de Spaceborne Computer dergelijke taken kan overnemen, zodat astronauten enkel in actie hoeven te komen als er een probleem is geconstateerd en meer tijd aan hun eigen gezondheid kunnen besteden.
HPE en de NASA werken dit keer ook samen met Microsoft Azure Space, de clouddienst van de techgigant die is gericht op de ruimtevaartsector. Wetenschappers die experimenten uitvoeren op de SBC-2 kunnen via Azure Space data naar cloudcomputers sturen om zo meer rekenkracht aan te kunnen spreken.
:strip_exif()/i/2004157176.jpeg?f=thumblarge)
Specificaties Spaceborne Computer-2
De twee lockers hebben een identieke configuratie en bevatten ieder twee 1U-servers. Een daarvan is een HPE Edgeline EL4000 Converged Edge System, dat ingezet wordt om data van sensoren, satellieten en andere experimenten die zijn verbonden met het netwerk van het ISS, te verwerken. In deze edge server zitten een enkele Xeon-cpu en een Nvidia T4-accelerator. Die heeft een gpu die vergelijkbaar is met Nvidia's GeForce RTX 2070. Volgens Fernandez was dat op het moment dat de hardware vorig jaar aan de NASA overgedragen moest worden, de snelste zuinige gpu die beschikbaar was.
In ieder rack zit ook een HPE ProLiant DL360 Gen10-server. Dat is een hpc compute node, zoals die ook toegepast worden in datacenters of supercomputers. Deze 1U-server is voorzien van twee Xeon-processors van de Cascade Lake-generatie en 192GB ram. Alle servers zijn voorzien van ssd's en communiceren onderling met 10Gbit/s-ethernetverbindingen en ze zijn aangesloten op de twee LAN's van het ISS om data te vergaren van andere experimenten in het ruimtestation.
Installatie en onderhoud door astronauten
HPE mag dan wel servers naar het internationale ruimtestation sturen, een systeembeheerder gaat niet mee. De installatie van en het onderhoud aan de servers moet door astronauten aan boord van het ISS worden gedaan. De lockers worden aangesloten op de 28Vdc-stroomvoorziening van het ISS en zijn watergekoeld via de Moderate Temperature Loop van het ruimtestation. Dat is in feite een closed loop waterkoelsysteem dat door het hele ruimtestation loopt.
Bij de SBC-2 zijn er meer mogelijkheden voor onderhoud door astronauten. De lockers waar de servers in zitten, zijn te openen aan de voorkant en zo kunnen de 1U-nodes eenvoudig benaderd worden. HPE stuurt reserveonderdelen mee en heeft een handleiding gemaakt voor astronauten. Zodoende moet het mogelijk zijn om onderdelen die tijdens gebruik beschadigd raken, te vervangen.
Langetermijneffecten nog onbekend
De eerste Spaceborne Computer heeft bijna twee jaar aan boord van het ISS gewerkt en is inmiddels terug op aarde. Tijdens de test draaide een identiek systeem precies dezelfde benchmarks op aarde, maar dan zonder de softwarematige aanpassingen. Zo kon HPE inzicht krijgen in de verschillen in prestaties, maar ook in het aantal fouten dat optreedt bij het maken van de berekeningen.
Op de vraag of er iets bekend is over fysieke degradatie van de chips na hun verblijf in het ISS, kan Fernandez nog geen antwoord geven. De bedoeling is dat een uitgebreide product failure analysis inzicht geeft wat de invloed van de ruimtereis is geweest op alle onderdelen en chips, maar volgens de hoofdonderzoeker van HPE is die analyse mede door de coronapandemie nog niet gereed en daardoor is er nog veel onduidelijk.
Wel is uit de benchmarks met de eerste Spaceborne Computer gebleken dat er bij gebruik in het ISS meer single bit errors optreden dan bij gebruik op aarde. Dergelijke fouten worden veroorzaakt door externe invloeden, zoals stralingspieken. Volgens Fernandez heeft dat echter geen invloed gehad op de resultaten en er is ook geen data verloren gegaan, omdat die fouten allemaal tijdig zijn opgevangen.
Veel ssd-uitval
Beide Spaceborne Computers zijn uitgerust met ssd's. Opslag op flashgeheugen wordt op aarde gezien als betrouwbaar, maar de techniek is in de ruimte foutgevoeliger dan traditionele hdd's. Dat blijkt ook wel uit de bevindingen tot nu toe. Van de twintig ssd's in de eerste Spaceborne Computer, gingen er negen stuk, zegt Fernandez. De exacte oorzaak daarvan is nog niet bekend, omdat de product failure analysis nog niet klaar is.
/i/2004157162.png?f=imagenormal)
HPE was van plan om de SBC-2 van verschillende ssd's te voorzien, die gebruikmaken van verschillende geheugentechnieken. Dat zou wellicht inzicht kunnen opleveren in de foutgevoeligheid van de diverse technieken. Vanwege de coronacrisis en de daaropvolgende tekorten van onderdelen lukte het HPE echter niet om aan de gewenste ssd's te komen. Wel gaat HPE in de nieuwe computer experimenteren met verschillende raid-technieken. Er zullen zowel software- als hardwarematige raid-1-opstellingen worden toegepast. Volgens Fernandez denken veel mensen dat hardware-raid zal falen. De praktijk zal moeten uitwijzen of dat zo is. Omdat SBC-2 uit twee gelijke computers bestaat, is er nu in ieder geval dubbele redundantie.
Als van ssd's bekend is dat die snel uitvallen in de ruimte, waarom gebruikt HPE dan geen traditionele harde schijven? Dat komt volgens Fernandez door de strenge eisen die de NASA stelt aan het gebruik van hdd's. Het is wel toegestaan om die de ruimte in te sturen, maar daar zijn strenge voorwaarden aan verbonden en er moet voldaan worden aan lange lijsten met eisen. Hdd's hebben immers fysiek draaiende schijven en die introduceren potentieel momentum, wat het ruimtevaartuig zou kunnen beïnvloeden. Ook verbruiken hdd's meer dan ssd's en dat paste niet in het beschikbare power budget.
Rekenkracht beschikbaar voor wetenschappers op aarde
De rekenkracht van de Spaceborne Computer is niet alleen bedoeld voor astronauten aan boord van het ISS, maar ook voor wetenschappers op aarde. Alle wetenschappers kunnen ideeën insturen voor onderzoek om uit te voeren op de SBC-2. Geïnteresseerden moeten daarbij opgeven voor welke organisatie ze werken, wat het doel is en in een paragraaf kort het onderzoek en doel daarvan omschrijven.
Bij het toekennen van de rekenkracht aan wetenschappers, hanteren de NASA en HPE een lijst met prioriteiten. Experimenten die iets betekenen voor de mensheid, ruimtevaart in het algemeen of de NASA, krijgen voorrang. HPE zelf staat niet op die lijst. De fabrikant faciliteert enkel de hardware en software, maar voert zelf geen onderzoek uit.
Volgens Fernandez wordt geprobeerd om de researchcommunity zo goed mogelijk te bedienen. Het inplannen van de rekentaken wordt wel een uitdaging en dat zal altijd handmatig worden gedaan. Sommige wetenschappers zullen bijvoorbeeld op specifieke momenten met de SBC-2 aan de slag willen; bijvoorbeeld op het moment dat sensoren van andere experimenten iets oppikken. Dat kan bijvoorbeeld gaan om onderzoek naar zonnevlammen. De hoofdonderzoeker verwacht dat het een tot twee weken zal duren voordat een taak is ingepland. Iedere twee weken gaat HPE met de NASA om de tafel om de beschikbare rekenkracht te verdelen onder alle aanvragen.