Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 15 reacties
Bron: Hot Chips-presentatie

Newisys heeft de presentatie die het bedrijf gehouden heeft op de Hot Chips-conferentie over de Horus-chipset online gezet. Met behulp van de Horus-chipset is het mogelijk om multiprocessor Opteron-systemen te bouwen met in totaal 32 processors. Standaard zijn multiprocessor Opteron-systemen 'glueless' met elkaar verbonden wat wil zeggen dat de processors direct aan elkaar gekoppeld zijn door middel van HyperTransport-links. Dit levert echter problemen op bij grote aantallen processors. Meer dan acht processors kunnen op deze manier niet met elkaar verbonden worden en zelfs dit getal is lastig haalbaar door de complexiteit van een dergelijke opstelling.

Hot Chips-presentatie slide
Een basisblok met een viertal Opteron-processors en een Horus-chip
Hot Chips-presentatie slide
De basisblokken samengekoppeld tot verschillende configuraties

Met behulp van de Horus-chipset wordt dit probleem opgelost. Als basisblokken worden 4-way Opteron-systemen gebruikt die elk een Horus-chipset krijgen als een soort van vijfde processor. De Horus-chipset wordt verbonden via een soort van HyperTransport-link met andere Horus-chipsets die op hun beurt weer in verbinding staan met 4-way Opteron-servers. De andere processors zien de Horus-chipset ook als één Opteron-processor en zijn zich niet bewust van het feit dat er mogelijk 28 andere Opteron-processor achter deze chip verborgen zitten. Dit is nodig omdat er slechts acht adresseerbare processors aanwezig kunnen zijn in een systeem dat gebruik maakt van standaard HyperTransport-links.

Omdat het geheugen in een multiprocessor Opteron-systeem verdeeld is over verschillende processors en in het geval van een Horus-opstelling ook nog eens over verschillende 4-way systemen is het nodig het geheugen zo slim mogelijk te benaderen. Allereerst is een NUMA-besturingssysteem nodig, maar om hoge latencies verder te voorkomen kan elke Horus-chipset uitgerust worden met 64MB SRAM cachegeheugen. Indien er data opgevraagd wordt die uit een ander 4-way systeem moet komen, en deze data is al aanwezig in de cache, elimineert dit logischerwijs een flinke vertraging. Tevens wordt door Horus de status van de geheugenlijnen in het lokale 4-way systeem bijgehouden waardoor lokale geheugentransacties sneller voltooid kunnen worden.

Naast bovenstaande prestatieverhogende features is de Horus-chipset ook uitgerust met verschillende features ten behoeve van de betrouwbaarheid. Zo zijn alle SRAM-chips uitgerust met ECC-foutcorrectie, is er per Horus-chip 3,75mbit reservegeheugen aanwezig en wordt er gebruik gemaakt van een robuust protocol voor de communicatie tussen de verschilllende Horus-chips. Verder is het mogelijk om processors bij te plaatsen of te verwijderen zonder downtime. Verwacht wordt dat eind 2005 de eerste servers gebaseerd op de Horus-chips het daglicht zullen zien.

Hot Chips-presentatie slide
Een indicatie van de performanceschaling van Horus-opstellingen
Moderatie-faq Wijzig weergave

Reacties (15)

ik vraag me af of deze oplossing prijstechnisch wel opkan tegen bijv. blade servers, clusters, grids of wat voor andere oplossingen er zijn om meerdere processors tegelijk aan het werk te zetten. ook de grote buffers die de horus chip heeft ik vraag me af of dat niet voor extreem hoge uitval zorgt en weer de prijs opjaagt. maw.. ik ben erg benieuwd naar de eerste prijskaartjes van dit geheel.
aan de andere kant als dit success is zullen we snel nog meer top 100 amd'tjes zien lijkt me :)
Verschil tussen dit systeem en een cluster is dat je hier een OS op kan zetten dat gewoon direct gebruik kan maken van alle processors. Bij een cluster moet er op elk systeem een apart OS draaien. Daarnaast zit er een groot verschil qua latencies tussen systemen in een cluster en een dergelijke multiprocessoropstelling zoals hierboven. Bij sommige type applicaties kan je waarschijnlijk goedkoper een cluster bouwen, maar niet alle applicaties kunnen daar effectief op gedraaid worden.
juist de markt die wat rekenwerk afhankelijk is van deze lage latency's was iets waar de multi-itanium opstellingen het beter deden dan de Opeterons. Met deze 'chipset' zal de Opeteron dus weer marktpotentieel erbij krijgen. Het kan dus nog interessant worden hoe dit zich gaat ontwikkelen.
prijstechnisch zal het zeker wel interessant zijn. Vergeet daarbij ook niet dat tegen de tijd dat ze geintroduceerd worden er ook al dual core optrons verkrijgbaar zullen zijn of in iedergeval niet lang op zich laten wachten. En deze zijn zeker in dit soort systemen uitermate geschikt voor de prijs/ prestatie verhouding.
Dit is nodig omdat er slechts acht adresbare processors aanwezig kunnen zijn in een systeem dat gebruik maakt van standaard HyperTransport-links.
Als je de andere CPUs niet kunt adresseren, hoe kun je dan het RAM van juist die CPUs aanspreken die je niet kunt adresseren?
De horus-chipset wordt gezien als 1 cpu door de andere 4 cpu's in het 4-way systeem. Al het ram dat aanwezig is bij de andere processors (en ook alle I/O apparaten) worden gezien alsof ze aanwezig zijn bij de Horus.
In een quad heb je vier Opterons met vier geheugenbanken. Hierdoor krijg je iets als:
cpu1: 0-1GB
cpu2: 1-2 GB
cpu3: 2-3 GB
cpu4: 3-4 GB
Dit geheel zou je kunnen voorstellen als een cpu met 4GB. Laten we dit cpuA noemen.

Nu is er een tweede quad met dezelfde configuratie. Deze ziet een 'vijfde' cpu via Horus.
cpu1: 0-1GB
cpu2: 1-2 GB
cpu3: 2-3 GB
cpu4: 3-4 GB
cpuA: 4-8 GB

Nu zul je zeggen, maar cpuA zit op adres 4-8G. Terwijl de processors physiek op 0-4G zitten.... Dat klopt wel, maar vergeet niet dat er maar een processor in het systeem is die master is! De andere zijn slave. Uiteindelijk bestuurd elke processor een eigen geheugenbank die ergens in het totale geheugen gemapped kan worden. Waar dat gemapped wordt, wordt bepaald door de master processor en een of ander algoritme. Uiteraard speelt Horus hier ook een rol in.
Om nu 32 Opterons te kunnen plaatsen, zal wel wat ruimte nodig zijn. Minder dan met nodes of blades van 8x4, waarschijnlijk, maar toch.
Om nu een systeem neer te zetten met 1024 Opterons, wordt waarschijnlijk best interessant. Dat zijn 32 behuizingen met 32 Opterons, dus een cluster van 32 Horus-systemen, in plaats van 128 8-way servers of 256 4-way servers.
Dát scheelt!
Zoals boven je gezegt wordt is in een cluster dat niet zo slim.
4-way blades zouden goedkoper zijn als je enkel behoefte hebt aan een cluster.
Waar & niet waar. Door een cluster van 32 Horus-systemen te bouwen, is de overhead en/of de latency wellicht een stuk lager dan bij een cluster van 256 blades met 4 Opterons..
Nietwaar?
Geld dit per CPU of per socket ? Want een socket kan ook een dual core cpu nemen. 64 cpu's in totaal is toch wel lekker.
Ik vraag me af of er ook een dual core opteron toegepast kan worden.

dan heb je er maar 16 nodig
:)
Een dualcore opteron is naar buiten toe gewoon een hypertransport bus. Dus het moet gewoon geen probleem zijn.
Als je kijkt naar het laatste plaatje kan dat dus gewoon. Daar hebben ze het over Uni en DualCore. Het zou me ook erg verbazen als het niet zou werken; die chips zijn ook zonder problemen in een normaal systeem te plaatsen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True