Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 93 reacties

Intel heeft meer informatie vrijgegeven over de aankomende Knights Landing Xeon Phi-processor. De server-cpu krijgt de beschikking over minimaal zestig cores en telt meer dan acht miljard transistors. Onder Linux kan de cpu 240 threads tegelijkertijd verwerken.

De Knights Landing-uitvoering van de Xeon Phi-cpu is een van de grootste chips die Intel ooit heeft gebakken: volgens de website The Platform is het oppervlak van de die ongeveer net zo groot als een creditcard. De zestig cores in de processor zijn gebaseerd op een aangepast Silvermont Atom-chipontwerp. Intel heeft de zogeheten TSX transactional memory-feature echter wel uitgeschakeld omdat er in de Xeon E5 2600-cpu een fout is ontdekt in dit mechanisme.
Knights LandingIntel laat de zestig cores allereerst communiceren met zogeheten near memory. In een testopstelling was 16GB van dit extra snelle mcdram-werkgeheugen te zien. Dit geheugentype is door Intel samen met Micron Technology ontwikkeld en zou snelheden tot 400GB/s kunnen behalen. Verder bevat het chipontwerp zes lanes om met regulier ddr4-geheugen te communiceren, door Intel far memory genoemd. Knights Landing kan overweg met maximaal 384GB aan far memory met een snelheid van 90GB/s. Verder heeft het ontwerp 36 pci-e 3.0-lanes.

De chipfabrikant wilde niet de geruchten bevestigen dat het Knights Landing-chipontwerp maximaal 72 cores kan bevatten, mede omdat de yields van de complexe 14nm-chips mogelijk te laag zijn en er dus sommige cores uitgeschakeld moeten worden. Ook noemt Intel geen kloksnelheden. Wel geeft het bedrijf een indicatie van de prestaties: de Knights Landing-cpu zou meer dan 3 teraflops kunnen leveren bij floating point-berekeningen. Verder zou Intel ook nog een versie van de cpu uitbrengen die als co-processor kan dienen en een uitvoering die beschikt over OmniPath-interfaces die goed zijn voor 100GB/s.

Knights Landing

Moderatie-faq Wijzig weergave

Reacties (93)

Waar worden dit soort cpu's dan specifiek voor gebruikt?
En wat is het voordeel t.o.v een opstelling met meerdere cpu's?
Binnenkort wordt de opvolger van de Millipede cluster van de RUG operationeel; hier komen ook een aantal Xeon Phi's in.

http://www.rug.nl/science...ies/peregrine-hpc-cluster

"Het cluster met 4256 cores is beschikbaar voor algemeen gebruik door wetenschappers van de RUG. Het is uitermate geschikt voor het oplossen van rekenproblemen waarvoor een enkele pc niet krachtig genoeg is."

Simpeler kan ik het zelf niet uitleggen :9

[Reactie gewijzigd door Zexion op 26 maart 2015 20:10]

Ik snap waarom het prettig is om 4256 cores te hebben, maar niet waarom die op weinig chips moeten zitten. Wat is het voordeel van veel cores/cpu in plaats van veel cpu's?
Shared memory. Veel cpu's staan verdeeld over vele nodes. Elke node heeft z'n eigen geheugen. Voor veel parallelle klussen wil je nog steeds veel data tussen je threads heen en weer pompen. Denk hierbij bijvoorbeeld aan een vloeistof simulatie, waar elke processor rekent aan een klein kubusje met water. Water dat naar zijn buren stroomt moet gecommuniceerd worden met die buren.

Voor dit soort gridachtige parallelle opstellingen heb je nu dan ook al speciale 'netwerkverbindingen' zoals het gaaf klinkende torus interconnect van ibm.

Als je al meteen het geheugen van je buur threads kunt uitlezen, dan gaat het natuurlijk een stuk sneller.
Om nog maar niet te spreken over het feit dat minder CPUs ook minder ruimte in beslag neemt, minder overige hardware vereist (je hebt immers minder moederborden, geheugensticks, voedingen, cases etc etc nodig) en het ook veel makkelijker is om te koelen (genereert minder warmte ondanks dat je per CPU-die wel meer warmte genereert) en uiteraard ook minder stroom verbruikt.

Maar NESFreak zijn punt is ook een hele belangrijke, nl. efficiŽntie en snelheid van je opstelling. er zijn wel hele snelle communicatie mogelijkheden tegenwoordig maar die zijn nog altijd significant trager dan wanneer de cores op dezelfde die zitten en dus letterlijk on-chip met elkaar kunnen communiceren over interne bus.

[Reactie gewijzigd door Ayporos op 27 maart 2015 09:03]

Shared memory. Veel cpu's staan verdeeld over vele nodes. Elke node heeft z'n eigen geheugen.
[...]
Als je al meteen het geheugen van je buur threads kunt uitlezen, dan gaat het natuurlijk een stuk sneller.
Tsja als je dat zou kunnen.... :-)

Helaas heeft iedere CPU core zijn eigen registers, L1-L2 cache en sharen ze alleen alles erna (zoals main memory). Als je goed kijkt naar een moderne CPU zie je een klein blokje met heel veel vulmiddel om het kleine blokje te connecten met de buitenwereld via pinnetjes. Het aantal pinnetjes is bovendien beperkt.

Dat is heel inefficient om meerdere redenen. Meer cores per CPU betekent minder vulmiddel, langzamere connecties ("bus") met andere cores (omdat het aantal pinnetjes beperkt is) -- kortom: inefficient. Meer cores per CPU lost al die problemen op, waarbij maar 1 nieuw probleem wordt geintroduceerd, nl. hitteproductie.

Bussen van dergelijke systemen zijn ook meestal niet 1-D zoals je gewend bent van je thuis-computer-bus. Vroeger had je bijv. de Cray T3E (in Delft :-) waarbij ze CPU's 3-dimensionaal aan elkaar knoopten. En op zo'n manier kan je een heel stuk meer data versjouwen van CPU A naar CPU B. Parallele systemen werken met veel messenging op die manier; alleen de stap naar je uiteindelijke geheugen is relatief traag.

Bij massive parallel systemen is parallel kunnen executeren van iets belangrijker dan ruwe gigahertzen. Daarom kan je met 'atom's uit de voeten in dit geval, die minder hitte produceren. Kijk naar de balans boven en de rest van het plaatje kan je zelf wel invullen.
Ik gok dat het iets te maken heeft met stroom verbruik en efficiŽntie. Maar zeker weten doe ik dat niet.
Denk de kosten.
Hoe meer core's per vierkante millimeter deste beter.
Nou vrij simpel gezegd kan een cpu veel sneller van z'n shared memory lezen. Dus als je de uitkomst wil weten van x*y x*z enz dan zet je deze 3 getallen in je shared mem en laat je 2 processen paralel lopen. Als je veel van dit soort berekening heb zal je deze getallen via een netwerk moeten laten lopen. Wat vertraging oplevert. Dit zie je ook terug in gpu hier word alle 3d data in de mem geladen en de processor rekent dan paralel uit hoe het beeld er uit ziet.
snelheid? (kortere afstanden)
Daar zitten een paar mooie nodes tussen!
Dat is zeker waar.

Helaas kreeg ik net van de week een mailtje dat de deadline van 1 april een maand opgeschoven gaat worden.. :'(
Programma's waarbij grote hoeveelheden getallen doorgerekend moeten worden. Voorbeelden zijn weermodellen, scheikundige simulatie, gesimuleerde botsproeven in de automobielindustrie, simulaties hoe vloeistoffen stromen en dergelijke. Dergelijke simulaties hebben een driedimensionaal model van hetgeen ze simuleren (bijvoorbeeld bij een weermodel wordt de atmosfeerkaart in kleine cellen verdeeld). Op die manier krijg je hele grote hoeveelheden getallen, waarbij je dezelfde berekening op heel veel tegelijk moet toepassen.
Weermodellen in moderner jasje draaien op normale CPU's met heel veel RAM. Vooral veel RAM is erg voordelig. Dat is de tendens daar.

Automobielindustrie vreet ontzettend veel, maar denk ook aan alle oliebedrijven. Die hebben qua crunching hardware per bedrijf factoren meer dan de overheid publiek heeft staan bij SARA en ook is hun software veel professioneler dan het gekluns bij de overheid.
Servers met een boel virtual machines. Veel cores en neemt weinig ruimte een stroom in beslag (vergelijken met X standalone servers om hetzelfde aantal cores te krijgen)
Nee, juist niet. Deze CPU's zijn als Co-Processor gebouwd, niet als hoofd CPU of als CPU voor VM's. Waarschijnlijk kan je zonder meer niet eens VM's op de CPU draaien.
Verder zou Intel ook nog een versie van de cpu uitbrengen die als co-processor kan dienen...
Quote komt uit de tekst en daar haal ik uit dat Intel ook een co-processor uitbrengt.Dat betekent dan toch dat dit wel een 'normale' cpu is?

[Reactie gewijzigd door j-phone op 26 maart 2015 22:31]

Hmm, dat zou dan nieuw zijn. Alle Informatie die op Intel's site staat wijst op het feit dat Phi exclusief een coprocessor is. Ach, altijd leuk als je daadwerkelijk op een Phi kan draaien. Vraag me wel af of je dan zonder de gebruikelijke instructieset extensies kan doen. Tot zo ver had de Phi nooit SSE enz.
Ik denk dat ze meer bedoelen dat het huidige een accelerator is, vergelijkbaar met een GPU en de co-processor variant op dezelfde die komt als de CPU, net zoals dat vroeger de floating point arithmetic ook werd gedaan op een co-processor. Op een Xeon Phi kan je simpelweg geen VM's draaien. Doch misschien in theorie, maar dan zullen hypervisors daar actief aan mee moeten doen door backends specifiek voor de Phi architectuur te maken.
Een CPU om alles te slopen :), ik wil niet weten hoeveel die gaat kosten
Lees je even in wat Xeon Phi is. Dit is niet een standaard server CPU.
weer wat geleerd vanavond... thanks!!
(ook) na het lezen hiervan krijg ik het vermoeden dat het eerder een concurrent van de IBM (open) Power8 is.
Tegen de tijd dat jij als consument dergelijke rekenkracht nodig hebt zal de architectuur achter deze Xeon Phi CPU lang achterhaald zijn.
Ik kan de rekenkracht prima gebruiken hoor, als de IPW lekker laag is zou het de perfecte CPU zijn voor video encoding, dat kan je prima met zo een extreem parallel CPU kan doen.

Uiteraard zal er wat meer optimalisatie moeten gebeuren om het ook echt op 240 cores optimaal parallel te doen, maar goed encoden op de beste settings kom ik op ongeveer 5fps voor 1080p materiaal, als 4K materiaal uitkomt kan je die snelheid verlagen naar net even 1fps.

Er zijn niet veel mensen die veel video encodingen, maar zelfs voor thuis gebruikers zou er best een markt zijn voor een dergelijke oplossingen, alleen zal een product als deze waarschijnlijk voorlopig niet in de prijs klasse van de meeste thuis gebruikers terug te vinden zijn.
Voor video encoding ben je nog altijd beter af met een GPU dan een CPU, mits de gebruikte software dit ondersteund. Wanneer dit niet zo is heb je hier misschien wel wat aan, al denk ik dat de investering in fatsoenlijke video encoding software die GPU encoding ondersteund beter is dan in deze CPU met bijbehorend mobo etc.

Daarom denk ik dat deze Xeon Phi niet zo snel bij een consument terecht zal komen omdat een consument deze simpelweg niet snel nodig zal hebben, ongeacht wat ie met zijn PC doet. Deze Xeon is echt bedoel voor wetenschappelijk rekenwerk of Big-Data omgevingen. Als je deze als consument koopt, dan koop je een vrachtwagen terwijl je maar een kruiwagen nodig hebt. :P

[Reactie gewijzigd door Aristo op 26 maart 2015 20:08]

Noem mij een programma dat net zo goed video encode op de GPU als je kan met de CPU, en ik stap meteen over.
Freemake doet zen taak aardig goed, Is GPU accelerated..
Ik ben bekend met Freemake, ik gebruik het bv voor slide shows video's, maar geen haar op mijn hoofd die er aan denkt om het dagelijks te gebruiken.
  • Heeft boven alles geen Constant Quality. (absolute deal breaker)
  • Geen X265 (deal breaker)
  • Niet sneller (zelfs niet met de Titan die ik heb)
  • Veel slechtere compressie.
  • Erg beroerde instellingen vergeleken met HandBreak.
  • Beroerde ondertitel ondersteuning
Freemake is prima voor de gene die af en toe snel een video encoden, maar ik doe zo een 10~20 video's per week, en voor mij is het echt geen optie.

Gebruik met Adobe Premiere Pro ook CUDA voor effecten, maar nog steeds encode ik mijn video's die ik maak met mijn Nikon D800 met HandBreak, daar ik daar mee nu met X265 en Constant Quality veel kleinere videofiles met de zelfde kwaliteit kan maken.

Sorry maar er is echt nog steeds geen encoder die goed gebruik kan maken van CUDA of OpenCL.
Adobe Premiere Pro bijvoorbeeld, hoewel het meer een video editor is, kan het ook converteren. Freemake, zoals Themperror al aangaf, is een goed voorbeeld van een converter.
Ik kan de rekenkracht prima gebruiken hoor, als de IPW lekker laag is zou het de perfecte CPU zijn voor video encoding, dat kan je prima met zo een extreem parallel CPU kan doen.
Volgens mij wil je juist zoveeel mogelijk instructies bij een zo laag mogelijk wattage en dus een hoge IPW.
i7 4790K 8 treads x 4Ghz = 32Ghz. / 88W = 2.75W per Ghz
Intels Knights Landing Xeon Phi 240 treads x 1.3Ghz? = 312Ghz / 250W = 0.8W per Ghz.

Ik weet dat dit een hele ruwe berekening is, en ik ging uit van de huidige 22nm Xeon Phi, de nieuwe zal vast ook wel sneller zijn, maar zelfs met de huidige gen tech, is de Phi 3.5x zo zuinig als de laatste gen i7.
Naar mijn weten is deze vermenigvuldiging veel te simpel geformuleerd. Je kan niet zomaar het aantal ghz met het aantal threads vermenigvuldigen. De i7 is natuurlijk een heel andere professor dan deze xeon dus kan je ze niet zomaar vergelijken.
Zo als ik zij het is een hele ruwe berekening, daar tegen over staat dat voor video encoding geen bijzonder complexe berekeningen nodig zijn, maar er gewoon heel veel vergelijking moeten worden gedaan.

En zelfs dan nog als die hele ruwe berekening niet klopt, en de Phi maar half zo effectief is qua IPW, dan nog zijn er 240 treats aan het rekenen, wat inhoud als men effectief de meeste cores parallel aan het werk kan zetten dat hij zuiniger en sneller is dan een i7.

En op deze versie van de Phi draait wel gewoon Windows of welk ander x86 OS (lees bron artikel), er draaien gewoon veel meer (Atom) cores tegelijk.

Maar laten we zegen dat de i7 klok voor klok 5x sneller is dan een Phi core, en de zelfde IPW heeft, zelfs met video berekeningen, dan nog heeft de Phi heeft 60 Atom cores!
Je zit verkeerd te denken. IPW = intructions per watt = I/W. Je wilt hem dus zo hoog mogelijk hebben en niet zo laag mogelijk. Je wilt immers de I vergroten en de W niet, dus gaat het totaal omhoog.
Het gaat zelfs om instructies per joule. Oftewel instructies/seconde gedeeld door joule per seconde.
Dat valt op zich wel mee. Hou er rekening mee dat in HPC/clusters er ook meteen een stuk of 100 tot enkele duizenden aan elkaar worden geknupt,

In principe is zo'n enkel serversysteem niet extreem veel sneller dan een PC, je hebt Xeon (CPU's) die feitelijk bouwgelijk zijn aan core i7's en je kan er dan wel 2 of 4 van in een MB stoppen, maar als consument kun je ook best een dual CPU bord aanschaffen. Verder zit er dan die Phi GPU* erin, maar met een paar hi-end videokaarten haal je wel hetzelfde aantal gflops.

En wat doen gamers (met een portomonee)? die knuppen een stuk of 4 videokaarten aanelkaar om dikke graphics tevoorschijn te halen, reken maar dat die rekenen.

Per PC/server heb je dus al dergelijke rekenkracht tot je beschikking. Daarnaast hebben sommige consumenten dat soort rekenkracht afentoe op aanvraag nodig en kun je via cloudgecomputerij ook complete clusters inhuren voor rekenwerk voor bv gerender/rekenwerk e.d. inhuren.

Het is dus tegenwoordig al zo dat de consument dat soort rekenkracht benodigd.

*ok, je kan 8 van die Phi's in een bord drukken en doorgaans maar 4 vgakaarten, mgoed ..even om de discussie dan ej?
Met 60 cores 240 threads verwerken?
Moet ik dit zien als een verbeterde variant van hyperthreading?

typo

[Reactie gewijzigd door jeroentje710 op 26 maart 2015 18:26]

Mogelijk kan een core meerdere threats tegelijk verwerken als deze threats allemaal een ander deel van de core gebruiken.
Dat is theoretisch mogelijk met hyperthreading, ja. Dan heb je wel een slimme core nodig, en Atom is niet Intel's slimste ontwerp. Het probleem simpel gezegd is dat je core groot wordt, als je dynamisch moet gaan uitzoeken welke delen van de core door welke thread worden gebruik. Het idee van Xeon Phi is nu juist dta je met een simpele core veel coers per chip kunt gebruiken.

Waarom dan toch dit soort hyperthreading: in de supercomputertoepassingen moeten threads regelmatig wachten op data die van een andere node moet komen. Het meeste RAM is niet lokaal. Hier heb je zelfs binnen 1 node al "near" en "far" memory, wat dus betekent dat je zelfs threads gaat hebben die wachten op dat " far" memory.
Thread, Threaded, Threading, Threads.
Hyper-threading.

Treat en Threat hebben overigens weer een andere betekenis ;)


/Ontopic
Is het trouwens 8 miljard transistoren voor het geheel? of per core? Dat laatste lijkt me wel erg veel als je dat met 60 moet vermenigvuldigen :p

[Reactie gewijzigd door Marctraider op 26 maart 2015 18:31]

Het geheel, maar bij dit soort manycores is het relatief eenvoudig om cores aan of uit te schakelen. Vandaar dat hele grote GPU drukken (want dit lijkt meer op een gpu dan een cpu) ook vrij eenvoudig is, terwijl een grote cpu drukken schier onbetaalbaar is.
4-way hypterthreatening jep.

http://en.wikipedia.org/wiki/Xeon_Phi

ik dacht zelf ook dat het eerst een foutje was....

zal trouwens de Airmont core bevatten, niet Silvermont (Airmont is de die-shrink van Silvermont)
http://en.wikipedia.org/wiki/Silvermont

[Reactie gewijzigd door ripzor op 26 maart 2015 18:37]

Nee, op die gpu's draai je standaard ook met minimaal 2 threads die elkaar afwisselen. Dit is hetzelfde principe.

Het zijn hele simpele cores, totaal niet vergelijkbaar met een normale cpu.
Verbeterd? Je hebt altijd nog multithreading. De Sparc T3 heeft 8 of 16 cores, en 16 threads per core.
@jeroentje, zie het als een rekenGPU. Dus een gpgpu. Eentje die enkel kan rekenen.

Dus matrixcalculaties moet je dan aan denken. Niet zozeer FFT's, die werken nog van geen meter publiekelijk op die gpu's (werkt zeer inefficient). Achter de schermen zal er vast een efficiente implementatie van zijn zo verwacht ik :)
Ik ben wel benieuwd naar het verbruik.
Dit soort monster chips zitten meestal tegen de 250 tot 300 watt, dit is niet een chipje dat je eventjes in je desktop plopt.
kost ook meestal zo rond de $2000, en is haast nooit voor consumenten te verkrijgen.

Intel zou wel gek wezen om de consumenten markt te voorzien van de huidige technologie, anders hebben ze geen producten meer voor de toekomst :z
Intel zou wel gek wezen om de consumenten markt te voorzien van de huidige technologie, anders hebben ze geen producten meer voor de toekomst :z

Het is ook echt handig voor gamers bijvoorbeeld om een 60 core CPU te hebben als met name 1 core belast wordt. Dan krijg je een lekkere 5 fps met een 60 core CPU. Als het spel al kan draaien op een 60 core CPU.

Sowieso presteert deze 60 core CPU zeer slecht met normale x86 applicaties. Veel slechter dan een normale i5.

[Reactie gewijzigd door dusty-2011 op 26 maart 2015 19:02]

Sowieso presteert deze 60 core CPU zeer slecht met normale x86 applicaties. Veel slechter dan een normale i5.
Dat is zeer zeker niet onze ervaring met dergelijke CPU's. Waar heb je je gegevens (of ervaringen) vandaan?
Andere reacties op fora e.d. Kan zijn dat ik er naast zit hoor, ik heb persoonlijk geen ervaring met deze CPU.

Maar het lijkt me dat op z'n minst bepaalde applicaties niet zo goed draaien. Applicaties die voornamelijk op ťťn of twee cores draaien zullen toch wel niet zo goed schalen naar 60 cores of wel?
Artikel meld dat het Silvermont gebaseerde cores zijn die een lagere IPC hebben dan de i5 serie.
Nah dit is niet zo snel in floating point (double precision zoals de wetenschap gebruikt).

Die 2 Tflop staat een getalletje bij en ik wil graag de disclaimer van intel erbij zien.

Dat betekent vast single precision en dan het getal wat zij theoretisch als maximum kunnen berekenen doen ze nog keer 2.

Vraag is dus hoeveel het is double precision. Dat zal de prijs bepalen van die chip.

Rest van artikel van die website is namelijk alleen bezig single precision. Single precision koop je niet zoveel voor. Ter vergelijking een beetje gpu van Nvidia haalt 7.1 Tflop single precision.

Dit is 3x minder en deze komt jaren later uit, dus dan heb je aanzienlijk minder TDP nodig.

Komt bij dat intel de vectorbreedte opgeschroefd had tot 512 bits - terwijl ik nog niet bijster veel software heb gezien die daarmee kan werken - terwijl intel dat al jarenlang zo heeft ondertussen.

Aantal gasten in de priemgetalletjeswereld stoeien nu al vele jaren met larrabee en incarnaties die erna kwamen - veel software is er nog niet uitgekomen publiekelijk.

Je zit dan met probleempjes als dat instructies om "normale codes" simpel om te schrijven naar Xeon Phi ineens 7 clocks kosten. Tja, "GOEDENDAG" zeg ik dan.

Kortom hij is alleen als vectorprocessor goed inzetbaar, net als de Nvidia Tesla dat is.

3 Tflop single precision zegt feitelijk niks. Je wilt weten hoeveel hij double precision kan genereren. Hoeveel lui spelen spelletjes op dure Xeon cpu's?

Stel dit ding kan 512 Gflops double precision leveren, gebaseerd op multiply-add, dat loopt dan heel wat generaties achter Nvidia aan, die double precision al boven de 1.3Tflop aanhikt met een chip.

512 Gflop double precision krijgt intel wel in een 130 watt TDP envelope voor die Xeon.
Hij heeft 3FLOPS double precision, 6TFLOPS single precision. De phi generatie van 2012 had trouwens al 1,2TFLOPS .
3 Tflop double precision gaat intel pas lukken lang nadat Nvidia dat voor elkaar heeft met haar Tesla natuurlijk en dat gaat zeker niet in de 300 watts envelope lukken.

Lijkt weer een fairy tale van intel dus die net zo lang gaat kosten als hun release van larrabee uiteindelijk kostte (in de vorm van Xeon Phi).
Een Titan X heeft 6 GFlops single precision, dus echt onmogelijk is het niet. Helaas voor ze heeft ie maar een magere 192 megaflopjes aan double-precision, want dat was niet interessant voor gamers.

Oh, en ja dat gaat dus prima binnen 300 W, NVidia zit nog op 28 nm, deze dingen worden op 14 nm gebakken... (dat kan best een factor 2 in power schelen)
De Xeon-Phi is een logische stap, eerder heeft het bedrijf SeaMicro al een 512-core Atom Server inelkaar gezet: http://tweakers.net/nieuw...t-256-atom-n570-cpus.html. Ook blijkt mijn vermoeden te kloppen dat in deze chip iets van de experimentele Larrabee processor is terug te vinden: http://en.wikipedia.org/wiki/Xeon_Phi

Nu ik toch bezig ben en voormezelf heb uitgezocht hoe MCDRAM (multichannel DRAM werkt: http://en.wikipedia.org/wiki/Hybrid_Memory_Cube. Het lijkt te gaan om heel veel standaard RAM chippies die parallel benaderd worden.
Het is een verderontwikkeling van de larrabee.
Bandbreedte naar de RAM is ontzettend fijn om te hebben bij dit soort manycores.

Elke zoveel instructies wil je tenslotte wel een ramoperatie doen. Dus bij enorm veel teraflops die je kunt processen, heb je enorme toename in bandbreedte nodig.

Feitelijk gesproken betekent 2 teraflop double precision al snel dat je dus 1T instructies uitvoert per seconde (ze jokken altijd factor 2 al die fabrikanten gezien het theoretische fenomeen multiply-add waarvan ze doen alsof het 2 instructies zijn).

Bij 1T instructies per seconde heb je dus 2 source doubles nodig en 1 doel double. Bij elkaar dus 24 bytes. Dus je hebt ERGENS 24 terabyte bandbreedte per seconde nodig.

Dus 1 TB/s bandbreedte naar de RAM hebben is geen overbodige luxe. Helaas halen ze dat nog niet dus pak je dan wat wel geleverd kan worden :)
Bij 1T instructies per seconde heb je dus 2 source doubles nodig en 1 doel double. Bij elkaar dus 24 bytes. Dus je hebt ERGENS 24 terabyte bandbreedte per seconde nodig.
Onjuist. De instructies hebben of 3 register operands of 2 register operand en 1 geheugen operand.
De theoretische piekbandbreedte naar de L1 cache is dus maximaal 8 TB/sec.
Aangezien vectorcode veelal alleen met registers werken, slinkt de theoretische piek voor L1 cache naar max 1 TB/sec. De specs van Intel geven aan dat het GDDR5 geheugen 352 GB/sec aankan en dat staat heel mooi in verhouding tot de piekbelasting voor de L1 cache.

edit:typo

[Reactie gewijzigd door mhkool op 26 maart 2015 22:24]

Die data hoeft niet altijd uit RAM te komen maar staat in registers en L1/L2 cache die wel veel meer bandbreedte heeft en/of met minder cores gedeeld wordt. Het hangt dus sterk van het algoritme af waar de bottleneck komt.

Hierdoor zal er ook een groot verschil per algoritme zijn met de TESLA architectuur zijn van NVidia, die heeft namelijk veel meer cores die minder krachtig zijn.

Ben benieuwd naar de benchmarks :)
De Nederlandse overheid, bij het bouwen van de publieke supercomputer bij SARA, stelt als 1 van de voorwaardes dat voor elke paar gflops die je levert je ook die bandbreedte dient te hebben naar de i/o.

An sich geen slecht idee om te hanteren. Dit veronderstelt echter ook enorme bandbreedte naar de RAM.

Als je een FFT wilt uitvoeren zullen de cores tenslotte moeten samenwerken. Dat zal toch met name via de RAM gaan.
Dit zal vooral terug te vinden zijn in systemen als de HP Moonshot Servers. Ultra High Density servers, veel rekenkracht en relatief laag energieverbruik.

http://www8.hp.com/us/en/products/servers/moonshot/
je bedoelt veel energieverbruik.

Die gpu servers waar Xeon Phi ook naadloos in past die vreten kilowatts per rack.
In totaal wel, maar de verhouding kilowatts/rekenkracht is beter dan bij "traditionele" systemen. Daarom zeg ik ook dat het relatief is. ;)
Stroom kost niet zo vreselijk veel als je het massaal inslaat.

Consumentenstroom is razendduur en overheden weten niet hoe ze moeten onderhandelen over stroom.

Als jij continuestroom afneemt, zeg bijvoorbeeld 80 megawatt continuevermogen en nooit meer dan 80000000 watt, dan krijg je stroom voor heel zacht prijsje per megawatt.

Je kijkt dan aan tegen een prijs van tussen de 10 euro tot 40 euro per megawattuur. Je betaalt dan elke dag een constant bedrag. Namelijk voor die 80 megawatt. Of je dat afneemt boeit de energiemaatschappij niet. Je betaalt er elk uur dus voor.

Als je dat uitrekent dan is dat een kilowattuurprijs van zo'n 1 tot 4 cent, afhankelijk van lokatie en hoe goed je onderhandelt en hoe stom je bent.

Die datacenters van microsoft en google in Nederland, die zo rond de 120+ megawatt vreten, reken erop dat die niet meer dan 1 cent per kilowattuur betalen.

En anders hadden ze die datacenters hier niet gebouwd - zo simpel is het.

Dat is natuurlijk andere koek dan de 20-30 cent die je thuis dokt of als klein bedrijfje.

Dus in welke orde grootte mogen wij praten?

Stroom kost geen drol als je joekels van supercomputers hebt als BEDRIJF. Alleen overheden willen ook stroom hebben in tijden van oorlog en garanties A B C blabla bla, ja dan wordt het stinkend duur ineens :)

Dus reken maar uit. Bij 10 euro per megawattuur kost een Tesla/Xeon phi dus geen drol per jaar.

Ze vreten allebei praktisch 300-400 watt. Intel mag wel claimen een TDP van 225 watt bij de ene Xeon Phi en Nvidia idem dito - terwijl een intel insider document het weer op 300 watt houdt - als we dus gaan crunchen en meten dan vreten ze allebei 400 watt.

Maar da's 0.4 kilowattuur per uur. Een jaar heeft 8600 uur grofweg.

We praten over een paar honderd euro dus in 3 jaar tijd.
Een FRACTIE van de kostprijs.

Google runt ook fiks wat Tesla's/Xeon Phi's hoor.

Een beetje hedgefund heeft clusters van duizenden machines. Nederland loopt wat achter daar natuurlijk (wat wil je ook als gros beleggers fysiek in omgeving New York bivakkeert waar de AEX gevestigd is).

Da's natuurlijk wat andere koek dan het gefriemel bij SARA, waar in de bunker maar een paar megawatt vergeven wordt.

[Reactie gewijzigd door hardwareaddict op 27 maart 2015 13:24]

Apart dat specifiek wordt aangegeven dat deze processor onder Linux maar liefst 240 threads tegelijkertijd kan afhandelen. Hoe zit dat met andere besturingssystemen ?
http://www.theplatform.ne...eon-phi-secrets-unveiled/
... and it booted up a standard Linux operating system that showed 60 cores and 240 threads fired up and ready to do work.
Ik denk niet dat het specifiek iets van linux is, maar dat ze het gewoon zeggen omdat linux geboot is. Mocht een andere OS deze cpu ook ondersteunen zal het eenzelfde aantal cores en threads weergeven neem ik aan.
Overigens vindt ik het interessanter dat met 60 cores 240 threads wordt weergegeven, dat is dus 4 threads per core.
grappig, dat had ik niet direct gezien, wel een goede vraag
Realtime Raytracing in games eindelijk mogelijk geworden?
Is dit veel te duur voor.
Om te miereneuken :p

Zijn vraag was, is het mogelijk? Dat kan misschien wel zijn (geen flauw idee) maar is waarschijnlijk wel "tikkeltje" te duur om ook daadwerkelijk te doen.
en veel te duur. Voor de meeste raytracing is single precision genoeg. Dus goedkope grafische kaart van Nvidia is prima dan.

AMD is lastiger, want daar kun je niet elke SIMD een andere codestream laten uitvoeren.

Bij nvidia kan elke SIMD een andere programma uitvoeren tegelijkertijd.
""De Knights Landing-uitvoering van de Xeon Phi-cpu is een van de grootste chips die Intel ooit heeft gebakken: volgens de website The Platform is het oppervlak van de die ongeveer net zo groot als een creditcard.""

Dan zullen er wel niet zoveel uit een 30/45cm wafer geperst kunnen worden en zou deze zonder de standaard Intel omkoop-subsidies peperduur uitvallen. (max. 15 uit een 30cm Wafer)

85X45MM = 3825mm2 :F

[Reactie gewijzigd door trm0001 op 26 maart 2015 19:20]

Draaien hier gewone x86 en 64 bit applicaties op of moeten de applicaties speciaal voor deze CPU gecompileerd worden?
De nieuwe Xeon Phi zit een beetje tussen een CPU en GPU in. Ja, de chip kan normale x86 software draaien, maar om de chip optimaal te benutten, moet je software zeer veel threads gebruiken. Daarnaast bevat de chip ook speciale SIMD instructies die je niet op een standaard CPU aantreft (meer GPU-achtige instructries). De chip is zeer geschikt voor GPGPU-achtige toepassingen zoals wetenschappelijke simulaties. Het voordeel ten op zichte van een GPU is dat je normale software APIs kunt combineren bijvoorbeeld je zou een bestand kunnen lezen of data over het netwerk versturen. Een GPU kan dit niet (mogelijk met AMD HSA in de toekomst een beetje).
Als je hem efficient wilt gebruiken is het een pure vectorprocessor die heel veel lijkt op de Nvidia Tesla.

Vandaar dat voor grote supercomputers de nvidia tesla zo populair is.

Intel heeft daarom ook de Xeon Phi paar jaar geleden gelanceerd als een GOEDKOPE vectorprocessor. Wat is hij maar 2000 euro ofzo. Peanuts qua prijs voor vectorprocessors.

Als je andere instructies wilt uitvoeren op de Xeon Phi dan loop je tegen enorm trage clocktijden aan. Al snel 7 clocks terwijl de throughput van de vectorprocessing dus factor 7 sneller is :)

Factor 7 verliezen is natuurlijk oerstom voor geoptimaliseerde software, dus zie het als een pure vectorprocessor die wezenlijk niks anders doet dan Nivdia's tesla dat ook doet.
Het zit in het midden. Ze kunnen gewone x86-applicaties draaien, maar dan krijg je de rekenkracht van een Atom. Wil je de rekenkracht eruit halen die erin zit, dan moet je speciaal voor deze processor compileren.
Je bedoelt dat de applicatie met 60 cores om moet kunnen gaan?
Dus dit kan bijvoorbeeld interessant zijn bij workloads die makkelijk parallel kunnen draaien, zo als een shared hosting server of een vps per core o.i.d. ?
Dat gaat allemaal niet zo prima werken. Sterker nog dat werkt van geen meter.

Atoombomexplosies doorrekenen is wat je met dit soort kaartjes doet. Dat is waar ze in excelleren.

Dus wiskundig gesproken noemen we dat matrixcalculaties.

Het gros (echt vet meer dan 50%) van alle wetenschappelijke systeemtijd gaat op aan de matrixcalculaties.

Daarmee kun je heel veel simulaties draaien. Vandaar dat voor de atoombomcalculaties ook de grootste supercomputers ter wereld gebouwd worden.

Eerste wat Iran dan ook deed om zijn atoomprogramma nieuw leven in te blazen was joekel van supercomputer bouwen (we praten dan al over meer dan 10 jaar geleden).
De applicatie moet met 60 kernen om kunnen gaan, maar dan heb je nog alleen maar de rekenkracht van 60 atoms. Om de echte rekenkracht te ontsluiten hebben deze processoren speciale 512 bits brede SIMD-instructies. De compiler moet die speciale instructies genereren (die niet bestaan op gewone x86-processoren) om het potentieel te benutten.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True