Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 43, views: 18.136 •

Nvidia heeft tegenover Infoworld te kennen gegeven dat het zijn Tesla-gpu's gaat voorzien van 64bit ARM-cpu's. Met een zuinige ARM-cpu zouden de Tesla-kaarten niet meer gecombineerd te hoeven worden met cpu's van Intel of AMD, die vaak behoorlijk veel stroom verbruiken.

Volgens Steve Scott, hoofd van Nvidia's technologie-afdeling, zal Nvidia dit decennium 64bit ARM-cpu's toe gaan voegen aan zijn Tesla-gpu's. Nvidia werkt al aan een system-on-a-chip op basis van de ARMv8 64bit-architectuur, onder de codenaam Project Denver. Deze soc moet de Tegra 3 gaan opvolgen, en kan in smartphones maar ook in servers gebruikt worden. In een later stadium zal het cpu-gedeelte van de soc mogelijk geïntegreerd worden in de Tesla-producten.

Tesla-gpu's worden voornamelijk ingezet bij servers, om dienst te doen als gpgpu. Zo werd de meest recent supercomputer voorzien van ruim 18.000 Tesla-gpu's, die bijgestaan worden door evenzoveel cpu's van AMD. Dat is nodig omdat gpu's wel heel goed zijn in parallelle taken, maar sommige seriële taken niet kunnen afhandelen en zeker niet met de snelheid waarmee een cpu dat kan. Het is dan ook geen onlogische stap om de Tesla-gpu's te voorzien van kleine ARM-cpu's, die een aantal seriële taken voor hun rekening kunnen nemen, maar ook erg energiezuinig zijn.

De reden dat Nvidia dit nu pas gaat doen komt door de 64bits-architectuur. Die biedt genoeg ruimte voor veel geheugen, terwijl ARM's 32bit-cpu's met maximaal 4GB-geheugen overweg kunnen. ARM's 64bit-soc's, de Cortex A50-serie, werden eind oktober aangekondigd. Wanneer Nvidia zijn eerste Tesla-producten met geïntegreerde ARM-cpu uitbrengt, kon Nvidia nog niet zeggen.

Reacties (43)

In hoeverre zijn deze GPU's dan vergelijkbaar met de APU's van AMD? het klinkt alsof ze zeer veel overeenkomsten hebben.
APU's van AMD zijn veeeel zwakker, die kun je niet in super pc's gebruiken ;) .

http://www.nvidia.com/obj...rcomputing-solutions.html

Specs:
Peak double precision floating point performance 190 Gigaflops (95 Gflops per GPU)
Peak single precision floating point performance 4577 Gigaflops (2288 Gflops per GPU)
Memory bandwidth (ECC off) 320 GB/sec (160 GB/sec per GPU)
Memory size (GDDR5) 8GB (4 GB per GPU) CUDA cores 3072 (1536 per GPU)

Er is ook nog een (fermi) Tesla met 665 Gigaflops bij de Peak double precision floating point performance.
http://www.nvidia.com/object/tesla-servers.html

Ter vergelijking een 7660D APU heeft slechts één floating point unit.
http://www.tomshardware.c...-5600k-a6-5400k,3224.html

[Reactie gewijzigd door sdk1985 op 2 november 2012 14:03]

Ter vergelijking een 7660D APU heeft slechts één floating point unit.
Die éne floating point unit zit dus in de CPU, daar heeft tesla er op dit moment dus nul van. Als je het over shaders van de GPU hebt, daar heeft een AMD APU er ook enkele honderden van (afhankelijk van het model), die het opnemen tegen de CUDA cores. De HD7660D heeft ook 700 gigaflops (aldus een snelle google-query). Maar ook een CUDA-core is niet één-op-één vergelijkbaar met een VLIW-shader van AMD, en die ook weer niet met een GCN-shader, de huidige vervanger die vanaf de HD7000's gebruikt wordt.

Maar ja: een APU is een redelijk krachtige CPU met een low-end tot mid-range GPU, en tesla is gewoon een high-end GPU die binnenkort dus een zéér lichte CPU krijgt. Maar het is en blijft slechts een GPU, die niet veel krachtiger is dan high-end radeons of geforces. Hoogstens beter gericht op een aantal specifieke taken (DP-performace, meer geheugen, etc.).

[Reactie gewijzigd door bwerg op 2 november 2012 14:52]

Van je verhaal klopt niet veel...
quote: bwerg
Maar het is en blijft slechts een GPU, die niet veel krachtiger is dan high-end radeons of geforces
De genoemde Tesla's bevatten een GK110,de GTX680 hebben een GK104. Ze zijn dus wel veel sneller :
http://www.anandtech.com/...0-gk110-based-tesla-k20/2
quote: Anandtech
As it stands a complete GK110 is composed of 15 SMXes – note that these are similar but not identical to GK104 SMXes – bound to 1.5MB of L2 cache and a 384bit memory bus. GK110 SMXes will contain 192 CUDA cores (just like GK104), but deviating from GK104 they will contain 64 CUDA FP64 cores (up from 8, which combined with the much larger SMX count is what will make K20 so much more powerful at double precision math than K10.
Mbt GFLOPS:
quote: bwerg
De HD7660D heeft ook 700 gigaflops (aldus een snelle google-query).
Twee problemen, die 700 gigaflops is niet van de GPU maar van de cpu+gpu:
quote: AMD
AMD GFLOPs calculated using GFLOPs = CPU GFLOPs + GPU GFLOPs = CPU Core Freq. (3.8GHz) X Core Count (4) X 8 FLOPS + GPU Core Freq.(800MHz) X DirectX® 11 capable Shader Count (384) X 2 FLOPS.
http://www.amd.com/us/pre...d-a-series-2012may15.aspx

Daarnaast is niet gespecificeerd wat er is gemeten. Kan best zo zijn dat het 700 vs 4577 is wie zal het zeggen...
quote: bwerg
Maar ja: een APU is een redelijk krachtige CPU met een low-end tot mid-range GPU
Een APU bevat helemaal geen krachtige cpu... AMD loopt juist mijlen ver achter in performance (zowel totaal als per watt):
http://www.cpubenchmark.net/cpu_list.php
Snelste amd zit op 4897, snelste Intel op 10374.

Blijft wat mij betreft niks over van je verhaal, APU is gewoon niet geschikt voor een supercomputer. Dat was het punt en dat blijft zo.

[Reactie gewijzigd door sdk1985 op 8 november 2012 23:16]

Ik zeg toch ook niet dat het geschikt is voor een supercomputer? Ik zeg alleen dat de GPU van een gemiddelde radeon of geforce in de zelfde orde van grootte ligt als die van tesla's, en i.t.t. tot een CPU. Het grootste deel van de SP FLOPS van een APU zal in de GPU zitten, niet in de CPU. En ook over de CPU bedoel ik krachtig in orde van grootte van high-end CPU's, i.t.t. ARM-CPU's die nog echt een aantal maten kleiner zijn.

Passmark is trouwens een erg slechte indicatie, ook voor simpele benchmarks.

[Reactie gewijzigd door bwerg op 12 november 2012 11:41]

APU's van AMD zijn veeeel zwakker, die kun je niet in super pc's gebruiken
Als je maar genoeg AMD APU's hebt kan je er prima een supercomputer van bouwen, of het rendabel is om dat te doen is een tweede...

[Reactie gewijzigd door Just_Michel op 2 november 2012 14:19]

Sha1 (256bits) hashes berekenen (oftewel bitcoins minnen) is een AMD weer de koning, dus het hangt helemaal van af wat die supercomputer voor berekening moet doen...
SHA1 is 160 bit, SHA256 is 256 bit.
Bitcoin is een sha256 hash systeem:

BitCoin uses the SHA-256 hash algorithm to generate verifiably "random" numbers in a way that requires a predictable amount of CPU effort. Generating a SHA-256 hash with a value less than the current target solves a block and wins you some coins.

bron: bitcoin wiki
Worden het dan geen stand alone kastjes, ter grote van een brood trommel die je kunt clusteren in een groot rack?

Zou voor veel scholen misschien ook wel interessant zijn. Denk aan universiteiten en dergelijke. Een kleine super computer bijvoorbeeld.
Meeste universiteiten hebben hoegenaamd geen programmeurs die goed genoeg zijn om hiervoor te programmeren - dus het begint nu pas langzaam te komen.

We zien nu langzaam hoe de NCSA's en wetenschappers die enorme matrixcalculaties doen, hoe die nu langzaam overstappen. De NCSA verwachtte rond 2007 dat ze al in 2010 zouden zijn overgestapt. Dat is dus niet gebeurd. In 2012 zijn ze dus maar voor 50% overgestapt op nvidia. An sich een goede keuze.

Er liggen nog relatief weinig CUDA codes publiek op het internet die echt goed bruikbaar zijn voor de publieke wetenschappers. Dit waar het toch algemeenbekend is dat de meeste industrien al sinds vele jaren op gpu's rekenen.

Die houden hun codes streng geheim echter - met goede redenen.

Dus er zijn niet zoveel 'goede' voorbeelden van hoe het WEL moet.

Daar komt bij dat gewone huis en tuin gpu's van geen meter kunnen rekenen. Alleen de dure Tesla's kunnen dat. Ook ATI (amd) geeft aan de toekomstige gpu's meer en meer te beperken voor OpenCL ten aanzien van double precision rekenwerk.

Bij Nvidia zien we zelfs een split tussen de gpu's. Eentje die speciaal gebouwd is voor de gamers en eentje die 3500+ dollar gaat kosten, de K20, die echt goed gpgpu kan rekenen, voor de wetenschappers.

Dus men groeit er nog niet zo mee op om daarvoor te programmeren wegens de enorme prijs van de Tesla's.
Daar komt bij dat gewone huis en tuin gpu's van geen meter kunnen rekenen.
Grapje zeker? Vergelijk de GFLOPS van een doorsnee videokaartje eens met een CPU. Zie bijvoorbeeld folding@home waar ze graag thuisgebruikers voor werven.

En waarom zou je niet kunnen leren programmeren op een net wat minder snelle (maar nog steeds erg snelle) videokaart, die verder dezelfde functionaliteit heeft? Een game-kaartje erbij is nog steeds enorm krachtig vergeleken met code op de CPU draaien hoor. Het is meer dat zoiets niet echt in het standaard (bachelor-)curriculum voor informatica past, het is te specialistisch en weinig zinvol als algemeen leerdoel.

[Reactie gewijzigd door bwerg op 2 november 2012 22:33]

Vrijwel alles en iedereen in de wetenschap heeft 64 bits floating point of 64 bits integers nodig of 32 bits integers nodig.

De geciteerde gflops van gpu's zijn voor single precision (32 bits) meestal en niet double precision. Single precision flops is alleen voor het spelen van spelletjes interessant.

Gros van de publieke wetenschap op universiteiten doet aan double precision berekeningen, met name matrix berekeningen en FFT achtige transforms. Hier gaat het gros van de supercomputer tijd aan op. De meerderheid.

Dan is er nog een actief integer gebied waar nauwkeurig rekenen belangrijk is (denk aan NSA maar ook allerlei soortgelijke gebieden met soortgelijke berekeningen).

Die 2 bij elkaar vreten zo'n 95% van alle systeemtijd van wetenschappers.

De hele 'biologie' bijvoorbeeld vreet bijzonder weinig (afgezien van dat het berekenen van DNA sequences weer double precision nodig heeft - en dus in groep 1 hierboven valt van die 95%), maar dan nog vreeet dat bij elkaar minder dan 0.5% van alle systeemtijd.

Dit alles lukt *enkel en alleen* heel goed op Nvidia's Tesla.

En die is duur.

Voor AMD's gpu's bestaat geen goede transform. Een paar Pakistani hebben dat geprobeerd op te zetten voor AMD, maar dat is een vrij lachwekkende efficiency die zij behalen. Die doen het op de trage manier.

Nvidia's eigen library is daar enorm superieur. Dan ben je er nog niet op supercomputers, want het moet nog geparallelliseerd worden over de machines.

Op het moment dat je heel veel machines in de strijd gooit, is kans op bitflips een stuk groter, als je het middelt over zoveel machines. Dus nauwkeurige gpu's zijn dan nodig.

Gamer gpu's zijn veel te hoog geklokt en onnauwkeurig. Als je een keer een foutief berekend pixel hebt dan is dat no big deal, maar het kan een maandenlange matrixberekening compleet in de war gooien.

Dus je hebt een onderklokte gpu nodig die ook nog eens nauwkeurig werkt. Met andere woorden ECC is geen luxe. Het is een requirement.

Alleen de Tesla heeft dus ECC. Dit gaat verder dan alleen de RAM. Het gaat met name ook om de compute units zelf.

Dat zijn requirements - niet dingen waar je 'over kunt onderhandelen'.

In quantum mechanica reken je al ver achter de komma. Afrondingsfouten zijn al desastreus voor de uitkomst van je berekening - de ellende van bitflips door overklokte gpu's kun je je gewoon niet veroorloven.

Ook Nvidia's Tesla heeft al moeite om dit alles 'bugvrij' te doen. De gamers gpu's zijn onbruikbaar hiervoor simpelweg.

Dus single precision lukt dit alles niet. Wat je eigenlijk zou willen is alles met integers representeren, want dat rekent veel accurater en bij de grote transforms is accurater rekenen beter. Sterker nog, je kunt dan lossless rekenen. Dus zonder afrondingsfouten te riskeren.

Een double precision multiplicatie op de Tesla's is echter veel sneller dan een 64x64 bits integer vermenigvuldiging (om te beginnen hebben ze die 64x64 bits vermenigvuldiging niet).

De AMD gpu's afgezien van het missen van ECC wat ze al onbruikbaar maakt voor supercomputers en afgezien van feit dat ze te hoog overklokt zijn door AMD voor ze op de markt gegooid worden, die zijn enorm traag in 32 bits integer vermenigvuldigingen.

Beide instructies (je hebt er 2 voor nodig) hebben dus 4 cores nodig, dus je hebt 8 clockcycles nodig so to speak (verdeeld over 4 cores) om een enkele vermenigvuldiging uit te voeren (uitgaande van throughput en niet latency natuurlijk).

Dat is heel traag op AMD dus. Die is alleen snel voor spelletjes spelen, waar af en toe een bit omflippen in de resultaten niet zo belangrijk is natuurlijk.

Nvidia is veel sneller voor 32 bits integers dan AMD. 1 cycle voor de highbits en 1 ccle voor de lowbits. 2 cycles in totaal dus. Dan heb je 32x32 = 64 bits in totaal als output.

Double precision is even snel, ook 2 cycles, maar dan heb je 53 bits mantissa * 53 bits == 53 bits output (even theoretisch gerepresenteerd). In werkelijkheid heb je meer bits.

Het gaat in al deze gevallen enkel en alleen om vermenigvuldigen dus.

Vandaar dat de meeste transforms double precision gebruiken - want dat werkt sneller op de hardware. Bij sommige echt grote transforms ontkom je niet aan integers gebruiken overigens, simpelweg omdat ook double precision dan tekort schiet en te veel afrondingsfouten veroorzaakt.

Correct rekenen is ontzettend belangrijk.

Overigens CPU's leggen het enorm af tegen GPU's als het gaat om vermenigvuldigen. Om een simpele reden. Om het simpel te representeren:

Van die 4 instructies per cycle die een intel i7 kan decoden per cycle,
Kun je er maar maximaal 1 aanbieden bij de vermenigvuldigingsunit.

Die was dan ook nog niet eens enorm snel. Pas bij de laatste i7 revisies is dat wat sneller geworden (qua throughput). Die andere executie units doen dus niks nuttigs in die tijd voor de meeste wetenschappelijke software. Dan is het wel gevectoriseerd natuurlijk in AVX ondertussen, maar dat is weer heel ander verhaal. Het principe is en blijft dat men vermenigvuldigen wil en niks anders en CPU's zijn daar gewoon TRAAG mee en dat met zo weinig cores ook nog.

[Reactie gewijzigd door hardwareaddict op 3 november 2012 11:35]

Hopelijk weet je dat een tesla gelijk is aan een GTX? alleen wat extra geheugen voor specifieke doelen en wat kleine modificaties voor de berekeningen. Je kunt volgens mij ook gewoon gamen op een tesla kaart (al ben je dan wel gek bezig, koop dan een leuke set GTX kaartjes :P).

Tesla kaarten zijn gewoon gemaakt met extra support en gecertificeerd voor bepaalde software producten.
Wat wil je precies met een hele dure rendering GPU in je auto gaan doen?
Dit is iets totaal anders en specifiek gericht op servers en supercomputers. Door een zuinige arm cpu te intergreren maak je een volledige X86 cpu overbodig bespaart weer een hoop stroom zeker op de schaal waarin deze dingen worden ingezet.
Well grappig om te zien dat juist hier Nvidea met de grote concurrent AMD samenwerkte.
Nee, NVIDIA maakt zijn eigen ARM processoren. Net zoals AMD zijn eigen ARM processoren maakt. ARM is slechts een architectuur, waarop iedereen een licentie kan nemen om zelf de processors te maken:

http://en.wikipedia.org/wiki/ARM_Holdings
Business model

Unlike other microprocessor corporations such as AMD, Intel, Freescale (formerly Motorola) and Renesas (formerly Hitachi and Mitsubishi Electric),[28] ARM only licenses its technology as intellectual property (IP), rather than manufacturing its own CPUs. Thus, there are a few dozen companies making processors based on ARM's designs. Intel, Samsung,[29] Texas Instruments, Analog Devices, Atmel, Freescale, Nvidia, Qualcomm, STMicroelectronics and Renesas have all licensed ARM technology. In the fourth quarter of 2010, 1.8 billion chips based on an ARM design were manufactured.
Dan vergeet je alsnog een ander detail wat overigens bijna iedereen vergeet: Er is een verschil tussen een ARM instructieset en een ARM core. Beiden kun je los licenseren bij ARM.

De ARMv7 instructieset is de laatste 32bit ARM instructieset, de ARMv8 instructieset is de laatste (en eerste) 64bit ARM instructieset. Nu zijn er verschillende core (CPU) ontwerpen die deze instructieset(s) implementeren. De meest gebruikte core ontwerpen zijn die van ARM zelf (Cortex-A8 etc.) maar er zijn ook bedrijven die alleen de instructieset licenseren en een eigen core erbij ontwerpen (zoals Quallcom met de Krait).

En qlum, het is nVidia, niet Nvidea..
nVidea is het (heel) oude logo. Tegenwoordig gebruikt nvidia zelf alleen hoofdletters (NVIDIA) maar dat is in nieuwsberichten en comments heel onrustig en schreeuwerig waardoor Nvidia een geappecteerde vorm is. Eigenlijk is nVidia niet de goede vorm, je zegt toch ook geen ATi meer?
De genoemde supercomputer is door Cray gebouwd, niet door AMD en Nvidia.
Als je dan dit weer leest, lijkt het of Intel/AMD/Nvidia/etc. steeds meer in elkaar vaarwater komen. x86 begint meer te overlappen met de ARM instructieset en GPU's nemen steeds meer taken over van CPU's.

Naast het samenvoegen van GPU en CPU in één GPGPU krijgen we ook meer system-on-a-chip soc's.

Het modulaire begint steeds minder te worden in dat opzicht. Ik ben benieuwd wanneer we zelf chips kunnen bouwen als een soort van Lego, dat is past grappig! :p
ik heb me ook altijd afgevraagd waarom er geen modulaire gpu's bestaan.
Ze hebben een mainboard van veelal dezelfde afmeting, geheugenchips, een cpu enz.
kon je gewoon 4gb ram op je gpu gooien als je hoge resolutie dingen doet (want alleen daarvoor is meer mem handig) en dan later een losse gpu inprikken.
GPU's hebben een bijzonder brede en korte bus naar hun geheugen, om de benodigde snelheden te halen. Sockets zouden de performance sterk verslechteren.
Als je ziet hoe krachtig de Tegra 3 is (gebaseerd op de 32 bits ARMv7 architectuur), en bedenkt dat een 64 bits ARMv8 core circa 3x zo snel is als zo'n ARMv7 core, dan kun je mooie systeempjes bouwen op basis van een Tesla plus ARMv8 cores.

Leuk voor de consument, en minder leuk voor Intel.
Hoe gaat dit samenwerken met een moederbord? Kun je een cpu over een pcie bus gebruiken? Een moederbord blijft nodig vanwege netwerk verbinding lijkt me
Je kan toch gewoon een chipset gebruiken voor de North en de South Brigde.
Seco had al een lange tijd geleden zoiets gemaakt:
Tegra3 SoC + Quadro graphics
http://www.nvidia.com/object/carma-devkit.html
ARM is zo'n GODgeschenk voor consumenten en bedrijven, vooral door lagere energiekosten. Eindelijk die bewustzijn ( nee ik wil geen voeding die 3000W zegt (ja sorry ik overdrijf het een beetje))

Dat ze ook AMD voor hun wagen weten te spannen en nu Nvidia, zegt dat Intel nu echte competitie heeft. Wat helemaal leuk is dat Intel nu ook mee gaat in het energiebesparen idee. Intel wilt nu komen met kleiner/krachtiger en zuiniger processor... Mwhuahuahuahuaahuahuahua

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBTablets

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013