Google toont watergekoelde tpu v3-pods van 100 petaflops voor machinelearning

Google heeft generatie 3.0 van zijn tensor processing unit voor machinelearning getoond. Systemen met de chips voor de Google Cloud zijn meer dan acht keer zo krachtig als die met de huidige tpu v2-generatie. De chips zijn watergekoeld om op temperatuur te blijven.

Een pod met tpu v3-chips biedt een rekenkracht van 100 petaflops, waar een variant met tpu v2-chips 11,5 petaflops biedt. Niet bekend is uit hoeveel chips de komende tpu v3-pods bestaan en hoeveel geheugen die hebben. De toename van de rekenkracht van de pods met v3-chips komt in ieder geval niet alleen door de nieuwe chiparchitectuur, maar ook doordat de systemen omvangrijker zijn. Een huidige tpu v2-pod bestaat uit 64 apparaten met elk vier asic-chips die op hun beurt twee cores hebben. Die pods beschikken over 4TB high bandwith memory.

Sundar Pichai toonde de tpu v3-chips tijdens de Google I/O-keynote, zonder verdere details over de chips of de pods te geven. Wel zei hij dat de tpu's nu zo krachtig zijn dat de komende pcb's met vier tpu v3's waterkoeling nodig hebben.

Volgens Zak Stone, Googles productmanager van Tensor Flow en Cloud TPU, gaat de komst van de nieuwe generatie invloed hebben op al Googles diensten. De modellen voor machinelearning zijn volgens hem steeds accurater, maar daardoor zou wel steeds meer rekenkracht nodig zijn. Dat zou de reden zijn dat Google zijn eigen gespecialiseerde hardware is gaan ontwerpen. Stone beschouwt de pods als 'supercomputers voor machinelearning'.

De eerste versie van de tpu's, die Google sinds 2016 inzet, gebruikt het bedrijf bijvoorbeeld voor zoekresultaten, de beeldherkenning van Photos en spraakherkenning. De pods met tpu v2-chips die Google nu gebruikt, gaat het bedrijf ook beschikbaar stellen aan klanten, die de supercomputers via de Google Cloud kunnen inzetten voor het trainen van hun eigen modellen voor machinelearning. Momenteel biedt Google het gebruik van Cloud tpu's van 180 teraflops publiekelijk aan.

Reacties (26)

drZymo

9 mei 2018 11:00

Misschien even een leuke vermelding hierbij.

Met de vorige generatie hebben ze recent nog een recordje geboekt in het trainen op de "ImageNet challenge".

https://dawn.cs.stanford.edu/benchmark/

Deze benchmark toont hoe lang een team nodig heeft gehad om hun model te trainen zodat het in minimaal 93% van de gevallen naukeurig kan classificeren wat er op een plaatje te zien is. (93% is hoe goed een mens het kan voor deze dataset.)

Nog geen jaar geleden duurde dit meerdere dagen. Google kan dit nu in 30 minuten!! Op een halve pod! Ze claimen het zelfs in 20 minuten te kunnen als ze het opslaan van checkpoints uitzetten.

Eldunari @drZymo • 9 mei 2018 16:17

Als de vorige generatie records neerzet, hou verhoud dit systeem zich dan tov een supercomputer met tesla v100 accelerators. Die zijn toch ook voor een groot deel ontworpen voor tensor operaties?
Is dit verder valt het mij op dat het niet in een server rack lijkt te passen. Waarom hebben ze dat gedaan?

thePiett

9 mei 2018 10:17

De laatste foto rechtsonderin het artikel (half zij-aanzicht van de TPUv3), daar wordt je als Tweaker toch superblij van

Qlusivenl @thePiett • 9 mei 2018 10:25

Onder het mom van "Cable Porn": Super blij is een understatement

Helaas zie je zulke praktijken nog veel te weinig en is het bij sommige bedrijven echt een puinhoop. Vaak in grote private datacentra van grote bedrijven is het wel zo netjes.

Anonymoussaurus

Google

@thePiett • 9 mei 2018 10:34

Dan vindt je dit ook wel leuk: https://www.reddit.com/r/cableporn/

Raindeer 9 mei 2018 10:27

En dan te begrijpen dat Google meestal wacht met het publiceren over haar ontwikkelingen in infrastructuur (Hadoop, serverracks etc.) als ze de nieuwe versie al aan het uitrollen zijn. Met TPU lijken ze wat sneller te zijn met het informeren van de wereld, dus misschien is dit wel de meest recente versie. Toch is het opvallend dat de klant alleen toegang krijgt tot TPUv2 en niet V3.

Wat ik me vooral afvraag is hoeveel stroom dit vreet en waar deze apparaten neergezet gaan worden. Dit zal voornamelijk afhankelijk zijn van de latency richting ons als gebruiker. Veel van de trucs die Pichai liet zijn lijken redelijk latency gevoelig te zijn. Die moeten dus of op het device draaien met die speciale AI chips van de Pixel2 of op een Google Cluster in de buurt. Als het een Google cluster in de buurt is dan kan dat Amsterdam of Groningen zijn, maar zal een hoop stroom vergen.

Verwijderd @Raindeer • 9 mei 2018 10:43

Hadoop is geen Google project. Hadoop komt van origine bij Yahoo vandaan. Google heeft zijn eigen, gesloten, map reduce en bigtable software oplossingen.

rijk0214 @Verwijderd • 9 mei 2018 10:47

Maar Hadoop is wel gebaseerd op de papers van Google https://ai.google/research/pubs/pub62 en https://ai.google/research/pubs/pub51 .

Verwijderd @rijk0214 • 9 mei 2018 10:52

Dat is mij bekend ja. Maar de comment waarop ik reageer wekt de suggestie dat Hadoop een project van Google is.

Cergorach @Raindeer • 9 mei 2018 10:48

Wat ik me vooral afvraag is hoeveel stroom dit vreet

Het enige wat we nu weten is dat het VEEL stroom vreet, 4 CPUs die nu water gekoeld moeten zijn omdat lucht niet meer voldoende koelt, betekend veel stroom door iedere CPU.

Aan de andere kant is de groei van gebruikers en data van gebruikers niet zo snel stijgend als de technologische ontwikkeling. Mijn mails, documenten, etc. zijn niet significant groter dan 10 jaar geleden. Natuurlijk wel steeds meer, maar ik ben een packrat en de meeste mensen zijn dat niet, dus ook hier zal de groei stabiliseren. Hierdoor zou de webserver kant van Google steeds efficiënter moeten worden qua stroom verbruik en zou de enorme groei van machinelearning enigszins gecompenseerd moeten worden. De enige uitzondering is natuurlijk visuele data (video/foto's) die groeien door de pixelmanie natuurlijk wel enorm, zeker voor YouTube erg belangrijk.

Coolstart @Cergorach • 9 mei 2018 11:17

Beetje voorbarige conclusie dat er gekozen zou zijn voor waterkoeling omdat de chips veel verbruiken...

Waterkoeling in server racks heeft als
Voordeel dat je plaats kan besparen, je moet geen koelvinnen opbouwen waardoor je de moederborde dichter op elkaar kan zetten. Ook moet je minder rekening houden met airflow tussen uz racks, je kan ze dus op elkaar plakken met 1cm luchtruimte. Danzij die extra densiteit kan je uw server ruimtes halveren. Via waterkoeling kan je de afgevoerse warmte transporteren naar een koelruimte ipv heel de server ruimte te koelen, dat werkt efficienter maar vooral logischer. Een ander voordeel is dat de ruimte zelf aangenamer door het ontbreken van die honderden fans en blazende airco’s.

Rexus @Cergorach • 9 mei 2018 11:27

De toepassing, machinelearning, is min of meer het balanceren van een complexe formule dmv brute kracht.

Ook is het belangrijk te beseffen dat wij als mensheid kwadratisch meer data genereren. Het doorzoeken van deze data is met mensen niet meer te doen, systemen als deze zullen de logartimes sneller kunnen afspelen waardoor inzichten veel eerder naar buiten komen.

Iblies @Cergorach • 9 mei 2018 12:21

En?

Performance per watt is waar het om draait.
En Google is (helaas) heer en meester in haar vakgebied. Zij zouden als geen ander chips kunnen (laten) bouwen met bijbehorende software om bepaalde diensten te leveren.

En het wordt hier weggezet als AI,
Google kennende is het in eerste instantie voor hun search-engine. Daarnaast kennen ze Google Assist. Door FPGA of ASIC te bouwen met specifiek die functies kun je gruwelijk snel data verwerken in de grootte van tera en zelfs nu petaflops.

Voor geen geld dat je daar Intels wilt gaan neerzetten die goede all-rounders zijn, maar nergens echt goed in zijn. Sterker nog, de kans dat je je geld op korte termijn zwaar terug gaat verdienen als je deze chips voor bepaalde functies gaat gebruiken acht ik groot. Performance ziet er (zeer) goed uit waardoor je minder racks nodig hebt, minder ruimte (kosten), minder personeel.

atlaste @Iblies • 9 mei 2018 12:31

Google kennende is het in eerste instantie voor hun search-engine.

Google kennende kan je niet echt spreken over eerste en tweede instanties. Ze hebben gewoon teams, die allemaal gebruik maken van dezelfde basiscomponenten.

Het zal gebruikt worden voor een grote hoeveelheid diensten dus. Denk aan adwords, search, translate, speech, image search, etc, etc.

burne @Iblies • 9 mei 2018 21:00

En het wordt hier weggezet als AI,

Misschien moet je het artikel eens echt lezen, in plaats van reageren op wat jij denkt dat er staat. Het artikel zegt namelijk heel duidelijk

De eerste versie van de tpu's, die Google sinds 2016 inzet, gebruikt het bedrijf bijvoorbeeld voor zoekresultaten, de beeldherkenning van Photos en spraakherkenning.

En termen als AI en Artifical Intelligence komen niet voor in het artikel. Wie zet nou wat verkeerd weg?

Iblies @burne • 10 mei 2018 10:31

https://cloud.google.com/products/machine-learning/?hl=nl
Zegt Google zelf

De code wordt door code ontwikkeld, er komt steeds minder mensenwerk bij kijken. De chips zijn ontwikkeld met de filosofie vanuit hun bedrijf en bijbehorende diensten.

De grote uitdaging is of er andere partijen zijn die er (commercieel) ook iets mee kunnen doen.

Qlusivenl 9 mei 2018 10:14

Een pod met tpu v3-chips biedt een rekenkracht van 100 petaflops, waar een variant met tpu v2-chips 11,5 petaflops biedt.

Dat is een flink stuk hoger, maar dan komt dit:

Een tpu v2-pod bestaat uit 64 apparaten met elk vier asic-chips die op hun beurt twee cores hebben. Die pods beschikken over 4TB high bandwith memory.

Waarom moeten wij weten waaruit een V2-pod bestaat, of wordt hier toch een V3 bedoeld? (ik denk het wel.. maar het is wel verwarrend zo)

Edit: Aan de afbeeldingen eronder te zien schijnt de V2 in de tekst wel te kloppen. Alsnog raar van Google om niet de specs te vermelden van de V3. Ik kan deze namelijk zelf ook niet vinden. Die van de V2 daarentegen wel.

[Reactie gewijzigd door Qlusivenl op 22 juli 2024 17:47]

jpsch @Qlusivenl • 9 mei 2018 10:20

Denk toch echt de v2 bij gebrek aan v3 gegevens.

Sundar Pichai toonde de tpu v3-chips tijdens de Google I/O-keynote, zonder verdere details over de chips te geven.

Qlusivenl @jpsch • 9 mei 2018 10:20

Klopt, ik was er al achter. Stom dat die specs dan niet worden gegeven, als ze wel het totaalplaatje kunnen geven.

tweakPiet 9 mei 2018 11:01

Als ik de foto's bekijk. Zie ik beelden van computers uit de jaren 60, 70. De mainframes van toen.

Als je dan denkt dat in 50 jaar minituralisatie, we telefoons hebben met veel meer reken kracht als toen. Dan is toch moeilijk voor te stellen, dat dit proces van verkleining blijft doorgaan.

Grappig dat Google zijn diensten aanbied. Net als vroeger bij IBM met zijn mainframes. Maar ja, wie kent BIG Blue nog ...

KingKaas 9 mei 2018 11:23

Zijn er toevallig grote versies van deze foto's beschikbaar (met name degene rechtsonder)

iketot @KingKaas • 9 mei 2018 12:15

https://tweakers.net/i/ni...ZVgKrs=/i/2001965905.jpeg

Als je die foto reverse searched op Google krijg je dit ;

Image size:
1920 × 1080
No other sizes of this image found.

Best raar, want deze afbeelding komt in geen enkel zoek resultaat terug online..

KingKaas @iketot • 11 mei 2018 08:17

Ik was inderdaad specifiek op zoek, maar deze voldoet zeker ook wel!

ieperlingetje @KingKaas • 9 mei 2018 12:19

Hier heb je een high res versie: https://images.anandtech.com/doci/12429/dean-nips17-14.png . En anders kun je ook nog steeds google gebruiken natuurlijk: https://www.google.be/sea...isch&source=lnt&tbs=isz:l

Hukkel80 9 mei 2018 10:13

Pssshhhh niet eens RGB

telskamp 9 mei 2018 17:37

Zo krachtig dat ze waterkoeling nodig hebben of zo inefficiënt?

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (26)

Sorteer op:

Weergave: