Incyte Genomics Linux cluster met 2000 CPU's

berg bracht een linkje naar dit artikel van Linux World, over de 2000 processors tellende Linux boerderij van Incyte Genomics. Deze data mining toko verkoopt rekencapaciteit aan bedrijven die genetisch onderzoek verrichten. Dankzij het gebruik van een Linux cluster met goedkope PC's kan Incyte tegen een fractie van de kosten een hogere capaciteit bieden als bij het gebruik van high-end Sun en Alpha systemen:

The upshot is that Incyte can do jobs that would have been absolutely financially unthinkable before. The company now has about 20 farms with up to 200 processors each. Each farm behaves like a supercomputer, at about one-hundredth of the price -- or less. These farms can do those five-and-a-half-year gene sequencing projects in six weeks, which is faster than anyone else in the world. And if you've been following the news, you know it's pretty much a flat-out race right now to sequence and patent genes. Incyte's biggest competitor, Celera, recently crowed that at 298 processors, it had the biggest clustered network outside the Department of Defense. Stu Jackson just shakes his head. Incyte has 2,000 machines in its clustered network this week, and will have perhaps another 500 by the end of March. Slapping in a new farm is as easy as, say, getting a new client.

Lees meer

Reacties (21)

Verwijderd 30 maart 2000 12:34

Ik weet niet hoe ze al die dozen aan elkaar geknoopt hebben, maar ik bewtijfel of de performance echt nog op supercomputerniveau is als er veel data heen en weer moet tussen de verschillende dozen.

Waarschijnlijk is dat de grap. Datamining kan heel erg goed opgesplitst worden in allemaal onafhankelijke pakketjes (a la setiathome), waardoor de performance lekker schaalt met het aantal dozen. Voor dit soort toepassingen krijg je dan wel een uitstekende prijs/prestatie verhouding. Even kijken, een 256 processor SGI Origin 2000 kost ongeveer 30Mf (plusminus 10). 256 linux dozen (a 4 kf het stuk) kosten ongeveer 1Mf. Wat voor beiden het onderhoud kost om de boel draaiende te houden weet ik niet, maar ik kan me voorstellen dat SGI duurder is...

Dat over de grootste cluster betwijfel ik. Intel heeft voor het Department of Energy een 10000 CPU systeem gebouwd in een vorm dat eigenlijk een cluster is, maar wordt gepresenteerd als supercomputer.

balk

30 maart 2000 12:48

offtopic:
Ik heb me er nooit in verdiept, maar kan ik thuis ook twee ouwe 486's clusteren? En hoe doe je dat dan? moet je dan printerpoorten aan elkaar knopen oid? of gewoon via een eth kaartje? Wat is 'de idee'?

php 30 maart 2000 12:50

In mijn optiek is de grootste (man-made) supercomputer het RC5 of het Seti project. Wat maakt het nou uit WAAR die computers staan en HOE ze het werk doen en transporteren, als het werk maar gedaan wordt.
In plaats van getalletjes en aardstralen crunchen, kunnen we net zo goed DNA op een rijtje krijgen. Heb je hetzelfde effect.

Verwijderd 30 maart 2000 13:25

Balk: Met Linux en de BeoWulf packages is het mogelijk om een BeoWulf of CoW cluster op te zetten via je NIC. Heb ik met een vriend ook gedaan: We hadden een P3, k6-450 en een k5-200 aan elkaar geknoopt. Enige nadeel is dat het 10Mbit netwerk de datastroom niet aankan zonder een switch. De performance was al met al best goed.<br><br>
Zie de BeoWulf howto voor meer info

ACM Software Architect 30 maart 2000 13:33

Remedy: Bij mijn weten, zou je de boel niet hoeven te herschrijven als het een zogenaamd Beowulf cluster is... Alleen maar een erg multithreaded programma (dnetc bv).
Balk: Je kunt in principe best je 486's clusteren, zeker met de Beowulf software, moet je er alleen wel multithreaded software op draaien. En dan maakt het op zich niet uit wat voor netwerk je hebt, zolang het maar TCP/IP ondersteund

(Wel hoe sneller hoe beter)
url is dacht ik www.beowulf.org
Fetherlite: Eigenlijk is het principe van een 256 CPU multiprocessor hetzelfde als van 256 aparte machine's... Voordeel van die eerste is dat er waarschijnlijk een sneller netwerk tussen de CPU's en geheugen zit. Alhoewel als je een 2.5Gbit netwerk tussen je losse PC's zet, dan is er maar weinig verschil denk ik

Maar wel grappig dat ze allemaal niet weten wie nou eigenlijk het grootste cluster heeft...
Nahja, laat ze dat zelf maar uitzoeken. Ik had ook wel es gehoord dat alle PC's in het intel netwerk "geclusterd" zijn voor het simuleren van een nieuwe processor... Ik weet niet hoeveel dat er zijn, maar ook wel vrij snel lijkt me.

Verwijderd 30 maart 2000 13:48

ACM : Afhangkelijk welk cluster je kiest moet je de software wel herschrijven of niet.
Als je kiest voor een load balancing cluster met bijvoorbeeld "Mosix" (zeer gelimiteerd en kan niet 1 process over meerdere clients versprijden) hoef je niets te herschrijven alleen bij de kernel een module inbakken en daarna kan je applicities zelf of mbv distributie software over het geheugen en de cpu van een client laten draaien. Wanneer je met beowulf aan de slag gaat zal er wel degelijk iets met de software moeten gebeuren, als je een programma start wat niet voor die cluster software is geschreven zal er niets gebeuren, dit cluster moet wel worden aangesproken, de verdeling van de nodes en hun belastig gebeurd dan weer met een ander programma, die monitord de balasting van de nodes en verdeeld op deze manier de belastig zo goed mogelijk.
Het netwerk is hierbij echter heel snel de bottleneck aangezien er ontzettend veel controle verkeer over en weer gaat, een 100mb netwerk switched netwerk is dan ook zeker nodig om bij >100 clients nog wat performance te halen.

Verwijderd 30 maart 2000 14:13

ACM:

Er blijven toch nog wel wat verschillen over als je een Gbit netwerk als verbinding gebruikt. Weliswaar is dan de bandbreedte groot, maar de latency is natuurlijk nog steeds bedroevend. Afhankelijk van de toepassing kan het wel een zeer effectieve oplossing zijn om een cluster goedkope dozen aan elkaar te hangen met een snel netwerk.

Heb je het echter over programmas waarbij alle verschillende threads bijna random in hetzelfde grote blok geheugen moeten lezen en schrijven, dan wint een 'echte' supercomputer op zijn sloffen.

Verwijderd 30 maart 2000 19:50

Incyte Genomics verkoopt niet zo zeer rekencapaciteit, maar juist database-informatie. Er zijn evrschillende publieke databases met daarin heel erg veel informatie over DNA- en eiwit-sequenties. Deze databases zijn vaak gekoppeld aan databases met literatuur-informatie en medisch/biologische informatie. Een goed voorbeeld hiervan zijn de databases van www.ncbi.nlm.nih.gov/ (ik vraag me af wat zij voor machines hebben staan)
De databases van Incyte bevatten nog een stuk meer informatie dan de publieke databases. Aangezien informatie ook in de moleculaire biologie steeds belangrijker wordt, is het een groot voordeel als je kan beschikken over de meest uitgebreide databases. Om gebruik te kunnen maken van de Incyte databases, moet je zeer veel geld neertellen (vele miljoenen op jaarbasis). Toch is het voor grote farmaceutische bedrijven (zoals Organon) de moeite waard, omdat je met de beschikbare informatie een hoop tijd kunt besparen, en tijd is geld voor een bedrijf dat snel nieuwe therapeutica op de markt wil brengen. Voor universiteiten is het helaas onbetaalbaar.

Dat voor al dat database werk krachtige machines nodig zijn, merkt je al wel uit de newsposting.

Groeten van Vossie

Verwijderd 30 maart 2000 12:19

Als we eens wat geld inzamelen om wat tijd te kopen voor wat baaltjes hooi

Verwijderd 30 maart 2000 12:20

hmmz....

een fractie van de kosten???

bedoel je : voor weinig doekoes veel

???

AFHUREN!!!

(maaruuh, wat kost dat normaal eigenlijk zo'n clustertje afhuren??

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (21)

Sorteer op:

Weergave: