1: Ja, deels. Het cluster heeft ongeveer 200 gebruikers. De GPUs worden niet heel veel gebruikt, maar de meeste gebruikers die ze pakken trainen er machine learning modellen mee om seismologische data te interpreteren. Gezien ik zelf geen seismoloog ben, kan ik daar niet echt dieper op in te gaan wetend dat alles klopt wat ik zeg.
Zelf reken ik Gray-Scott simulaties door, om vervolgens met de resultaten andere CPU berekeningen te doen. Zie voor het resultaat een paar youtubejes die ik heb gemaakt:
YouTube: Pattern formation in the Gray-Scott equations.
YouTube: Pattern formation in the Gray-Scott equations.
Het rekenwerk wordt uitgevoerd op een rooster van 4000x4000 punten, wat leidt tot 16 miljoen threads, die onafhankelijk van elkaar hun ding kunnen doen. Die software heb ik zelf geschreven. Die praat dan tegen de CUDA library.
2: Het rekencluster heeft ongeveer 90 compute nodes, waarvan vijf nodes met elk acht GPUs. De nodes hangen Infiniband aan elkaar, en parallelle software kan inderdaad met MPI met naar andere nodes communiceren. Ik heb nog nooit meerdere GPUs gebruikt voor één berekening. Weet eigenlijk niet direct hoe ik dat zou moeten doen. Ik reken mijn modellen uit voor verschillende waardes van bepaalde parameters, en dat zijn genoeg jobjes om single-GPU te draaien, soms met zijn veertigen tegelijk.
3: Niet gebenchmarked. My search engine result is as good as yours

Ik heb dat afknijpen niet getest. De CUDA cores zijn wel single precision, en voor een double precision operatie zijn dacht ik achte single precision cores nodig. De A100, H100 etc hebben volgens mij meer double precision cores, maar dat zijn dan ook stervensduur.
4: Beheerders van cloud diensten verdienen er flink veel geld aan. Als je het zelf
kan beheren, en lang nodig hebt is het goedkoper om dat zelf te doen. Als je het zelf niet kan en uit moet zoeken kan het goedkoper zijn om extern rekentijd in te huren. Bedenk ook dat je een hok nodig hebt waar je thuiscompu staat, waar voldoende stroom moet zijn, en voldoende koeling, die een tyfusherrie maakt. Aan de andere kant, als je tijd zat hebt kan het ook leuk zijn dat uit te vogelen, en plezier is ook wat waard. Als je zoiets zelfs wil doen is dat een uitgebreide afweging van kosten en baten waard, en niet alleen financieel. Hoe lang verwacht je het cluster nodig te hebben? Wat wil je er precies op doen? Afgezien daarvan hebben consumenten-GPUs in mijn ervaring een veel betere bang for buck. In academische kringen is de mening 'koop het hipste waar je geld voor hebt'. Destijds waren dat de 1080TIs. Nu zou ik het niet weten, maar het zou best kunnen dat we een keer een batch 5080s erbij zetten, oid.
[Reactie gewijzigd door hooibergje op 1 juli 2025 16:06]