Hoe goed je berekeningen schalen op het aantal computer cores hangt enorm af van je berekeningen (open deur). Maar wat er veel fout gaat in benchmarks op YouTube is dat alle cores tegen hetzelfde rekenprobleem aan gegooid worden. Vaak gebruik je minder cores per simulatie en voer je gewoon meer simulaties tegelijkertijd uit.
Voor wat meer achtergrond:
Ik gebruik momenteel veel clusters voor mijn wetenschappelijke berekeningen en heb hier nu best veel ervaring mee.
Ik gebruik momenteel regelmatig AMD Milan en Genoa cpu's (op Snellius, zie
https://tweakers.net/revi...t-voor-de-wetenschap.html of Intel Xeon Cascade lake of Sapphire Rapids (Universteits cluster van de TU Delft
https://doc.dhpc.tudelft.nl/delftblue/DHPC-hardware/). Wij zijn naast de AWS's van deze wereld natuurlijk een deel van de doelgroep.
Mijn eigen simulaties schalen ook slecht boven de 64 cores (dat geeft 60% parallel efficiency). Maar dat is helemaal niet erg, ik moet verschillende simulaties tegelijkertijd runnen. Normaal gesproken doe ik er 5 tegelijk met exact dezelfde settings omdat mijn resultaten ook random processen erin hebben en ik zo een foutmarge van mijn resultaten kan berekenen. Daarnaast moet ik ook verschillende situaties berekenen (in mijn geval materiaal voorspellingen met verschillende temperaturen en drukken). Dus ik heb al gauw 8*5 simulaties lopen van 64 cores.
Ik heb ook collega's die wel goed schalende simulaties hebben. Denk aan 10 Snellius nodes voor een enkele simulatie -dus 1920 cores- die nog steeds een 80% parallel efficiency halen. Bij het indienen van een rekenaanvraag bij dit soort cluster moet je vaak ook aantonen hoe jouw software (en specifieke simulatie case) schaalt op het aantal cores en nodes van het cluster. Het voordeel van dit soort hoge core count cpus van AMD is dat het flexibel is voor de workload (van node naar node communiceren is tenslotte altijd langzamer dan binnen één node blijven). Verder is het compacter in de server ruimte, heb je minder netwerkapparatuur nodig en vaak is het per core ook zuiniger dan de alternatieven van Intel.
Al met al wil ik vooral zeggen dat je je niet hoeft stuk te staren op het idee dat veel workloads niet meer schalen bij dit soort extreme core counts. De meeste mensen die er mee werken weten dit en gaan er slimmer mee om dan alle cores voor dezelfde rekentaak gebruiken, terwijl zij die het nodig hebben wel deze grote core counts kunnen gebruiken.
Extra:
Dit is ook waarom het lastig is om dit soort hardware en wetenschappelijke software te benchmarken voor een website zoals tweakers. Echte gebruikers zullen zelf de compiler setting tweaken. Wij testen onze software met verschillende OpenMPI/openMP setups, verschillende compilers (gcc, icc (intel), AOCC (AMD)) en wiskunde library's (Blas/lapack/fftw, OneMKL, AOCL) voor soms zelfs specifieke simulaties. Je kunt van tweakers (of Linus tech tips) niet verwachten dat zij medewerker(s) hebben die voor allemaal specifieke rekentaken van de cloud, financiële en wetenschappelijke wereld weten hoe ze voor dit soort hardware moeten optimaliseren voor de benchmark gedraaid wordt. Voor het runnen van Doom (of Excel) kan dit natuurlijk wel en daarom zijn consumenten hardware benchmarks zo nuttig.
(veel te lange uitleg

)