Overklokker behaalt ddr4-snelheidsrecord van 6666,6MT/s

Overklokker Bianbao heeft een ddr4-geheugensnelheid van 6666,6 megatransfers per seconde gehaald. Dat is een nieuw wereldrecord. De overklokker haalde deze snelheid met een Crucial Ballistix Max-geheugenmodule en een Renoir-apu van AMD.

Bianbao ddr4-overklok 6666MT/s HWBot
Het HWBot-resultaat van Bianbao

De Taiwanese overklokker gebruikte een systeem met een AMD Ryzen 7 4700GE-apu, een ROG Strix B550-I Gaming-moederbord van Asus, en een enkele Crucial-geheugenmodule van 8GB. Hiermee werd een snelheid van 3333,3MHz behaald, wat gelijkstaat aan 6666,6MT/s.

De gebruikte timings bij de overklok bedroegen 30-27-27-58-127-1. De kloksnelheid van de cpu werd daarnaast verlaagd naar ongeveer 1,89GHz, terwijl de standaard kloksnelheid van een 4700GE 3,10GHz bedraagt. Tegelijkertijd bedroeg de Vcore 1,5V. De overklokker publiceerde het resultaat op HWBot en CPU-Z ter validatie.

Het nieuwe overklokrecord is behaald met behulp van LN2-koeling. Het vorige ddr4-snelheidsrecord bedroeg 6665,4MT/s en stond ook op naam van Bianbao. De overklokker haalde deze snelheid in mei, in combinatie met een Intel Core i9-10900K en G.Skill Trident Z RGB-geheugen. In september 2019 werd voor het eerst een geheugensnelheid van 6000MT/s behaald door Toppc, een andere overklokker.

Crucial Ballistix MAX

Het Crucial-geheugen in kwestie

Door Daan van Monsjou

Nieuwsredacteur

22-08-2020 • 17:19

69

Reacties (69)

69
65
45
8
1
8
Wijzig sortering
Maar wat is de winst als de kloksnelheid van de processor zo'n 40% lager is :?
Wat voor programma's hebben hier een voordeel aan of is puur om het overklokken van het geheugen :?
Dit is puur een recordpoging om een zo hoog mogelijke geheugensnelheid te krijgen. Daarvoor worden extreme middelen ingezet en andere zaken bewust vertraagd om de geheugencontroller van de cpu het te laten aankunnen.

Geen enkel voordeel voor bepaalde programma's of workloads. Gewoon voor de sport.
Een belangrijk onderdeel van de lol is dat je er een hoop publiciteit mee krijgt. Het nieuwe record is welgeteld 0,018% sneller dan het oude record (6666,6 versus u 6665,4 MHz), maar dat is niet waar het om gaat. Bij wereldrecords in de sport gaat het er ook vooral om dat je de recordhouder bent; niet zozeer om hoeveel beter je bent dan dan vorige recordhouder.
Het is duidelijk dat deze recordpoging een grotere suczes-factor heeft en hierdoor nieuwswaardig is.

Zo ver overklokken zou je exzesief kunnen noemen. De hardware begeeft het vaak na enkele uren. Ook het systeem uitzetten of ontdooien is vaak fataal.
liquid nitrogen is ook niet iets wat je constant door je systeem wil laten stromen
Ah, dat is dus de LN2 uit het bericht.
Dat hoort officieel ook N2(L) te zijn. Althans, volgende de scheikunde regeltjes.
Daar gaat het niet om bij een wereldrecord geheugensnelheid, geheugensnelheid in mhz is het enige wat telt, hetzelfde bij extreme cpu overclocks, dit is geen systeem voor hedendaags gebruik, puur voor de overklok.
hoe komt je eigenlijk aan high quality memory reepjes,

is dat gewoon kopen en kijken welken het snelst zijn of hebben deze gasten contact met de geheugen fabrikanten en krijgen ze cherrypicks aangeleverd.
Die krijgen wel golden samples ja. De overclock scene is gratis reclame voor componenten fabrikanten. Het is in hun voordeel om zo goed mogelijk voor de dag te komen. Ook bij product presentaties zijn vaak 'toevallig' erg sterke componenten aanwezig. En de bekendere review clubs op YouTube mogen de gouden rakkers vaak even lenen.
Behalve dat dit een gevalletje “gewoon omdat het kan” is... Is hier ook nog een use case scenario voor?
Ja, maar het is wel vrij extreem.

Wij hebben een systeem dat moet rekenen met extreem grote getallen. Een paar honderd miljard hier en daar kijken we niet van op. In dat systeem is snel geheugen een duidelijk voordeel, en winnen we veel tijd door de CPU te underclocken en het geheugen te overclocken. Dat systeem heeft overigens 512 Gb aan geheugen.
Over hoeveel tijd spreken we dan? Minuten, uren, dagen?
Thx! Duidelijk antwoord!
512GB dat is verdomme me HD in me MBP :9

Maar netjes uitgelegd _/-\o_
Totaal niet. De timings zijn dramatisch, De cpu prerstaties meer dan gehalveerd en het voltage dermate hoog dat het af te raden is voor langere tijd en ook de stabiliteit zal matig zijn.
Timings dramatisch, vind ik voor geheugen wat zo ver buiten zn specs werkt wel mee vallen.

Vergeet niet dat die timings in verhouding staan met de clocksnelheid. 2x zo hoge timing bij 2x zo hoge clock = zelfde accestime (maar dan met 2x zo veel bandbreedte).
Meh, het kan erger. Als je kijkt naar mijn setje dat nu op (even voor het makkelijk) 3800 draait dan is de som voor true latency als volgt: 15:1900x1000=7,89ns. Het geheugen hierboven is dan: 30:3333x1000=9ns true latency. Als je dit vergelijkt met die walgelijke Corsair setjes uit de budget bak dan valt het nog best wel mee. Die setjes doen ergens tussen de hoog 9ns en 12ns. Enige wat we niet weten is wat de secundaire en tertiare timings etc. zijn, helaas vermelden ze dat niet. Dat kan ook nog enigzins impact hebben :)

[Reactie gewijzigd door NotLikeTheOther op 23 juli 2024 08:55]

Hoge bandbreedte voor de ingebouwde GPU zodat deze ook op 4k kan gamen?
Niet echt maar dat is ook niet relevant. Voor auto racen is ook geen use case en toch kijken er hele volksstammen naar.
Autoracen heeft wel een geschiedenis van het pushen van innovatie waarna deze in een andere vorm in productie auto’s wordt gebruikt. :)
Dat is waar, en gaat hier natuurlijk ook op.

Misschien niet het overclocken zelf maar wel bij het maken van deze (van zichzelf al) super snelle chips.

Dit soort chips is ook weinig markt voor zonder de vraag van enthousiastelingen, dus in die zin zorgt het er voor dat de makers er geld in willen stoppen, wat voor ons allemaal wat oplevert (uiteindelijk).

[Reactie gewijzigd door watercoolertje op 23 juli 2024 08:55]

Eigenlijk doel ik op wat @Stein03 zegt. In de autosport zie je ontwikkelingen waarvan bepaalde zaken ook relevant zijn of bijdragen aan de ontwikkeling van de reguliere auto. Is dit hier ook het geval?

Van wat ik nu begrijp niet echt.
Dit is materie waar ik verder niet echt bekend mee ben en was dus oprecht benieuwd of dit dan verder nog interessant was anders dan dat het kan.
notepad copy paste gaat super lekker. hehe
Grote brokken data verplaatsen door het geheugen.
Hoge mhz met zeer hoge lacties. Op deze manier kan je nauwelijks spreken van snelheid. En waarschijnlijk is het systeem ook nog eens niet bruikbaar stabiel.
Die "hoge timings " zijn in absolute tijd mogelijk zelfs sneller dan de fabrieksinstellingen hoor.
geheugen 185,2% sneller
30 vs 16 187 %
18 vs 27 150%
38 vs 58 152%

edit: De CAS latency van sdram 100mhz is maar 2 :+

[Reactie gewijzigd door Tazzios op 23 juli 2024 08:55]

Die timings zijn in Clock cycles (want Synchronous DRAM). Als sneller geheugen dus 30 cycles nodig heeft tov normaal 16 dan moet je dat dus delen door de frequentie om de absolute performance verschillen te zien.

Waar de overclock op de Clock dus 85,2% is de werkelijke performance dus maar 2%, want je hebt meer clockticks nodig (bijna dubbel zoveel) voor dezelfde actie. Derhalve is dit helemaal niet zinnig voor de performance, maar puur voor kicks.

De originele timings van dit geheugen zijn: 16-18-18-38 in clocksycles (https://eu.crucial.com/memory/ddr4/BL2K8G36C16U4B)
tov 30-27-27-58 betekent het dus dat je een Clock verschil van minimaal +87% moet hebben om überhaupt een verschil te hebben in absolute tijden. anders heb je nog steeds niks. De performance lijkt dus slechter te zijn dan af fabriek.

[Reactie gewijzigd door supersnathan94 op 23 juli 2024 08:55]

Maar dan heb je toch alleen maar over latency? De gegevensoverdracht zal dan wel weer veel meer zijn dan alleen latency, er gaat immers per clockcycle meer data door.
Ah zo. Nee de busbreedte is nog steeds gelijk. De hoeveelheid data per seconde wordt hoger, maar de hoeveelheid data per tik blijft hetzelfde. De geheugen bandbreedte is te berekenen door MegaTransfers per second maal bus breedte. Die laatste is weer afhankelijk van de gebruikte memory controller. Typisch is dit tegenwoordig zo’n 512bit maar pin me daar niet op vast.

Dat is echter het theoretische limiet van het geheugen en de som van de eerste 4 latency getallen geeft je het aantal tikken die het duurt voordat je klaar bent met 1 read/write actie.

De daadwerkelijke hoeveelheid die je verstoken kan is dan dus in principe de bus frequentie (3333 MHz) maal 2 (want Double Data Rate) gedeeld door de som van latencies (tijd dat een actie kost) maal de busbreedte (dus hoeveel data er per keer over de lijn gaat) maal het aantal channels (dual channel geeft dus letterlijk 2 maal zoveel bruikbare bandbreedte). Dan heb je dus het praktische limiet van je geheugen te pakken.

Disclaimer: dit is een versimpelde weergave om het wat duidelijker te maken. In de praktijk heb je nog een aantal variabelen die van invloed zijn.

Edit: typo

Addendum:
Overigens zou je dus kunnen zeggen dat als je meer performance wil je er gewoon meer channels tegenaan kunt gooien. Dat klopt echter is dit in de praktijk erg lastig doordat je met space constraints zit. Op dit soort snelheden is de conductor length enorm belangrijk. Enige vorm van afwijking daarin (dus zeg een trace die iets lnger is) zorgt voor instabiliteit. Daarom is RAM vaak symmetrisch rond de CPU geplaatst, en hebben de binnenste banen rare zigzag patronen. Hierdoor is de lengte van die baan gelijk aan die van de buitenste banen (die wel direct lopen). Daarom zie dus niet zomaar octa channel consumenten bordjes.

[Reactie gewijzigd door supersnathan94 op 23 juli 2024 08:55]

Nouja, niet echt. Een DDR4 chip is intern opgedeeld in meerdere banken: DDR4 chips hebben in de regel 8 of 16 banken. Die kunnen, met enige beperkingen, commando's parallel uitvoeren. Enigszins vereenvoudigd: als jij een lees-commando voor een adres in bank 0 stuurt (die een burst van 4 kloktikken/8 columns verscheept), kan jij 4 kloktikken later een lees-commando versturen voor een adres in bank 1. En 4 kloktikken later weer eentje naar bank 0 (of afhankelijk van je "bank groepen" ook naar e.g. 2, 4,...) Het eerste woord aan data van bank 1 komt dan netjes 4 kloktikken na het eerste data-woord van bank 0 aan.
De CAS latency bepaalt hoeveel tijd er zit tussen het versturen van de leesactie naar bank 0 en het ontvangen van het eerste bitje data, maar als die CAS latency eenmaal is verstreken kan je door commando's naar verschillende banken te sturen de data bus continu bezig houden.
De uitdaging voor de memory controller is om zo gunstig mogelijk die lees en schrijfcommando's te plannen voor de verscheidene banken, om de data bus maximaal te benutten. Ondanks een CAS latency van 30 kloktikken kan je dankzij die parallelle banken nog steeds je data bus voor 80-90% benutten.
Die vier kloktikken afstand tussen twee lees-commando's is overigens vastgelegd in de CCDs (column to column delay, short) latency. Op het moment dat CCDs hoger wordt dan vier kloktikken, terwijl een "burst" 4 kloktikken aan data blijft bevatten, is het niet langer mogelijk je data bus maximaal te benutten, tenzij de DRAM DIMMs meerdere ranks bevat. DRAM fabrikanten zullen er alles aan doen om die latency dus niet verder op te laten lopen.

Voor de nieuwschierigen: de vereenvoudiging die ik heb gemaakt is het weglaten van "activate" en "precharge" commando's, die het timing verhaal wat complexer maken. Maar ook die commando's kunnen voor verschillende banken parallel worden uitgevoerd.

[Reactie gewijzigd door RSpliet op 23 juli 2024 08:55]

Correct maar dat maakt voor de uiteindelijke snelheid tijdens overclocken niet uit. Je hebt namelijk niet ineens meer banks ter beschikking. Dat is een beetje het idee wat ik probeerde over te brengen. Overclocken heeft geen effect op de vaste dingen.
Je hoeft ook niet meer banken ter beschikking hebben. Voor de maximale doorvoersnelheid met DDR4 zijn maar 2 banken nodig, eentje in elke bank groep. Verhoog jij tCCDl voorbij 8 (wat netaan gebeurt bij de snelste DDR4 chips), dan heb je 3 banken (/bank groepen) nodig. Voorbij de 12 zijn dat er 4. DDR chips hebben soms 8 banken in 2 groepen, maar de meesten bevatten 16 banken in 4 groepen. Prima dus voor de doorvoersnelheid zelfs als tCCDl omhoog moet.
Verdubbel jij de klok, en verdubbel je ook de CAS, RCD, RP, RRD, RTP, tFAW en zelfs de tCCDl latencies, dan haal jij nog steeds bijna dubbel de doorvoersnelheid uit je RAM, mits de chips op de DIMs 4 bank groepen heeft. Pas als tCCDs wordt aangepast gaat het ten koste van je bandbreedte.

[Reactie gewijzigd door RSpliet op 23 juli 2024 08:55]

er gaat immers per clockcycle meer data door.
Neen, niet per clockcycle, maar het klopt wél als je per seconde bedoelt ipv per clockcycle.
De performance lijkt dus slechter te zijn dan af fabriek.
Performance omvat timing, maar ook bandbreedte. En hoewel de timing hier niet beter zijn (want daar ging het ook niet om) is de beschikbare bandbreedte wel beduidend hoger.
Maar niet hoog genoeg om de timing offset op te heffen. De bandbreedte is niet dusdanig veel hoger dat dit werkt. De bandbreedte is namelijk evenredig afhankelijk van de clockfrequentie?

De verhoging in bandbreedte (Transfer-rate) heb je dus niet zoveel aan.
Maar niet hoog genoeg om de timing offset op te heffen.
Dat zal helemaal liggen aan je workload. genoeg taken die helemaal niet latency, maar wel bandbreedte gevoelig zijn.
Men vergeet vaak dat de "algemene" snelheid bepaald wordt door de CPU. Een geheugen stick is een stuk gereedschap voor de rest van het systeem.
Je kan net zoveel klooien met voltages multipliers of timings dat je wil maar als de rest van het systeem er niks mee doet gebeurt er weinig.
Je systeem wordt niet sneller met meer bandbreedte net zoals een autosnelweg niet sneller wordt hoe meer auto's erop rijden.
Je kan wel 20 banen naast elkaar bouwen maar een afrit is nog steeds max 1-2 banen breed.

Snelheid is een synergie tussen alle componenten en om heel eerlijk te zijn is geheugen vaak een onbegrepen concept.

Een moderne voorbeeld is de AMD infinity fabric. Als je het ram hoger klokt als het infinity snelheid dan zal je hele systeem prestatie in elkaar storten omdat je niet 1 op 1 zit met je ram.
Derhalve is dit helemaal niet zinnig voor de performance, maar puur voor kicks.
single channel memory en
De kloksnelheid van de cpu werd daarnaast verlaagd naar ongeveer 1,89GHz, terwijl de standaard kloksnelheid van een 4700GE 3,10GHz bedraagt.
da's wel duidelijk :/
Mja maar die cpu terugclock kan natuurlijk voor power beperkingen op de VRM’s worden gedaan. Doordat je CPU undervolt kun je ws ram stabieler van power voorzien. Tenminste. Dat is een gokje van mij.

Kans is dat ie met stock speeds het RAM niet stabiel krijgt.
dat zou kunnen, de 4700GE is trouwens een OEM-versie die niet los te krijgen is met een lagere baseclock en veel lager TDP dan de reguliere 4700G, wat een opmerkelijke keuze is om dit record neer te zetten, maar da's eerder bijzaak in dit memory-only record
Klopt ja. Is een relatief nieuwe SKU, met de beperking dat ie in eerste instantie alleen nog aan OEMs geleverd wordt. Ding heeft een tdp van uit mn hoofd 35W?

Baseclock is dus fiks teruggeschroefd (minimum van 3.1Ghz standaard). Ik kan alleen niks vinden over de default Vcore.
TDP is idd 35W, de vcore die ik bij wat rondlezen het meeste tegen kom is 1.425V, maar da's telkens OC'ed. Een engineering sample dat op 4.3Ghz draaide kreeg 1.296V en op 3Ghz zelfs maar 0.852V (ook op een rog strix b550), dus ik gok iets rond de 0.9V base.
Oh wauw. Dan is het wel apart dat we het hier hebben over een Vcore van 1,5V. Zou dit dan te maken hebben met een poging de memory controller meer ruimte te geven binnen de power constraints? Dus CPU eigenlijk hard bottlenecken zodat ie niet per ongeluk de memory controller wegdrukt uit een high power state ofzo? Ingewikkeld verhaal dit.
Er is geen default vCore
Er is geen harde default, maar vaak wel een range met daarin een optimum.
De LN2 koeling is ook niet voor de gemiddelde huis tuin en keuken gebruiker.

Dat is ook allemaal gewoon niet het doel van records zetten wat je noemt.
Maar daar gaat het niet om in wereldrecords, daar moet je alleen de benchmarks kunnen voltooien, appels en peren.
Ik snap de afbeelding niet helemaal. Daar gaat het over 3333,3 MHz. Dat is dus maal twee voor Transfer Rate (want Double Data Rate), maar vervolgens zien we alleen een CPU-z screenshot van het CPU deel en niet de Memory info. Neem aan dat dat juist de interessante gegevens bevat? Is die ook ergens vindbaar?

Overigens zijn deze timings niet per se om over naar huis te schrijven: 30-27-27-58-127-1

CL van 30 is echt hoog. Ook in vergelijking met de snelheid. DDR4-4800 zou maximaal 19 moeten geven. Terwijl DDR4-1600 tussen 10 en 12 zit.
Vooral tRAS is enorm hoog met 127 cycles (tijd die het geheugen moet wachten voor het een volgende actie kan gaan doen). De hogere clocks lijken voor nu dus averechts te werken mbt to performance. Opzicht niet erg voor een prestigeprojectie.


Edit: Dat is geen tRAS time zie ik nu, er zijn nog extra waardes tov normale aanduiding dus dan werkt "een na laatste getal" niet XD.

[Reactie gewijzigd door supersnathan94 op 23 juli 2024 08:55]

Hier een link naar de volledige CPU-Z-listing. Ik zal die volledigheidshalve ook aan de tekst toevoegen :)

EDIT: ik heb ter verduidelijking even de CPU-Z-screenshot met processorinformatie uit de afbeelding geknipt, zodat alleen de '3333.3MHz' en de eerste plaats op HWBot zichtbaar zijn.

[Reactie gewijzigd door AverageNL op 23 juli 2024 08:55]

Ah thanks.

Daar staan namelijk ook de specificatie van de timings onder:
30-27-27-58-127-1 (tCAS-tRC-tRP-tRAS-tCS-tCR)

Voor diegene die daar nog niet echt zicht op heeft wat dat betekent:
tCAS: CAS Latency. De tijd dit het kost tussen het versturen van het commando naar het geheugen totdat het geheugen begint met antwoorden. Eigenlijk dus de tijd tussen CPU die zegt "hee ik heb dit nodig" en RAM dat zegt "oké hier komt het".
tRC: RAS to CAS Delay. Ram werkt door spanning op een cel in een matrix. Deze time geeft het aantal cycles aan tussen het activeren van de Rij ( RAS (Row Address Strobe) ) en het activeren van de Kolom ( CAS (Column Address Strobe)) waar de data is opgeslagen in de matrix. (waarom dat ook CAS heet weet ik niet)
tRP: RAS Precharge. De tijd dit nodig is tussen het uitzetten van toegang tot een data rij en het starten van toegang tot een andere rij
tRAS: Active to Precharge Delay. Hoe lang het geheugen moet wachten voordat het weer een nieuwe activatie kan doen
CMD: Command Rate. Tijd tussen memory chip activatie en wanneer het eerste commando naar het geheugen gestuurd kan worden. Soort boot tijd. gebruikelijk is 1T (1 clock cycle) of 2T (2 clock cycles).


Dit artikel verduidelijkt ook de volgorde van de acties wat meer. In principe moeten alle stappen hierboven uitgevoerd worden voor een succesvolle read of write naar RAM. https://www.hardwaresecrets.com/understanding-ram-timings/


Ik vraag me echter af wat er met de tCS en tCR timings wordt bedoeld.

ander artikeltje:
https://www.masterslair.c...cas-ras-tcl-trcd-trp-tras
Toch een vraag, is er een bepaalde reden waarom er voor een renoir APU is gekozen? Heeft dit bepaalde voordelen tegenover de 10900k of is het gewoon toeval?
Een betere geheugen controller op de CPU waarschijnlijk.
Wel, vanaf je een echte sprong wil maken in DDR4 kloksnelheden wordt het wel aangeraden om een hedendaagse CPU Architectuur en geheugencontroler te gebruiken, Stein -- Intel heeft daar de dag van vandaag vrij weinig mee te maken.
Ik snap dit nooit zo. Ik stel me dan de vraag waarom, wat is het praktisch nut?! Is het puur het “kijk eens wat ik kan”?

Maar goed, ieder zijn pleziertje ;)
Zo hard als Max op het circuit van A naar B gaat, gaat ons in het dagelijks verkeer ook niet lukken.
https://www.youtube.com/watch?v=pqx2cydjOjA

voor de rest die overclocken intressant vind
Vergeet niet dat het gebruikte ram 5100MT/s is. Dat is ook al stukken hoger dan de door ons gebruikte 32/3600MT/s
Zeg maar een duivels record :)

Op dit item kan niet meer gereageerd worden.