Ik denk dat het een combinatie van veel factoren is. Uiteindelijk gaat het om het aantal transistoren per vierkante millimeter te vergroten. Dat kan je doen door domweg je gehele structuren te krimpen, wat al gebeurt in de litho-stap. Bijvoorbeeld door de overstap naar chiplets, hoef je minder verschillende structuren tegelijkertijd te printen, wat betekent dat je die stap kan optimaliseren voor maar één patroon, wat een shrink weer iets makkelijker maakt. Dit is maar één voorbeeld hoe je shrink in je litho-stap mogelijk maakt. Overigens zijn transistoren niet eens de moeilijkste structuren om af te beelden. Dat zijn de eerste contactlagen, ook wel metal lagen genoemd. Dat is ook redelijk logisch omdat je per transistor je source, gate en drain moet aansluiten, dus heb je drie structuren nodig per transistor. Dat is echt waar EUV het verschil maakt, zeker een paar jaar geleden, toen het net werd gebruikt.
Naast het kleiner maken van je patronen, kan je ook op een andere manier meer transistoren per oppervlakte maken. Intel had het een tijd geleden over backside power delivery, wat ze powervia noemen. Door de stroomtoevoer aan de achterkant van de chip te maken, hou je meer ruimte over aan de bovenkant voor je routing en je transistors. Je kan dan je layout optimaliseren, waardoor je ook weer iets meer transistors per oppervlakte overhoudt.
Een nog wat basaler concept is slimmere routing te maken door je inrichting beter te doen. Vergelijk het met het tetrissen van je vaatwasser. Als je dat slim doet, kan je meer vuile vaat kwijt in de vaatwasser, terwijl je vaat niet krimpt en je vaatwasser niet groeit. Hoeveel hier nog te winnen valt, weet ik zo niet.
Nog iets wat ik me kan bedenken is dat er vaak meerdere transistoren parallel worden gezet om de juiste stroom te kunnen leveren. Je zou je materiaaleigenschappen zo kunnen tunen dat je minder transistoren nodig hebt in je schakeling, waardoor je schakeling zelf minder ruimte inneemt. Dat betekent dat je voor dezelfde hoeveelheid transistors meer schakelingen en dus rekenkracht krijgt. Dit neemt natuurlijk moeilijkheden met zich mee (zoals alles in de halfgeleiderindustrie), zo moet je nieuwe materiaal bijvoorbeeld goed weg kunnen etsen en resistent moeten zijn tegen tijdelijke verhittingen om de ionen goed te laten settlen (om maar een paar voorbeelden te noemen).
Uiteindelijk denk ik dat een groot gedeelte van de shrink wel zit in de litho-stap, maar of dit 30% of 80% is, durf ik zo niet te zeggen.
Over de grootte van de transistoren, is het een beetje een vraag hoe je het bedoelt. Een transistor bestaat uit meerdere lengte-schalen. Zo heb je de lengte van de gate, de dikte en de hoogte van de fin, enzovoort. Een finFET bestaat uit een superdun stroomkanaal dat als een haaienvin uit het water staat. Bij de basis van de fin is die redelijk breed, maar de tip van de fin gaat vaak richting de 10 nanometer. Er veel shrink is daar de afgelopen tien jaar niet geweest. Die shrink is wel geweest in de afstand tussen naastgelegen fins. Dat laatste is ook precies waar eigenlijk de fundamentele grens ligt.
In de lithografie is er geen fundamenteel limiet op de dikte van de structuur zelf, maar slechts op de afstand tussen die structuren (of om nog correcter te zijn, de afstand tussen het begin van één structuur, en het begin van de volgende. Bij fileparkeren, moet je dan denken aan de afstand van de voorbumper van de ene auto tot de voorbumper van de andere, dat zegt wat over hoeveel auto's je kwijt kan langs een weg).Die afstand wordt de pitch genoemd, en daar slaat de Abbe-formule op, die vaak de Rayleigh-formule wordt genoemd: CD = k1 * lambda / NA. CD is hier eigenlijk die pitch, maar gedeeld door twee, dus je neemt hier aan dat de dikte van de lijn hetzelfde is als de ruimte tussen de lijnen. Zelf zou ik liever zeggen dat pitch = 2 * k1 * lambda / NA, en de minimale k1 is 0.25. Dat zegt direct dat de kleinste pitch die de NXE:3800 theoretisch nog af zou kunnen beelden, 2*0.25*13.5nm/0.33 = 20nm, ofwel lijntjes van 10 nanometer. Dat ASML deze resolutie niet noemt, is omdat deze resolutie theoretisch is en door het ontwerp van de machine al niet meer haalbaar is, of met grote minpunten gepaard gaat, zoals bijvoorbeeld een erg lage productiviteit van de machines. In de praktijk wil je dus ook niet naar de 10 nanometer gaan op deze machine (voor de kenner: hiermee bedoel ik single-expose, dus zonder double patterning).
Een heel verhaal natuurlijk, maar ik denk dat het bovenstaande wel veel context geeft waaruit duidelijk wordt dat een afstandsnaam niet zoveel meer zegt. Als ik door het slimmer tetrissen van mijn transistors ineens 2x zoveel transistors kwijt kan per oppervlak, dan is er niets gekrompen, maar toch lijkt het alsof mijn transistoren ~1.41x zo klein zijn geworden (1.41^2~=2). Verder zijn er zoveel verschillende lengteschalen, dat je niet kan zeggen dat alles bijvoorbeeld 10 nanometer is. Vroeger was daar wat meer structuur in, nu zegt de node-naam van bijvoorbeeld A18 meer over hoeveel de krimp is vergeleken met de vorige nodes. Zo zal de N1 node ongeveel 4x zoveel transistors kwijt kunnen dan de N2 node, en lijkt het alsof de transistors in de lengte en de breedte 2x zo klein zijn geworden.
Als laatste voetnoot wil ik nog even toevoegen dat de node-naam toevallig wel iets zegt over de foutmarge van je proces. Het is absoluut geen wetmatigheid maar meer een observatie/vuistregel, maar bij de N5 node kan je fouten accepteren tot rond de 5 nanometer (wellicht iets groter of kleiner dus tussen de 8 nm en 2 nm, maar wel in die orde-grootte), en bij de N4 node moet je die marge dus zien te krimpen tot 4 nanometer. Hoe dat gedaan wordt (beter afstellen van etsers, betere ontwerpregels voor plaatsing van features, betere controle in de litho-stap) verschilt per chipbakker, en dit is iets wat ze ook nooit prijs willen geven, daar verdienen ze namelijk hun geld mee.