Ik denk dat:
- Deep Learning (doen we al 15+ jaar in de vorm van CNN-achtige technieken)
- Transformermodellen (TNN achtigen)
- De taalmodellen
- De generatieve beeld/video/gaussian modellen
Inderdaad echt wel blijven. Alleen denk ik dat er momenteel:
- Een mismatch is in de bruikbaarheid, denk aan hoe snel men nu tegen tokengrenzen aankomt, een beperking die de hyperscalers moeten instellen omdat ze de capaciteit gewoonweg niet hebbe
- Een mismatch is in de kosten (gratis tot €20/maand dekt het niet)
- Een mismatch is in de vraag (wát het doet is niet waar mensen eigenlijk om vragen, verwijzend weer naar bruikbaarheid: voor bepaalde specialisten zoals een programmeur die de waarde kan inschatten kan het nuttig zijn, maar vibecoden wordt daarna vaak al snel troep opruimen omwille van maintainability, en dat is vanuit het specialisme programmeren, er zijn meer specialismen waar de LLM's in zuigen)
Laat ik het ook even omdraaien. Stel je bent een LLM gebruiker. Iedereen die "zelf host" weet (
YouTube: This Local LLM Looked Smart Until I Saw What It Made Up -- goede check) weet HOE immens groot zelfs een specialisten model is á la codex: zelfs al sloop je alles zoals Harry Potter, LOTR, Star Trek, en meer er uit zodat het model écht alleen kan programmeren en frameworks "kent", is een 128GB inference node (dus dan heb je het over €5000 kostende machines MINIMAAL) niet sterk genoeg. De capaciteitswensen zijn voor de hyperscalers niet wezenlijk anders. En generieke modellen zijn OOK niet wezenlijk anders. En trainen is een heel ander, exponentieel veel groter probleem.
Laat ik het zo zeggen. Als ik een X, Meta, Google, Microsoft, Oracle, of OpenAI ben dan moet ik per 3 gebruikers MINSTENS één zo'n 128GB kaart kopen. >ALS< die 3 gebruikers allemaal €20/maand gaan betalen krijg ik €60/maand voor die kaart. De node waar die kaart in zit kost me echter niet €5000, maar, omdat ik hem moet laten draaien, wat reserve moet hebben, en nog meer zaken, kost het ding me eerder €50.000. Ik moet dan dus 833 maanden die machine verhuren wil ik die €20 dekkend laten maken. Dat kan nooit uit. Advertenties dekken dat ook niet. Ik heb wel de hoop dat hardware beter wordt, zodat het draaien goedkoper wordt (maar zoals iedereen die al 15 jaar+ CNN's uitvoert weet: zodra je meer rekenkracht hebt wil je er ook meer mee doen, dus train je een nieuw model, en geef je een ander model meer kunstjes/scope/tokens), maar dat blijkt nu heel erg tegen te vallen, zeker nu hardware nóg duurder is geworden. EN die €20 klanten blijken niet eens €20 op te leveren: een paar proberen even het €200 abonnement, maar gaan daarna weg naar een concurrent/zakken af, en een hoop mensen die ik probeer te lokken proberen het "even" gratis...
We zitten nu in zo'n cyclus dat computers die ooit UIT de rekencentra zijn gekropen, er nu weer >IN< kruipen, niet realiserende dat de aard van het beestje betekend dat ook de terminal van weleer nu duurder is door dat zelfde rekencentrum. Daarnaast is het heel lullig ook een vergelijking, die veel "lange termijn bewuste" mensen die doorgaans aan het begin van de Rogers' innovatiecurve zitten maken (en dat heb ik al gedaan... en velen met mij, die DGX spark ging hard, oude Radeon Mii's gaan heel snel, macmini's verkochten hard... zelfs de RTX3090 is duurder geworden sinds de introductie 6jr geleden):
- Ik kan iets REDELIJKS krijgen voor €200/maand, maar na een jaar heb ik €2400 betaald, en na 3 jaar ("hardware vervang moment" voor velen nog) ben ik €7200 armer en heb ik effectief NIETS als ik het abo opzeg
- Ik moet men er maar op vertrouwen dat die €200 ook echt €200 blijft
- Ik kan nu die €5000 uitgeven en "goed genoeg" resultaat krijgen, en na verloop van tijd juist méér keuze krijgen
- Na 2 jaar en één maand heb ik break even, en alles daarna is winst, en mogelijk doe ik er door dingen als TurboQuant: Redefining AI efficiency with extreme compression nóg langer mee.
En daar zit denk ik de bubbel. AI zal wel blijven. Hyperscalers en het doordrukken in ALLE systemen blijven hopelijk niet. Dat laatste natuurlijk ook omdat het niet te betalen is voor hyperscalers (zoals je nu ziet hoe men bij de nieuwe Gemini een hele week aan tokens in 5 queries er doorheen blaast, wat een hoop mensen pissig maakt terwijl een DGX Spark in een rekje op zolder vrolijk doorpruttelt en binnenkort een weer een nieuw qwen model helemaal offline kan draaien)