Stability AI komt met Stable Diffusion 3.5-model dat kan draaien op smartphones

Stability AI heeft Stable Diffusion 3.5 aangekondigd. Er zijn drie modellen. Het kleinste model, Medium, is licht genoeg om op smartphones te draaien en kan afbeeldingen genereren met een resolutie tot ongeveer twee megapixels.

Stable Diffusion 3.5 Medium moet zich onder meer onderscheiden door diversere afbeeldingen op een efficiëntere manier te genereren dan andere modellen met dit aantal parameters, ongeveer 3,5 miljard. Dat claimt het bedrijf. Daardoor zouden er geen aangepaste prompts nodig zijn om afbeeldingen van mensen met diverse huidskleuren te genereren.

Daarnaast zijn er vanaf dinsdag Large- en Large Turbo-varianten beschikbaar, met ieder acht miljard parameters. Die zijn iets zwaarder om te draaien. Het verschil tussen de reguliere en de Turbo-versie is dat de laatste sneller is ten koste van wat precisie en kwaliteit, zo claimt Stability AI. Large en Large Turbo staan op HuggingFace. Versie 3.5 komt ongeveer vier maanden na versie 3, die in juni uitkwam.

Stable Diffusion 3.5
Stable Diffusion 3.5

Door Arnoud Wokke

Redacteur Tweakers

23-10-2024 • 07:35

28

Reacties (28)

28
28
19
0
0
8
Wijzig sortering
Wat is nu daadwerkelijk de use case hiervoor?

1x per maand een meme genereren?
In trage momenten (op de bus of metro) genereer ik wel eens fake fotos voor mijn online familie kookboek met Bing.
Omdat de recepten niet meteen vertalen naar de Engelse AI is het vaak experimenteren om de prompt juist te krijgen. Dus meerdere versies tot de coins op zijn...
Dat is één use case.
Niets ten nadele van je online familie kookboek maar hier zijn we dus aanbeland. Ziekelijk veel energieverbruik voor eigenlijk een verveelmomentje.
Tsja. Hoeveel tech is er wel niet to verzonnen omdat het kon, of omdat iemand zich verveelde. Dit is niets nieuws. Gewoon weer het meest recente om over te klagen
Definieer ziekelijk veel energieverbruik? Het draait toch op z'n smartphone? Als je het vergelijkt met Netflixen is het zelfs minder, want geen datacentrum nodig.
En nu komt iemand met, ja maar het trainen. Die Netflixseries moeten ook geproduceerd worden.. Is ook niet uitstootvrij.

Kortom ik ben nog niet overtuigd van het gegeven dat spelen met AI daadwerkelijk zo extreem veel slechter is qua energieverbruik dan (bijvoorbeeld) Netflixen... Iemand hier nog een goed verhaal bij?
Ziekelijk veel energieverbruik voor eigenlijk een verveelmomentje.
Net zoals sport, tv-kijken, een boek lezen ter ontspanning en fietsen op zondagmiddag.
Wel heel specifiek voorbeeld :)

Maar je kunt toch ook gewoon Stable Diffusion thuis draaien, poortje openzetten op je router en dan via de webinterface werken. Dan kun je zo vaak dingen proberen zonder coins.
Nee, zoals gezegd, het draait op een smartphone. Dus meerdere keren per dag een Slechte meme genereren. :P
Vast. Alhoewel het al snel verveeld voor de meesten. Het nut van het gebruik van AI in het algemeen op smartphones ontgaat mij totaal. Zelf doen op smartphone gaat sneller en foutloos.

Real time spraak-vertaling kan nog wel eens handig zijn. Maar ook dat gaat nogal vaak fout. Intypen is een stuk betrouwbaarder.
snel verveeld voor de meesten, ik heb het gevoel dat ik een soort stable diffusion verslaving aan het ontwikkelen ben. Man wat is dat verslavend.
Ik ben wel benieuwd hoe heet mijn telefoon zou worden als dit echt lokaal draait. Mijn computer staat altijd al te blazen als ik het probeer.
Mja, mijn 1080ti staat per afbeelding zo'n 5 minuten te blazen op vol vermogen.
250watt voor 5 minuten is toch 0,021 kWh, oftewel 21 wH. Een Samsung s24 heeft een capaciteit van 19wH. En dat is dan nog maar Flux1 Schnell.

Dus, 1 plaatje, telefoon leeg.
Wat voor resolutie render je dan? Mijn 4070 (laptop variant!) doet 30 steps op 1200*800 op flux.schnell in onder een minuut.
900x1200
Apart, ik heb even zitten zoeken, maar er zitten behoorlijk wat verschillen in de verschillende generaties.
Mijn 1080ti is natuurlijk al best oud, heeft bijvoorbeeld geen tensor cores.
De 1xxx generatie schijnt ook 2 tot 3x zo veel tijd nodig te hebben voordat hij uberhaupt begint (cold start)
Je hebt zeker de betere videokaart hier.

Stel dat ze die 4070 in je telefoon krijgen, even gekeken, deze heeft een verbruik van 115W on load. Iets minder dan de helft van de mijne.
Maar dan nog, alles bij elkaar kun je dan 10 afbeeldingen maken voordat je telefoon leeg is.
Toen ik van een 1080 naar een 4080 ging kon ik mijn resolutie verdubbelen van 512 naar 1024 én ik kon bijna 5x meer iteraties per seconde.
Een 4070 is natuurlijk wel aardig wat generaties nieuwer dan een 1080. Daar zit 6 jaar tussen 😊
Kleine tip.

Met de 1080ti heb je 11Gb geheugen. Probeer de afbeeldingen of memory optimalisatie zo te doen dat je ook echt binnen de 11Gb blijft. Anders ga je je regulier RAM gebruiken. Blijf ik binnen mijn memory limiet heb ik vaak een afbeelding binnen 10-30 seconden. Kom ik in mijn reguliere ram gaat dit snel omhoog naar 5+ minuten.
Is er voor text2img modellen al een manier om op smartphones te draaien? Bij LLMs hoor ik ook steeds vaker deze claim, maar is het moeilijk om op android aan te praat te krijgen.

Tot nu toe is het me alleen met MLCchat gelukt met een kleine selectie aan ondersteunde modellen.

Iemand hier al succes met sd modellen?
Op iPhones is er 'Draw things', die SD 1.X modellen goed aan kan. Verwacht geen heel snelle rendertijden, maar het is er wel :)
Dat zou betekenen dat je ook een versie kan maken die gebruik (lees: optimaler) maakt van iGPU en/of NPU. Dat zou ook fijn zijn :)
Even kijken of ik het goed begrijp, is het een API die eventueel een applicatie kan aanspreken op een Smartphone zodat men foto's kan genereren?
Iemand daar leest Discworld zo te zien aan foto 2 :)
ik mis de olifanten...
+ een zeeschildpad i.p.v. een landschildpad :+
verrek, dat heb ik me nooit gerealiseerd! Toch alle delen gelezen (en herlezen)...
Kan dit de NPU van nieuwere smartphones gebruiken?
@arnoudwokke
"Het verschil tussen de regulier en de Turbo-versie"
"Het verschil tussen de reguliere en de Turbo-versie"

Op dit item kan niet meer gereageerd worden.