Stability AI komt met Stable Diffusion 3.5-model dat kan draaien op smartphones

Stability AI heeft Stable Diffusion 3.5 aangekondigd. Er zijn drie modellen. Het kleinste model, Medium, is licht genoeg om op smartphones te draaien en kan afbeeldingen genereren met een resolutie tot ongeveer twee megapixels.

Stable Diffusion 3.5 Medium moet zich onder meer onderscheiden door diversere afbeeldingen op een efficiëntere manier te genereren dan andere modellen met dit aantal parameters, ongeveer 3,5 miljard. Dat claimt het bedrijf. Daardoor zouden er geen aangepaste prompts nodig zijn om afbeeldingen van mensen met diverse huidskleuren te genereren.

Daarnaast zijn er vanaf dinsdag Large- en Large Turbo-varianten beschikbaar, met ieder acht miljard parameters. Die zijn iets zwaarder om te draaien. Het verschil tussen de reguliere en de Turbo-versie is dat de laatste sneller is ten koste van wat precisie en kwaliteit, zo claimt Stability AI. Large en Large Turbo staan op HuggingFace. Versie 3.5 komt ongeveer vier maanden na versie 3, die in juni uitkwam.

IT-banen

Reacties (28)

whersmy 23 oktober 2024 08:01

Wat is nu daadwerkelijk de use case hiervoor?

1x per maand een meme genereren?

L2GX @whersmy • 23 oktober 2024 08:09

In trage momenten (op de bus of metro) genereer ik wel eens fake fotos voor mijn online familie kookboek met Bing.
Omdat de recepten niet meteen vertalen naar de Engelse AI is het vaak experimenteren om de prompt juist te krijgen. Dus meerdere versies tot de coins op zijn...
Dat is één use case.

Artz @L2GX • 23 oktober 2024 10:32

Niets ten nadele van je online familie kookboek maar hier zijn we dus aanbeland. Ziekelijk veel energieverbruik voor eigenlijk een verveelmomentje.

Schway @Artz • 23 oktober 2024 13:28

Tsja. Hoeveel tech is er wel niet to verzonnen omdat het kon, of omdat iemand zich verveelde. Dit is niets nieuws. Gewoon weer het meest recente om over te klagen

phamoen @Artz • 23 oktober 2024 15:50

Definieer ziekelijk veel energieverbruik? Het draait toch op z'n smartphone? Als je het vergelijkt met Netflixen is het zelfs minder, want geen datacentrum nodig.
En nu komt iemand met, ja maar het trainen. Die Netflixseries moeten ook geproduceerd worden.. Is ook niet uitstootvrij.

Kortom ik ben nog niet overtuigd van het gegeven dat spelen met AI daadwerkelijk zo extreem veel slechter is qua energieverbruik dan (bijvoorbeeld) Netflixen... Iemand hier nog een goed verhaal bij?

DigitalExorcist @Artz • 24 oktober 2024 10:00

Ziekelijk veel energieverbruik voor eigenlijk een verveelmomentje.

Net zoals sport, tv-kijken, een boek lezen ter ontspanning en fietsen op zondagmiddag.

Indy81 @L2GX • 23 oktober 2024 09:14

Wel heel specifiek voorbeeld

Maar je kunt toch ook gewoon Stable Diffusion thuis draaien, poortje openzetten op je router en dan via de webinterface werken. Dan kun je zo vaak dingen proberen zonder coins.

Diavire @whersmy • 23 oktober 2024 08:10

Nee, zoals gezegd, het draait op een smartphone. Dus meerdere keren per dag een Slechte meme genereren.

kabelmannetje @whersmy • 23 oktober 2024 13:35

Vast. Alhoewel het al snel verveeld voor de meesten. Het nut van het gebruik van AI in het algemeen op smartphones ontgaat mij totaal. Zelf doen op smartphone gaat sneller en foutloos.

Real time spraak-vertaling kan nog wel eens handig zijn. Maar ook dat gaat nogal vaak fout. Intypen is een stuk betrouwbaarder.

rcthans @kabelmannetje • 23 oktober 2024 22:55

snel verveeld voor de meesten, ik heb het gevoel dat ik een soort stable diffusion verslaving aan het ontwikkelen ben. Man wat is dat verslavend.

ErikT738 23 oktober 2024 09:02

Ik ben wel benieuwd hoe heet mijn telefoon zou worden als dit echt lokaal draait. Mijn computer staat altijd al te blazen als ik het probeer.

Indy81 @ErikT738 • 23 oktober 2024 09:36

Mja, mijn 1080ti staat per afbeelding zo'n 5 minuten te blazen op vol vermogen.
250watt voor 5 minuten is toch 0,021 kWh, oftewel 21 wH. Een Samsung s24 heeft een capaciteit van 19wH. En dat is dan nog maar Flux1 Schnell.

Dus, 1 plaatje, telefoon leeg.

hottestbrain

@Indy81 • 23 oktober 2024 10:03

Wat voor resolutie render je dan? Mijn 4070 (laptop variant!) doet 30 steps op 1200*800 op flux.schnell in onder een minuut.

Indy81 @hottestbrain • 23 oktober 2024 10:34

900x1200
Apart, ik heb even zitten zoeken, maar er zitten behoorlijk wat verschillen in de verschillende generaties.
Mijn 1080ti is natuurlijk al best oud, heeft bijvoorbeeld geen tensor cores.
De 1xxx generatie schijnt ook 2 tot 3x zo veel tijd nodig te hebben voordat hij uberhaupt begint (cold start)
Je hebt zeker de betere videokaart hier.

Stel dat ze die 4070 in je telefoon krijgen, even gekeken, deze heeft een verbruik van 115W on load. Iets minder dan de helft van de mijne.
Maar dan nog, alles bij elkaar kun je dan 10 afbeeldingen maken voordat je telefoon leeg is.

Cilph @Indy81 • 23 oktober 2024 13:12

Toen ik van een 1080 naar een 4080 ging kon ik mijn resolutie verdubbelen van 512 naar 1024 én ik kon bijna 5x meer iteraties per seconde.

lenwar

Internet

@hottestbrain • 23 oktober 2024 10:27

Een 4070 is natuurlijk wel aardig wat generaties nieuwer dan een 1080. Daar zit 6 jaar tussen 😊

JJDN @Indy81 • 23 oktober 2024 10:51

Kleine tip.

Met de 1080ti heb je 11Gb geheugen. Probeer de afbeeldingen of memory optimalisatie zo te doen dat je ook echt binnen de 11Gb blijft. Anders ga je je regulier RAM gebruiken. Blijf ik binnen mijn memory limiet heb ik vaak een afbeelding binnen 10-30 seconden. Kom ik in mijn reguliere ram gaat dit snel omhoog naar 5+ minuten.

vriesdemichael 23 oktober 2024 09:34

Is er voor text2img modellen al een manier om op smartphones te draaien? Bij LLMs hoor ik ook steeds vaker deze claim, maar is het moeilijk om op android aan te praat te krijgen.

Tot nu toe is het me alleen met MLCchat gelukt met een kleine selectie aan ondersteunde modellen.

Iemand hier al succes met sd modellen?

hottestbrain

@vriesdemichael • 23 oktober 2024 10:07

Op iPhones is er 'Draw things', die SD 1.X modellen goed aan kan. Verwacht geen heel snelle rendertijden, maar het is er wel