Stability AI brengt lichtere versie uit van Stable Diffusion 3

Stability AI heeft een lichtere versie uitgebracht van Stable Diffision 3. Het model, dat Stable Diffusion 3 Medium heet, heeft twee miljard parameters en kan draaien op grafische kaarten die consumenten thuis kunnen hebben staan.

Stable Diffusion 3 Medium
Stable Diffusion 3 Medium

De Medium-versie van het model waarmee gebruikers met tekstprompts afbeeldingen kunnen genereren heeft 5GB aan VRAM nodig om te functioneren, al adviseert het bedrijf wel minimaal 16GB aan VRAM. Daarmee is het minder veeleisend dan de reguliere versie van Stable Diffusion 3, dat acht miljard parameters heeft.

Het werkt onder meer met grafische kaarten van Nvidia en AMD, meldt het bedrijf. Het model is te vinden op Hugging Face. Stability AI bracht eerder dit jaar al de reguliere versie van Stable Diffusion 3 uit. Stability zei eerder dat Stable Diffusion 3 een combinatie van diffusion transformer architecture en flow matching gebruikt. Het is voor het eerst dat Stable Diffusion die technieken krijgt. Diffusion transformer architecture is een proces waarbij een datamodel in kleine stukjes wordt opgebroken en gegenereerd, waardoor een afbeelding uit meerdere van die kleine stukjes wordt opgebouwd in plaats van als geheel. Flow matching is een technologie waarbij afbeeldingen beter kunnen worden gegenereerd vanuit ruis zonder de berekening constant te moeten herhalen. Dat moet de generator een stuk sneller maken. Verder zou Stable Diffusion 3 nieuwe technieken bevatten om misbruik van het model tegen te gaan.

Stable Diffusion 3 Medium

Door Arnoud Wokke

Redacteur Tweakers

13-06-2024 • 08:41

23

Reacties (23)

23
23
11
0
0
11
Wijzig sortering
16gb vram aanbevolen gaat ook niet helpen.
Alleen AMD en Intel hebben in het middensegment veel vram en laten die het nu juist niet zo goed doen in Stablediffusion.

Je zult dus de portemonnee open moeten trekken voor een NVIDIA kaart, als je het maximale eruit wilt halen.
gisteren al wat mee gespeeld en met 12gb VRAM werkte het genereren van afbeeldingen toch zeer vlot op een 1024x1024 resolutie (ongeveer 15 seconden per afbeelding op mijn 4070)
3070 mobile met 8gb, 1024*1024 hier ook geen probleem. 20 seconden als je het model laden niet meetelt (dit hoeft alleen initieel). Ik gebruik Comfyui.
Een 4060 Ti heeft 16GB, vanaf €440, dat zou Entry-level zijn...
Een 4070 Ti Super heeft ook 16GB, vanaf €850, wat volgens Wikipedia ook Mid-range is...

Of je dat met die prijzen ook in die categorie zou willen plaatsen is waarschijnlijk een heel andere discussie, maar je hoeft bij Nvidia niet meteen voor een 4080/4090 te gaan...
Of een M1/2/3 based Mac met wat ram, doen het best aardig met SD/Comfy UI. Dit model zou ik nog links laten liggen.
Ik heb een Radeon Pro VII gekocht voor ollama. Kostte me 289 euro (de prijs is nu iets hoger): uitvoering: AMD Radeon Pro VII 16GB

Ik ben er voor LLM's erg tevreden over. Hij is bijna zo snel als mijn 4090 (die ik voor gamen en ontwikkeling nodig heb). Waarschijnlijk geholpen door het snelle HBM2 geheugen. Het was een beetje aanrommelen met ROCm drivers maar nu werkt het uit de kunst.

Stable Diffusion en andere image generatie heb ik nog niet geprobeerd erop maar ik vraag me af of het niet ook wel aardig werkt. Ik denk dat met image generatie de responstijd ook niet echt vreselijk boeit. Als ik tijd heb zal ik wel een vergelijking doen met de 4090, ik ben wel benieuwd. Zoals ik zei viel het me voor de LLM's heel erg mee. En ik wilde een 24/7 LLM server draaien dus de 4090 kon ik daar niet voor inzetten.

[Reactie gewijzigd door Llopigat op 22 juli 2024 15:41]

Ervaringen (iig op Reddit) zijn niet bijster positief. Het voelt als een "lobotomized" versie van de betaalde SD3 variant. Het is vooral slecht met alles rondom personen. SDXL was veel beter bij release.

Afwachten of finetunes het model (significant) verbeteren.
Ik heb er toevallig net op het forum over gepost. Kennelijk heeft het veel moeite met menselijke lichamen (bijvoorbeeld "vrouw liggend in gras"), mogelijk omdat er zo veel bloot uit de dataset is gefilterd.
Zou dan het toevoegen van kleding in de omschrijving helpen met het correct uitvoeren van een prompt?
Hmm, iets om vanmiddag eens te gaan hobby'en en te testen.
Zo... Als je inspiratie nodig hebt voor een nieuwe horrorfilm, dan werkt dit model echt helemaal top!

Overigens, als je "vrouw" door "hond" vervangt gaat het alweer een stukje beter (maar nog steeds niet echt goed) :)

[Reactie gewijzigd door Morrar op 22 juli 2024 15:41]

Politieke correctheid en preutsheid maken meer kapot dan ons lief is ;)
Probeer hier : https://huggingface.co/sp...stable-diffusion-3-medium

Het kan niet tellen. Als je een mens laat afbeelden met handen ( man showing hands) krijg je zelden of nooit het goede aantal handen en vingers te zien. Bovendien zitten ze ook vaak op rare plaatsen aan het lichaam vast. Zou best kunnen dat aan de gestoorde omgang met het naakte lichaam door de Amerikanen ligt.
Is hun trainingsdata alleen naakte personen dan?
Als je "person laying on a grass field" probeerd...
beelden met weinig kleding zijn goed trainingsmatreaal voor zulks een ai om een correcte menselijke anatomie te leren. Indien je alles gaat filteren bij de training waar een beetje te veel huid te zien is ga je het model zwaar beperken daardoor, ook voor de afbeeldingen met veel kleren aan.
Als je leert (mensen) tekenen doe ja dat ook niet op basis van iemand met een jurk aan. Dat doe je op basis van vaak anatomische modellen of zelfs daadwerkelijk naakt modellen. En vergeet natuurlijk niet onze eigen ervaring met het menselijk lichaam, dat is allemaal data van een LLM mist.
Unstable diffusion is wat dat betreft de Amerikaanse tegenhanger. Ook die gaat er niet helemaal normaal mee om. Maar wel beter dan Stable diffusion.

Overigens is ChatGPT ook steeds meer aan het censureren. Laatst had ik een zin die zei "en dan schiet de injectienaald in de huid" die ik wilde vertalen. Dat schieten vond hij maar niks. En dan denk ik: wat is het probleem nu precies wat ze hiermee willen oplossen?
Dit is waar de community bang voor was, dat het nieuwe model gewoon een nerfed versie zou worden.
Ja de typische Amerikaanse preutsheid weer... Nu zo sterk generfd dat het geen mensen meer correct weer kan geven.

https://arstechnica.com/i...ai-generated-body-horror/

Want je moet toch niet hebben dat het maar een hint van een tepel zou laten zien :')
Je kan altijd naar Unstable diffusion. Dan zie je ook tepels waar je ze niet had verwacht 😀
Kun je zo'n SD ook trainen op je eigen data? Bijv. al je (copyrighted) programmeercode? Of is dat gedeelte closed source?
Ja dat kan - in dat geval zou ik gebruik maken van ollama, met mistral/llama3/codestral checkpoints en bijv langchain. Je kunt data laten trainen en daar een LORA finetuning model uit krijgen, maar dit is veel werk en heb je veel compute power voor nodig.

Je kunt ook naar RAG kijken (retrieval augmented generation), dat is makkelijker en minder intensief.
Ja, ollama met OpenWebUI is echt een geweldige omgeving om met LLM's te spelen <3

LORA moet ik zelf nog eens proberen, voorlopig doe ik ook alleen RAG. Het is echt geweldig om zoiets helemaal in eigen beheer te hebben. Je kan dat dan ook weer aan vscode koppelen met continue.dev of twinny.

Het is momenteel echt spitstijd, er komen gewoon dagelijks mogelijkheden bij.

[Reactie gewijzigd door Llopigat op 22 juli 2024 15:41]

Tsja, dan maar gewoon bij SDXL blijven, met de nodige goede promptwriting zien de afbeeldingen er wel goed uit. Kijk maar 'ns in Het grote AI art show- & kletstopic

[Reactie gewijzigd door Yaksa op 22 juli 2024 15:41]

Op dit item kan niet meer gereageerd worden.