Stable Diffusion 3 komt beschikbaar op 12 juni

AI-bedrijf Stability AI gaat zijn Stable Diffusion 3-model voor het genereren van beelden op woensdag 12 juni uitbrengen. Dat maakte het bedrijf bekend tijdens de openingskeynote van AMD. Eerder was het nieuwe model al beschikbaar als gesloten bèta.

Om op een brede range van apparaten te kunnen werken, kan Stable Diffusion 3 overweg met verschillende aantallen parameters: van 800 miljoen tot vele miljarden. Vooral het maximum van 8 miljard ligt veel hoger dan bij voorgaande versies van het beeldgenereermodel. Stable Diffusion XL 1.0, dat vorig jaar uitkwam, had nog een maximumaantal van 3,5 miljard parameters.

Tijdens de keynote gaven AMD en Stability AI een demonstratie van het nieuwe model op een Instict MI300X-acceleratorkaart. In vergelijking met Stable Diffusion XL was het resultaat duidelijk beter, terwijl ook de prestaties zijn toegenomen.

Stability zei eerder dat Stable Diffusion 3 een combinatie van diffusion transformer architecture en flow matching gebruikt. Het is voor het eerst dat Stable Diffusion die technieken krijgt. Diffusion transformer architecture is een proces waarbij een datamodel in kleine stukjes wordt opgebroken en gegenereerd, waardoor een afbeelding uit meerdere van die kleine stukjes wordt opgebouwd in plaats van als geheel. Flow matching is een technologie waarbij afbeeldingen beter kunnen worden gegenereerd vanuit ruis zonder de berekening constant te moeten herhalen. Dat moet de generator een stuk sneller maken. Verder zou Stable Diffusion 3 nieuwe technieken bevatten om misbruik van het model tegen te gaan.

Stable Diffusion 3Stable Diffusion 3

Door Tomas Hochstenbach

Redacteur

03-06-2024 • 05:03

28

Reacties (28)

Sorteer op:

Weergave:

Misschien toch maar weer eens installeren dan. Ik gebruik nu vooral Dall-E via Bing, maar de restricties die daar gelden maken dat vaak toch irritant. Ik heb het dan vooral over het gebrek aan inpainting en ControlNet, maar de random censuur is ook vervelend.
Alles lokaal draaien, die web dingen zijn toch niet leuk, paar models net featured
https://civitai.com/user/JayNL
Ja dat is leuk en aardig als je er echt voor gaat zitten, maar wanneer ik even snel een afbeelding voor een nieuw D&D karakter nodig heb dan is online generatie toch wel zo makkelijk :)
Ik zou je aanraden om dit project te proberen https://github.com/lllyasviel/Fooocus
Heel erg laagdrempelig. Zit een mooie webui bij en alles is lokaal en zonder restricties.
Ja dat gaat goed, AI gaat mij te boven haha
Dall-E 3 is inderdaad geweldig <3 Van 2 was ik niet echt onder de indruk.

Ik gebruik het ook via Bing omdat je het direct via OpenAI niet kan gebruiken zonder API.
Betekent nu dat AMD Radeon nu eindelijk beter ondersteuning krijgen van Stable Diffusion?

Want dat is dramatisch niet alleen kwa performance maar instaleren
Zelfs op een high end AMD kaart is dit tientallen malen langzamer dan zelfs op een oude GTX 1080 Ti.
Kun je dat onderbouwen? Vind de snelheid op de huidige SD ook niet tegenvallen met een AMD kaart. Kan me niet voorstellen dat een 7 jaar oude NVidia kaart dat verschrikkelijk veel beter doet.
Snelheid. Zelfde implementatie, duurt op een AMD gewoon enorm veel langer dan m’n oude Nvidia kaart. Ik kan niet onderbouwen waarom dat zo is, maar alleen dat ik SD heb opgegeven daardoor omdat ik zo idioot was om te wisselen naar een AMD kaart (RX 6800)
Draai jij dit op Windows of op Linux? Onder Windows wordt ROCm (nog steeds!) niet volledig ondersteund, waardoor je DirectML moet gebruiken. Dit is vele malen langzamer dan native ROCm ondersteuning, wat je onder bijv Ubuntu wél kunt gebruiken.

Inderdaad wel een van de grote nadelen van een AMD GPU mbt AI op dit moment.
Yes ik gebruik het op Windows inderdaad. Komt omdat m’n zoon deze PC overdag ook gebruikt voor gamen. (Games die niet goed op Linux draaien met proton e.d.)
Ik zou dan voor dual-boot gaan, puur voor AI; ROCm wordt wél goed ondersteund in Ubuntu. Hiermee is de AI implementatie die je wilt gebruiken vele malen sneller. Het is geen hardware issue, het is software.

Een optie is om ZLUDA te gebruiken onder Windows (eerder ook genoemd hier in de discussie), maar ik heb daar wisselend succes mee geboekt.
Yes ga ik mee experimenteren. Had eerder al Ubuntu + Mint + Pop_OS gedraaid voor gamen, maar dan krijg je gemopper dat bepaalde games er echt niet op kunnen draaien. Dus toch terug gegaan naar Windows.
Zluda installeren, dat is port van cuda, ik haal 80% van de snelheid van mijn 4080 ti met een 6900xt. Werkt als een trein, zelfs trainen van LoRa.

https://github.com/lshqqytiger/ZLUDA

[Reactie gewijzigd door rcthans op 22 juli 2024 15:06]

Is er een reden dat je een fork linkt? dit lijkt de orginele repo: https://github.com/vosen/ZLUDA
ik gebruik het op deze versie van webui
https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu
https://github.com/lshqqytiger/ZLUDA
en deze is van dezelfde gebruiker, en die orginele repo is sinds feb niet meer geupdate. in de instructies van amdgpu webui (oude directml) werd naar deze gelinkt. Ik denk dat er wat aanpassingen gemaakt zijn om het te linken. Ik had het in ieder geval in no time draaien. Nu zowel op webui als op sdnext.


Ik train lora's gebruik ip2adapters. allemaal dingen die ik met mijn AMD op windows echt niet kon.
Het enige probleem is dat je voor inpaiting, en adetailer --no-half moet gebruiken. En dan is het weer de helft slomer. Het werkt af en toe prima zonder, maar meestal na 4/5 succesvolle outputs, krijg je nan errors, en daarna werkt het niet meer, en moet je restarten.

Ik had graag een switch in de ui gezien om no half weer uit te zetten zonder te rebooten, en je ui prompt kwijt te raken.

Nu moet ik kiezen bij het opstarten of ik txt2image wil doen, of wil inpainten/adetailer. Als ik echt de volle snelheid wil gebruiken.
Eindelijk, kon het al proberen, maar nu dus echt.

Moet ik wel weer alle models opnieuw maken :')

[Reactie gewijzigd door JDx op 22 juli 2024 15:06]

Toch wel een verbetering qua foto's. Ik hou me er niet zo mee bezig, maar dat vingers fout gaan was wel bekend. Nu in de nieuwe versie ziet het er al een stuk beter uit.
Wordt pas interessant als de resolutie hoger kan dan postzegelformaat
Dit kan al een jaar ofzo. SXDL says hi
nog steeds een postzegel. 1000x1500 pixels of zoiets dergelijks? En upscaling ziet er niet uit imo
Zodra we schakelen op IMO raak je alle nota van serieusheid kwijt.

Het kan op andere formaten dan een postzegel, inclusief landscape, maar om dat te weten zou je die modellen een keer gebruikt moeten hebben. En dat heb je volgens mij niet recent gedaan/
1024 x 1024 zelfs. Nog lager dan ik al dacht. IMO niet interessant
Vreemd als ik plaatjes maak van 3524x2892
Zaken dat ik vroeger altijd opmerkte bij Stable Diffusion 2 waren zaken zoals de vingers van mensen die er altijd vreemd uitzagen of een paar extra stuks hadden. (Ook duidelijk te zien op de foto.) Maar zoals het voorbeeld toont bij Stable Diffusion 3 lijkt dat probleem weggewerkt, wat ook echt wel een mooie verbetering is.
Tja, wie weet hoeveel iteraties er aan vooraf gingen voordat de vingers goed gingen. Lijkt me niet dat op basis van een paar afbeeldingen die nu bekend zijn al vergaande conclusies getrokken kunnen worden.
Hoe kan open source dan zorgen dat ze er geen misbruik van maken? Dit kun je lokaal draaien toch?

Op dit item kan niet meer gereageerd worden.