Stable Diffusion XL Turbo kan in real time plaatjes genereren

Stability AI introduceert zijn Stable Diffusion XL Turbo-model. Dit AI-model kan in real time plaatjes genereren op basis van tekst. Volgens de maker is het aantal stappen bij het genereren van beeld teruggebracht tot een à vier stappen, waar dat er voorheen vijftig waren.

Het SDXL Turbo-model van Stability AI is gebaseerd op een nieuwe distillation-techniek genaamd Adversarial Diffusion Distillation, oftewel ADD. Deze techniek stelt het model in staat om plaatjes te genereren zonder wachttijd, maar met behoud van een hoge kwaliteit. Het model werkt in real time, en kan dus beelden weergeven tijdens het typen van prompts. Het SDXL Turbo-model is volgens de maker in staat om beelden te genereren met een enkele samplingstap. Het huidige Stable Diffusion XL-model heeft vijftig stappen.

Stable Diffusion XL Turbo gebruikt score distillation om dat te bereiken. Het systeem gebruikt daarbij een adversarial loss. Dat genereert een plaatje met als doelstelling om een discriminator te misleiden, die is getraind om AI-plaatjes te onderscheiden van echte beelden. Daarnaast wordt een groot en vooraf getraind diffusionmodel gebruikt als een soort 'leraar'. Het bedrijf heeft een researchpaper gepubliceerd waarin wordt uitgelegd hoe de techniek precies werkt.

Stability AI publiceert daarnaast de resultaten van een menselijke test. Daarbij moesten proefpersonen de output van twee AI-generators op basis van dezelfde prompt beoordelen. De SDXL Turbo-beelden scoorden relatief goed in vergelijking met andere AI-modellen die meer stappen gebruiken. Het bedrijf zegt ook dat SDXL Turbo relatief snel werkt. Het model kan een plaatje van 512x512 pixels in ongeveer 0,2 seconden genereren op een Nvidia A100-datacenter-gpu.

Het SDXL Turbo-model is vanaf nu gratis beschikbaar voor persoonlijk gebruik. Stability AI heeft ook een demoversie gepubliceerd, die met een account via de Clipdrop-website te gebruiken is. SDXL Turbo is op het moment van schrijven nog niet beschikbaar voor commercieel gebruik.

Een demo van beeldgeneratie in real time met SDXL Turbo

IT-banen

Reacties (59)

Argantonis 29 november 2023 10:04

Leuk, ik heb 't geïnstalleerd met pip maar ik doe zelf eigenlijk weinig met Python, hoe draai ik dit nu van command line?

Get!em @Argantonis • 29 november 2023 12:05

Online tool om te testen https://clipdrop.co/stable-diffusion-turbo

Get!em @Argantonis • 29 november 2023 10:21

Als je het lokaal wil draaien kijk je beter even naar ComfyUI, Automatic1111 of een variant. Dan heb je python als basis, maar een (web) userinterface als handigheid.

Ik draai het hier op een Windows laptop onder WSL2, werkt als een zonnetje in de windows Firefox browser.

robertlinke @Get!em • 29 november 2023 10:25

dit model draait gewoon met A1111?
dat zou wel nice zijn

Get!em @robertlinke • 29 november 2023 10:26

Zelf nog niet getest met A1111, maar ik gebruik ComfyUI en die is bijgewerkt voor dit model, nog even het model aan het downloaden en dan ga ik straks als ik tijd heb even testen.
Reddit heeft in iedergeval al een Happy Flow incl sample flow image.
https://www.reddit.com/r/...ltime_sdxl_turbo_is_here/

Edit:
Wauw. Getest, werkt in ComfyUI, en met Auto Queue Update aan, is het nu een "Generate as you type your prompt"
Voor elk woord wat je intypt heeft hij instant een nieuw plaatje.

[Reactie gewijzigd door Get!em op 22 juli 2024 15:01]

Ruuddie @Get!em • 29 november 2023 10:42

Ik zie dat ze het hier over ComfyUI hebben. Ook zie ik dat A1111 al een paar maanden niet is geupdate.
Is ComfyUI nu de go-to geworden i.p.v. A1111?

Get!em @Ruuddie • 29 november 2023 10:44

Voor meer controle op je flow, JA. Niet meer handmatig alle stappen doen, maar gewoon je generation, inpaint en upscale in een workflow chain modelleren en go!

Denizz @Ruuddie • 29 november 2023 11:57

Ikzelf gebruik deze aftakking van A1111 die wel in actieve ontwikkeling is: https://github.com/vladmandic/automatic

Deze heeft dan echter nog niet de SD XL turbo.

Reden dat ik deze gebruik is eenvoudige ondersteuning voor AMD kaarten onder Windows via DirectML.

ComfyUI moet ik mijzelf nog eens in verdiepen, lijkt geen AMD ondersteuning te hebben voor Windows. Maar ik zie het wel veel langskomen.

[Reactie gewijzigd door Denizz op 22 juli 2024 15:01]

StCreed @Get!em • 29 november 2023 16:50

En welke videokaatt heb je nodig? Of kan je dit ook in Azure ML draaien?

nout77 @StCreed • 29 november 2023 18:08

Voor Stable Diffusion XL wordt een videokaart met 8gb vram geadviseerd. Maar ook met kaarten van 4 of slechts 2gb vram moet het kunnen. Op Reddit staan hier draatjes over.
Je moet het geheugen gebruik dan wel terugdringen in de settings.

AbuFalafel @robertlinke • 30 november 2023 16:10

Ja, ik heb het zojuist geprobeerd en je kan de modellen gewoon installeren zoals andere SDXL modellen, geen extra stappen nodig

nowaychose @Get!em • 29 november 2023 11:54

ComfyUI example

Zal wat langer duren voordat A1111 support heeft.

Verwijderd @Get!em • 29 november 2023 22:30

Weet jij waar ik de minimum systeem eisen kan vinden ? Heb een 2060 6GB

Get!em @Verwijderd • 30 november 2023 09:14

Met comfyui moet dat wel lukken, eventueel door extra parameters bij opstarten mee te geven, al doet comfyui al veel optimalisatie bij opstarten uit zichzelf. Met automatic of a1111 waarschijnlijk niet.

holoduke51 @Argantonis • 29 november 2023 14:42

vraag aan chatgpt om een programma te schrijven. Ik vroeg en deze kwam eruit:

from http.server import BaseHTTPRequestHandler, HTTPServer
from diffusers import AutoPipelineForText2Image
from PIL import Image
from io import BytesIO
from urllib.parse import urlparse, parse_qs
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

class RequestHandler(BaseHTTPRequestHandler):
def do_GET(self):
parsed_path = urlparse(self.path)
parsed_query = parse_qs(parsed_path.query)
prompt = parsed_query.get('q', [None])[0]
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

buffer = BytesIO()
image.save(buffer, format="JPEG")
image_bytes = buffer.getvalue()

self.send_response(200)
self.send_header('Content-type', 'image/jpeg')
self.end_headers()

# Write the image data to the response
self.wfile.write(image_bytes)

def run(server_class=HTTPServer, handler_class=RequestHandler, port=8000):
server_address = ('', port)
httpd = server_class(server_address, handler_class)
print(f"Starting httpd on port {port}...")
httpd.serve_forever()

run()

localhost:8000?q=tweakers

Goku33 29 november 2023 09:56

Het blijft verbazingwekkend hoe snel de stappen zich op dit gebied opvolgen. Het zijn allemaal logische vervolgstappen nadat het startschot eenmaal gegeven was voor dit soort techniek, maar het is wel bizar om de snelheid van doorontwikkeling nu te volgen!

Bor Coördinator Frontpage Admins / FP Powermod @Goku33 • 29 november 2023 10:04

Het is inderdaad verbazingwekkend, inspirerend maar aan de andere kant misschien ook wel een beetje eng. Over een tijdje kunnen we real time filmpjes maken op hoge resolutie die amper of niet van echt zijn te onderscheiden als de ontwikkelingen zo doorgaan.

ErikT738 @Bor • 29 november 2023 10:26

Snel genoeg, al bestaat dit probleem natuurlijk al langer. Kijk bijvoorbeeld naar de oorlog in Oekraïne, waar vaak oudere beelden, beelden van een heel ander conflict of zelfs beelden uit videogames worden gebruikt om desinformatie te verspreiden. We zullen met zijn allen beter moeten worden in het op waarde schatten van bronnen, en niet blind op beeldmateriaal afgaan.

Darun1a @ErikT738 • 29 november 2023 10:45

Ik denk dan een media ervaren westerling dat al niet kan, laat staan de gemiddelde Rus, Bangladees, Hondurasiaan(?), etc, etc.

boner @Darun1a • 29 november 2023 10:52

Gemiddelde niet, maar de mensen die er baat bij hebben wel. De gemiddelde nederlander kan ook veel dingen niet die wij als tweakers heel normaal vinden.

De gemiddelde Nederlander kan geen huis bouwen en toch wonen we allemaal in een huis. De gemiddelde Nederlander kan geen brood bakken en toch eten we brood.

keejoz @boner • 29 november 2023 11:54

Een brood bakken vergelijken met een huis bouwen slaat helemaal nergens op. Praktisch elke cultuur over de hele wereld leeft van zelfgemaakt brood, al lijkt niet elk brood op het brood dat wij kennen.

Cybergamer @keejoz • 29 november 2023 12:15

Ik denk dat je wat verder moet kijken dan brood. Wat @boner bedoeld is dat we elkaar nodig hebben hierin.

Mirved @keejoz • 29 november 2023 13:33

Blijkbaar kan ook niet iedereen een metafoor herkennen en dit niet te letterlijk nemen.

drdelta @keejoz • 29 november 2023 13:37

Praktisch iedereen woont in een huis. Slecht 1% van de wereldbevolking is nomadisch.

Bor Coördinator Frontpage Admins / FP Powermod @ErikT738 • 29 november 2023 12:07

Kijk bijvoorbeeld naar de oorlog in Oekraïne, waar vaak oudere beelden, beelden van een heel ander conflict of zelfs beelden uit videogames worden gebruikt om desinformatie te verspreiden.

Dat klopt maar met echt goede (near) realtime AI kan je echt verder gaan; je hebt namelijk direct invloed op wat er in de beelden te zien is, wat er gebeurd, in welke omgeving etc. Je zou echte beelden van gebouwen etc als input kunnen gebruiken waardoor ook de plaats en tijd lijkt te kloppen.

SkyStreaker

Generatieve AI

@Bor • 29 november 2023 10:29

Als je op dit moment op CivitAI kijkt naar animaties, dan zie je bij de echt goede dat er nog verschrikkelijk veel moeite inzit om dit consistent te krijgen, al zijn er wel "consistency"-modellen en/of LoRa's die dit bewerkstelligen, voor zover mogelijk.

[Reactie gewijzigd door SkyStreaker op 22 juli 2024 15:01]

Enai @SkyStreaker • 29 november 2023 11:18

Dit betekent gewoon dat je nog enkele maanden geduld moet hebben alvorens de technologie geperfectioneerd is.

SkyStreaker

Generatieve AI

@Bor • 29 november 2023 13:38

Net tegengekomen: https://www.reddit.com/r/...leased_today_this_is_the/ - dat is... wel degelijk indrukwekkend.

Enai @Goku33 • 29 november 2023 12:18

Binnen vijf jaar:

Maak een video van jezelf en pas in real time de achtergrond aan naar Mars, waarbij de wind op Mars zich aanpast om de wind in je haar natuurlijk te doen lijken.
Real time vertaling tussen gesproken talen. Zet je Airpods Mega Turbo met luidspreker op, spreek Nederlands en de gesprekspersoon hoort Chinees of vice versa.
Real time automatische generatie van muziek én bindteksten. Genereer je eigen authentieke Beatles-concert!
Indien je een visueel brein hebt, kun je de output van je studie-AI laten vertolken door je favoriete League of Legends-karakter.
De nieuwe Disneyfilm is slecht? Niet erg, genereer gewoon je eigen film in de stijl van de klassiekers.
Real time medische diagnoses via je telefoon op basis van beeld- en geluidsanalyse.
Een algemene AI-assistent die je advies geeft bij elke activiteit in je dagelijks leven: "Deze yoghurt in je winkelwagentje bevat suiker en je bent niet langer on track om te vermageren, vervang hem door deze andere yoghurt."/"Koop voor kerst een nieuwe koffiezet voor je vriendin, ze was laatst aan het klagen over haar koffiezet".
Prompt-to-application: Leg de AI je requirements voor (ongeacht de kwaliteit van de requirements want Q* weet wat de klant bedoelt) en genereer een werkende applicatie met gebruik van alle principes van clean code en publiceer hem op Azure.
Legacy businessapplicaties refactoren naar de laatste standaarden en frameworks, bugs verwijderen en de performantie optimaliseren met een druk op de knop.
Interageer met eender welke webapplicatie via prompts, de AI is slim genoeg om de layout te begrijpen en je meteen naar de gewenste functionaliteit te zenden. "Ga naar de site van Microsoft en bestel me een nieuw paar Surface Glasses".
Uiteraard typt niemand nog prompts maar gebruik je gewoon stemherkenning.
In plaats van zelf diensten te verlenen, ontwikkelen professionals een chatbot persona. Wanneer je bijvoorbeeld een architectenbureau inschakelt, krijg je voor een schappelijk bedrag toegang tot hun AI en overleg je met deze AI wat je wensen zijn voor je nieuwe huis. Enkel indien je specifieke noden hebt, word je (tegen meerprijs) verbonden met een menselijke architect.
Een marketplace voor chatbot personas. Architectenbureau Duivenkot biedt zijn diensten aan voor €2K, Architectenbureau Riyadh voor €150K voor wanneer 14-karaats goud niet voldoende is, of je kunt wachten op de korting voor monthly featured professionals.
SEO-dienstverlening om hogerop te komen in deze marketplace.
AI's voor SEO-dienstverlening.
AI's om je te helpen de beste AI's voor SEO-dienstverlening te vinden.
AR voor blauweboordenjobs. In plaats van een opleiding tot schilder te volgen, draag je een AR-bril die je zegt wat je moet doen en het schilderproces gamificeert ("vlakke tint: +1000 punten!").
AI-gebaseerde recruiting. De paar onjuiste beoordelingen neemt men wel voor lief wanneer er voor elke job honderd wanhopige kandidaten zijn.
AI-gebaseerde HR. Aanwerven, belonen, promoveren en ontslaan zonder dat hier een mens bij te pas komt. Op basis van relevante criteria zoals het aantal geleverde pakjes per minuut (met bonuspunten voor behaalde verkeersovertredingen) krijgt de pakjesbezorger automatisch een sterscore. Onder de vier sterren = gedeactiveerd.
AI om je te helpen bij het halen van deze doelen. "Rijd hier door het rood, dan win je 30 punten en verlies je 25 punten".

Hopelijk komt dit alles niet uitsluitend vanuit de VS en China terwijl Duitsland in Detroit verandert...

[Reactie gewijzigd door Enai op 22 juli 2024 15:01]

divvid @Enai • 29 november 2023 12:55

Real time vertaling tussen gesproken talen. Zet je Airpods Mega Turbo met luidspreker op, spreek Nederlands en de gesprekspersoon hoort Chinees of vice versa.

Ja graag

De nieuwe Disneyfilm is slecht? Niet erg, genereer gewoon je eigen film in de stijl van de klassiekers.

Doen ze dat niet al lang gezien de kwaliteit van Disney releases?

Een algemene AI-assistent die je advies geeft bij elke activiteit in je dagelijks leven: "Deze yoghurt in je winkelwagentje bevat suiker en je bent niet langer on track om te vermageren, vervang hem door deze andere yoghurt."/"Koop voor kerst een nieuwe koffiezet voor je vriendin, ze was laatst aan het klagen over haar koffiezet".

een echt horror scenario waardoor je je karretje spontaan vult met zoete troep

Legacy businessapplicaties refactoren naar de laatste standaarden en frameworks, bugs verwijderen en de performantie optimaliseren met een druk op de knop.

je vergeet de EUR 350/uur factuur te genereren

AI-gebaseerde recruiting. De paar onjuiste beoordelingen neemt men wel voor lief wanneer er voor elke job honderd wanhopige kandidaten zijn.
AI-gebaseerde HR. Aanwerven, belonen, promoveren en ontslaan zonder dat hier een mens bij te pas komt.

Soms lijkt het er op dat ze dat al doen. Kun je ook de AI ontslaan?

ontopic: het grootste gevaar is natuurlijk dat we onverschillig worden: "de beelden van dit bloedbad zijn toch niet echt", of "u heeft daar ingebroken, want u staat op camera", "kijk, deze politicus heeft wel een hele perverse hobby".....

In die gevallen worden mensen aan hun lot overgelaten, beschadigd of vals beoordeeld. Grote vraag blijft hoe we hiermee omgaan als de beoordelende mensen (journalisten, rechters) vaak tot een groep behoren die minder IT vaardig zijn dan de gemiddelde lezer hier.

[Reactie gewijzigd door divvid op 22 juli 2024 15:01]

Shamalamadindon @divvid • 29 november 2023 13:09

Soms lijkt het er op dat ze dat al doen. Kun je ook de AI ontslaan?

Ik heb soms het idee dat het efficienter zou zijn de HR/recruiters te ontslaan

Enai @divvid • 29 november 2023 13:30

ontopic: het grootste gevaar is natuurlijk dat we onverschillig worden

Past prima bij een post-truth wereld. Alle bewijsmateriaal is nep, dus geloof maar wat je favoriete politicus beweert. En zelfs al is het vals, "het had waar kunnen zijn".

ChatGPT, welke aandelen zullen stijgen bij een dictatuur?

TLLRS @Goku33 • 29 november 2023 10:20

Het is interessant, maar ik weet niet wat de monetaire waarde hier precies van is en het is ook niet echt AI te noemen. Meer een knap staaltje statistiek.

Goku33 @TLLRS • 29 november 2023 10:28

Met deze verwerkingssnelheid kan je diverse toepassingen bedenken. Contentcreators die (al is het maar ter inspiratie) in realtime kunnen zien wat een bepaalde prompt precies als output zal geven en zodra je tevreden bent diezelfde prompt in een nauwkeuriger model laten renderen. Of denk aan website/social media toepassingen waar op individueel niveau (per bezoekers obv data die je van iemand hebt) in realtime plaatjes op een pagina passend bij de tekstuele content gegenereerd worden.

[Reactie gewijzigd door Goku33 op 22 juli 2024 15:01]

Enai @Goku33 • 29 november 2023 11:16

En videogames. Binnenkort heb je geen Unreal of Unity meer nodig en kun je gewoon een AI trainen op gestructureerde inputs om de bijbehorende beelden te genereren.

Verwijderd @Enai • 29 november 2023 11:46

je bizar wat de mogelijkheden zijn.
Zet speler in parijs van de jaren 40, en laat her en der wat nazi's oppoppen, of npc's in een game als gta die het ineens hebben over het nieuws van vandaag etc etc. Over 5-10 jaar zal er echt een hoop anders zijn dan nu

xxtremexx @TLLRS • 29 november 2023 10:58

De waarde is enorm,;denk b.v. aan het real-time genereren van afbeeldingen voor advertenties of het maken van een afbeelding zodat een online handleiding voorzien kan worden van een voor de gebruiker relevante pictogram b.v. voor een IKEA bouwpakket.

smerko 29 november 2023 10:02

Super indrukwekkend! Toch zitten er nog een paar limitaties aan:

De gegenereerde afbeeldingen hebben een vaste resolutie (512x512px)
Het model bereikt geen perfect fotorealisme
Het model kan geen leesbare tekst weergeven
Gezichten en mensen in het algemeen worden mogelijk niet correct gegenereerd
Het edcoderingsgedeelte van het model is lossy

ultimasnake @smerko • 29 november 2023 10:16

Dat hoeft dus eigenlijk geen probleem te zijn met een goede workflow.. Die van mij zou prima passen in ieder geval (onderstaand mijn huidige proces):

- Genereer een batch van (x) afbeeldingen op basis van (randomized) prompt met (randomize) seed
- Kies de beste uit de batch
- Maak enkele lichte varianten (indien nodig) via img2img [optioneel]
- Maak een definitieve keuze
- Gebruik img2img om de afbeelding met meer stappen te genereren en indien nodig gebruik iets als A(fter)detailer om gezichten en handen te fixen
- [optioneel] gebruik img2img inpaint om fixes toe te passen op bepaalde elementen (deze stap doe ik eigenlijk niet meer sinds Stable Diffusion XL)
- Gebruik img2img samen met SD upscale om zowel de resolutie 2x op te schalen en eventueel A(fter)detailer weer in te zetten voor nog wat correcties
- Echt tevreden? Gooi dan de afbeelding nog 1x door SD upscale om het 2x geupscalde beeld nogmaals 2x te upscalen

Dus de nadelen die je benoemd zijn te verwaarloosbaar. Ik vermoed dat ook geen enkele 'professional' (waar ik mezelf niet onder schaar btw!) uitgaat van 1 generatie om tot een eindresultaat te komen

StGermain @ultimasnake • 29 november 2023 12:01

Welke user interface gebruik je?

ultimasnake @StGermain • 29 november 2023 15:15

Automatic1111, geeft me de meeste controle zonder de extreme controle die ComfyUI beidt.

Daarbij heb ik de volgende extensies:
Dynamic Prompts (daarmee kan je iedere generatie at random bepaalde variabelen in je prompt opnemen)
Adetailer (voor het nadien verbeteren van gezichten, handen, ogen)
Controlnet voor het sturen van je eind resultaat, denk aan een pose op basis van diepte informatie uit een bestaande foto

en dus SD scale voor het upscalen van afbeeldingen, die doet dit door je output in stukjes te knippen en per stukje te upscalen en later weer te stitchen. Geeft mij tot heden het beste resultaat.

StGermain @ultimasnake • 29 november 2023 16:55

Bedankt, ik gebruik tot nu toe comfyUI maar vind de interface vrij complex dus ga dit eens bekijken!

ultimasnake @StGermain • 29 november 2023 19:28

Comfyui is enorm krachtig maar daarbij ook erg complex… Automatic1111 geeft je veel mogelijkheden met voldoende diepgang en features en Easydiffusion vind ik vooral voor als je begint en nog moet leren prompten of niet veeleisend bent

En met bijvoorbeeld diffusionBee (voor mac) is het echt kinderlijk eenvoudig maar de resultaten zijn daar dan ook naar

SkyStreaker

Generatieve AI

29 november 2023 10:24

"Rabbithole"- Turbo Edition, als je er eenmaal in zit, met de goede prompts en met speciale plugins die al je models nagaan en LoRa's met incrementele waardes? Duizenden plaatjes die je eruit knalt... En blijft knallen. De moeite is nu je prompt tweaken, that's it.

Er is letterlijk een plugin-extension voor Easy Diffusion die "Rabbithole" heet.

Ik vraag mij af wat dit gaat doen als je verslavingsgevoelig bent en de dopamine-hits die je krijgt. Enig inzicht mogelijk van Tweakers-leden?

ultimasnake @SkyStreaker • 29 november 2023 11:59

Als je EasyDiffusion nog gebruikt (met Rabbithole wat schijnbaar prompt generatie is) zou ik je kunnen aanraden de overstap te maken naar Automatic1111 in combinatie met 'Dynamic prompt', 'Adetailer' en 'controlnet' dan krijg je enorme controle over het gehele proces die ik in ieder geval niet kon bereiken met EasyDiffusion.. En naar weten, maar ik heb nog niet gekeken, kan je daar gewoon een 'Turbo model' in gebruiken (maar heb nog geen turbo model gedownload om dit te verifieren)

Voor totale controle heb je ook Comfyui maar die vind ik, voor nu, te complex en biedt zover ik weet in ieder geval geen Dynamic Prompt mogelijkheden (die ik gebruik voor het random kiezen van opties waaronder de gebruikte lora combinaties die ik leuk vind)

[Reactie gewijzigd door ultimasnake op 22 juli 2024 15:01]

SkyStreaker

Generatieve AI

@ultimasnake • 29 november 2023 12:08

Ik vindt de UI van Easy Diffusion wat fijner werken, ik krijg wel gedaan wat ik wil hoor

Bedankt in ieder geval!

keepbeep @ultimasnake • 29 november 2023 12:56

Bedankt voor de uitleg! Aan wat voor systeem specs moet ik denken wil ik een beetje snelheid krijgen? Wat gebruik je zelf?

SkyStreaker

Generatieve AI

@keepbeep • 29 november 2023 13:41

Meer software gerelateerd, mensen zeggen Linux doet het beter dan Windows, als voorbeeld: https://www.reddit.com/r/...its_with_a_4090_on_linux/ - een echt antwoord is lastig, het is een groot grijsgebied aan mogelijkheden.

Uitgebreid antwoord voor verschillende systemen: https://www.reddit.com/r/...stable_diffusion_systems/

Verplicht leesvoer zou ik zeggen:

https://civitai.com/articles?tags=128646 (pas op voor NSFW, standaard gefilterd)

[Reactie gewijzigd door SkyStreaker op 22 juli 2024 15:01]

ultimasnake @keepbeep • 29 november 2023 15:21

Mijn ervaring leert dat het niet perse het totaal plaatje aan specs hoeft te zijn maar eigenlijk voornamelijk geheugen je grootste bottleneck zal zijn.

Ik heb prima afbeeldingen gegenereerd op een Intel Macbook uit 2019 (met EasyDiffusion) en 32GB geheugen maar genereren van 512x786 afbeeldingen duurde een minuutje of 4 ongeveer (20 stappen)

Op een Mac Mini M1 met 8 GB geheugen doet het aanzienlijk sneller met ongeveer 2 minuten per afbeelding (20 stappen) maar was daarna weer erg beperkt in resolutie (786x786 max) en helemaal in combinatie met Controlnet(s) of ADetailer etc en kreeg dus vaak een out of memory en SD XL wilt gewoon niet draaien

Tegenwoordig heb ik een M2 Macbook met 64GB, 786x1024 (stablediffusion XL meeste models zijn dan getrained op max 1024x1024) + controlnet + alle toeters en bellen gaat in een 45 seconden per beeld (20 stappen) en zelfs met veel meer stappen upscaling etc etc etc loop ik nooit echt uit het geheugen.

Specs zullen op "PC'S" waar je eigen hardware samenstelt ongetwijfeld anders uitpakken maar geheugen zal je grootste bottleneck kunnen zijn waarbij de rest vooral je geduld op de proef stelt.

Chielemans 29 november 2023 10:27

Nu nog de koppeling met video en je kan al interacterend je eigen film maken

Slashdotter 29 november 2023 10:29

Gaat dit offline werken op een smartphone met een SmartDragon 8 Gen 3?

Dan zie ik eindelijk een reden om voor een nieuwe premium telefoon te gaan ipv een goedkope budget telefoon

Wolfos @Slashdotter • 29 november 2023 10:50

op een Nvidia A100-datacenter-gpu.

Ik vermoed dat er aardig wat VRAM voor nodig is.

ZpAz

29 november 2023 10:56

Qua snelheid zeker indrukwekkend, qua resultaten valt het nog tegen. Maar ik twijfel er niet aan dat over tijd dat beter wordt.

Winduss 29 november 2023 11:04

Voorheen 50 stappen? Dat heeft gewoon heel weinig zin. Er is nauwelijks merkbaar verschil per stap na pakweg 30 stappen met de meeste samplers. Sterker nog, ik krijg met SDXL via CoreML met 15 stappen al fotorealistische resulaten

87Dave @Winduss • 29 november 2023 11:19

Ze vergelijken met de eerdere XL versie waar ze de gewone eerste stappen en daarna de stappen met hun refiner model rekenen. Zo bijvoorbeeld 30+20 stappen is niet ongewoon.

Winduss @87Dave • 29 november 2023 11:46

Er zijn nu toch genoeg XL models zonder refiner?

87Dave @Winduss • 29 november 2023 12:04

Maar ze vergelijken expliciet met hun eigen originele eerste SDXL model met refiner. En daar kunnen ze met dit nieuwe in 4 stappen betere resultaten halen dan met 50.

holoduke51 29 november 2023 13:10

net even geprobeerd op een 4080. ongeveer 10 plaatjes per seconde. indrukwekkend.
Ga wel eventjes een leuke live prompt pagina hacken.

WhatsappHack 29 november 2023 14:23

Grappig ook dat dezelfde prompt hier altijd hetzelfde resultaat geeft en met toevoeging van !'s kan je subtiele detailwijzigingen bouwen.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (59)

Sorteer op:

Weergave: