Stable Diffusion XL Turbo kan in real time plaatjes genereren

Stability AI introduceert zijn Stable Diffusion XL Turbo-model. Dit AI-model kan in real time plaatjes genereren op basis van tekst. Volgens de maker is het aantal stappen bij het genereren van beeld teruggebracht tot een à vier stappen, waar dat er voorheen vijftig waren.

Het SDXL Turbo-model van Stability AI is gebaseerd op een nieuwe distillation-techniek genaamd Adversarial Diffusion Distillation, oftewel ADD. Deze techniek stelt het model in staat om plaatjes te genereren zonder wachttijd, maar met behoud van een hoge kwaliteit. Het model werkt in real time, en kan dus beelden weergeven tijdens het typen van prompts. Het SDXL Turbo-model is volgens de maker in staat om beelden te genereren met een enkele samplingstap. Het huidige Stable Diffusion XL-model heeft vijftig stappen.

Stable Diffusion XL Turbo
Outputs van SDXL Turbo. Bron: Hugging Face

Stable Diffusion XL Turbo gebruikt score distillation om dat te bereiken. Het systeem gebruikt daarbij een adversarial loss. Dat genereert een plaatje met als doelstelling om een discriminator te misleiden, die is getraind om AI-plaatjes te onderscheiden van echte beelden. Daarnaast wordt een groot en vooraf getraind diffusionmodel gebruikt als een soort 'leraar'. Het bedrijf heeft een researchpaper gepubliceerd waarin wordt uitgelegd hoe de techniek precies werkt.

Stability AI publiceert daarnaast de resultaten van een menselijke test. Daarbij moesten proefpersonen de output van twee AI-generators op basis van dezelfde prompt beoordelen. De SDXL Turbo-beelden scoorden relatief goed in vergelijking met andere AI-modellen die meer stappen gebruiken. Het bedrijf zegt ook dat SDXL Turbo relatief snel werkt. Het model kan een plaatje van 512x512 pixels in ongeveer 0,2 seconden genereren op een Nvidia A100-datacenter-gpu.

Het SDXL Turbo-model is vanaf nu gratis beschikbaar voor persoonlijk gebruik. Stability AI heeft ook een demoversie gepubliceerd, die met een account via de Clipdrop-website te gebruiken is. SDXL Turbo is op het moment van schrijven nog niet beschikbaar voor commercieel gebruik.

Een demo van beeldgeneratie in real time met SDXL Turbo

Door Daan van Monsjou

Nieuwsredacteur

29-11-2023 • 09:52

59

Lees meer

Reacties (59)

59
59
26
2
0
27
Wijzig sortering
Leuk, ik heb 't geïnstalleerd met pip maar ik doe zelf eigenlijk weinig met Python, hoe draai ik dit nu van command line?
Als je het lokaal wil draaien kijk je beter even naar ComfyUI, Automatic1111 of een variant. Dan heb je python als basis, maar een (web) userinterface als handigheid.

Ik draai het hier op een Windows laptop onder WSL2, werkt als een zonnetje in de windows Firefox browser.
dit model draait gewoon met A1111?
dat zou wel nice zijn
Zelf nog niet getest met A1111, maar ik gebruik ComfyUI en die is bijgewerkt voor dit model, nog even het model aan het downloaden en dan ga ik straks als ik tijd heb even testen.
Reddit heeft in iedergeval al een Happy Flow incl sample flow image.
https://www.reddit.com/r/...ltime_sdxl_turbo_is_here/

Edit:
Wauw. Getest, werkt in ComfyUI, en met Auto Queue Update aan, is het nu een "Generate as you type your prompt"
Voor elk woord wat je intypt heeft hij instant een nieuw plaatje.

[Reactie gewijzigd door Get!em op 22 juli 2024 15:01]

Ik zie dat ze het hier over ComfyUI hebben. Ook zie ik dat A1111 al een paar maanden niet is geupdate.
Is ComfyUI nu de go-to geworden i.p.v. A1111?
Voor meer controle op je flow, JA. Niet meer handmatig alle stappen doen, maar gewoon je generation, inpaint en upscale in een workflow chain modelleren en go!
Ikzelf gebruik deze aftakking van A1111 die wel in actieve ontwikkeling is: https://github.com/vladmandic/automatic

Deze heeft dan echter nog niet de SD XL turbo.

Reden dat ik deze gebruik is eenvoudige ondersteuning voor AMD kaarten onder Windows via DirectML.

ComfyUI moet ik mijzelf nog eens in verdiepen, lijkt geen AMD ondersteuning te hebben voor Windows. Maar ik zie het wel veel langskomen.

[Reactie gewijzigd door Denizz op 22 juli 2024 15:01]

En welke videokaatt heb je nodig? Of kan je dit ook in Azure ML draaien?
Voor Stable Diffusion XL wordt een videokaart met 8gb vram geadviseerd. Maar ook met kaarten van 4 of slechts 2gb vram moet het kunnen. Op Reddit staan hier draatjes over.
Je moet het geheugen gebruik dan wel terugdringen in de settings.
Ja, ik heb het zojuist geprobeerd en je kan de modellen gewoon installeren zoals andere SDXL modellen, geen extra stappen nodig
ComfyUI example

Zal wat langer duren voordat A1111 support heeft.
Weet jij waar ik de minimum systeem eisen kan vinden ? Heb een 2060 6GB
Met comfyui moet dat wel lukken, eventueel door extra parameters bij opstarten mee te geven, al doet comfyui al veel optimalisatie bij opstarten uit zichzelf. Met automatic of a1111 waarschijnlijk niet.
vraag aan chatgpt om een programma te schrijven. Ik vroeg en deze kwam eruit:
from http.server import BaseHTTPRequestHandler, HTTPServer
from diffusers import AutoPipelineForText2Image
from PIL import Image
from io import BytesIO
from urllib.parse import urlparse, parse_qs
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

class RequestHandler(BaseHTTPRequestHandler):
def do_GET(self):
parsed_path = urlparse(self.path)
parsed_query = parse_qs(parsed_path.query)
prompt = parsed_query.get('q', [None])[0]
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

buffer = BytesIO()
image.save(buffer, format="JPEG")
image_bytes = buffer.getvalue()

self.send_response(200)
self.send_header('Content-type', 'image/jpeg')
self.end_headers()

# Write the image data to the response
self.wfile.write(image_bytes)


def run(server_class=HTTPServer, handler_class=RequestHandler, port=8000):
server_address = ('', port)
httpd = server_class(server_address, handler_class)
print(f"Starting httpd on port {port}...")
httpd.serve_forever()

run()
localhost:8000?q=tweakers
Het blijft verbazingwekkend hoe snel de stappen zich op dit gebied opvolgen. Het zijn allemaal logische vervolgstappen nadat het startschot eenmaal gegeven was voor dit soort techniek, maar het is wel bizar om de snelheid van doorontwikkeling nu te volgen!
Bor Coördinator Frontpage Admins / FP Powermod @Goku3329 november 2023 10:04
Het is inderdaad verbazingwekkend, inspirerend maar aan de andere kant misschien ook wel een beetje eng. Over een tijdje kunnen we real time filmpjes maken op hoge resolutie die amper of niet van echt zijn te onderscheiden als de ontwikkelingen zo doorgaan.
Snel genoeg, al bestaat dit probleem natuurlijk al langer. Kijk bijvoorbeeld naar de oorlog in Oekraïne, waar vaak oudere beelden, beelden van een heel ander conflict of zelfs beelden uit videogames worden gebruikt om desinformatie te verspreiden. We zullen met zijn allen beter moeten worden in het op waarde schatten van bronnen, en niet blind op beeldmateriaal afgaan.
Ik denk dan een media ervaren westerling dat al niet kan, laat staan de gemiddelde Rus, Bangladees, Hondurasiaan(?), etc, etc.
Gemiddelde niet, maar de mensen die er baat bij hebben wel. De gemiddelde nederlander kan ook veel dingen niet die wij als tweakers heel normaal vinden.

De gemiddelde Nederlander kan geen huis bouwen en toch wonen we allemaal in een huis. De gemiddelde Nederlander kan geen brood bakken en toch eten we brood.
Een brood bakken vergelijken met een huis bouwen slaat helemaal nergens op. Praktisch elke cultuur over de hele wereld leeft van zelfgemaakt brood, al lijkt niet elk brood op het brood dat wij kennen.
Ik denk dat je wat verder moet kijken dan brood. Wat @boner bedoeld is dat we elkaar nodig hebben hierin.
Blijkbaar kan ook niet iedereen een metafoor herkennen en dit niet te letterlijk nemen.
Praktisch iedereen woont in een huis. Slecht 1% van de wereldbevolking is nomadisch.
Bor Coördinator Frontpage Admins / FP Powermod @ErikT73829 november 2023 12:07
Kijk bijvoorbeeld naar de oorlog in Oekraïne, waar vaak oudere beelden, beelden van een heel ander conflict of zelfs beelden uit videogames worden gebruikt om desinformatie te verspreiden.
Dat klopt maar met echt goede (near) realtime AI kan je echt verder gaan; je hebt namelijk direct invloed op wat er in de beelden te zien is, wat er gebeurd, in welke omgeving etc. Je zou echte beelden van gebouwen etc als input kunnen gebruiken waardoor ook de plaats en tijd lijkt te kloppen.
Als je op dit moment op CivitAI kijkt naar animaties, dan zie je bij de echt goede dat er nog verschrikkelijk veel moeite inzit om dit consistent te krijgen, al zijn er wel "consistency"-modellen en/of LoRa's die dit bewerkstelligen, voor zover mogelijk.

[Reactie gewijzigd door SkyStreaker op 22 juli 2024 15:01]

Dit betekent gewoon dat je nog enkele maanden geduld moet hebben alvorens de technologie geperfectioneerd is.
Binnen vijf jaar:
  • Maak een video van jezelf en pas in real time de achtergrond aan naar Mars, waarbij de wind op Mars zich aanpast om de wind in je haar natuurlijk te doen lijken.
  • Real time vertaling tussen gesproken talen. Zet je Airpods Mega Turbo met luidspreker op, spreek Nederlands en de gesprekspersoon hoort Chinees of vice versa.
  • Real time automatische generatie van muziek én bindteksten. Genereer je eigen authentieke Beatles-concert!
  • Indien je een visueel brein hebt, kun je de output van je studie-AI laten vertolken door je favoriete League of Legends-karakter.
  • De nieuwe Disneyfilm is slecht? Niet erg, genereer gewoon je eigen film in de stijl van de klassiekers.
  • Real time medische diagnoses via je telefoon op basis van beeld- en geluidsanalyse.
  • Een algemene AI-assistent die je advies geeft bij elke activiteit in je dagelijks leven: "Deze yoghurt in je winkelwagentje bevat suiker en je bent niet langer on track om te vermageren, vervang hem door deze andere yoghurt."/"Koop voor kerst een nieuwe koffiezet voor je vriendin, ze was laatst aan het klagen over haar koffiezet".
  • Prompt-to-application: Leg de AI je requirements voor (ongeacht de kwaliteit van de requirements want Q* weet wat de klant bedoelt) en genereer een werkende applicatie met gebruik van alle principes van clean code en publiceer hem op Azure.
  • Legacy businessapplicaties refactoren naar de laatste standaarden en frameworks, bugs verwijderen en de performantie optimaliseren met een druk op de knop.
  • Interageer met eender welke webapplicatie via prompts, de AI is slim genoeg om de layout te begrijpen en je meteen naar de gewenste functionaliteit te zenden. "Ga naar de site van Microsoft en bestel me een nieuw paar Surface Glasses".
  • Uiteraard typt niemand nog prompts maar gebruik je gewoon stemherkenning.
  • In plaats van zelf diensten te verlenen, ontwikkelen professionals een chatbot persona. Wanneer je bijvoorbeeld een architectenbureau inschakelt, krijg je voor een schappelijk bedrag toegang tot hun AI en overleg je met deze AI wat je wensen zijn voor je nieuwe huis. Enkel indien je specifieke noden hebt, word je (tegen meerprijs) verbonden met een menselijke architect.
  • Een marketplace voor chatbot personas. Architectenbureau Duivenkot biedt zijn diensten aan voor €2K, Architectenbureau Riyadh voor €150K voor wanneer 14-karaats goud niet voldoende is, of je kunt wachten op de korting voor monthly featured professionals.
  • SEO-dienstverlening om hogerop te komen in deze marketplace.
  • AI's voor SEO-dienstverlening.
  • AI's om je te helpen de beste AI's voor SEO-dienstverlening te vinden.
  • AR voor blauweboordenjobs. In plaats van een opleiding tot schilder te volgen, draag je een AR-bril die je zegt wat je moet doen en het schilderproces gamificeert ("vlakke tint: +1000 punten!").
  • AI-gebaseerde recruiting. De paar onjuiste beoordelingen neemt men wel voor lief wanneer er voor elke job honderd wanhopige kandidaten zijn.
  • AI-gebaseerde HR. Aanwerven, belonen, promoveren en ontslaan zonder dat hier een mens bij te pas komt. Op basis van relevante criteria zoals het aantal geleverde pakjes per minuut (met bonuspunten voor behaalde verkeersovertredingen) krijgt de pakjesbezorger automatisch een sterscore. Onder de vier sterren = gedeactiveerd.
  • AI om je te helpen bij het halen van deze doelen. "Rijd hier door het rood, dan win je 30 punten en verlies je 25 punten".
Hopelijk komt dit alles niet uitsluitend vanuit de VS en China terwijl Duitsland in Detroit verandert...

[Reactie gewijzigd door Enai op 22 juli 2024 15:01]

Real time vertaling tussen gesproken talen. Zet je Airpods Mega Turbo met luidspreker op, spreek Nederlands en de gesprekspersoon hoort Chinees of vice versa.
Ja graag
De nieuwe Disneyfilm is slecht? Niet erg, genereer gewoon je eigen film in de stijl van de klassiekers.
Doen ze dat niet al lang gezien de kwaliteit van Disney releases?
Een algemene AI-assistent die je advies geeft bij elke activiteit in je dagelijks leven: "Deze yoghurt in je winkelwagentje bevat suiker en je bent niet langer on track om te vermageren, vervang hem door deze andere yoghurt."/"Koop voor kerst een nieuwe koffiezet voor je vriendin, ze was laatst aan het klagen over haar koffiezet".
een echt horror scenario waardoor je je karretje spontaan vult met zoete troep
Legacy businessapplicaties refactoren naar de laatste standaarden en frameworks, bugs verwijderen en de performantie optimaliseren met een druk op de knop.
je vergeet de EUR 350/uur factuur te genereren
AI-gebaseerde recruiting. De paar onjuiste beoordelingen neemt men wel voor lief wanneer er voor elke job honderd wanhopige kandidaten zijn.
AI-gebaseerde HR. Aanwerven, belonen, promoveren en ontslaan zonder dat hier een mens bij te pas komt.
Soms lijkt het er op dat ze dat al doen. Kun je ook de AI ontslaan?

ontopic: het grootste gevaar is natuurlijk dat we onverschillig worden: "de beelden van dit bloedbad zijn toch niet echt", of "u heeft daar ingebroken, want u staat op camera", "kijk, deze politicus heeft wel een hele perverse hobby".....

In die gevallen worden mensen aan hun lot overgelaten, beschadigd of vals beoordeeld. Grote vraag blijft hoe we hiermee omgaan als de beoordelende mensen (journalisten, rechters) vaak tot een groep behoren die minder IT vaardig zijn dan de gemiddelde lezer hier.

[Reactie gewijzigd door divvid op 22 juli 2024 15:01]

Soms lijkt het er op dat ze dat al doen. Kun je ook de AI ontslaan?
Ik heb soms het idee dat het efficienter zou zijn de HR/recruiters te ontslaan
ontopic: het grootste gevaar is natuurlijk dat we onverschillig worden
Past prima bij een post-truth wereld. Alle bewijsmateriaal is nep, dus geloof maar wat je favoriete politicus beweert. En zelfs al is het vals, "het had waar kunnen zijn".

ChatGPT, welke aandelen zullen stijgen bij een dictatuur?
Het is interessant, maar ik weet niet wat de monetaire waarde hier precies van is en het is ook niet echt AI te noemen. Meer een knap staaltje statistiek.
Met deze verwerkingssnelheid kan je diverse toepassingen bedenken. Contentcreators die (al is het maar ter inspiratie) in realtime kunnen zien wat een bepaalde prompt precies als output zal geven en zodra je tevreden bent diezelfde prompt in een nauwkeuriger model laten renderen. Of denk aan website/social media toepassingen waar op individueel niveau (per bezoekers obv data die je van iemand hebt) in realtime plaatjes op een pagina passend bij de tekstuele content gegenereerd worden.

[Reactie gewijzigd door Goku33 op 22 juli 2024 15:01]

En videogames. Binnenkort heb je geen Unreal of Unity meer nodig en kun je gewoon een AI trainen op gestructureerde inputs om de bijbehorende beelden te genereren.
je bizar wat de mogelijkheden zijn.
Zet speler in parijs van de jaren 40, en laat her en der wat nazi's oppoppen, of npc's in een game als gta die het ineens hebben over het nieuws van vandaag etc etc. Over 5-10 jaar zal er echt een hoop anders zijn dan nu
De waarde is enorm,;denk b.v. aan het real-time genereren van afbeeldingen voor advertenties of het maken van een afbeelding zodat een online handleiding voorzien kan worden van een voor de gebruiker relevante pictogram b.v. voor een IKEA bouwpakket.
Super indrukwekkend! Toch zitten er nog een paar limitaties aan:
  • De gegenereerde afbeeldingen hebben een vaste resolutie (512x512px)
  • Het model bereikt geen perfect fotorealisme
  • Het model kan geen leesbare tekst weergeven
  • Gezichten en mensen in het algemeen worden mogelijk niet correct gegenereerd
  • Het edcoderingsgedeelte van het model is lossy
Dat hoeft dus eigenlijk geen probleem te zijn met een goede workflow.. Die van mij zou prima passen in ieder geval (onderstaand mijn huidige proces):

- Genereer een batch van (x) afbeeldingen op basis van (randomized) prompt met (randomize) seed
- Kies de beste uit de batch
- Maak enkele lichte varianten (indien nodig) via img2img [optioneel]
- Maak een definitieve keuze
- Gebruik img2img om de afbeelding met meer stappen te genereren en indien nodig gebruik iets als A(fter)detailer om gezichten en handen te fixen
- [optioneel] gebruik img2img inpaint om fixes toe te passen op bepaalde elementen (deze stap doe ik eigenlijk niet meer sinds Stable Diffusion XL)
- Gebruik img2img samen met SD upscale om zowel de resolutie 2x op te schalen en eventueel A(fter)detailer weer in te zetten voor nog wat correcties
- Echt tevreden? Gooi dan de afbeelding nog 1x door SD upscale om het 2x geupscalde beeld nogmaals 2x te upscalen

Dus de nadelen die je benoemd zijn te verwaarloosbaar. Ik vermoed dat ook geen enkele 'professional' (waar ik mezelf niet onder schaar btw!) uitgaat van 1 generatie om tot een eindresultaat te komen
Welke user interface gebruik je?
Automatic1111, geeft me de meeste controle zonder de extreme controle die ComfyUI beidt.

Daarbij heb ik de volgende extensies:
Dynamic Prompts (daarmee kan je iedere generatie at random bepaalde variabelen in je prompt opnemen)
Adetailer (voor het nadien verbeteren van gezichten, handen, ogen)
Controlnet voor het sturen van je eind resultaat, denk aan een pose op basis van diepte informatie uit een bestaande foto

en dus SD scale voor het upscalen van afbeeldingen, die doet dit door je output in stukjes te knippen en per stukje te upscalen en later weer te stitchen. Geeft mij tot heden het beste resultaat.
Bedankt, ik gebruik tot nu toe comfyUI maar vind de interface vrij complex dus ga dit eens bekijken!
Comfyui is enorm krachtig maar daarbij ook erg complex… Automatic1111 geeft je veel mogelijkheden met voldoende diepgang en features en Easydiffusion vind ik vooral voor als je begint en nog moet leren prompten of niet veeleisend bent :)


En met bijvoorbeeld diffusionBee (voor mac) is het echt kinderlijk eenvoudig maar de resultaten zijn daar dan ook naar
"Rabbithole"- Turbo Edition, als je er eenmaal in zit, met de goede prompts en met speciale plugins die al je models nagaan en LoRa's met incrementele waardes? Duizenden plaatjes die je eruit knalt... En blijft knallen. De moeite is nu je prompt tweaken, that's it.

Er is letterlijk een plugin-extension voor Easy Diffusion die "Rabbithole" heet.

Ik vraag mij af wat dit gaat doen als je verslavingsgevoelig bent en de dopamine-hits die je krijgt. Enig inzicht mogelijk van Tweakers-leden?
Als je EasyDiffusion nog gebruikt (met Rabbithole wat schijnbaar prompt generatie is) zou ik je kunnen aanraden de overstap te maken naar Automatic1111 in combinatie met 'Dynamic prompt', 'Adetailer' en 'controlnet' dan krijg je enorme controle over het gehele proces die ik in ieder geval niet kon bereiken met EasyDiffusion.. En naar weten, maar ik heb nog niet gekeken, kan je daar gewoon een 'Turbo model' in gebruiken (maar heb nog geen turbo model gedownload om dit te verifieren)

Voor totale controle heb je ook Comfyui maar die vind ik, voor nu, te complex en biedt zover ik weet in ieder geval geen Dynamic Prompt mogelijkheden (die ik gebruik voor het random kiezen van opties waaronder de gebruikte lora combinaties die ik leuk vind)

[Reactie gewijzigd door ultimasnake op 22 juli 2024 15:01]

Ik vindt de UI van Easy Diffusion wat fijner werken, ik krijg wel gedaan wat ik wil hoor :) Bedankt in ieder geval!
Bedankt voor de uitleg! Aan wat voor systeem specs moet ik denken wil ik een beetje snelheid krijgen? Wat gebruik je zelf?
Meer software gerelateerd, mensen zeggen Linux doet het beter dan Windows, als voorbeeld: https://www.reddit.com/r/...its_with_a_4090_on_linux/ - een echt antwoord is lastig, het is een groot grijsgebied aan mogelijkheden.

Uitgebreid antwoord voor verschillende systemen: https://www.reddit.com/r/...stable_diffusion_systems/

Verplicht leesvoer zou ik zeggen:

https://civitai.com/articles?tags=128646 (pas op voor NSFW, standaard gefilterd)

[Reactie gewijzigd door SkyStreaker op 22 juli 2024 15:01]

Mijn ervaring leert dat het niet perse het totaal plaatje aan specs hoeft te zijn maar eigenlijk voornamelijk geheugen je grootste bottleneck zal zijn.

Ik heb prima afbeeldingen gegenereerd op een Intel Macbook uit 2019 (met EasyDiffusion) en 32GB geheugen maar genereren van 512x786 afbeeldingen duurde een minuutje of 4 ongeveer (20 stappen)

Op een Mac Mini M1 met 8 GB geheugen doet het aanzienlijk sneller met ongeveer 2 minuten per afbeelding (20 stappen) maar was daarna weer erg beperkt in resolutie (786x786 max) en helemaal in combinatie met Controlnet(s) of ADetailer etc en kreeg dus vaak een out of memory en SD XL wilt gewoon niet draaien

Tegenwoordig heb ik een M2 Macbook met 64GB, 786x1024 (stablediffusion XL meeste models zijn dan getrained op max 1024x1024) + controlnet + alle toeters en bellen gaat in een 45 seconden per beeld (20 stappen) en zelfs met veel meer stappen upscaling etc etc etc loop ik nooit echt uit het geheugen.


Specs zullen op "PC'S" waar je eigen hardware samenstelt ongetwijfeld anders uitpakken maar geheugen zal je grootste bottleneck kunnen zijn waarbij de rest vooral je geduld op de proef stelt.
Nu nog de koppeling met video en je kan al interacterend je eigen film maken :)
Gaat dit offline werken op een smartphone met een SmartDragon 8 Gen 3?

Dan zie ik eindelijk een reden om voor een nieuwe premium telefoon te gaan ipv een goedkope budget telefoon
op een Nvidia A100-datacenter-gpu.
Ik vermoed dat er aardig wat VRAM voor nodig is.
Qua snelheid zeker indrukwekkend, qua resultaten valt het nog tegen. Maar ik twijfel er niet aan dat over tijd dat beter wordt.
Voorheen 50 stappen? Dat heeft gewoon heel weinig zin. Er is nauwelijks merkbaar verschil per stap na pakweg 30 stappen met de meeste samplers. Sterker nog, ik krijg met SDXL via CoreML met 15 stappen al fotorealistische resulaten
Ze vergelijken met de eerdere XL versie waar ze de gewone eerste stappen en daarna de stappen met hun refiner model rekenen. Zo bijvoorbeeld 30+20 stappen is niet ongewoon.
Er zijn nu toch genoeg XL models zonder refiner?
Maar ze vergelijken expliciet met hun eigen originele eerste SDXL model met refiner. En daar kunnen ze met dit nieuwe in 4 stappen betere resultaten halen dan met 50.
net even geprobeerd op een 4080. ongeveer 10 plaatjes per seconde. indrukwekkend.
Ga wel eventjes een leuke live prompt pagina hacken.
Grappig ook dat dezelfde prompt hier altijd hetzelfde resultaat geeft en met toevoeging van !'s kan je subtiele detailwijzigingen bouwen.

Op dit item kan niet meer gereageerd worden.