Qualcomm demonstreert Stable Diffusion op Android-telefoon

Qualcomm heeft een demo getoond van AI-afbeeldingengenerator Stable Diffusion dat draait op een Snapdragon 8 Gen 2-soc van een onbekende telefoon. De software genereert daar een afbeelding van een kat in fantasystijl in minder dan 15 seconden.

Het gaat om een afbeelding van 512 bij 512 pixels, met de citeria 'super cute fluffy cat warrior in armor, photorealistic, 4k, ultra detailed, vray rendering, unreal engine'. Dat leidde in de video tot een resultaat na 14,42 seconden. Qualcomm zegt dat het voor het eerst is dat Stable Diffusion op een smartphone werkt, maar uitzoekwerk van The Verge wijst uit dat iemand het bedrijf al voor was. Wel is het zo dat die persoon er in zijn tests met een Snapdragon 865 één uur over deed, dus wat efficiëntie betreft kan Qualcomm beweren dat het een primeur heeft.

In de video toont het de software in actie, maar daarnaast heeft het Amerikaanse bedrijf nog driemaal het resultaat met dezelfde invoer getoond. Daarnaast deelt het ook het resultaat van de prompt 'Japanese garden at wildlife river and mountain range, highly detailed, digital illustration, artstation, concept art, matte, sharp focus, illustration, dramatic, sunset, hearthstone, art by Artgerm and Greg Rutkowski and Alphonse Mucha'. Dit lijkt ook een product van dezelfde hardware en software, maar Qualcomm zegt dat niet nadrukkelijk. Qualcomm kon het resultaat zo snel bereiken door optimalisaties door te voeren aan zijn Qualcomm AI Stack. Verder spreekt het van 'strak hardware- en software-co-ontwerp'. In zijn posting gaat het meer in op technische details.

Stable Diffusion is een opensourcemodel dat gebruikt kan worden voor het genereren van afbeeldingen op basis van tekstinvoer. Gebruikers kunnen de software draaien op een pc, in tegenstelling tot diensten als Dall-E, die alleen via de cloud beschikbaar zijn. De software wordt ondersteund door veel gpu's met 8GB of meer geheugen. De software is gratis beschikbaar op GitHub. Er zijn ook online demo's van de AI-beeldgenerator beschikbaar.

Qualcomm Stable Diffusion afbeeldingenQualcomm Stable Diffusion afbeeldingen

Door Mark Hendrikman

Redacteur

24-02-2023 • 12:47

57

Lees meer

Reacties (57)

57
55
28
1
0
17
Wijzig sortering
Wat doen al die 20 steps?
Dat is het aantal keren dat de afbeelding wordt "verbeterd". De naam stable diffusion houdt in dat je vanuit een random set met data blijft verbeteren totdat alle pixels in een afbeelding het beste overeenkomen met de opgegeven sleutelwoorden (welke je ook in de video kan zien).

Deze sleutelwoorden zijn in een eerdere stap voor het trainen van het model handmatig toegewezen door mensen. Bijvoorbeeld "een kat in een boom" of "een kat op de trap" of "een mens op een fiets".

Uit al die afbeeldingen wordt aan de hand van die woorden gesampled en het resultaat voor "een kat op een fiets" is een nieuwe afbeelding van een kat die op een fiets rijdt.

Hoe hoger de steps, hoe preciezer het resultaat (afhankelijk van het gebruikte model) de input volgt.

Dit is trouwens een erg versimpelde uitleg, dus hang me svp niet op aan details :p

[Reactie gewijzigd door Stukfruit op 22 juli 2024 15:02]

Mooie uitleg. Hier kan je een visueel voorbeeld zien van de stappen.

Hier kan je ook zien dat meer stappen toevoegen op gegeven moment minder invloed heeft. Op gegeven moment 'herkent' de AI dat de afbeelding al 'goed genoeg' aan de omschrijving voldoet, verdere stappen veranderen dan ook weinig :) De eerste 10/20 stappen zijn het belangrijkst voor de compositie en stijl.
Dit is een misleidende illustratie omdat het de indruk wekt dat het puur vanuit het niets (ruis) iets kan opbouwen, waarbij je de daadwerkelijke bron van informatie weglaat. Deze zit hem in het verwerken van miljoenen afbeeldingen en bijbehorende metadata, deze stap voor stap tot ruis om te zetten en de wijzigingen tussen de stappen op te slaan in een neuraal netwerk. Het is deze informatie die er, in combinatie met de juiste kernwoorden via prompts, tot leidt dat er afbeeldingen gegenereerd kunnen worden. De ruis dient hierbij puur als seed voor een zekere mate van willekeur, terwijl de finale vormgeving afhangt van het netwerk. Dit plaatje laat dus slechts de helft van het verhaal zien.
De 'bron' is hier het gekozen model. Vaak 'slechts' enkele GB groot. Het bekendste model is van stable-diffusion zelf, maar er zijn er inmiddels honderden die dezelfde techniek gebruiken. Modellen kunnen ook weer gebruikt worden voor nieuwe modellen etc.

Modellen worden inderdaad getraind met miljoenenmiljarden afbeeldingen, maar het uiteindelijke model/bestand bevat deze individuele afbeeldingen zelf niet (ook niet in gecomprimeerde vorm).

Een lijst van modellen is hier te vinden (semi NSFW) of bijv. via huggingface

[Reactie gewijzigd door svane op 22 juli 2024 15:02]

En dan zit er voor zover ik weet ook nog een verschil in het encoden en andere belangrijke onderdelen van het systeem, want Stable Diffusion begrijpt bijvoorbeeld nog niet dat iemand die in de spiegel kijkt ook echt in de spiegel moet kijken.

Imagen van Google en het werk van Deepfloyd AI (komt vast ook weer terecht in Stable Diffusion aangezien ze gerelateerd zijn) pakken dit beter aan:
https://linktr.ee/deepfloyd

Maar de "consumentenuitleg" uit m'n vorige reactie helpt sneller om het te begrijpen dan uitleg over encoders en het normaliseren van input data, vandaar :P
De daadwerkelijke bron van visuele informatie is de gigantische dataset van miljoenen tot zelfs miljarden afbeeldingen die zonder pardoes van het internet geplukt zijn. Deze worden vervolgens via het noising algoritme omgezet in data dat direct onderdeel van het model wordt, in de vorm van een neuraal netwerk met gewichten.

Dat dit model slechts enkele GB groot is doet er niet toe, dat het de originele bestanden niet bevat is eveneens irrelevant. Niemand had gezegd dat de originele afbeeldingen opgeslagen werden, dus ik snap niet waarom je met dit argument komt. De originele afbeeldingen zijn alsnog de bron van informatie, ook als dit zodanig agressief gecombineerd en gecomprimeerd wordt dat je een zeer specifieke prompt nodig hebt om terug te komen bij het origineel vanuit het model.
Niemand had gezegd dat de originele afbeeldingen opgeslagen werden, dus ik snap niet waarom je met dit argument komt
Dat doe ik omdat je een paar zinnen later wederom beweert dat alle originele afbeeldingen gecomprimeerd worden opgeslagen :)
De originele afbeeldingen zijn alsnog de bron van informatie, ook als dit zodanig agressief gecombineerd en gecomprimeerd wordt dat je een zeer specifieke prompt nodig hebt om terug te komen bij het origineel vanuit het model.
Je kan niet terugkomen op alle miljarden afbeeldingen, maakt niet uit welke prompt je gebruikt. Die informatie zit er gewoon niet in. Ik hoop dat je eens ophoudt met het verspreiden van deze misinformatie. Er zijn genoeg mensen hier die iets willen leren, en niet het bos ingestuurd willen worden.

De originele foto's zijn gebruikt om het model te trainen. Die waren eenmalig nodig. Nu het model 'klaar' is, wordt enkel en alleen de parameters in het model gebruikt.

Net zoals menselijke artiesten die met hun ogen honderden bomen hebben gezien. Zij hebben die honderden bomen niet opgeslagen, maar slechts het 'idee' ervan (groot, bruin, met bladeren, etc. etc.). Vraag een artiest om de boom die hij op 2 juli 2014 heeft gezien na te tekenen, dat gaat niet lukken. Zelfde met Stable diffusion.
Dat kan WEL. Moeilijk is geen synoniem voor onmogelijk.
Dit ligt aan je definitie van "wel" of "moeilijk". In principe wordt de data voor dit soort systemen genormaliseerd en komt het eruit als een setje vectoren.

Voor zover ik me kan herinneren uit eigen experimenten hiermee in het verleden wordt de semantische structuur van de afbeelding (of audio, of iets anders) opgeslagen. Dat is niet het bronmateriaal, maar kan hierdoor wel teveel info uit het materiaal meekrijgen, zoals de logo's van een site waarvan afbeeldingen zijn gescraped.

Technisch gezien is het dan net zo min een foto als dat de afbeelding die jij mentaal "voor je ziet" een foto is.

Ik vind trouwens wel dat het werk van artists niet meer nodig zou moeten zijn en ertussenuit moet zodat dit soort discussies niet meer nodig zijn. Dan kun je later zelf beslissen welke models je wil toevoegen voor het meegeven van een bepaalde stijl aan de gegenereerde output. Als artist kun je er dan ook gewoon een maken. Of met de tijd meegaan en verkopen om er zelf geld aan te verdienen ;)
Je geeft inderdaad een prima uitleg van hoe het wél in elkaar zit. Het lijkt er soms op dat sommige mensen niet willen weten hoe het werkt. En die netwerken doen ook wel degelijk een vorm van compressie. Een compressie van pixel space naar latent space. En het is ook niets anders dan dat. De VAE die onderdeel is van de diffusie modellen, heeft ook als doel zo goed mogelijk de plaatjes in pixel space te reconstrueren op basis van een vector in de latent space. Een VAE doet simpelweg niets dan dan compressie en decompressie. Het lastige is alleen dat door de manier waarop de text embeddings worden gemaakt, je niet heel makkelijk één plaatje kunt reconstructeren. Maar dat het kan, dat is wel gebleken uit onderzoek.
Mooi om te zien. Stap 2 naar 3 voelt een beetje als een "draw the rest of the f***ing owl"-momentje, omdat het verschil zo groot is.
Hier wordt de tweede helft van het totale proces beschreven, waarbij de noise puur dient als seed. De eerste helft omvat het opslaan van verschillen verkregen via verscheidene stappen van noising vanuit miljoenen bestaande afbeeldingen. Deze wijzigingen worden verwerkt in een neuraal netwerk en zijn de primaire bron van informatie waarmee de afbeeldingen gegenereerd worden. Op zijn beurt is de informatie in dit netwerk dus afkomstig van 'echte' afbeeldingen gebruikt als input voor het model.
Precies. Voor stable diffusion wordt een combinatie van netwerken gebruikt. De VAE is bijv. wel degelijk in staat om op basis van een gegeven vector in latent space een goede reconstructie te maken van het plaatje in pixel space. Dat is namelijk precies hoe een VAE werkt. De manier waarop we nu met de modellen interfacen middels CLIP maakt het echter lastig een latent vector te maken die goed past bij één plaatje uit de trainingsset, maar het kan in sommige gevallen wel degelijk. Ik heb dat ook in bepaalde mate voor mijn eigen foto's gezien die in de Laion dataset zitten. De prompts die mensen gebruiken zorgen vaak voor een geinterpoleerde vector in latent space, maar een vector creëren op basis van een prompt die bijna niet geinterpoleerd is, kan in bepaalde gevallen dus wel degelijk.
Indrukwekkende snelheid voor een telefoon. Met mijn 6700XT duurt t ~45 sec
Dat komt vooral omdat al deze dingen gebaseerd zijn op CUDA hardware acceleratie. Dat Qualcomm dit nu zo werkend krijgt op een telefoon helpt de community wellicht ook op AMD GPU's te versnellen.
Het is meer dat Nvidia er überhaupt hardware acceleratie voor heeft en AMD pas sinds de 7900XT. Je ziet immers dat Qualcomm het ook snel krijgt.
Dat zou sneller moeten kunnen tegenwoordig:
https://github.com/nod-ai/SHARK

Geen idee of je die gebruikt, je moet wel de laatste drivers hebben.
Onder Linux zal je kaart sowieso sneller zijn middels ROCm, dingen op Windows lopen wel vaker achter de feiten aan als het gaat om bepaalde ontwikkelingen (niet altijd de schuld van Windows, maar ontwikkelaars zitten over het algemeen liever op Linux en Macs te ontwikkelen dus zal de tooling daar beter zijn).

[Reactie gewijzigd door Sp3ci3s8472 op 22 juli 2024 15:02]

Mijn iPhone 13 Pro doet het in 8.
Hieronder wordt gezegd dat dit via de cloud gaat en niet lokaal op de telefoon wordt gegenereerd.
@Mark_88
Misschien is het handiger om in het vervolg eerst een artikel te beginnen met wat iets nou eigenlijk is. Ik had nog nooit van Stable Diffusion gehoord en ik neem aan dat er nog wel een paar mensen meer zijn die het artikel begonnen te lezen en dachten: waar gáát dit eigenlijk over?

Maar wel bijzonder dat een stuk software op basis van wat kenmerken een waar kunststukje kan genereren... wow!!!
Ik heb een woordje of twee aan de lead toegevoegd om kort te zeggen wat het is voordat het artikel verdergaat. Dank.
Gefeliciteerd, je bent er 1 van de 10.000 voor vandaag.

En ga me niet vertellen dat je niet weet wat ik daarmee bedoelt. :o
Hopen dat dit een prototype is en dat er nog vele iteraties mogen volgen. Want de huidige resultaten zijn zonde van de gebruikte energie voor het genereren. Teveel visuele fouten en andere rariteiten.
Ik hoop ook, met een iets minder zure blik, dat er nog veel iteraties mogen volgen. Knap gedaan, op mijn eigen laptop duurt het langer!
Ik vind het mooi dat dit ook steeds meer kan op mijn telefoon zonder het internet te gebruiken. Het volgende woirdt een lokale chatGPT like assistent die je hele promptgeschiedenis agenda data etc meeneemt en zo een eigen karakter krijgt en veel beter kan reageren omdat het op de hoogte is van de context van dat moment. Dit hopelijk zonder dat dat allemaal het internet op gaat (wat helaas vaak wel het verdienmodel is), ik zou er best voor willen betalen.

De keerzijde is het gevaar dat loert in al deze AI overal toe te passen. Kwaadwillenden kunnen op deze manier veel slimmere botwerken gaan opzetten (de eerste virtus/malware makende AI's zijn er ook al). Een andere gevaar is de sociale invloed van als deze AI's die mensen nog meer in hun eigen circel drijven,

De hudige AI zie ik nu meer zie als een soort autocomplete AI, gezien ze zo opgezet zijn. Ze voorspellen de toekomst op basis van een grote dataset. Ze redeneren nog niet echt, maar dat is wel de volgende stap waar aan gewerkt wordt. Daarna komen er waarchjijnlijk corrigerende stukken netwerk over heen om te voorkomen dat ze over de schreef gaan, maar mensen zullen die maar al te graag willen verwijderen (zoals dat nu ook al gebeurd met DAN (Do Anything Now)) in chatGPT (zoek er maar eens op).
Hopen dat dit een prototype is en dat er nog vele iteraties mogen volgen. Want de huidige resultaten zijn zonde van de gebruikte energie voor het genereren. Teveel visuele fouten en andere rariteiten.
Ik kijk er anders naar, voor mij hoeft het niet perfect te zijn als het maar goed genoeg is voor sommige taken. 15 seconde is snel genoeg om een schets van iets te maken, die een paar keer bij te sturen en dan naar je collega's te sturen zodat die kunnen zien wat je probeert uit te leggen.

Nu moet ik er eerlijk bij zeggen dat ik zelf niet heel veel nuttige toepassingen kan bedenken die ik nu op mijn telefoon zou willen hebben, maar ik denk dat het vooral een beperking van mijn fantasie is en er wel degelijk een hoop nuttige toepassingen zijn. Net zoals er eerst een beetje lacherig gedaan werd over de fouten van GPT tot mensen inzagen dat het ondanks die fouten nog steeds heel nuttig is.

Uiteraard is dit maar een tech-demo en zal het uiteindelijke product heel anders zijn maar laten zien dat dit op een telefoon kan vind ik al heel interessant nieuws. Dat betekent dat ook een hoop andere AI-software op onze eigen telefoon kan draaien om data lokaal te verwerken zonder het naar de "cloud" te moeten sturen. Ik denk concreet aan stemherkenning zoals Siri en Echo. Privacy technisch zou het beter zijn om dat lokaal te doen. Permanent een microfoon open hebben staan die op vrijwel willekeurige momenten kan besluiten om geluid op te nemen en door te sturen is voor velen toch een stap te verdre.
Sorry maar nu ben ik nieuwsgierig. Wat vereist uitleg via een AI generated image voor je collega's? Gezien de beperkte invloed die je kan uitoefenen op het resultaat kan mij hier dus helemaal geen voorstelling bij maken.

En hoe deed je dat dan in het verleden?
Je kan eigenlijk juist heel veel invloed uitoefenen :)

Zo kun je bijvoorbeeld met Stable Diffusion 2.x "depth maps" maken om aan te geven welke pixels de input moeten volgen en welke wat meer creatieve vrijheid mogen najagen, maar je kan ook aan "inpainting" doen door delen van een afbeelding te selecteren (te "schilderen") waarna deze kunnen worden ingevuld. Een bijeffect hiervan is dat het kan worden gebruikt om bijvoorbeeld frames uit een film zo aan te passen dat alleen de acteur (en niets anders) wordt vervangen door iets wat jij er wil zien (mens, dier, iets willekeurigs), terwijl het wel dezelfde pose aanhoudt.

Invullen kan ook met systemen zoals Dreambooth van Google. Op die manier kun je een mens genereren die jouw gezicht heeft of een bestaand object waarvan je foto's uit een paar verschillende hoeken hebt integreren in je (verder random) scene alsof het een 3d object was dat uit alle hoeken kan worden bekeken.

Met alle technieken die nu worden ontwikkeld en tools die er gaan komen wordt het bijna een soort 3d modelling en sculpting. Straks kun je die twee gaan combineren en dan wordt het een geweldige tijd om een artist te zijn. In het verleden waren dit soort dingen alleen mogelijk als je bereid was om weken tot maanden te pielen in o.a. Photoshop.

[Reactie gewijzigd door Stukfruit op 22 juli 2024 15:02]

Maar een artiest heeft een beeld in zijn hoofd en de artiesten die ik ken kunnen veel sneller dit uitschetsen dan dat je het resultaat behaald via AI want dat is en blijft een benadering en heeft verschillende iteraties nodig om tot het gewenste eindresultaat te komen.

Het zal vast wel een functie hebben maar juist voor dit specifieke voorbeeld zie ik het nut (nog) niet.
Check mijn verleden hier op GoT in het gfx-forum. Ik ben niet voor niets karmakeizer voor Blender ;)

Het schetsen wordt zo juist de input. Waar je in het verleden twee maanden bezig was om je schets uit te werken, kun je nu gebruikmaken van alle ideeën waar je normaalgesproken een collage van maakt om inspiratie uit te halen. Dit kan nu binnen een uurtje spelen met dit soort systemen ipv die twee maanden.

Natuurlijk is het ook heel leuk om het allemaal tot aan de laatste pixel zelf te maken. Met mijn verleden kan ik dit goed begrijpen. Maar met de tools die nu gaan komen kun je 100x zo creatief zijn binnen een fractie van de tijd die het eerder kostte.

Als hobbyist is het vooral "oh leuk". In de industrie gaat dit ervoor zorgen dat mensen hun leven terugkrijgen en niet meer op kantoor hoeven slapen voor een minimaal salaris.

Ook voor TV-series gaat deze technologie grote gevolgen hebben. Tot nu toe zie je in goedkope The CW-series (Arrow, enz) voornamelijk steeds hetzelfde werk uit After Effects tutorials voorbijkomen. Met de tools die gaan komen wordt het mogelijk om veel complexere dingen te doen en kijk je straks naar effecten met filmkwaliteit. Voor een fractie van de prijs.

Dát is waarom ook artists hier enthousiast over zouden moeten zijn.
Bedankt voor de extra toelichting. Ik zal me er wat er eens wat meer in verdiepen. Want ik ben wel half terughoudend vanwege het vermeende auteursrechten inbreuk. Je kent zelf waarschijnlijk ook wel de voorbeelden waar in eens ook een handtekening van de originele artiest wordt gegenereerd.

Schiet mij net een bekende uitspraak binnen die mijn punt illustreert. An image can say more than a thousand words. Dus omgedraaid, hoeveel woorden heb je nodig om de AI tot dat zelfde plaatje te laten komen.

Maar ik ga er eens mee spelen. :)

[Reactie gewijzigd door RoamingZombie op 22 juli 2024 15:02]

Klopt. Ik vind ook dat er geen werk van artists gebruikt zou moeten worden voor het trainen van de modellen, tenzij iemand zelf de maker is. Dan kan de persoon in kwestie zelf beslissen of het verspreid moet worden (misschien tegen betaling zodat de artist er iets aan heeft).
Dát is waarom ook artists hier enthousiast over zouden moeten zijn.
Artiesten zijn over het algemeen niet zo te spreken over technologie die hun werk irrelevant maakt, en al helemaal niet als deze technologie daarvoor gebruik maakt van hun eigen kunstwerken.
Maar met de tools die nu gaan komen kun je 100x zo creatief zijn binnen een fractie van de tijd die het eerder kostte.
Waar baseer je dat op? Met AI heb je namelijk veel minder bewegingsvrijheid dan op een canvas. Je kan tijdens het productieproces geen wijzigingen aanbrengen, omdat dit hele proces overgenomen wordt door de AI. Er komt weinig creativiteit aan te pas, immers doe je zelf niets behalve het intypen van een zinnetje - iets wat iedereen die de basisschool afgerond heeft kan.
Als hobbyist is het vooral "oh leuk". In de industrie gaat dit ervoor zorgen dat mensen hun leven terugkrijgen en niet meer op kantoor hoeven slapen voor een minimaal salaris.
Het artikel dat je hier linkt ondersteunt je stelling niet. Het beschrijft enkel slechte werkcondities.

Je hebt gelijk dat de technologie grote gevolgen zal hebben - en al heeft. Maar je kijkt wel met een erg roze bril hiernaar, met name als je alle AI's over één kam scheert en de negatieve gevolgen negeert. Een upscaling AI is van een heel andere aard dan AI dat automatisch afbeeldingen genereert op basis van bestaande kunst die zonder toestemming van de artiesten voor dit (vaak commerciële) doeleinde gebruikt is.
Er komt weinig creativiteit aan te pas, immers doe je zelf niets behalve het intypen van een zinnetje - iets wat iedereen die de basisschool afgerond heeft kan.
Hier val je helaas een beetje door de mand. Tekst is maar één van de mogelijkheden.
Ik had het specifiek over txt2img generators zoals Stable Diffusion, het onderwerp van dit artikel. Heb je ook reactie op... wel, alles van mijn vorige reactie?
Zie m'n andere reacties.

De rest ga ik je niet van kunnen overtuigen omdat je voornamelijk lijkt te willen horen dat hergebruik van bestaand materiaal niet goed is.
Vergeet ControlNet niet, waar de hele Stable Diffusion subreddit de afgelopen weken los mee gaat. Het geeft je nog veel meer controle.
Ja, daar was ik nog naar op zoek, maar was de exacte naam vergeten :) Thanks!
Zonde van de batterij van de telefoon? Die fouten vind je net zo goed op de pc. Heeft niks te maken met een prototype maar je prompt/negative prompt/model en parameters
Daar is men al heel hard mee bezig :)

Zie voor testresultaten (bv. op Twitter): https://linktr.ee/deepfloyd
Ik kan dit al een tijdje op iOS met Draw Things: AI Generation https://apps.apple.com/app/id6444050820 wel een echte battery drainer en op mijn 11 pro is het even paar minuten wachten.

[Reactie gewijzigd door DMP.cc op 22 juli 2024 15:02]

Op zich best opvallend gezien de relatieve performance van de iPhone SoC tegenover Intel-chips. Deze CPU-gebaseerde versie doet er bijvoorbeeld echt geen minuten over op CPU's die op papier best in de buurt komen van de iPhone-chip.

Ik vermoed dat het iets te maken heeft met de relatief kleine hoeveelheid RAM die Apple in hun "pro" smartphones stopt; je hebt toch wel minstens 8GB nodig wil je SD draaien (of een hele hoop swappen accepteren). Met bijvoorbeeld een S21/S22 Ultra (die met 12GB RAM te koop zijn) zou dat wel kunnen, al heb ik weer mijn twijfels bij de performance van Qualcom's chips.
Het is natuurlijk leuk dat het kan maar of dit nu echt zo zinvol is dat je dan een pc zelf beelden kan genereren. Enigste scenario waarbij het misschien nuttig kan zijn is bij misschien misdaden om aan de hand van omschrijvingen een beeld te laten genereren van de dader. Maar om dit als b.v. kunst te gaan gebruiken zet ik wel heel veel vraagtekens bij en dit niets met kunst te maken heeft.
Qualcomm zegt dat het voor het eerst is dat Stable Diffusion op een smartphone werkt, maar uitzoekwerk van The Verge wijst uit dat iemand het bedrijf al voor was.
Een iemand ? Even zoeken in de iOS App Store toont meerdere apps, een aantal al 5 maanden oud.

Edit: ik denk dat Tweakers.net dit verkeerd heeft overgenomen: de titel van de video is "World’s first on-device demonstration of Stable Diffusion on an Android phone"
Dat leidde in de video tot een resultaat na 14,42 seconden.
Ik heb even willekeurig een van bovengenoemde apps uit de app store op m'n iPhone 13 Pro gezet, hier dezelfde prompt in gecopy-paste, en dit leverde een resultaat op na ongeveer 8 seconden.

Jammer Qualcomm, maar too little, too late.

Edit2: het lijkt er op dat deze app de opdracht naar een server stuurt.

[Reactie gewijzigd door Aaargh! op 22 juli 2024 15:02]

Weet je zeker dat die apps het niet naar een server sturen waar Stable Diffusion op draait?

8 seconden lijkt mij, gezien de snelheid van het proces, redelijk onrealistisch van appmakers die voornamelijk meeliften op het succes van de naam ipv er zelf actief aan mee ontwikkelen.

[Reactie gewijzigd door Stukfruit op 22 juli 2024 15:02]

Ik ben ook zeer skeptisch. Komt dicht tegen de lokale SD performance van mijn 4090 aan..
Je hebt gelijk, de app functioneert niet als ik het toestel in airplane mode zet.

Wat een nepperij.
Adverteert die app dat het locaal gebeurt?
Zonder te kijken ga ik er vanuit dat al die apps niks lokaal draaien en gewoon een connectie maken met een website en een cloudGPU server ergens.

Op die fiets kan mijn koelkast Hogwarts Legacy in 4k@60fps draaien
Cool, misschien hoef ik het dan binnenkort niet meer op Google Colab te runnen!
Als je een PC hebt, hoeft dat sowieso al niet natuurlijk.
Helaas trekt mijn PC het niet, en leek Colab me vooralsnog goedkoper dan upgraden. Mijn smartphone is iets nieuwer en kan dit wellicht wel hebben.
"art by Artgerm and Greg Rutkowski and Alphonse Mucha"

Grappig! Geeft wel aan dat ze wss release 1.4 gebruiken, want in nieuwere versies helpt het niet meer om artiestennamen te noemen.

Verder beetje bizarre stunt, zijn toch gewoon processoren? Als ze maar genoeg ram aansluiten - want stable diffision heeft dat nogal veel nodig. Of bedoelen ze hiermee nieuwe hardware accelerators te laten zien?

Op dit item kan niet meer gereageerd worden.