Stability AI brengt versie 2.0 van AI-beeldgenerator Stable Diffusion uit. De software krijgt diverse nieuwe functies. De update verwijdert ook de mogelijkheid om pornografische beelden te genereren en maakt het moeilijker om de stijl van kunstenaars te kopiëren, melden gebruikers.
Versie 2.0 van Stable Diffusion krijgt onder meer een vernieuwd text-to-image-diffusionmodel, meldt ontwikkelaar Stability AI. De software maakt daarvoor gebruik van de OpenCLIP-tekst-encoder van Laion. Dit moet de kwaliteit van gegenereerde afbeeldingen 'aanzienlijk' verbeteren ten opzichte van eerdere v1-releases, claimt het bedrijf. In versie 2.0 kan het model afbeeldingen genereren met standaardresoluties van 512x512 pixels en 768x768 pixels.
De software krijgt een nieuwe upscaler, die de resolutie van afbeeldingen tot vier keer kan vergroten, bijvoorbeeld van 512x512 naar 2048x2048 pixels. De update voegt ook een depth-to-image-functie toe. Daarmee kan de software nieuwe versies van bestaande afbeeldingen genereren en daarbij de diepte-informatie uit de voorgaande afbeelding bewaren. Deze functie kan volgens Stability AI afbeeldingen genereren 'die er radicaal anders uitzien dan het origineel', maar met behoud van de samenhang en diepte van de oorspronkelijke afbeelding. De software heeft daarnaast een functie waarmee gebruikers delen van een afbeelding kunnen hergebruiken bij het genereren van nieuwe beelden.
De upscaler in Stable Diffusion 2.0 (links) en depth-to-image. Bron: Stability AI
De nieuwe release heeft echter ook tot ophef onder gebruikers geleid, schrijft onder meer The Verge. Het nieuwe model krijgt bijvoorbeeld een filter dat het genereren van nsfw-beelden als pornografische afbeeldingen tegengaat. Gebruikers noemen de wijziging 'censuur', hoewel anderen erop wijzen dat de optie om nsfw-beelden te maken mogelijk later wordt weer toegevoegd met thirdpartysoftware.
Stability AI-oprichter Emad Mostaque vertelt tegen The Verge dat het hiervoor kiest vanwege veiligheid. "Je kunt geen kinderen en nsfw hebben in een open model", vertelt de oprichter, waarmee hij doelt op de mogelijkheid om kinderporno te genereren met de opensourcetool. "Dus weg met de kinderen of weg met de nsfw." Het was ook mogelijk om zonder toestemming naaktbeelden van specifieke personen te genereren met de software.
:strip_exif()/i/2005477470.jpeg?f=thumblarge)
Bron: Stability AI
Gebruikers klagen ook op sociale media dat het moeilijker is om de stijl van kunstenaars te gebruiken bij het genereren van afbeeldingen. Voorheen konden gebruikers de naam van een kunstenaar als prompt gebruiken bij het maken van een afbeelding, maar dit lijkt nu minder effectief te zijn. Kunstenaars als Greg Rutowski, wiens stijl vaak wordt gebruikt bij het genereren van AI-afbeeldingen, klaagden eerder over het gebruik van AI-generators hiervoor.
Een Reddit-gebruiker vergelijkt Stable Diffusion 1.5 met de nieuwste release bij het maken van afbeeldingen in verschillende kunststijlen, zoals die van Vincent van Gogh, Pixar en Rutowski. Hierin is te zien dat de nieuwste versie hier aanzienlijk minder goed in is. Mostaque stelt tegenover The Verge dat het kopiëren van dergelijke artstyles niet specifiek wordt tegengegaan in versie 2.0. De verminderde mogelijkheid om kunstenaars te kopiëren komt volgens hem door veranderingen in de codering en de manier waarop de software gegevens ophaalt.
Stable Diffusion is een opensourcemodel dat gebruikt kan worden voor het genereren van afbeeldingen op basis van tekstinvoer. Gebruikers kunnen de software draaien op een pc, in tegenstelling tot diensten als Dall-E, die alleen via de cloud beschikbaar zijn. De software wordt ondersteund door veel gpu's met 8GB of meer geheugen. De software is gratis beschikbaar op GitHub. Er zijn ook online demo's van de AI-beeldgenerator beschikbaar.