Stability AI heeft donderdag Stable Diffusion 3 aangekondigd, een beeldsynthesemodel van de volgende generatie met open gewichten. Het volgt zijn voorgangers door gedetailleerde afbeeldingen met meerdere onderwerpen te maken met verbeterde kwaliteit en nauwkeurigheid bij het maken van tekst. De korte aankondiging ging niet gepaard met een openbare demo, maar stabiliteit wel Wachtlijst openen Vandaag is voor degenen die het willen proberen.
Stable zegt dat de Stable Diffusion 3-modelfamilie (die tekstbeschrijvingen, zogenaamde ‘prompts’, omzet in overeenkomstige afbeeldingen) in grootte varieert van 800 miljoen tot 8 miljard parameters. De schaal maakt het mogelijk dat verschillende versies van het model lokaal op verschillende apparaten kunnen worden uitgevoerd – van smartphones tot servers. De parametergrootte komt grofweg overeen met de mogelijkheden van het model in termen van de hoeveelheid details die het kan genereren. Grotere modellen hebben ook meer VRAM op de GPU-versnellers nodig om te kunnen werken.
Sinds 2022 hebben we Stable zijn evolutie van modellen voor het genereren van AI-beelden zien lanceren: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo en nu 3. Stability heeft naam gemaakt als een opener alternatief voor propriëtaire beeldsynthesemodellen zoals OpenAI's DALL-E 3, hoewel dit niet zonder controverse is vanwege het gebruik van auteursrechtelijk beschermde training gegevens. Vooroordelen en potentieel voor misbruik. (Dit leidde tot onopgeloste rechtszaken.) De steady-state diffusiemodellen waren open-gewogen en open-source, wat betekent dat de modellen lokaal konden worden uitgevoerd en afgestemd om hun output te veranderen.
-
Stable Diffusion 3 Generation met claim: Episch kunstwerk van een tovenaar bovenop een berg die 's nachts een kosmische spreuk uitspreekt in de donkere hemel en zegt “Stable Diffusion 3”, gemaakt van kleurrijke energie.
-
Door AI gegenereerde afbeelding van een grootmoeder die een 'Go big or go home'-sweatshirt draagt, gemaakt door Stable Diffusion 3.
-
Stabiele diffusie van de derde generatie met prompt: drie heldere glazen flessen op een houten tafel. De linker heeft rode vloeistof en het nummer 1. Degene in het midden heeft blauwe vloeistof en het nummer 2. Degene aan de rechterkant heeft groene vloeistof en het nummer 3.
-
AI gegenereerde afbeelding met stabiele diffusie 3.
-
Derde generatie Stabiele verspreiding met prompt: Een paard balanceert op een gekleurde bal in een veld met groen gras en een berg op de achtergrond.
-
Stillevenvoortplanting van de derde generatie met prompt: stemmig stilleven van diverse pompoenen.
-
Stabiele diffusie 3e generatie met prompt: een schilderij van een astronaut die op een varken rijdt, een tutu draagt en een roze paraplu vasthoudt. Op de grond naast het varken staat een roodborstje met een hoge hoed, en in de hoek staan de woorden 'Stable Diffusion'.
-
Stabiele verspreiding 3e generatie met de claim: Op de keukentafel ligt een geborduurd kleed met de tekst “Good Night” en een geborduurde babytijger. Naast het doek staat een brandende kaars. De verlichting is zwak en dramatisch.
-
Stabiele verspreiding 3e generatie met prompt: afbeelding van een desktopcomputer uit de jaren 90 op een bureau, met 'Hallo' op het computerscherm. Op de muur op de achtergrond zien we prachtige graffiti met de tekst “SD3” heel groot op de muur.
Over de technische verbeteringen zei Imad Mushtaq, CEO van Stabiliteit boeken Op de
Zoals Mostaque zei, gebruikt de Stable-familie Diffusion 3 Structuur van diffusietransformatoreneen nieuwe methode om beelden te creëren met behulp van kunstmatige intelligentie die de gebruikelijke beeldbouwstenen vervangt (bijv UNET-architectuur) voor een systeem dat op kleine stukjes van de afbeelding werkt. Deze methode is geïnspireerd op transformatoren, die goed met patronen en sequenties kunnen omgaan. Deze aanpak verhoogt niet alleen de efficiëntie, maar er wordt ook gezegd dat het beelden van hogere kwaliteit oplevert.
Er wordt ook gebruik gemaakt van Stabiele Diffusie 3”Stroommatching“, een techniek voor het maken van modellen voor kunstmatige intelligentie die afbeeldingen kunnen creëren door te leren hoe je van willekeurige ruis naar een soepel gestructureerd beeld kunt gaan. Het doet dit zonder elke stap van het proces te hoeven simuleren, en richt zich in plaats daarvan op de algemene richting of stroom die moet Beeldcreatie volgen.
We hebben geen toegang tot de Stable Diffusion 3 (SD3), maar uit de voorbeelden die we op de Stable-website en bijbehorende sociale media-accounts hebben gevonden, lijken de Generations op dit moment ongeveer vergelijkbaar met andere moderne fotomontagemodellen. Inclusief de eerder genoemde DALL-E 3, Adobe Firefly, Imagine met Meta AI, Midjourney en Google Imagen.
SD3 lijkt het genereren van tekst heel goed aan te kunnen in voorbeelden van anderen, die waarschijnlijk als kers op de taart zijn uitgekozen. Het genereren van tekst was een bijzonder zwak punt in eerdere modellen voor beeldmontage, dus het verbeteren van dit vermogen in vrije vorm is een groot probleem. Ook lijkt de snelheidsnauwkeurigheid (hoe nauw deze de beschrijvingen in de aanwijzingen volgt) vergelijkbaar met die van DALL-E 3, maar dat hebben we zelf nog niet getest.
Hoewel Stable Diffusion 3 niet overal verkrijgbaar is, zegt Stability dat zodra het testen is voltooid, de gewichten gratis kunnen worden gedownload en lokaal kunnen worden uitgevoerd. “Deze preview-fase is, net als bij eerdere modellen, van cruciaal belang voor het verzamelen van ideeën om de prestaties en veiligheid ervan te verbeteren vóór de open release”, schreef Stability.
Er is onlangs met stabiliteit geëxperimenteerd met een verscheidenheid aan architectuur voor beeldmontage. Naast de SDXL en SDXL Turbo maakte het bedrijf vorige week bekend Stabiele cascadedat een proces in drie fasen gebruikt om tekst over een afbeelding te leggen.
Afbeelding weergeven door Imad Mushtaq (AI voor stabiliteit)
“Proud coffee guru. Web pioneer. Internet expert. Social media specialist.”