Spotlight: DALL-E 2

Door Remy Dheygere

 

 

Nieuwe features

DALL-E 2 is de opvolger van DALL-E, de service van OpenAI uit januari 2021 die tekst naar afbeeldingen kan omzetten. Mogelijk herinner je nog de ‘avocado stoel’ die toen vaak werd aangehaald als één van de voorbeelden.

 

img

DALL-E, de originele versie van 2021

 

De nieuwste versie is een enorme sprong voorwaarts. De afbeeldingen zijn van hoge resolutie en genereren afbeeldingen die nauwer aansluiten bij de opgegeven tekst van de gebruiker. Hier alvast mijn favorieten met de input zin “A bowl of soup that is a portal to another dimension as digital art” :

 

DALL-E 2

 

Een nieuwe feature is verder ook het bewerken van een bestaande afbeelding, waarbij er rekening wordt gehouden met belichting op het object en de schaduw die het creëert, alsook de stijl van de afbeelding. In de onderstaande afbeelding zien we ook dat er ook rekening met de context wordt gehouden. Binnen wordt er een ballon-versie van de flamingo getekend, terwijl op de derde positie die buiten ligt er echte flamingo’s worden getekend.

 

DALL-E 2

 

Beschikbaarheid

Op dit moment is het model enkel beschikbaar voor een selecte groep gebruikers. De demo op de site laat ons louter toe om voorgeschotelde voorbeelden te zien, zonder ons te laten te weten in welke mate deze cherry-picked zijn geweest. We kunnen dus zelf geen nieuwe input geven, hiervoor moest je dus bij de groep van de 1000 gelukkigen zijn geweest.

 

Een van de redenen hiervoor is mogelijk dat OpenAI enorm veel belang hecht aan de ethische aspecten van hun product. Ze willen op elke mogelijke manier voorkomen dat het wordt misbruikt om ongepaste afbeeldingen te genereren. Hiervoor hebben ze een uitgebreide systeemkaart opgesteld die u op GitHub kunt nalezen.

 

Open source alternatieven

Zoals we al eerder in het verleden zagen leiden deze soort afgeschermde modellen vaak tot een push vanuit de opensource community die een gezamenlijke poging ondernemen om gelijkaardige modellen te gaan creëren. Wat dus initieel teleurstellend is (het taalmodel GPT-3 is zeer lang afgeschermd geweest) heeft uiteindelijk geleid tot onder andere de creatie van EleutherAI’s taalmodel GPT-J-6b welke volledig opensource én gratis te gebruiken is.

 

Ook voor DALL-E 2 zit dit ongetwijfeld ook in de pipeline. Dus, wat ligt er op dit moment op tafel indien u zich niet tot de voorgekauwde voorbeelden wilt beperken en zelf aan de slag wilt gaan? DALL-E mini wordt publiekelijk op Hugging Face gehost. De resultaten zijn niet indrukwekkend, en in huidige fase mogelijk enkel bruikbaar als placeholder afbeeldingen, maar laat u op zijn minst toe om al eens te experimenteren.

 

DALL-E mini

 

De komst van DALL-E 2 heeft geleid tot een nieuwe push aan voornoemd project en er wordt inmiddels actief gewerkt aan aan nieuwe opensource versie van DALL-E mini, genaamd DALL-E mega.

 

De resultaten zijn uiteenlopend per prompt, maar over het algemeen zeer indrukwekkend.

 

DALL-E Mega

 

Ik raad ten stelligste aan om de resultaten eens voor uwzelf te bekijken. Er zijn in totaal 198 prompts. De auteur laat ons verder ook toe om een kijkje te nemen in de evolutie van het leerproces, dat op het moment van schrijven reeds 34 dagen bezig is. Op de bovenste rij zien we het resultaat van het allereerste  model, de onderste rij toont het resultaat van het meest recente model. In bovenstaande notebook kunt u dit trouwens zelf aanpassen, dit is een selectie van slechts vijf van de 28 modellen.

 

Evolutie over vijf verschillende runs heen

Omdat DALL-E Mega op dit moment nog volop in training is kunt u hier nog niet zelf mee aan de slag, maar hou zeker de Github/Twitter pagina van Boris Dayma in de gaten voor het laatste nieuws rond dit project.

 

Wees echter niet getreurd, waar u inmiddels wél mee aan de slag kunt is MindsEye beta van multimodalart. U hoeft zelfs geen enkele lijn code aan te passen, of iets op uw PC te installeren. U kunt aan de slag met uw browser en een tikkeltje geduld. De default back-end staat ingesteld op DiscoDiffusion,  welke over het algemeen artistieke afbeeldingen genereerd. Bij mij  eigen testen viel op dat het model minder goed is in gezichten van  mensen of dieren. Wel staat dit model gekend voor indrukwekkende  omgevingen of landschappen te genereren.

LMijn poging om dieren te genereren met de prompt “stylized hamster sunbathing on the beach”. Het model slaagt er niet in om een correct gezicht te genereren. Desondanks is de omgeving vrij geslaagd, met de gevraagde stijl.

https://preview.redd.it/hvli82gkd2z81.jpg?width=960&crop=smart&auto=webp&s=0ef1ecb7421ac6fb0fbb8e927b04b4f21e33ab36

Bovenstaande afbeelding is gegenereerd met de woorden “Wasteland with Magic”. Ook u kunt dergelijke prachtige afbeeldingen genereren door gewoon een tekst-prompt op te geven.

En dan ten slotte, waar gaan we naar toe met deze technologie? Ik  geef onderstaande video alvast mee als kijkje in de toekomst, mogelijk  gaan er nog heel wat van deze type video’s opduiken.