Spotlight: DALL-E 2

Door Remy Dheygere

 

 

Nieuwe features

DALL-E 2 is de opvolger van DALL-E, de service van OpenAI uit januari 2021 die tekst naar afbeeldingen kan omzetten. Mogelijk herinner je nog de ‘avocado stoel’ die toen vaak werd aangehaald als één van de voorbeelden.

 

img

DALL-E, de originele versie van 2021

 

De nieuwste versie is een enorme sprong voorwaarts. De afbeeldingen zijn van hoge resolutie en genereren afbeeldingen die nauwer aansluiten bij de opgegeven tekst van de gebruiker. Hier alvast mijn favorieten met de input zin “A bowl of soup that is a portal to another dimension as digital art” :

 

DALL-E 2

 

Een nieuwe feature is verder ook het bewerken van een bestaande afbeelding, waarbij er rekening wordt gehouden met belichting op het object en de schaduw die het creëert, alsook de stijl van de afbeelding. In de onderstaande afbeelding zien we ook dat er ook rekening met de context wordt gehouden. Binnen wordt er een ballon-versie van de flamingo getekend, terwijl op de derde positie die buiten ligt er echte flamingo’s worden getekend.

 

DALL-E 2

 

Beschikbaarheid

Op dit moment is het model enkel beschikbaar voor een selecte groep gebruikers. De demo op de site laat ons louter toe om voorgeschotelde voorbeelden te zien, zonder ons te laten te weten in welke mate deze cherry-picked zijn geweest. We kunnen dus zelf geen nieuwe input geven, hiervoor moest je dus bij de groep van de 1000 gelukkigen zijn geweest.

 

Een van de redenen hiervoor is mogelijk dat OpenAI enorm veel belang hecht aan de ethische aspecten van hun product. Ze willen op elke mogelijke manier voorkomen dat het wordt misbruikt om ongepaste afbeeldingen te genereren. Hiervoor hebben ze een uitgebreide systeemkaart opgesteld die u op GitHub kunt nalezen.

 

Open source alternatieven

Zoals we al eerder in het verleden zagen leiden deze soort afgeschermde modellen vaak tot een push vanuit de opensource community die een gezamenlijke poging ondernemen om gelijkaardige modellen te gaan creëren. Wat dus initieel teleurstellend is (het taalmodel GPT-3 is zeer lang afgeschermd geweest) heeft uiteindelijk geleid tot onder andere de creatie van EleutherAI’s taalmodel GPT-J-6b welke volledig opensource én gratis te gebruiken is.

 

Ook voor DALL-E 2 zit dit ongetwijfeld ook in de pipeline. Dus, wat ligt er op dit moment op tafel indien u zich niet tot de voorgekauwde voorbeelden wilt beperken en zelf aan de slag wilt gaan? DALL-E mini wordt publiekelijk op Hugging Face gehost. De resultaten zijn niet indrukwekkend, en in huidige fase mogelijk enkel bruikbaar als placeholder afbeeldingen, maar laat u op zijn minst toe om al eens te experimenteren.

 

DALL-E mini

 

De komst van DALL-E 2 heeft geleid tot een nieuwe push aan voornoemd project en er wordt inmiddels actief gewerkt aan aan nieuwe opensource versie van DALL-E mini, genaamd DALL-E mega.

 

De resultaten zijn uiteenlopend per prompt, maar over het algemeen zeer indrukwekkend.