Spotlight: Muse Text-To-Image Generation

Door Glenn van Waesberghe

Muse is een nieuw model voor het genereren van afbeeldingen op basis van tekst. Het is gebaseerd op een “Transformer”-model en is significant efficiënter dan zowel diffusion- als autoregressive-modellen, terwijl het toch state-of-the-art prestaties behaalt. Het model is getraind op een maskerings-taak in discrete token-ruimte: gegeven de tekstembedding die is geëxtraheerd van een voorgetraind groot taalmodel (LLM), moet Muse voorspellen welke afbeeldingstokens zijn gemaskeerd. Dankzij het gebruik van discrete tokens en het vereisen van minder sampling-iteraties is Muse aanzienlijk efficiënter dan diffusion-modellen zoals Imagen en DALL-E 2. In vergelijking met autoregressive-modellen zoals Parti is Muse efficiënter dankzij het gebruik van parallelle decoding. Door gebruik te maken van een voorgetraind LLM kan Muse fijnmazig taalbegrip tonen, wat leidt tot hoogwaardige afbeeldingsgeneratie en het begrip van visuele concepten zoals objecten, hun ruimtelijke relaties, pose, cardinaliteit enzovoort. Muse maakt ook direct een aantal afbeeldingbewerkingsapplicaties mogelijk zonder dat het model hoeft te worden afgefine-tuned of omgekeerd: inpainting, outpainting en maskerloze bewerkingen.

Voor meer info vind je project-website hier terug: https://muse-model.github.io