Spotlight: Tune-A-Video

Door Glenn van Waesberghe

Deze technische paper onderzoekt een nieuw probleem in tekst-naar-video-generatie: One-Shot Video Generation. Hierbij wordt slechts één tekst-video-paar gebruikt om een open-domain tekst-naar-video-generator te trainen. Om dit te doen, stellen de onderzoekers voor om een tekst-naar-afbeelding (T2I) diffusion model te gebruiken dat is getraind op grote hoeveelheden afbeeldingen. Ze maken twee belangrijke observaties: 1) T2I-modellen kunnen afbeeldingen genereren die goed aansluiten bij de werkwoorden; 2) het uitbreiden van T2I-modellen om tegelijkertijd meerdere afbeeldingen te genereren vertoont verrassend goede inhoudsconsistentie. Om continu beweging verder te leren, stellen ze Tune-A-Video voor met een aangepaste Sparse-Causal Attention. Dit genereert video’s op basis van tekstprompts via een efficiënte one-shot tuning van getrainde T2I diffusion modellen. Tune-A-Video is in staat om tijd-coherente video’s te produceren voor verschillende toepassingen, zoals het veranderen van het onderwerp of de achtergrond, het bewerken van attributen of het overbrengen van stijl. Hiermee demonstreren ze de veelzijdigheid en effectiviteit van hun methode.

Voor meer info vind je project-website hier terug: https://tuneavideo.github.io