Overview: Speech Synthesis and Conversational AI

Door Remy Dheygere

In het afgelopen jaar hebben we een aantal recente innovaties opgemerkt rond spraaksynthese en conversational AI. Dusver is de state of the art op dit gebied nog niet zover dat het  realistische wijze onmiddellijk kan worden toegepast in een game- of VFX-pipeline. Dat gezegd zijnde, innovatie stopt nooit, en binnen dit veld komen regelmatig nieuwe technieken en interessante innovaties naar boven. In deze blogpost bundelen we deze voor jullie.

Spraaksynthese

Spraaksynthese is een gebied waar veel onderzoek naar wordt gedaan en er een continue evolutie is. Voor eenvoudige toepassingen zijn er eenvoudige tools of technieken beschikbaar. Wilt u echter uw eigen stem of die van stemacteurs gaan klonen met een hoog realisme dan gaat dit nog steeds gepaard aan een intensief proces van dataverzameling. Hieronder een kort overzicht van verschillende services omtrent spraaksynthese.

 

 

Real-Time Voice Cloning

Tijdens het voorbereidingsjaar hadden we kort Real-Time Voice Cloning aangekaart, een paper uit januari 2019. Deze techniek maakt het mogelijk om een stem te klonen aan de hand van een kort stemfragment. Het resulterende audiofragment is begrijpelijk doch meestal robotachtig, met slechts een hint van de oorspronkelijke stem. Ten slotte is ook weinig controle over het uiteindelijke resultaat, enkel dan extra embeddings (stemfragmenten) toevoegen of het herformuleren van de zin bij ongewenste artefacten.

De implementatie hiervan is op GitHub te vinden en is onlangs in februari 2021 door de open source community naar PyTorch geconverteerd. De demo werkende krijgen op uw eigen PC vereist wel nog steeds enige technische kennis. Hier vindt u alvast de correcte installatie instructies voor Windows en LinuxEen video over de werking Real-Time Voice Cloning Toolbox met de resultaten vindt u hier.

De auteur van de paper verwijst u dan ook graag door naar Resemble, waar hijzelf na zijn thesis aan de slag is gegaan.

 

 

Resemble

Resemble biedt dezelfde functionaliteit aan als uit de voorgaande open source repository, maar dan in een gebruiksvriendelijk jasje met extra services, zoals AI-gegenereerde tekst, afhankelijk van het subscriptiemodel dat u kiest.

Het resultaat is aanmerkelijk beter dan de inmiddels twee jaar oude repo maar gaat nog steeds niemand voor de gek houden. Halverwege de hoofdpagina kunt u naar een Nederlands tekstfragment luisteren. De stem zal voorlopig nog geen voice actors vervangen, maar is mogelijk interessant als placeholder of valt te gebruiken bij interne demo’s.

 

 

Sonatic

Deze service laat u toe om uw scripts om te zetten naar audio, ditmaal met een sterke focus op controle over de emotionele toon. De stemmen klinken dan ook al heel wat menselijker. Onderaan de website vindt u een demo waar u mee aan de slag kunt gaan.

De beperking is hier wel dat je zelf geen stemmen kan klonen of toevoegen. Het voordeel van deze selecte bibliotheek is de hoge stemkwaliteit en de kracht van het emotionele aspect. Dit is zeker interessant voor studio’s waarvan een grote hoeveelheid dialoog onderhevig is aan verandering.

 

 

15.ai

Dit project en de code is op het moment van schrijven nog niet uitgebracht. De gerelateerde paper zal hoogstwaarschijnlijk gepubliceerd worden onder de naam “Natural realistic emotive high-fidelity faster-than-real-time text-to-speech synthesis with minimal viable data.

 

De naam van de website en service 15.ai heeft geen duidelijke betekenis, al wordt wel eens gegrapt dat dit het aantal dagen is dat de service beschikbaar is per jaar. De developer van deze gratis online toolbox wil niets minder dan perfectie en zet de site enkel online wanneer de kwaliteit naar zijn mening voldoende is. Met een portie geluk vindt u, onder het subdomein https://final5.15.ai of een increment hiervan (final6, final7, ..), een beta versie online.

 

De stemmen van deze toolbox zijn beperkt tot fictionele characters. Ondanks de beperkte data zijn de stemmen van hoge kwaliteit. Ook hier is er de mogelijkheid om emoties te koppelen aan stemfragmenten. Hierdoor is 15.ai zeer geliefd bij fan communities, van Team Fortress 2 tot My Little Pony-liefhebbers. Fans brengen zo hun vreemde dialogen en verhalen eenvoudig tot leven, al dan niet met zelfgemaakte animaties.

 

Bij deze de meest bekeken 15.ai video op YouTube. Onder de “15.AI TF2” vindt u zelf nog meer voorbeelden. Opgelet, de fan communities hebben nogal specifieke humor en gebruiken vaak obscene termen in hun creaties.

 

Indien de service niet online is vindt u hier een overzicht van de interface van meest recentste versie die enkele dagen geleden is opgedoken. Verder is onlangs een gelijkaardige service https://uberduck.ai/ verschenen, weliswaar met een beperkter aanbod en stemmen van veel mindere kwaliteit. Een account met Google of Discord is vereist indien u dit zelf eens wil testen.

Hou de url van 15.ai zeker in de gaten, de paper die hier rond wordt geschreven is zeer belovend. De mogelijkheid om emotionele spraak te generen met een minimum aan data is dusver ongekend en een van de moeilijkste uitdagingen binnen het veld van spraaksynthese.

 

 

Coqui.ai

Waar voorgaande services telkens vanuit de browser of in de vorm van van consumentensoftware beschikbaar waren, is de coqui.ai toolkit voor een iets technischer publiek. De oorspronkelijke versie Mozilla TTS werd door de auteur op eigen houtje via een open source project en onder een nieuwe naam verdergezet.

 

Uniek aan coqui TTS is dat we hier elk soort stem met redelijk realisme kunnen gaan trainen, in om het even welke taal. De uitdaging hier is dan wel het project op poten zetten en kwalitatieve dataset vinden of zelf samenstellen.

 

Zelf heb ik de volgende Nederlandse stem getraind met Tacotron aan de hand van een zelf samengestelde dataset binnen DAE Research. Indien u technisch aangelegd bent kunt u hetzelfde model gebruiken met de volgende commit. Ik raad aan om uw eigen model te trainen met de up-to-date coqui repository. Dit zal voor de beste resultaten zorgen.

 

Conversationele AI

In 2019 vond een intern onderzoeksproject plaats naar de mogelijkheden van Conversational AI binnen de context van de Howest. Dit project concludeerde uiteindelijk dat het opzetten van een complete chatbot voor, in dat geval, een school helpdesk, nog te tijdrovend is om praktisch uitvoerbaar te zijn. Daarnaast hadden de bestaande technieken nog steeds moeite met verwijzingen naar eerdere zinnen, laat staan een voorgaande gebeurtenis met dezelfde persoon.

Hoewel dit tot op de dag van vandaag nog steeds een grote uitdaging is, hebben er sindsdien interessante ontwikkelingen plaatsgevonden rond generatieve AI, met name door GPT.

 

 

GPT-3

GPT-3, of voluit Generative Pre-trained Transformer 3, van OpenAI is een indrukwekkend taalmodel. Niet enkel op vlak van linguïstische capaciteiten, welke men op verscheidene manieren kan meten, maar ook de hoeveelheid computing power (kostprijs rond de 12 miljoen dollar) en de berg data om een dergelijk model te trainen. Met maar liefst 175 miljard parameters voor de grootste variant van GPT-3 heeft dit in februari 2020 het voorgaande model met een factor 10 voorbij gestoken in grootte.

Tal van voorbeelden van de capaciteiten vindt u op de website van openai. Deze video is alvast een leuk voorbeeld van de chat capaciteiten van dit model. Let wel, hier zijn achteraf de avatar een spraak erbij ge-edit. Deze conversatie is niet real-time verlopen.

 

Jammer genoeg is GPT-3 nog steeds niet openlijk beschikbaar. Dit komt omdat OpenAI sinds 2019 een for-profit organisatie is geworden en Microsoft sindsdien meer dan één miljard dollar in het bedrijf heeft geïnvesteerd. Het spreekt dan ook voor zich dat enkel zij toegang hebben tot de source code, en dat andere partijen zich gelukkig moeten stellen met het gebruik van de publieke API.

Dit taalmodel, gepaard met als training data de miljoenen code repositories op GitHub, heeft tot de creatie van Microsoft GitHub CoPilot gezorgd. Deze is beschikbaar als plug-in in Visual Code. Deze service laat developers toe om automatisch code te genereren op basis van hun comments.

 

 

GPT-NEO / GPT-J-6B

Dit zijn de open toegankelijke varianten van GPT-3, getraind door EleutherAI. U kunt online een zin (prompt) opgeven in het Engels die GPT op een creatieve manier voor u aanvult. De ‘kleine’ Neo  versie, 2.7 miljard parameters, is beschikbaar op huggingface. Ook de capaciteiten van de grootste variant met 6B parameters kunt u testen op https://6b.eleuther.ai/, al kan het bij deze laatste wel eventjes duren voor de output op uw scherm verschijnt. Niettemin, de resultaten kunnen behoorlijk interessant zijn. Ook de 825GB tekst dataset The Pile waar dit model op getraind is kunt u downloaden, mits u uiteraard daar de opslagruimte voor heeft.

 

 

Andere taalmodellen om in het oog te houden

Er zijn echt een heleboel taalmodellen, elk met hun eigen capaciteiten. Hier een kort lijstje van de belangrijkste op dit moment.

 

LaMDA

LaMDA staat voor Language Model for Dialogue Applications. Dit conversational model werd in mei op de jaarlijkse Google I/O conferentie tentoongesteld als de volgende generatie van chatbots. Hoewel de resultaten belovend lijken, zou ik er nog niet te ongeduldig op wachten. Misschien herinnert u de hype rond Google Duplex nog? Drie jaar later is de technologie nog steeds niet volledig in de VS beschikbaar, laat staan in de rest van de wereld.

 

RobBERT

Dusver zijn de taalmodellen die we besproken hebben steeds enkel bruikbaar in het Engels. Een taalmodel dat we hier niet besproken hebben, Google BERT, is door de KU Leuven in het Nederlands getraind. In tegenstelling tot GPT is RobBERT niet in staat om tekst te genereren. De code en een overzicht van de capaciteiten van wat RobBERT wél kan vindt u op de github repository.

 

Switch Transformers en Wudao 2.0

Hoewel de stap van GPT-3 in 2020 met 10x parameters naar 175 miljard parameters impressionant was, is het inmiddels niet meer het grootste taalmodel op de markt. In begin 2021 kwam Google op de proppen met Switch Transformers, een model van 1.6 biljoen parameters. Switch Transformers hebben weinig media attentie gekregen omdat het geen fancy AI demo had, maar mogelijk is er nog een revolutie voor consumentenproducten aan te komen.

 

Op 1 juni heeft de Beijing Academy of Artificial Intelligence een model met 1.75 biljoen parameters uitgebracht, wat opnieuw GPT-3 met factor 10 overtreft en op dit moment het grootste taalmodel is. Het model is capabel om conversaties te voeren, kan gedichten en muziek schrijven, accepteert afbeeldingen als input en kan recepten genereren. Veel is nog niet bekend over Wu Dao 2.0, al is China wel van plan dit te gebruiken om hun eerste virtuele student te trainen. Mogelijk met de hoop om AGI te bereiken?

 

 

Fable

Hoewel ik zelf dusver nog wat skeptisch was over de mogelijkheden van conversational AI, heeft de demo van Fable mij van gedachten veranderd. Ondanks dat dit het resultaat is van enkele jaren intensief werk met hoogstwaarschijnlijk heel wat venture capital, zijn de capaciteiten veelbelovend. Met deze video wil Fable ook het concept van “Virtual Beings” introduceren die een onderdeel van ons leven zouden kunnen worden.

Voor de geïnteresseerden, er is een jaarlijkse virtual beings summit, welke dit jaar op 14/07 begint. Mogelijk komen er in de komende dagen nog interessante projecten naar boven uit deze summit.