De stem nabootsen was niet eenvoudig, desondanks men zou verwachten dat er heel wat data beschikbaar is. De audio dient steeds van hoge kwaliteit te zijn, zonder enig achtergrondgeluid.
Hiervoor moest het Sonantic team eerst de beperkte hoeveelheid aan stemdata die werd aangeleverd manueel schoonmaken en opbreken in stukjes. Ook moesten ze nog de vereiste transcripties bekomen. Het eindresultaat was een model dat moest trainen met 10x minder data dan gebruikelijk.
Dit bracht uiteraard nieuwe uitdagingen met zich mee.
Om toch het verwachte niveau te bereiken hebben ze speciaal nieuwe algoritmes ontwikkeld en uit meer dan 40 verschillende stem modellen de meest expressieve en kwalitatieve model geselecteerd. Hierdoor werd meteen ook de kwaliteit van hun product tot een nieuw niveau getild.
Sonantic ziet alvast heel wat use-cases voor hun product, van voor de hand liggende opportuniteiten zoals virtuele assistenten of de entertainment sector, tot zelfs ‘gepersonaliseerde’ advertenties in de advertentie & media wereld aan de hand van mirco-zinnen die worden ingevoegd in video’s aangepast aan het doelpubliek.
Volgens Sonantic zullen digitale stemmen binnenkort steeds meer een onderdeel worden van onze realiteit.