Comment ça marche ?

Enregistrement de la voix cible

La technologie d’imitation vocale de CandyVoice permet de personnaliser les voix des Text To Speech (TTS) avec une ou plusieurs Voix Cibles. Ce procédé requiert l’enregistrement en studio d’un corpus d’une centaine de phrases, par l’interprète de la Voix Cible, ou bien le choix d’une Voix Cible à partir de fichiers audio d’archives.

Création du model vocal

CandyVoice crée le modèle vocal supervisé de la Voix Cible à partir de l’enregistrement en studio, ou des fichiers audio d’archives. La qualité du modèle vocal dépend de la qualité d’enregistrement de la Voix Cible (prononciation des phrases et de l’environnement acoustique), ou, le cas échéant, de la qualité du fichier audio d’archives.

TTS customization

Pour personnaliser le TTS, l’utilisateur envoie via l’API de CandyVoice un fichier texte à synthétiser avec la Voix Cible, et reçoit quasi instantanément un fichier audio, où le texte est lu avec la Voix Cible. La qualité du résultat final dépend non seulement de la qualité du modèle vocal de la Voix Cible, mais aussi de la qualité de la voix du TTS.

Enregistrement des voix source et cible

L’imitation vocale de CandyVoice qui permet d’imiter de multiples Voix Cibles par de multiples Voix Sources fonctionne également en temps réel. Ce procédé requiert l’enregistrement en studio d’un corpus d’une centaine de phrases par les interprètes de la Voix Source et de la Voix Cible. La Voix Cible peut provenir aussi d’un fichier audio d’archives.

Création du model vocal

CandyVoice crée les modèles vocaux supervisés des Voix Source et Cible à partir des enregistrements en studio, ou d’un fichier audio d’archives. La qualité des modèles vocaux dépend de la qualité des enregistrements (prononciation des phrases et d’environnement acoustique), ou, le cas échéant, de la qualité du fichier audio d’archives.

Imitation vocale en temps réel

La technologie de CandyVoice permet d’imiter en temps réel de multiples Voix Cibles (dont les voix des personnalités) par de multiples Voix Sources (et vice versa !). Cette technologie trouve son usage, par exemple, dans le divertissement et dans les jeux vidéo, où le joueur peut animer le personnage du jeu avec sa propre voix en temps réel.

Procédé de personalisation d'un TTS

Enregistrement de la voix cible

Création du model vocal

TTS customization

Imitation vocale en temps réel

Enregistrement des voix source et cible

Création du model vocal

Imitation vocale en temps réel