Il est vrai que faire lire un texte à mon actuel logiciel de diction ressemble plus à un dialogue avec un robot des années 80. Loin d’être agréable, il est incapable de mettre la moindre intonation. Pour rendre les échanges plus naturels avec les machines, de nombreuses entreprises travaillent donc sur une synthèse vocale capable de retranscrire la voix humaine. À croire que ma cafetière pourra bientôt me répondre avec ma propre voix pour m’informer que ma tasse est prête. Heureusement, l’application du clonage de voix ne se limite pas à cela. Elle donne lieu à toutes sortes de projets utiles et divertissants, faisant de la machine un compagnon toujours plus proche de nous ressembler. Mais ne nous cachons pas les conséquences d’une utilisation malintentionnée de cette technologie. Car il y a de quoi devenir parano si n’importe qui peut se faire passer pour vous au téléphone…

Quelques secondes suffisent pour synthétiser votre voix !

C’est en effet l’exploit réalisé par l’entreprise Baidu avec son logiciel baptisé Deep Voice. Le concurrent de Google en Chine s’appuie sur un réseau neuronal pour enregistrer toutes les caractéristiques d’une voix. Au travers d’un algorithme conçu par leur intelligence artificielle, la dernière version du logiciel est capable de reproduire les intonations et les accents dans un temps record. Le plus étonnant est une précision validée à 95 % par une série de contrôles et des avis largement positifs des testeurs. Les concepteurs espèrent que leur logiciel contribuera à améliorer l’interface homme-machine et à aider les personnes ayant perdu l’usage de leur voix.

Un espoir qui motive également la start-up strasbourgeoise Candyvoice et sa méthode qui ne repose pas sur la concaténation. Moins lourde à mettre en place, elle repose dans un premier temps sur une solution de text-to-speech. Dans un second temps, le spectre vocal, la hauteur de voix et l’analyse du signal sont synthétisés. Une fois cela effectué, Candyvoice permet de nombreuses autres applications comme prêter sa voix aux robots et aux objets communicants. La technologie peut également donner la voix de votre choix aux personnages de jeux vidéo pour une immersion toujours plus poussée.

Lire aussi : Technologie vocale en entreprise : Sésame, ouvre-toi !

Pour de nombreuses entreprises, les assistants vocaux sont sur le point de prendre une grande importance dans la relation clientèle. Une voix reconnaissable et de qualité est un plus indéniable pour leur image et pour se démarquer. C’est le projet sur lequel travaille la société bretonne Voxygen en combinant une analyse du lexique, de la syntaxe et de la phonétique avec un traitement acoustique. Un moyen de couvrir l’ensemble des diphones de la langue française depuis des enregistrements. Le moteur de synthèse vocale intervient alors par concaténation pour appliquer les intonations adéquates au bon endroit. Un premier clonage de voix de la comédienne Simone Hérault a ainsi été réalisé pour le compte de la SNCF après une durée d’enregistrement de 4 heures.

Usurpation et clonage de voix : du pain béni pour les pirates 2.0

Dès lors que ces technologies seront accessibles par tous, les risques d’utilisation à des fins malhonnêtes vont se multiplier. La simplicité du fonctionnement de logiciels semblables à Deep Voice jette une ombre sur les bonnes intentions de leurs inventeurs. Déjà, en mars 2019 des hackers ont réussi à recréer artificiellement la voix du PDG d’une entreprise allemande et à pirater son adresse email. Utilisant la voix de ce dernier, les escrocs ont abusé le dirigeant de la filiale britannique en lui demandant d’effectuer un virement de 220 000 euros en urgence. L’homme s’exécute ayant reconnu la voix de son patron avec son caractéristique accent allemand et reçu une validation par email. L’argent n’a jamais été retrouvé.

Bien qu’elles soient encore rares, ce type d’infractions crée la méfiance autour de la future biométrie vocale en développement auprès des banques. L’identification uniquement par la voix pourrait bien être compromise face au perfectionnement des technologies du clonage de voix.

Lire aussi : La high tech : le nouveau canal de l’espionnage moderne

Tout ce progrès autour de la synthèse vocale et du traitement de la voix implique une certaine adaptation de la loi et du droit. Il existe déjà une protection juridique vis-à-vis de la voix au niveau de contenus relatifs à la vie privée ainsi qu’à l’identité vocale dans le domaine professionnel. L’utilisation grandissante de la voix et l’avènement des logiciels de clonage impliquent de véritables ajustements pour lutter contre l’usurpation de l’identité vocale.

 

Saviez-vous que la voix est une donnée personnelle protégée par le RGPD ? Avec 82 %, la majorité des Français l’ignorent. Pourtant, les technologies vocales sont sur le point d’envahir notre quotidien. Bien qu’il soit sympa d’écouter votre livre audio avec la voix de votre moitié, il serait bien moins agréable de vous faire escroquer par cette même voix. Rappelons tout de même que ces technologies vont également apporter de nombreuses applications bénéfiques… sans oublier de se montrer vigilant. 

Thomas Bossy
Thomas Bossy
Scribe numérique
Voilà un mot bien inusité pour se retrouver devant notre digital, qui lui bien connu, envahit nos vies modernes d’une multitude de manières. J’aime jouer sur les contrastes, fouiller, chiner et comprendre ce qui fait les particularités d’un sujet pour le mettre en avant. Je suis un scribe derrière son écran.