Modele de note synthese

Un effort intéressant pour inclure les caractéristiques des orateurs dans un système complexe a été rapporté par le groupe ATR au Japon. Le concept de base est de préserver les caractéristiques des orateurs dans les systèmes d`interprétation (ABE et coll., 1990). La technique de conversion vocale proposée se compose de deux étapes: cartographie de la génération de livres de code des paramètres LPC et une synthèse de conversion à l`aide du livre de code de mappage. L`effort a suscité beaucoup de discussions, surtout en considérant l`application en tant que telle. La méthode a été étendue d`une transformation Frame-by-Frame à une transformation segment par segment (Abe, 1991). Le terme «synthèse vocale» a été utilisé pour diverses approches techniques. Dans cet article, certaines des approches utilisées pour générer des discours synthétiques dans un système de synthèse vocale sont examinées, et certaines des motivations de base pour choisir une méthode sur une autre sont discutées. Il est important de garder à l`esprit, cependant, que les modèles de synthèse vocale sont nécessaires non seulement pour la génération de la parole, mais pour nous aider à comprendre comment la parole est créée, ou même comment l`articulation peut expliquer la structure du langage. Les questions générales telles que la synthèse de différentes voix, accents et langues multiples sont discutées comme des défis particuliers auxquels la communauté de synthèse vocale est confrontée. Pour une analyse approfondie du sujet de l`interpolation dans les lignes de retard, voir le papier “la modélisation à temps discret des tubes acoustiques utilisant des lignes de retard fractionnaire”, par VESA Vlimki, disponible à www.acoustics.hut.fi/~vpv/publications/vesa_phd.html. Des systèmes qui fondent la génération de sons sur la concaténation d`unités de la parole naturelle (Moulines et coll., 1990) ont connu un succès considérable. Des techniques sophistiquées ont été développées pour manipuler ces unités, en particulier en ce qui concerne la durée et la fréquence fondamentale. Les aspects les plus importants de la prosodie peuvent être imposés sur le discours synthétique sans perte considérable de qualité.

Les méthodes Pitch-synchrone chevauchement-Add Approach (PSOLA) (charpentier et Moulines, 1990) sont basées sur la concaténation de pièces de forme d`onde. L`approche du domaine fréquentiel (FD-PSOLA) est utilisée pour modifier les caractéristiques spectrales du signal; l`approche du domaine temporel (TD-PSOLA) fournit des solutions efficaces pour la mise en œuvre en temps réel des systèmes de synthèse. Des systèmes antérieurs comme SOLA (Roucos et Wilgus, 1985) et des systèmes pour la restauration de la parole des plongeurs ont également procédé au traitement direct de la forme d`onde (Liljencrants, 1974). Van LEEWEN, H. C., et E. te Lindert (1993), «Speech Maker: un cadre flexible et général pour la synthèse du texte à la parole, et son application au Néerlandais, comput. Speech lang., 7 (2): 149-168. Le but ultime de la recherche de synthèse, à quelques exceptions près, est de produire la meilleure qualité de parole possible. La qualité et l`intelligibilité de la parole sont généralement très difficiles à mesurer. Aucun test unique ne permet de déterminer où se situent les problèmes. Le département de psychologie de l`Université de l`Indiana a lancé une nouvelle vague d`innovation dans l`évaluation des systèmes de synthèse auxquels un certain nombre de groupes ont apporté des contributions substantielles ultérieures.