Quelques exemples de synthétiseurs « gestuels »

Quelques exemples de synthétiseurs « gestuels »

Machines de von Kempelen et Faber

On trouve une très belle description des machines de von Kempelen et de celle de  un article de H. Dudley (Dudley and Tarnoczy, 1950), lui-même à l’origine du Voder et du Vocoder, que nous décrirons pour sa part dans la section suivante. Vers la fin du  XVIIIe siècle, Wolfgang von Kempelen construisit avec succès l’une des plus fameuses machines parlantes de l’histoire. Commencé en 1769, l’accomplissement de ce travail l’occupa pendant près de deux décennies, au bout desquelles il obtenu, avec sa troisième version, un système qui le satisfasse pleinement. Cette machine était capable de produire mécaniquement certaines voyelles et consonnes, qui combinées les unes aux autres permettaient de créer quelques mots rudimentaires. Jusqu’alors, seules existaient des machines parlantes, ou têtes parlantes, dont l’aspect extérieur était celui d’un visage antropomorphe, et qui étaient composées de mécanismes permettant de mouvoir la bouche. Cette dernière était alors reliée à des tubes au bout desquels un opérateur parlait et donnait ainsi au spectateur l’illusion d’une tête qui parle par un procédé acousmatique. Jacques de Vaucanson avait d’ailleurs utilisé ce même procédé pour construire son automate flûtiste, dont Bernard Le Bouyer de Fontenelle dira à son propos lors de la présentation faite par Vaucanson devant l’académie des sciences :  » L’Académie a été témoin ; elle a jugé que cette machine étoit extrêmement ingénieuse, que l’Auteur avoit su employer des moyens simples et nouveaux, tant pour donner aux doigts de cette Figure, les mouvemens nécessaires, que pour modifier le vent qui entre dans la Flûte en augmentant ou diminuant sa vitesse, suivant les différents tons, en variant la disposition des lèvres, et faisant mouvoir une soupape qui fait les fonctions de la langue ; enfin, en imitant par art tout ce que l’homme est obligé de faire. » .

A la même époque, le développement de la phonétique et donc de la compréhension de la production vocale a sans doute contribué à l’émergence des travaux de von Kempelen. A ce titre, la réalisation de l’un de ces contemporains, Christian Gottlieb Kratzenstein, a probablement inspiré von Kempelen.

Pour les besoins d’un concours lancé par l’Académie Impériale de Saint-Pétersbourg en 1779, et visant à l’explication physiologique et la réalisation d’un appareil permettant de comprendre le mécanisme de production des voyelles, Kratzenstein a imaginé et développé cinq tubes différents, dont les longueurs et les formes étaient censées reproduire la forme du conduit vocal lors de la production des différentes voyelles a, e, i, o, u. Au bout de ces tubes était placée une anche vibrante, les tubes servant alors de « caisse de résonance » pour la production des voyelles.

Le Voder

Pour les besoins, notamment, de l’exposition universelle de New-York en 1939, H. Dudley et ses collaborateurs des Laboratoires Bell ont permis la réalisation d’un synthétiseur vocal original, à savoir le Voder  . Dans un article , datant également de 1939, H. Dudley (Dudley et al., 1939) décrit le fonctionnement de cette machine parlante d’un nouveau genre. Le principe de base, presque tautologique, sur lequel H. Dudley fait reposer le fonctionnement du Voder est celui de la comparaison avec le fonctionnement de la voix chez l’humain.

On retrouve alors sous forme électrique les trois fonctions principales nécessaires à la production vocale :

1. Le rôle des poumons : l’énergie électrique fournie au système représente la force de l’air issu des poumons. Ainsi, l’énergie du courant électrique appliqué en entrée du système sert au contrôle de l’amplitude du signal transmis jusqu’aux haut-parleurs en sortie.
2. Le rôle du larynx : soit le signal est voisé et les cordes vocales sont en vibration, et alors le signal est généré grâce à un oscillateur électrique pour produire un son qualifié de « bourdonnement » (buzz), soit le son n’est pas voisé et il existe une constriction dans le conduit vocal, et le son est généré par un bruit aléatoire qualifié de « chuintement » (hiss). La fréquence fondamentale de l’oscillateur peut être modifiée pour changer la hauteur du son produit.
3. Le rôle du conduit vocal : afin de modéliser les résonances du conduit vocal, un réseau d’une dizaine de filtres résonants de différentes fréquences est utilisé.

Du fait de la complexité apparente de contrôle du Voder, un certain nombre de simplifications ont été apportées. Par exemple, lorsque la fréquence du Voder diminue, le volume est lui aussi abaissé, de la même manière que l’humain le fait naturellement. Le Voder disposait également d’une touche pour le chuchotement ou le silence. La première touche permettait de produire des sons non voisés, la seconde d’abaisser significativement le volume de sortie pour certains sons.

En outre, la production des consonnes plosives était simplifiée par l’utilisation de trois touches dont le rôle consistait à produire un son prototypique constitué d’une période d’attaque, d’une période de silence, d’un sursaut de bruit et enfin du filtrage de ce bruit par les résonances de la voyelle suivante (c’est-à-dire des formants de cette voyelle). Le fonctionnement de ces trois touches étaient le même, à la différence près que les durées des différentes étapes étaient modifiées, conformément aux caractéristiques des différentes plosives considérées. Cette simplification était indispensable, du fait de la vitesse élevée du mouvement des articulateurs de la bouche lors de la production de plosives, supérieure à la vitesse maximale atteignable avec un geste manuel. Pour la réalisation du Voder, H. Dudley aura su faire preuve d’une grande ingéniosité pour repousser les limites de la synthèse vocale de son époque. Nombre des choix réalisés reposent en réalité sur l’empirisme, plus que sur une analyse approfondie de la production vocale, justement parce que le Voder était intrinsèquement lié à l’utilisateur de façon interactive, permettant ainsi de corriger les dysfonctionnements éventuels au fur et à mesure de son élaboration.

Les différents exemples de machines vocales présentées précédemment représentent non seulement un intérêt historique, car elles comptent sans nul doute parmi les plus célèbres machines vocales ayant été créées, pour la première à l’ère mécanique et pour la seconde à l’ère électrique, mais surtout, on s’aperçoit de manière frappante que le geste (ou tout du moins le contrôle) humain était largement présent. Et il est également surprenant de s’apercevoir que cette « tradition » ne se soit pas perpétuée à l’ére électronique ou numérique. En effet, mis à part quelques rares exemples, que nous présentons ci-après, le nombre de synthétiseurs vocaux contrôlés par un opérateur est dramatiquement faible, alors même que la quantité de  a, quant à elle, significativement augmentée, tant dans leurs techniques  leurs applications (serveurs vocaux, multi-langues, aide au handicap, recherche …). Tout le monde dispose effectivement aujourd’hui d’un synthétiseur vocal (commercial ou non) installé sur son ordinateur, mais personne (mis à part pour des applications de recherche ou musicales) ne possèdent de moyen de contrôle sur cette synthèse, si ce n’est le texte à synthétiser.

Glove Talk

Le Glove-Talk  est un système qui a été développé par Sidney Fels, et dont la première version remonte à 1991 (Fels, 1991; Fels and Hinton, 1998). Le principe de base de ce système était d’utiliser un gant de donnée pour commander un synthétiseur à formants (en l’occurrence le synthétiseur DECTalk (Klatt, 1982) pour la première version). Le but de ce projet n’était donc pas de reconstruire un synthétiseur, mais bien d’adopter de nouvelles stratégies pour effectuer le contrôle et le réglage des différents paramètres d’un synthétiseur par règles, souvent fastidieux lorsqu’il est réalisé de façon automatisée.

La méthodologie privilégiée par Fels pour effectuer ce contrôle a consisté à utiliser des réseaux de neurones, qui fournissaient selon lui l’avantage de pouvoir s’adapter à n’importe quel utilisateur, après une courte phase d’apprentissage par le système. Un autre avantage souligné par l’auteur est celui de la robustesse des réseaux de neurones en terme de reproductibilité des mots à synthétiser.

Le principe du contrôle dans la première version du système était le suivant : à la manière de la langue des signes (toutes proportions gardées), l’utilisateur pouvait produire un mot selon la configuration de la main portant le gant. Cette configuration principale était celle de la forme de la main. Ensuite la direction de la main, sa vitesse et sa trajectoire définissaient respectivement la fin de mot, la vitesse d’articulation et l’accentuation du mot. Notons également que l’orientation de la main était utilisé pour décider, d’après la forme de la main, du mot à synthétiser, sur la base d’un antagonisme sémantique. Par exemple, les mots « aller » et « venir » étaient réalisés grâce au même signe mais étaient différenciés par le fait que la paume de la main était orientée soit vers le haut soit vers le bas .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Préambule
1.2 Publications et Communications
1.3 Quelques exemples de synthétiseurs « gestuels »
1.3.1 Machines de von Kempelen et Faber
1.3.2 Le Voder
1.3.3 Glove Talk
1.3.4 SPASM
1.3.5 Le voicer
2 Modification prosodique de la parole par contrôle gestuel
2.1 Introduction
2.2 L’algorithme PSOLA
2.2.1 Les signaux d’analyse à court terme
2.2.2 Les signaux de synthèse à court terme
2.2.3 Le signal de synthèse final
2.2.4 Le calcul des marqueurs de synthèse
2.2.5 Le choix de la fenêtre d’analyse
2.3 L’algorithme PSOLA en temps réel
2.3.1 Les étapes
2.3.2 Les contraintes temps-réel
2.3.3 Le calcul des instants de synthèse
2.4 Première expérience d’imitation mélodique
2.4.1 Evaluation d’un système de réitération intonative contrôlé par la main
2.4.2 Préambule
2.4.3 Calliphonie : les premiers pas
2.4.4 Résultats de l’expérience d’imitation
2.4.5 Discussion et Conclusions Partielles
2.5 Deuxième expérience d’imitation mélodique
2.5.1 Le corpus
2.5.2 Les sujets
2.5.3 L’interface
2.5.4 Le protocole
2.5.5 Les résultats
2.5.6 Analyse gestuelle
2.6 Applications
2.6.1 Enrichissement de base de données
2.6.2 Voix chantée
2.7 Conclusions du chapitre
3 Synthèse de source glottique
3.1 Synthèse de Source Glottique et Qualité Vocale
3.1.1 Modèle Linéaire Source/Filtre
3.1.2 Les Principaux Modèles Signal de Source Glottique
3.1.3 Le Modèle Linéaire Causal/Anticausal (CALM)
3.2 Phonétique de la qualité vocale
3.2.1 La notion de registre vocal
3.2.2 La dimension de bruit
3.2.3 L’effort vocal
3.2.4 La dimension tendue/relâchée
3.3 Le modèle CALM en temps réel ou RTCALM
3.3.1 Les contraintes
3.3.2 Les solutions
3.3.3 Composantes non périodiques
3.3.4 Description des fonctions de mapping
3.4 Les différents instruments basés sur RTCALM
3.4.1 Premier instrument
3.4.2 Deuxième instrument
3.4.3 Méta-instrument
3.4.4 Exploration haptique du phonétogramme
3.4.5 Réflexions sur l’adéquation interface/synthétiseur
3.5 Applications
3.5.1 Voix chantée
3.5.2 Synthèse de qualité vocale et génération de stimuli
3.5.3 Apprentissage phonétique
4 Discussion
5 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *