Systèmes d’externalisation vocale ne faisant pas usage d’une tablette graphique

Systèmes d’externalisation vocale ne faisant pas usage d’une tablette graphique

Machine de Von Kempelen

Le premier système de contrôle performatif de la voix artificielle, la machine parlante de Von Kempelen, est un système mécanique rendu publique en 1791 à travers le livre [Von Kempelen 1791]. C’est un modèle mécanique de l’appareil vocal qui permet de produire une voix artificielle contrôlée par des gestes (Figure 1.1).

Les poumons sont modélisés par un soufflet, les plis vocaux par une anche et les articulateurs par un jeu d’actionneurs, non détaillés sur la figure. Le contrôle s’effectue avec un bras posé sur le soufflet et les deux mains à l’intérieur de la boite. Le soufflet, pressé par le bras, crée un flux d’air, et l’anche vibre. Les deux mains agissent ensuite sur les actionneurs pour moduler le son de l’anche et produire des phonèmes. Ce système a démontré son succès pour la prononciation de mots complexes, faisant intervenir des groupes de plusieurs consonnes consécutives, mais les utilisateurs ne semblent pas dépasser la longueur du mot. Nous terminerons sa présentation par une citation de son auteur : « Je ne donne pas […] la machine parlante […] comme un ouvrage bien achevé, et qui imite parfaitement la parole, mais j’ose me flatter, sans trop d’amour propre, que toute imparfaite qu’elle est, elle donne du moins de bons principes pour en construire une plus parfaite. […] Puisse-t-il à la fin de ce siècle si fertile en découverte, se trouver une main de maître, qui porte cette découverte […] au plus haut degré de perfection. » Plus de deux siècles plus tard, ce degré n’a sans doute pas encore été atteint. Nous montrerons par la suite que le vœu de Von Kempelen est aujourd’hui encore entendu, bien qu’en raison de la maîtrise de l’électricité, la voie choisie pour tenter de l’exaucer soit devenue bien différente de celle qu’il aurait sans doute imaginée.

Voder

Il a fallu attendre le XXe siècle et une excellente maîtrise de l’électricité avant que ne fût inventée une nouvelle machine parlante. Le Voder (Voice Operation DEmonstrator) a été développé en 1939 par [Dudley et al. 1939] dans les laboratoires Bell. Son principe de contrôle est représenté figure 1.2. C’est un synthétiseur à formants qui possède une source périodique pour les sons voisés, une source bruitée pour les sons fricatifs, et un jeu de 10 filtres passe-bande à fréquence de coupure et à largeur de bande fixes, qui servent à modéliser les formants. L’opératrice peut contrôler l’état de voisement grâce à la barre qui se trouve sous son poignet gauche. Si la barre est relâchée, la source non-voisée est active, et son amplitude sera diminuée au fur et à mesure que la pression sera augmentée. Inversement, l’amplitude de la source voisée augmentera avec la pression. L’articulation de la plupart des phonèmes se contrôle avec les touches blanches : chaque touche permet de contrôler l’amplitude d’un des dix filtres passe-bande. Si toutes ces touches sont relâchées, l’amplitude de chaque filtre est nulle, et aucun son n’est produit. Les trois touches noires permettent de déclencher les plosives. Enfin, l’intonation est contrôlée par une pédale. Selon l’auteur, il a fallu aux opératrices environ un an d’entraînement soutenu pour être en mesure d’avoir une conversation simple dont l’intelligibilité et le naturel laissaient souvent à désirer. La vidéo  fournit une démonstration de ce système.

SPASM

Plus de cinquante ans, et des capacités de calcul informatique assez puissantes, furent nécessaires avant de voir apparaître le système SPASM (Singing Physical Articulary Synthesis Model) [Cook 1993]. Comme son nom l’indique, le système de synthèse de ce logiciel est basé sur un modèle articulatoire. Les paramètres contrôlables en temps-réel sont la hauteur, le vibrato (fréquence, amplitude et taux d’aléa), l’amplitude de la source de bruit, sa position d’injection dans le conduit vocal, l’aire de chacune des huit sections qui composent le conduit vocal et l’ouverture du voile du palais. Tous ces paramètres peuvent être retrouvés dans la Figure 1.3, qui présente les fenêtres principales du logiciel. Il est clair que la seule utilisation de la souris et du clavier de l’ordinateur n’offre pas assez de liberté pour un contrôle temps-réel simultané de tous ces paramètres. Pour ce qui concerne l’articulation, l’auteur propose une solution qui consiste à interpoler jusqu’à six différentes formes du conduit vocal avec un seul paramètre. Ensuite, il est possible d’assigner un contrôleur MIDI à n’importe quel paramètre contrôlable en temps-réel. Par défaut, le logiciel assigne la hauteur aux notes d’un clavier MIDI, l’effort vocal à l’aftertouch, et l’interpolation des formes du conduit vocal à la roue de modulation (une explication du fonctionnement du protocole et des interfaces MIDI sera fournie dans la section 4.2). L’auteur a par la suite cherché à développer de nouvelles interfaces mieux adaptées au contrôle expressif de l’instrument vocal [Cook 2005], avec comme idée principale de lier l’effort vocal à la force d’un souffle, et de trouver des manières de contrôler la hauteur et l’articulation de manière continue. Ainsi apparurent les Squeezevoxen (des accordéons augmentés), le VOMID (Voice-Oriented Melodica Interface Device, un mélodica augmenté) et le COWE (Controller, One With Everything, une interface composée d’un capteur de souffle, de capteurs de pression, de boutons et d’accéléromètres).

Glove Talk

le Glove Talk est un système de contrôle temps-réel d’un synthétiseur à formants [Rye & Holmes 1982]. La voix de synthèse est contrôlée par une pédale d’expression et par des gants augmentés de capteurs de pression, d’un accéléromètre et d’un gyromètre. Le principe consiste à apprendre à l’ordinateur, à travers un réseau de neurones, une association de gestes et de sons. Dans sa première version [Fels & Hinton 1993], les gestes permettent de contrôler les mots d’un dictionnaire. Dans sa seconde version [Fels & Hinton 1998], les gestes permettent de contrôler des phonèmes, et donc de prononcer n’importe quelle phrase, offrant ainsi la possibilité d’avoir une véritable conversation. La Figure 1.4 montre son auteur en train de parler à l’aide de ce système. La hauteur du signal de synthèse est contrôlée par la hauteur de sa main droite. Cette même main permet également de contrôler l’articulation des voyelles de manière continue grâce à sa position dans le plan horizontal. Les consonnes sont contrôlés par les deux mains : différentes positions du pouce sur les autres doigts sélectionnent différentes consonnes. La force de voix est contrôlée par une pédale d’expression. Selon l’auteur une centaine d’heures d’entraînement sont nécessaires avant d’être capable de prononcer un discours intelligible. La vidéo  le confirme, et présente même une étape de conversation, mais elle montre tout de même que le naturel de la synthèse est assez peu convainquant, et que les gestes à accomplir sont assez complexes.

Miku Stomp : contrôle du rythme vocal avec une guitare

La Miku Stomp, présentée Figure 1.5, est une pédale d’effet. Elle transforme le signal audio émis par une guitare en un signal vocal calculé en temps-réel par le synthétiseur Vocaloid [Kenmochi & Ohshita 2007]. La voix contrôlé est celle de la célébrité virtuelle japonaise Hatsune Miku . À notre connaissance, c’est le seul système de synthèse performative permettant de contrôler le rythme vocal : les attaques de notes déclenchent des syllabes. Malheureusement, aucune publication scientifique n’en fait l’objet. Cependant, quelques testeurs de pédales d’effets nous donnent leur avis sur son fonctionnement dans les vidéos A  et B . Même si leur manière d’exprimer le problème est différente (la vidéo A est plus diplomate que la B), les deux semblent d’accord pour dire que le contrôle de la mélodie fonctionne très bien, mais que le contrôle du rythme pose parfois problème. Notez que depuis que la tablette graphique est utilisée dans un cadre musical (vers le début de ce siècle), la Miku Stomp est le seul système de contrôle performatif de la synthèse vocale à ne pas en faire usage.

Systèmes d’externalisation vocale faisant usage d’une tablette graphique

Quand l’utilisation des tablettes graphiques s’est développée, l’interface a fait consensus pour le contrôle de la synthèse vocale : la plupart des systèmes de contrôle performatif de la voix qui ont vu le jour depuis le début de ce siècle en font usage. [Wright et al. 1997] fournit une évaluation positive d’une tablette Wacom pour un contrôle musical, car elle offre un grand nombre de degrés de liberté. En effet, le stylet d’une tablette Wacom permet en contrôle en 5 dimensions : les données émises correspondent à sa position et au degré d’inclinaison dans le plan (x, y) (4 dimensions), mais également à la pression qui y est appliquée (axe z). De plus, les stylets possèdent deux boutons poussoirs accessibles avec l’index. La façon dont les différents paramètres vocaux sont contrôlés diffère selon le système. Pour ce qui est de l’articulation des voyelles, la plupart des systèmes utilisent un plan vocalique en deux dimensions, tel que celui présenté Figure 1.6 : les combinaisons de fréquences centrales des deux premiers formants F1 et F2 peuvent à elles seules représenter la totalité des voyelles non-nasales. Le premier système de synthèse vocale faisant usage d’une tablette graphique permettait de contrôler le synthétiseur CHANT [Wanderley et al. 2000]. La hauteur et l’effort vocal étaient contrôlés par un capteur de position et de pression, et les voyelles par la position (x, y) du stylet sur la tablette graphique, qui représentait alors le plan vocalique.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 Introduction
1.1 Contexte et problématiques
1.2 Systèmes d’externalisation vocale ne faisant pas usage d’une tablette graphique
1.2.1 Machine de Von Kempelen
1.2.2 Voder
1.2.3 SPASM
1.2.4 Glove Talk
1.2.5 Miku Stomp : contrôle du rythme vocal avec une guitare
1.3 Systèmes d’externalisation vocale faisant usage d’une tablette graphique
1.4 Bilan et contenu du manuscrit
2 VoPTiQ : Voice Pitch, Time and Quality modification
2.1 Transformation d’un signal vocal
2.1.1 Vocoders
2.1.2 Modèles sinusoïdaux
2.1.3 PSOLA
2.1.4 Expressivité et modification de la qualité vocale
2.2 TD-PSOLA
2.2.1 Préparation des données d’analyse de périodicité
2.2.2 Calcul des trames d’analyse
2.2.3 Déformation de l’échelle temporelle
2.2.4 Déformation de l’échelle mélodique
2.2.5 Déformation simultanée des échelles temporelle et mélodique
2.2.6 Association des marqueurs périodiques et calcul d’une période de synthèse
2.2.7 Déformation temporelle de signaux non voisés
2.3 Modification en temps-réel de la hauteur, de la durée, et de la longueur du conduit vocal : VRT-PSOLA
2.3.1 Modification temps-réel de signaux voisés
2.3.2 Modification temps-réel de signaux non-voisés
2.3.3 Interpolation pour la concaténation
2.3.4 Mémoire tampon (buffer) circulaire
2.4 Longueur du conduit vocal
2.5 Modification des paramètres de source : tension et effort
2.5.1 Tension vocale
2.5.2 Effort vocal
2.6 Conclusion
3 Contrôle rythmique de la voix
3.1 Calliphony : contrôle de la durée
3.1.1 Contrôle direct de l’instant cible : mode Scrub
3.1.2 Contrôle de la vitesse de lecture : mode Speed
3.2 Le rythme vocal
3.2.1 Hiérarchie temporelle de la production et de la perception de la voix
3.2.2 Composition de la syllabe
3.2.3 Centre perceptif (p-center ) et rythme syllabique
3.2.4 Phonologie articulatoire
3.2.5 Cadre syllabique : La théorie Frame/Content
3.2.6 Détermination d’une structure rythmique inter-linguistique du séquencement syllabique
3.3 Séquencement du cadre rythmique
3.3.1 Frame Control Points (FCP)
3.3.2 Contrôle binaire du cadre rythmique : mode Tap
3.3.3 Interfaces pour le contrôle binaire du cadre rythmique
3.3.4 Contrôle continu des liaisons rythmiques : mode Fader
3.3.5 Traitement du geste de contrôle continu
3.3.6 Potentiomètres manuels
3.3.7 Potentiomètres pédestres
3.3.8 Mode Loop
3.4 Préparation et étiquetage des signaux originaux
3.4.1 Enregistrement des signaux originaux
3.4.2 Règles de positionnement des FCP
3.4.3 Cas particuliers
3.4.4 Étiquetage des phonèmes
3.5 Évaluation des méthodes de contrôle du rythme articulatoire
3.5.1 Première expérience de contrôle du rythme de la parole
3.5.2 Évaluation subjective des modalités de contrôle rythmique de la parole et du chant
3.6 Conclusion
CONCLUSION

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.