Différents modèles pour l’analyse et la synthèse sonores de la voix

Signal vocal et quasi-stationnarité

Le son vocal émis par l’appareil phonatoire que nous venons de décrire, est, dans le cas voisé, un signal quasi-périodique dont la fréquence fondamentale varie en fonction du temps. Le spectrogramme correspond à une phrase entière, faisant apparaître des zones voisées (fréquence fondamentale identifiable) et des zones non voisées (spectre continu). Le signal temporel présente un extrait de cette phrase correspondant à un segment voisé.

En traitement de la parole, il est généralement admis que le signal est stationnaire sur une fenêtre d’environ 15 à 20 ms. Cela revient à dire que le mouvement des muscles laryngés et des articulateurs est négligeable sur cette durée. Cette hypothèse de quasi-stationnarité a été abondamment discutée dans la littérature [MG76, CT89, RS11] et sera reprise dans les travaux présentés ici.

Modèles physiques et modèles de signaux

Les deux grandes approches développées historiquement pour modéliser la production de la voix humaine sont les modèles de signaux et les modèles physiques. Les modèles de signaux permettent en général une implémentation faible coût et des méthodes d’inversion (recherche des paramètres du modèle à partir d’un son cible) efficaces. En revanche, leur réalisme est limité. De leur côté, les modèles physiques offrent en général plus de réalisme mais l’implémentation de ces modèles est plus coûteuse et leur inversion plus délicate. Une classification des principaux modèles pour l’analyse-synthèse de la voix que l’on trouve dans la littérature est proposée en figure 2.2 selon un axe allant des modèles de signaux aux modèles physiques. Nous regroupons les modèles selon cinq grandes familles : (i) la synthèse concaténative, (ii) la synthèse additive, (iii) les modèles source-filtre, (iv) les modèles physiques simples, (v) les modèles physiques complexes.

Je présente ici une revue succincte de ces modèles. Dans mes travaux, je me propose de travailler sur des modèles à l’interface entre les modèles de signaux et les modèles physiques, espérant tirer le meilleur des deux approches, à savoir introduire une partie du réalisme des modèles physiques et préserver le faible coût et l’inversibilité des modèles de signaux. Ainsi, les travaux présentés dans cet ouvrage se situent à l’interface entre les modèles source-filtre (présentés en section 2.2.1) et les modèles physiques simples (présentés en section 2.2.2). Dans la classification proposée, les synthèses concaténative et additive se positionnent à part du reste des modèles. La synthèse concaténative est fondée sur la concaténation de diphones préenregistrés [CS86, CM88], et non sur la synthèse de signaux à l’aide de modèles génératifs. Cette technique a inspiré de nombreuses applications, pour la synthèse ou la modification de la parole, notamment la méthode PSOLA et ses déclinaisons TD-PSOLA, FD-PSOLA, LP-PSOLA et MBRPSOLA [MC90, VET92, DL93]. La synthèse additive vise quant à elle à reproduire le spectre d’un signal de parole grâce à des représentations sinusoïdales ou formantiques [MQ86, RPB85]. Le modèle source-filtre et les modèles physiques sont souvent présentés comme antagonistes. Les modèles source-filtre, que nous étudierons en détail dans le chapitre 6, s’appliquent à modéliser les caractéristiques temporelles et fréquentielles du signal vocal. Les modèles physiques, en revanche, s’intéressent à l’activité laryngée et à la configuration du conduit vocal à l’origine de la voix. Les modèles de signaux s’intéressent donc aux conséquences de la phonation (le son) et les modèles physiques aux causes (vibrations laryngées et mouvements articulatoires). Cependant, le paradigme source-filtre et le paradigme modèle physique peuvent être considérés comme différents degrés de raffinement dans la modélisation de la phonation. Comme nous l’avons vu dans le chapitre précédent, la vibration glottique est le résultat d’un couplage entre les forces aérodynamiques et mécaniques qui s’exercent sur les plis vocaux (solides mous). Le conduit vocal agit ensuite sur ces derniers comme une charge acoustique, avec ses résonances et anti-résonances, et interagit donc avec l’acoustique glottique. Une modélisation complète de la production de la voix implique une résolution des équations aérodynamiques de Navier-Stokes depuis l’intérieur des poumons jusqu’aux rayonnements aux lèvres et aux narines en prenant en compte les interactions mécaniques avec
— les plis vocaux,
— les poumons, la trachée, le conduit laryngé et le conduit vocal (qui ne constituent pas un conduit rigide, ils possèdent eux aussi des propriétés mécaniques non triviales et leur dynamique est couplée à l’acoustique interne), et
— les interactions acoustiques avec le milieu extérieur (rayonnement).
Depuis le début des années 2000, plusieurs travaux ont été entrepris afin d’aborder la résolution de ce problème avec divers degrés de simplification [ABT00, Gun03, dORPGA03, LMZ+08]. Ils correspondent aux modèles physiques complexes dans la classification ci-dessus. Ces modèles, principalement en raison du coût de calcul élevé que représente leur simulation, ne sont pas encore utilisables en tant que modèle de synthèse.

Modèle source-filtre

Le modèle source-filtre propose de considérer le signal vocal comme résultant du filtrage d’un signal de source [Fan60]. Autrement dit, dans ce paradigme, la glotte est considérée comme une source idéale et le conduit vocal est réduit à un filtre linéaire. Cette modélisation correspond à une simplification drastique du fonctionnement de l’appareil phonatoire humain pour laquelle (nous détaillerons ces analogies dans les chapitres 6 et 9)
— la source glottique ne subit aucune influence du conduit vocal, elle est considérée comme une source de débit idéale et est entièrement représentée par un signal temporel g(t),
— le conduit vocal est considéré comme une concaténation de tubes droits dans lesquelles les ondes acoustiques se propagent en ondes planes sans pertes, dont la modélisation aboutit à un filtre linéaire que nous appellerons filtre vocal dans la suite de cet ouvrage,
— le rayonnement aux lèvres est modélisé par une simple dérivation temporelle. Le modèle source-filtre s’exprime finalement comme un signal source filtré, selon le schéma présenté en figure 2.3 : le signal de source glottique est filtré par le filtre vocal pour obtenir le signal aux lèvres, qui est à son tour filtré par le filtre de rayonnement pour obtenir le signal émis.

Étant données la linéarité et la stationnarité (locale) du système ainsi construit, les filtres peuvent être permutés sans conséquence sur le signal de sortie. Il est alors habituel de combiner le signal de source et le filtre de rayonnement (filtre dérivateur) pour obtenir un signal de source dérivé et ainsi simplifier le système, comme présenté dans la figure 2.4 : le signal de source glottique dérivé est directement filtré par le filtre vocal pour obtenir le signal émis. Une variante du paradigme source-filtre a été introduite par Doval et al. dans [DDH03] avec le modèle CALM (Causal Anticausal Linear Model) de la source glottique. La source glottique dérivée n’est plus ici générée par une fonction paramétrique périodique comme c’est habituellement le cas, mais par filtrage d’un train d’impulsions de Dirac. Ce filtre est appelé filtre glottique et le système de la figure 2.4 est modifié pour obtenir celui de la figure 2.5 : le train d’impulsions périodiques est filtré par le filtre glottique pour obtenir le signal de source dérivé, qui est à son tour filtré par le filtre vocal pour obtenir le signal émis. Cette version du modèle source-filtre permet donc de modéliser le signal vocal à l’aide d’un unique filtre linéaire excité par un train d’impulsions périodiques.

Modèles physiques simples

Les modèles que je regroupe sous l’appellation “modèles physiques simples” rétablissent l’interaction entre la source glottique et le filtre vocal [Fla68, Rot81a, FL87] sans aller jusqu’aux raffinements des modèles physiques complexes déjà évoqués. Deux approches sont envisagées pour prendre en compte l’influence du conduit vocal sur l’activité glottique.

La première consiste à utiliser des modèles mécaniques auto-oscillants de plis vocaux. Plusieurs modèles ont été proposés (voir par exemple [Vil02, Rut07, Cis08, Bai09]) parmi lesquels nous pouvons notamment citer le modèle à deux masses d’Ishizaka et Flanagan [IF72] qui a été utilisé pour de nombreuses applications en synthèse et analyse de la voix. Dans ce modèle, les plis vocaux sont représentés par deux masses parallélépipédiques reliées entre elles par un ressort et reliées chacune au reste du corps par un ressort et un amortisseur, comme présenté dans la figure 2.6 – a . Les équations mécaniques, aérodynamiques et acoustiques régissant les différents composants du système complet permettent de construire l’équivalent électrique du système présenté en figure 2.6 – b , plus simple à implémenter sous forme électronique ou en simulation numérique.

La deuxième approche constitue une étape intermédiaire entre le modèle source-filtre et les modèles auto-oscillants : on impose la géométrie du conduit laryngé (qui varie au cours du temps), la pression sous-glottique et la géométrie du conduit vocal. Nous appellerons ces modèles les modèles à géométrie forcée. Les grandeurs acoustiques (pression et débit glottique, pression et débit dans le conduit vocal, pression et débit rayonné par les lèvres et les narines) sont calculées à partir de ces données de commande du modèle et des équations régissant l’acoustique à l’intérieur des conduits. Plusieurs modèles ont été développés suivant l’approche à géométrie forcée [AF82, AS85, GC86, TS97], parmi lesquels celui de Maeda [Mae82a] reste un de ceux les plus utilisés.

Différents choix pour la modélisation de la phonation

Les trois approches que je viens de présenter (modèle source-filtre, modèle à géométrie forcée et modèle auto-oscillant) correspondent à une évolution dans les degrés de liberté de modèle de glotte :
C1. Modèles source-filtre : la source acoustique est forcée.
C2. Modèles à géométrie forcée : la géométrie pilote un système aéro-acoustique.
C3. Modèles auto-oscillants : l’oscillation du système vibro-acoustique non linéaire est pilotée par les paramètres mécaniques mais n’est pas forcée.

Les travaux présentés dans ce document suivent cette évolution. La partie II est consacrée au choix C1 afin de construire des outils d’analyse et de séparation source-filtre dans un cadre linéaire. Nous passerons ensuite au choix C2 dans la partie III afin de rétablir l’interaction et étudier son intérêt pour la synthèse.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Partie préliminaire : Présentation de l’objet d’étude et position du problème
1 Production de la voix humaine
1.1 Anatomie de l’appareil phonatoire
1.2 Voix parlée, voix chantée et mécanismes laryngés
1.3 Méthodes exploratoires
1.4 Conclusion
2 Différents modèles pour l’analyse et la synthèse sonores de la voix
2.1 Signal vocal et quasi-stationnarité
2.2 Modèles physiques et modèles de signaux
2.3 Cuivres et voix, des liens privilégiés
2.4 Position du problème et organisation du document
I Première partie : Outils pour l’exploration et la mesure de signaux biométriques
3 Méthodes pour l’exploration laryngée
3.1 Ordres de grandeur temporel et spatial du mouvement glottique
3.2 Échographie
3.3 Vidéo-endoscopie ultra-rapide
3.4 Électroglottographie
4 Mesures multimodales sur les lèvres et la glotte, comparaison entre deux systèmes à valve humaine
4.1 Introduction
4.2 Experimental setup
4.3 Visualisation tool
4.4 Features extraction, analysis and comparisons
4.5 Conclusion
5 Imagerie électrique multicanal du larynx
5.1 Tomographie d’impédance électrique
5.2 Test préliminaire de validation du principe de l’EIT sur une maquette de larynx
simplifiée
5.3 Conception d’un dispositif mixte EGG/EIT multicanal à géométrie variable
5.4 Développements et réalisations techniques
5.5 Conclusion et perspectives
II Deuxième partie : Modèle source-filtre et analyse-synthèse
6 Le modèle source-filtre
6.1 Source glottique
6.2 Filtre vocal et rayonnement
6.3 Modèle source-filtre paramétrique complet étudié
7 Analyse du modèle source-filtre
7.1 État de l’art des méthodes d’estimation et de séparation
7.2 Premier algorithme : Séparation source-filtre pour la classe des signaux périodiques
7.3 Deuxième algorithme : Analyse cepstrale et séparation source-filtre
7.4 Conclusion et perspectives
III Troisième partie : Modèles à géométrie forcée et analyse-synthèse
8 Analyse-Synthèse de fonctions d’aire glottique
8.1 Construction d’un dictionnaire de test par estimation de fonctions d’aire glottique à partir de vidéo-endoscopies ultra-rapides
8.2 Modèle LF
8.3 Modèles de diversité en systèmes dynamiques non linéaires
8.4 Conclusion
9 Modèles à géométrie forcée
9.1 Modèle couplé inspiré du modèle source-filtre
9.2 Apport du couplage entre la source glottique et le conduit vocal
9.3 Modélisation de conduit vocal à profil régulier en guides d’ondes acoustiques 1D
9.4 Conclusion et perspectives
Conclusion générale