Principe de la reconnaissance du locuteur

LE SIGNAL DE PAROLE

Depuis le début des années 70, les étudiants et chercheurs de AT&T, BBN, CMU, IBM,Lincoln Labs, MIT, et SRI ont largement contribué dans la recherche et la compréhension du langage parlé [1], [2]. Basiquement, la parole n’est qu’une séquence de segments sonores discrets, reliés les uns aux autres dans le temps. Ces segments, appelés phonèmes, ont par définition des caractéristiques articulatoires et acoustiques uniques. Bien que 1′ appareil phonatoire humain puisse produire une infinité de mouvements articulatoires, le nombre de phonèmes quant à lui reste limité [1]. Chaque phonème a des caractéristiques acoustiques distinctes et, en se combinant avec d’autres phonèmes, ils permettront de former des entités plus grandes telles que des syllabes ou des mots. La connaissance des différences acoustiques des sons produits permettra alors de distinguer un mot d’un autre et donc de faire de la reconnaissance de la parole. Lorsque les sons sont connectés pour former des unités linguistiques encore plus grandes (phrases, texte, … ), les propriétés acoustiques d’un phonème donné vont changer en fonction de 1′ environnement phonétique ; ceci est du aux interactions des diverses structures anatomiques (la langue, les lèvres, les cordes vocales) qui composent l’appareil phonatoire humain et à leur degré de lenteur [1]. Il en résulte alors un chevauchement de l’information phonémique d’un segment à un autre. Cet effet connu sous le nom de coarticulation, peut survenir dans un mot ou à la fin de celui-ci [1]. Par conséquent, nous voyons que lors de la production de la parole, de nombreux paramètres spécifiques à chaque individu vont venir marquer les sons prononcés. L’action de toutes les structures anatomiques créera une empreinte vocale spécifique à chaque individu, qui sera contenue dans tous les messages vocaux, et qui pourra être exploitée dans les systèmes de reconnaissance du locuteur. C’est sur ces structures que nous allons nous pencher dans ce chapitre afin de comprendre comment est produite la parole. Ainsi, nous serons en mesure de localiser et d’identifier les données pertinentes dans le signal vocal, puis, dans le chapitre suivant, nous verrons comment les extraire pour caractériser et identifier chaque locuteur.

Les mécanismes de la parole

L’appareil phonatoire humain est formé de différentes parties qui peuvent nous sembler complexes (fig.l). Cependant, il peut facilement être assimilé, et même souvent représenté comme un système composé simplement d’une source vibrante et d’un filtre (résultant du conduit vocal qui est formé d’une cavité résonante complexe)
L’appareil phonatoire La cavité résonnante (ou résonateur) de l’appareil phonatoire se compose de quatre cavités principales : tout d’abord, nous avons le pharynx ou arrière gorge (1);puis, les deux cavités buccales (2 et 3) délimitées par la langue (que l’on simplifiera à une seule) ; ensuite, nous avons l’ajutage labiale (4) situé entre les dents et les lèvres; Ces trois cavités sont placées en« série » à la suite de la source vibrante. enfin, la cavité nasale (5), qui vient compléter le résonateur. Cette dernière cavité quant à elle, est placée en «parallèle sur l’ensemble «série» précédent.
Production de la parole La parole naît de l’excitation de la cavité résonante. L’appareil respiratoire fournit l’énergie nécessaire à la production de sons, en poussant l’air à travers l’appareil phonatoire, vers la source du résonateur [ 1]. Selon Joseph Campbell, la source du résonateur est en fait décomposable en deux émissions distinctes et d’origines différentes [ 5]: Les cordes vocales, qui possèdent la particularité de produire, en plus de leur fréquence fondamentale, un spectre riche en harmoniques ; elles produisent les sons voisés . Le bruit d’écoulement de l’air en provenance des poumons, dont le spectre est similaire à un bruit blanc ; il crée les sons non-voisés .Cependant, une source vibrante placée devant une cavité résonante, produira toujours un son dont les fréquences seront filtrées par la bande passante du résonateur.

Application de l’échelle de perception de Mel

Comme nous 1′ avons mentionné dans le premier chapitre, la perception fréquentielle de l’oreille ne suit pas une échelle linéaire. C’est pourquoi il est important de simuler ce filtrage dans notre système, pour ne pas alourdir le traitement des signaux en accumulant des données souvent inutiles. L’échelle des perceptions que nous avons choisi de schématiser est l’échelle fréquentielle de Mel [63]. Notre choix s’est tourné vers cette échelle à cause du phénomène de masquage perceptuel [ 46]. Afin de simuler le spectre subjectif, nous allons implémenter un banc de filtres à la suite de la FFT, chaque filtre étant attribué à chaque composante fréquentielle de Mel désirée. Le banc de filtres a une réponse fréquentielle de type passe-bande de forme triangulaire, avec un espacement et une bande passante similaire aux valeurs définies par 1′ échelle fréquentielle de Mel [22]. Le spectre soit disant « perçu » par 1′ oreille correspond par conséquent à la puissance obtenue en sortie de ces filtres. Pour chaque trame, on calcule alors 1′ amplitude de son spectre (obtenu par la FFT), puis on conserve son module au carré. On passe ensuite le vecteur d’énergie à travers le banc de filtres de Mel.

Motivation de l’utilisation des coefficients cepstraux MFCC

Outre la popularité de la méthode des MFCC et les excellents résultats relevés dans la littérature, il existe d’autres motivations qui nous ont poussé à adopter cette méthode de paramétrisation. L’excitation contient de l’information prosodique ainsi que des données propres au locuteur ; cependant ces informations ne sont pas correctement modélisées dans les systèmes de reconnaissance. C’est pourquoi il est important de les filtrer afin de représenter correctement le locuteur. La déconvolution réalisée par 1′ opérateur logarithme a pour effet de découpler les caractéristiques du conduit vocal de celles de l’excitation glottale, et nous permet ainsi de faire la sélection des données. Enfin, pour obtenir une représentation de bonne qualité avec la technique de modélisation que nous avons choisi (à savoir les GMM avec des matrices de covariance diagonales), il est nécessaire d’avoir des vecteurs paramétriques décorrélés [62]. La méthode des MFCC a justement cette propriété grâce à la DCT finale qui a pour effet de décorréler les éléments des vecteurs [ 4 7]. Nous venons de voir dans cette partie comment transformer un signal de parole en une séquence de vecteurs acoustiques spécifiques à chaque locuteur.

Introduction aux ondelettes

Les premiers travaux concernant 1′ analyse par ondelettes se situent autour du début des années 80, et ils ont été entrepris par Morlet, et Grassmann, [75]. En 1985, Stéphane Mallat donne un nouvel élan aux ondelettes à travers ses travaux en traitement numérique du signal [76]. En effet, ce dernier réussi à mettre en évidence des liens entre les filtres miroirs en quadrature (FMQ ou en anglais QMF: Quadrature Miror Filters),Nous rappelons que dans le cas des ondelettes, nous ne devrions pas employer le terme de représentation temps-fréquence, mais plutôt celui de échelle-fréquence, l’échelle étant en fait l’inverse de la fréquence; le terme de fréquence est strictement réservé à la TF. les algorithmes pyramidaux, et les bases orthonormales d’ondelettes. Inspiré en partie par ces travaux, Y. Meyer créa les premières ondelettes à forme non triviale [77]. Contrairement à l’ondelette de Haar, les ondelettes de Meyer sont continues et intégrables. Cependant, il fallut attendre 1988 pour qu’un article d’Ingrid Daubechies [78], conclu notamment grâce aux travaux de Mallat [76], attire définitivement l’attention des ingénieurs sur les possibilités d’application de cette méthode. Le but recherché à l’époque, était de donner une représentation des signaux permettant de faire apparaître simultanément des informations temporelles (localisation dans le temps, durée) et fréquentielles, facilitant par là l’identification des caractéristiques physiques du signal. Les ondelettes n’ont depuis lors cessé de se développer et de trouver de nouveaux champs d’application. C’est ainsi qu’est apparu un parallèle étonnant entre ces méthodes et des techniques développées à des fins totalement différentes en traitement d’images [108], mais aussi d’autres théories mathématiques poursuivant des objectifs sans aucun lien apparent (comme par exemple des problèmes d’analyse mathématique pure, ou d’autres liés au problème de la quantification de certains systèmes classiques, ou plus récemment des problèmes de statistiques) . De nos jours, les ondelettes sont de plus en plus utilisées dans les le domaine des nouvelles technologies. Que ce soit pour la compression d’images [76], pour le traitement du son et de l’image (téléphonie, télévision [80], … ), le graphisme, la modélisation numérique ou pour la géologie, l’astronomie, le radar, … Enfin, presque partout. A titre d’exemple, la base de données d’empreintes digitales du FBI est compressée avec les ondelettes depuis le début des années 90 [81]; le format JPEG 2000 par exemple, fait également usage des ondelettes [82].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

ABSTRACT
REMERCIEMENTS
LISTE DES TABLEAUX
LISTE DES FIGURES
LISTE DES ABRÉVIATIONS ET SIGLES
INTRODUCTION
CHAPITRE 1 LE SIGNAL DE PAROLE
1.1 Introduction
1.2 Les mécanismes de la parole
1.2.1 L’appareil phonatoire
1.2.2 Production de la parole
1.3 L’information vocale
1.3 .1 Traits acoustiques du signal de parole
1.3.1.1 La fréquence fondamentale
1.3 .1.2 Le spectre du signal de parole
1.4 La perception de la parole
1.4.1 Le système auditif
1.4.2 Analyse fréquentielle
1.4.3 Aire d’audition
1.4.4 Échelles de modélisation
1.4.4.1 L’échelle de Bark
1.4.4.2 L’échelle de Mel
1.5 Conclusion
CHAPITRE 2 SYSTÈME DE RÉFÉRENCE POUR LA RECONNAISSANCE DU LOCUTEUR
2.1 Introduction
2.2 Principe de la reconnaissance du locuteur
2.3 Module de pré-traitement et de paramétrisation
2.3.1 Pré-traitement
2.3.2 Extraction des points caractéristiques – Méthode des MFCC
2.3.2.1 Blocage des trames
2.3.2.2 Fenêtrage et mise en trames
2.3.2.3 Transformée de Fourier Rapide (FFT)
2.3.2.4 Application de l’échelle de perception de Mel
2.3.2.5 Coefficients MFCC
2.3.2.6 Dérivées temporelles des coefficients MFCC
2.3.2.7 Motivation de l’utilisation des coeffcients cepstraux MFCC
2.4 Module de modélisation et d’apprentissage
2.4.1 Modélisation du locuteur par mélange de Gaussiennes (GMM)
2.4.2 Modèle du locuteur avec les GMM
2.4.2.1 Définition
2.4.2.2 Type de modèle
2.4.3 Estimation à maximum de vraisemblance des paramètres des GMM – phase d’entraînement
2.4.3.1 Maximisation directe
2.4.3.2 Maximisation à 1′ aide de 1′ algorithme EM
2.5 Module de reconnaissance – phase de test
2.5.1 Étape préliminaire
2.5.2 Identification du locuteur
2.6 Derniers réglages de perfectionnement pour la mise au point du système de référence pour la reconnaissance du locuteur
2.6.1 Choix du nombre de Gaussiennes pour les GMM
2.6.2 Initialisation des paramètres du modèle pour l’algorithme EM
2.6.2.1 Méthode d’initialisation des poids
2.6.2.2 Méthode d’initialisation des centres
2.6.2.3 Méthode d’initialisation des covariances
2.6.3 Nombre d’itérations pour l’algorithme EM
2.7 Expérimentation du système d’identification de référence
2.7.1 Paramètres optimaux du système de référence
2.7.1.1 Normalisation du signal de parole
2.7.1.2 Extraction des vecteurs de caractéristiques avec les MFCC
2.7.1.3 Phase d’apprentissage
2.7.1.4 Phase de test
2.7.2 Résultats expérimentaux trouvés pour le système de référence
2.8 Conclusions
CHAPITRE 3 LES ONDELETTES ET SES APPLICATIONS
3 .1 Introduction
3 .1.1 Position du problème
3.1.2 Introduction aux ondelettes
3.2 Étude de la méthode des ondelettes
3.2.1 Qu’appelle-t-on une ondelette?
3 .2.1.1 Présentation générale
3.2.1.2 Condition d’admissibilité
3.2 .1.3 Condition de régularité
3 .2.1.4 Compression et dilatation d’une ondelette
3.2.2 Exemples classiques d’ondelettes continues ID
3.2.2.1 Présentation de l’ondelette de Morlet
3.3 Étude de la transformée en ondelettes continue
3.3.1 La transformée en ondelettes continue
3.3.2 Transformée de Fourier d’une ondelette ; analyse temps fréquence
3.3.3 Avantages de la TOC
3.3.4 La transformée en ondelettes continue inverse
3.3.5 Qu’y a-t-il de continu dans la TOC?
3.4 Passage en revue des autres transformées en ondelettes
3.4.1 Décomposition discrète en série d’ondelettes
3.4.2 Transformée en ondelettes à temps discret
3.4.3 Transformée en ondelettes discrète
3.5 Conclusion
CHAPITRE 4 MODIFICATION DU SYSTÈME DE RECONNAISSANCE RÉFÉRENCE À L’AIDE DE LA TOC: UTILISATION D’UNE GRILLE DE SÉLECTION DES COEFFICIENTS DE LA TOC DE
4.1 Introduction
4.2 Présentation des bases de données utilisées dans la phase de tests
4.2.1 Base de données YOHO
4.2.2 Bases de données dérivées de YOHO
4.3 Modification du système de reconnaissance de référence avec la TOC
4.3.1 Mise en place de la TOC pour essayer d’améliorer les performances du système
4.3.1.1 Empreinte graphique du locuteur
4.3.1.2 Proposition d’utilisation de la TOC pour faire de la reconnaissance de mots isolés
4.3.1.3 Méthode proposée pour exploiter 1 ’empreinte du locuteur
4.3.2 Présentation des systèmes de reconnaissance hybrides proposés
4.3.2.1 Procédure
4.3.2.2 Systèmes de reconnaissance hybrides utilisant une grille pour la sélection des coefficients de la TOC : systèmes hybrides G
4.3.2.3 Recombinaison des coefficients de la TOC en un nouveau signal1D
4.4 Phase expérimentale
4.4.1 Paramètres optimaux additionnels pour les systèmes hybrides
4.4.1.1 Ondelette analysante
4.4.1.2 Échelle d’analyse
4.4.2 Essais expérimentaux pour les systèmes hybrides G
4.4.2.1 Tests des systèmes d’identification hybrides G 1
4.4.2.2 Tests des systèmes d’identification hybrides G2
4.5 Conclusions
CHAPITRE 5 MODIFICATION ET AMÉLIORATION DU SYSTÈME DE RECONNAISSANCE HYBRIDE PROPOSÉ : UTILISATION DE LIGNES POUR SÉLECTIONNER LES COEFFICIENTS DE LA TOC
5.1 Introduction
5.2 Présentation du système de reconnaissance hybride amélioré
5.2.1 Systèmes de reconnaissance hybrides utilisant une combinaison de lignes pour la sélection des coefficients de la TOC : systèmes hybrides C
5.2.2 Tests du système d’identification hybride C
5.2.3 Conclusions sur le système hybride C
5.3 Présentation d’un nouveau système hybride amélioré
5.3.1 Systèmes de reconnaissance hybrides utilisant une seule ligne pour la sélection des coefficients de la TOC : systèmes hybrides L
5.3.2 Tests du système d’identification L
5.3.3 Conclusions sur le système hybride L
5.4 Amélioration des performances du système hybride L par un raffinement d’échelles
5.4.1 Sélection des coefficients de la TOC : premier raffinement des échelles
5.4.2 Performances
5.4.3 Conclusions sur le premier raffinement des échelles
5.4.4 Nouvelle sélection des coefficients de la TOC : second raffinement
des échelles
5.4.5 Performances
5.4.6 Conclusions sur le second raffinement des échelles
5.5 Vérification des tests
5.6 Conclusions
CHAPITRE 6 CHOIX DE L’ÉCHELLE D’ANALYSE DE LA TOC POUR LA RECONNAISSANCE AUTO MA TIQUE DU LOCUTEUR
6.1 Introduction
6.2 Étude des lignes de coefficients de la TOC
6.2.1 Analyses statistiques du premier ordre
6.2.2 Analyses énergétiques
6.2.3 Analyse du taux de passage par zéro
6.2.4 Conclusions sur 1′ étude des lignes de coefficients de la TOC
6.3 Étude des coefficients MFCC extraits à partir des lignes de la TOC
6.3.1 Analyses statistiques du premier ordre
6.3.2 Analyses graphiques des histogrammes
6.3.3 Hypothèse
6.3.3.1 Analyse de 1′ énergie
6.3.3.2 Analyse de l’entropie
6.3.4 Conclusions sur l’étude des coefficients MFCC extraits à partir des lignes de la TOC
6.4 Proposition d’une technique pour la reconnaissance automatique du locuteur utilisant la TOC
6.4.1 Méthodologie
6.4.2 Essais expérimentaux
6.4.3 Conclusions sur la méthode pour la reconnaissance automatique du locuteur
6.5 Conclusions
CONCLUSION
ANNEXE 1 REPRÉSENTATION DES ÉCHELLES DE MEL ET DE BARK PAR UN BANC DE FILTRES
ANNEXE 2 L’OPTIMISATION DE LAGRANGE
ANNEXE 3 L’ALGORITHME DES K-MEANS
ANNEXE 4 BASE DE DONNÉES DE YOHO
ANNEXE 5 SOUS BASES DE DONNÉES DE YOHO
ANNEXE 6 RÉSULTATS COMPLETS DES TESTS DU SYSTÈME DE RECONNAISSANCE HYBRIDE L
ANNEXE 7 RÉSULTATS COMPLETS DES TESTS DE RAFFINEMENT (1ère partie) DU SYSTÈME DE RECONNAISSANCE HYBRIDE L
ANNEXE 8 RÉSULTATS COMPLETS DES TESTS DE RAFFINEMENT (2ème partie) DU SYSTÈME DE RECONNAISSANCE HYBRIDE L
ANNEXE 9 RÉSULTATS COMPLETS DES TESTS DE RAFFINEMENT (3ème partie) DU SYSTÈME DE RECONNAISSANCE HYBRIDE L
ANNEXE 10 L’ESTIMATEUR DE DENSITÉ DE KERNEL
BIBLIOGRAPHIE