Regroupement en locuteurs dans les grandes bases de données (Clustering)

Extraction des vecteurs de caractéristiques à court terme

Le signal de la parole sous sa forme analogique est très complexe, mais également non stationnaire ce qui rend sa manipulation assez difficile. Une phase de représentation de ce signal sous forme d’une succession de vecteurs de valeurs numériques (nommés trames) est indispensable pour la majorité des applications du traitement automatique de la parole. Cette phase est souvent appelée le paramétrage du signal ou bien la phase d’extraction des vecteurs de caractéristiques à court terme. Afin de pouvoir réaliser ce traitement, le signal vocal est supposé être stationnaire pendant des intervalles de temps de très courte durée mesurée en milliseconde. En nous basant sur cette hypothèse, nous pouvons extraire un ensemble des caractéristiques qui représentent ce signal le plus fidèlement possible, à l’intérieur d’une fenêtre glissante (avec une période typique d’avancement égale à 10 ms) d’une fenêtre temporelle de très courte durée (typiquement 25 ms).

Cette représentation a l’avantage de bien modéliser l’information spectrale du signal vocal tout en conservant sa nature temporelle. Cependant, la représentation à court terme est caractérisée par sa durée variable due au fait que le nombre des trames (c.-à-d. les vecteurs de caractéristiques) extraites est relatif à la durée réelle du signal. Ce caractère variable de la durée des données complexifie davantage la tâche de la classification. Parmi ces vecteurs de caractéristiques à court terme qui modélisent les informations spectrales du conduit vocal, nous citons les Mel Frequency Cepstral Coefficients (MFCC), les Perceptual Linear Predictive (PLP) et les Linear Prediction Coefficients (LPC) qui sont fréquemment utilisés dans les applications de la reconnaissance de la parole. Étant donné que la représentation MFCC à court terme est la plus répandue dans le domaine de la vérification Figure 1.2 Schéma typique d’un système de vérification du locuteur : phase d’enrôlement et phase de test. du locuteur (Kinnunen, et al., 2010), les MFCC seront les vecteurs de caractéristiques adoptés pour la réalisation des recherches présentées dans cette thèse.

Modélisation

Au fil des années, plusieurs approches ont été étudiées dans le domaine de la vérification du locuteur afin de modéliser la structure complexe qui caractérise la voix d’un locuteur donné. En premiers temps, on a adopté les approches basées sur le concept de « templates matching », par exemple la quantification vectorielle (QV) (Soong et al., 1985) et la programmation dynamique (Dynamic Time Warping, DTW) (Furui, 1981). Par la suite, les modèles génératifs provoquent un vrai engouement dans ce domaine, entre autres les modèles de Markov cachés (Hidden Markov Models, HMM) dans le cas des systèmes dépendants du texte (BenZeghiba, et al., 2003) et les modèles de mélanges de gaussiennes (Gaussian Mixture Models, GMM) dans le cas des systèmes indépendants du texte (Reynolds, 1992)( Reynolds, 1995)(Reynolds, et al., 2000b). Parallèlement avec tout ce qui est génératif, les modèles discriminants tels que les réseaux de neurones (RN) (Farrell, et al., 1994) et les machines à vecteur de support (Support Vector Machine, SVM) ont également trouvé leur place dans ce domaine (Campbell, 2006). Récemment, l’introduction des Machines de Boltzmann a été observée (Stafylakis, et al., 2012a)(Senoussaoui, et al., 2012)(Stafylakis, et al., 2012b)(Vasilakakis, et al., 2013).

Machines de Boltzmann

Une Machine de Boltzmann est un réseau de neurones stochastique ayant des connexions symétriques entre ses différentes unités (Hinton, et al., 1983). La version originale de cette machine contient seulement des unités visibles. Or, l’introduction des variables cachées dans ce modèle a largement augmenté sa capacité de modélisation des données les plus complexes, et ce, même si elles ne sont pas entièrement visibles. Afin de faciliter l’entrainement de ce genre de modèles, certaines restrictions sont imposées au modèle original des Machines de Boltzmann. La version la plus répandue est celle dénommée la Machine de Boltzmann restreinte (RBM) (Smolensky, 1986). Les RBM sont caractérisées principalement par l’existence de deux couches de neurones, la première ne contient que des unités visibles tandis que la deuxième ne contient que des unités cachées. De plus, les RBM se caractérisent par l’absence totale de toute connexion entre les unités d’un même niveau (c.-à-d. connexion entre les neurones visibles-visibles ou bien cachés-cachés). Ces restrictions ont principalement l’avantage de rendre l’apprentissage des RBM assez facile et robuste.

Par ailleurs, les RBM constituent l’unité de base des modèles très complexes, tels que les Machines de Boltzmann profondes (DBM) et les Réseaux de croyance profonds (DBN). Dans le cadre de cette thèse, nous ne fournirons pas les détails mathématiques et les algorithmes d’apprentissage de ces modèles. Le lecteur intéressé par le cadre général des Machines de Boltzmann peut se référer à (Hinton, et al., 2006)( Bengio, et al., 2007)(Salakhutdinov, 2009). De plus, si le lecteur est intéressé par l’application de ces modèles au problème de la vérification du locuteur, il est fortement recommandé de se référer à (Stafylakis, et al., 2012a)(Senoussaoui, et al., 2012)(Stafylakis, et al., 2012b)(Vasilakakis, et al., 2013). Au cours des dernières années, les Machines de Boltzmann ont gagné en popularité dans le domaine du traitement automatique de la parole (Dahl, et al., 2010)(Mohamed, et al., 2011)(Hinton, et al., 2012)( Deng, et al., 2013). L’introduction de ces modèles dans le domaine de la vérification du locuteur est marquée principalement par la publication de ces deux communications (Stafylakis, et al., 2012a)(Senoussaoui, et al., 2012), ainsi que par d’autres travaux publiés ultérieurement (Stafylakis, et al., 2012b)(Vasilakakis, et al., 2013). Dans ces travaux, plusieurs variantes de Machines de Boltzmann ont été appliquées dans l’espace des i-vecteurs afin de traiter le problème de la vérification du locuteur. Les performances obtenues par l’application de ces machines dans l’espace des i-vecteurs n’ont malheureusement pas dépassé celles de l’état de l’art actuel (c.-à-d. les résultats obtenus via l’Analyse discriminante linéaire probabiliste PLDA). L’utilisation des i-vecteurs comme entrées à ces machines ne serait probablement pas le bon choix, du fait que ces machines cherchent à modéliser les corrélations inter-variables, cependant, les i-vecteurs sont connus par leurs variables décorrélées.

Définition et utilité de la tâche

Le regroupement ou ce qu’on appelle souvent la classification automatique (clustering) est un problème traditionnellement connu dans plusieurs domaines, entre autres, dans la reconnaissance des formes et de l’apprentissage-machine. Dans un ensemble de données non étiquetées, l’objectif d’une tâche de regroupement est de relier les observations les plus proches en terme d’une métrique adoptée, et ce, afin de déterminer la structure intrinsèque de ces données. Cette tâche devient plus complexe lorsqu’on ignore le nombre et la forme des distributions des classes de l’ensemble de données à regrouper. Dans le cas du traitement de la parole, le regroupement en locuteurs d’un ensemble de segments audio non étiquetés consiste à attribuer à chaque segment un identifiant correspondant à son locuteur émetteur. Il est à souligner que chaque segment audio est présumé contenir la parole d’un unique locuteur. Le regroupement en locuteurs peut être considéré comme un but en soi quand il s’agit par exemple du regroupement d’un ensemble des enregistrements dont chacun contient la parole d’un seul locuteur. Il est aussi considéré comme une sous-tâche dans le cas de la structuration en tours de parole d’un seul flux audio multilocuteur par exemple, et dans ce cas-là, une étape préalable de la segmentation de ce flux où chaque segment contient la parole d’un seul locuteur est indispensable.

Les effets du canal entre les segments à regrouper constituent la principale différence entre ces deux façons d’exploitation du regroupement en locuteurs. Dans le premier cas, chaque segment est considéré comme un enregistrement indépendant. Ce qui implique que les segments d’un même locuteur sont enregistrés sur différentes sessions, et ainsi, une variabilité indésirable complique la tâche de regroupement. Dans le cas de la structuration en tours de parole, le scénario est considérablement différent, du fait que tous les segments sont enregistrés lors d’une même session. Ainsi, les effets du canal dépendant du locuteur (le type du microphone ou du téléphone, le bruit du fond, le positionnement du locuteur par rapport au microphone, etc.) peuvent jouer un rôle positif dans la procédure de la distinction entre les locuteurs participants. Le regroupement en locuteurs, qu’il soit pour les grandes corpora de données ou pour un seul flux (c.-à-d. la structuration en tours de parole), est une discipline substantielle du traitement de la parole. Il fournit une solution adéquate pour l’extraction des métadonnées afin d’étiqueter automatiquement un corpus de données. Ces données peuvent servir à l’adaptation non supervisée des modèles indépendants du locuteur dans le but d’améliorer leurs performances. Cette discipline peut ainsi servir à faciliter l’archivage, le stockage et la recherche dans les grandes bases de données audio.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 RECONNAISSANCE DU LOCUTEUR
1.1 Généralités
1.1.1 Types de la variabilité de la parole
1.2 Vérification du locuteur
1.2.1 Définition et utilité de la tâche
1.2.2 Extraction des vecteurs de caractéristiques à court terme
1.2.3 Modélisation
1.2.3.1 Modèles de mélanges de gaussiennes
1.2.3.2 Modèle d’analyse conjointe de facteurs (JFA)
1.2.3.3 Espace des i-vecteurs
1.2.3.4 Analyse discriminante linéaire probabiliste (PLDA)
1.2.3.5 Similarité angulaire
1.2.3.6 Machines de Boltzmann
1.2.4 Décision
1.2.5 Normalisation des scores
1.2.5.1 z-norm
1.2.5.2 t-norm
1.2.5.3 s-norm
1.2.6 Calibration et fusion des scores
1.2.7 Corpus de données et mesures d’évaluation
1.2.7.1 Mesures d’évaluation
1.2.7.2 Tâches des évaluations NIST
1.2.7.3 Données d’entrainement de NIST
1.3 Regroupement en locuteurs dans les grandes bases de données (Clustering)
1.3.1 Définition et utilité de la tâche
1.3.2 Corpora de données et mesures d’évaluation
1.3.2.1 Corpus de données
1.4 Structuration en tours de parole (Diarization)
1.4.1 Définition et utilité de la tâche
1.4.1.1 Segmentation
1.4.1.2 Regroupement
1.4.2 Évaluation des performances
1.4.2.1 Corpus de données
CHAPITRE 2 REPRÉSENTATION DU SIGNAL VOCAL PAR LES I-VECTEURS
2.1 De la représentation à court terme à la représentation par les i-vecteurs
2.1.1 Extraction des vecteurs MFCC
2.1.2 Modèle du monde (UBM)
2.1.3 Calcul des statistiques générales
2.1.4 Entrainement de l’extracteur des i-vecteurs
2.1.5 Extraction des i-vecteurs
2.2 Compensation des variabilités nuisibles
2.2.1 Adaptation des i-vecteurs à la vérification du locuteur
2.2.2 Adaptation des i-vecteurs à la structuration en tours de parole
CHAPITRE 3 VÉRIFICATION DU LOCUTEUR
3.1 Modèle génératif
3.1.1 Modélisation des i-vecteurs
3.1.2 Apprentissage du modèle
3.1.2.1 Distribution a posteriori des vecteurs cachés
3.1.2.2 Évaluation de la vraisemblance des données
3.1.2.3 Algorithmes de mise à jour des paramètres du modèle
3.1.3 Vérification via le modèle PLDA
3.2 Similarité angulaire du cosinus
3.2.1 Normalisation des i-vecteurs
3.2.1.1 Analyse discriminante linéaire (LDA)
3.2.1.2 Normalisation via la matrice de covariance intraclasse (WCCN)
3.2.2 Vérification via la similarité du cosinus
CHAPITRE 4 INDÉPENDANCE DU CANAL
4.1 Difficultés à surmonter
4.2 Concaténation des matrices de la variabilité totale
4.2.1 Définition du modèle
4.2.1.1 Estimation des paramètres du modèle
4.2.1.2 Extraction des i-vecteurs indépendants du canal
4.2.2 Expériences et résultats
4.2.2.1 Détails d’implémentation
4.2.2.2 Résultats et discussions
4.2.2.3 PLDA pour la réduction de dimensionnalité
4.2.2.4 Résultats et discussions
4.3 Entrainement à partir des données regroupées
4.3.1 LDA pour la réduction de dimensionnalité
4.3.2 Expériences et résultats
CHAPITRE 5 INDÉPENDANCE DU GENRE
5.1 Modèle génératif indépendant du genre
5.1.1 PLDA indépendant du genre (PLDA-IG)
5.1.2 Mélange des modèles PLDA (PLDA-M)
5.1.2.1 Définition du modèle du mélange
5.1.2.2 Modélisation du genre du locuteur
5.1.2.3 Calcul de score
5.1.2.4 Les essais à genre croisé
5.1.3 Expérimentations
5.1.3.1 Détails d’implémentation
5.1.3.2 Résultats et discutions
5.2 Similarité angulaire indépendante du genre
5.2.1 La SAC dépendante du genre (SAC-DG)
5.2.1.1 Compensation des effets du canal
5.2.1.2 Normalisation des scores
5.2.2 La SAC indépendante du genre
5.2.2.1 Détecteur du genre d’un locuteur
5.2.2.2 La SAC indépendante du genre (SAC-IG)
5.2.2.3 Combinaison des SAC (SAC-C)
5.2.3 Expérimentations
5.2.3.1 Détails d’implémentation
5.2.3.2 Résultats et discussions
CHAPITRE 6 L’ALGORITHME DE DÉCALAGE DE LA MOYENNE
6.1 Version de base de l’algorithme du décalage de la moyenne (Mean Shift)
6.1.1 Idée intuitive
6.1.2 Développement mathématique
6.2 Algorithme de Décalage de la moyenne à base de distance angulaire
6.2.1 Motivations
6.2.2 Développement mathématique
6.3 Algorithme de Décalage de la moyenne pour le regroupement des données non étiquetées
6.3.1 Stratégie totale de regroupement (STR)
6.3.2 Stratégie sélective de regroupement (SSR)
CHAPITRE 7 REGROUPEMENT EN LOCUTEURS
7.1 Regroupement en locuteurs
7.2 Méthodologie
7.2.1 Représentation du signal vocal
7.2.2 Décalage de la moyenne à base de la distance angulaire du cosinus
7.3 Expérimentation
7.3.1 Compensation des effets du canal
7.3.2 Détails d’implémentation
7.3.2.1 Corpus de données du test
7.3.2.2 Procédure expérimentale
7.3.2.3 Extraction et normalisation des i-vecteurs
7.3.2.4 Métriques d’évaluation des performances
7.3.3 Résultats et discutions
CHAPITRE 8 STRUCTURATION EN TOURS DE PAROLE
8.1 Structuration en tours de parole
8.2 Méthodologie
8.2.1 Segmentation initiale en tours de parole
8.2.2 I-vecteurs pour la représentation des tours de parole
8.2.3 Normalisation des i-vecteurs
8.2.3.1 Analyse en composantes principales (PCA)
8.2.3.2 Normalisation via l’inverse de la matrice de covariance intraclasse (WCCN)
8.2.3.3 Normalisation via la matrice de covariance interclasse (BCCN)
8.2.4 Regroupement via le Décalage de la moyenne
8.2.4.1 Bande passante dépendante de conversation
8.2.4.2 Élagage des classes éparses
8.3 Expérimentation
8.3.1 Détails d’implémentation
8.3.1.1 Corpus CallHome des données téléphoniques
8.3.1.2 Extraction des i-vecteurs
8.3.1.3 Protocole d’évaluation
8.3.2 Résultats et discussions
8.3.2.1 Optimisation des hyper-paramètres à partir des données de développement
8.3.2.2 Résultats obtenus à partir de l’ensemble du test
8.3.2.3 Résultats regroupés en fonction du nombre de locuteurs
8.3.2.4 Resegmentation de Viterbi
8.3.2.5 Comparaison avec les résultats de l’état de l’art
8.3.2.6 Temps d’exécution des algorithmes
CONCLUSION
ANNEXE I PREUVE MATHÉMATIQUE DE CONVERGENCE DE L’ALGORITHME DE DÉCALAGE DE LA MOYENNE À BASE DE LA DISTANCE ANGULAIRE DU COSINUS
ANNEXE II REPRÉSENTATIONS GRAPHIQUES DES EFFETS DES DIFFÉRENTES ÉTAPES DE LA NORMALISATION DES IVECTEURS DANS LE CONTEXTE DE L’ALGORITHME DE DÉCALAGE DE LA MOYENNE
ANNEXE III INTERVALLES DE CONFIANCE CONCERNANT LES RÉSULTATS DE LA VÉRIFICATION
BIBLIOGRAPHIE