langage ad hoc pour la reconnaissance automatique de la parole

Historique

    Avant toute chose, commençons par définir ce qu’est un système de reconnaissance automatique de la parole. Il existe plusieurs types de systèmes de reconnaissance automatique de la parole, qui se sont développés au fur et à mesure des avancées théoriques et technologiques dans le domaine de l’informatique. Les premiers systèmes permettaient de reconnaître des mots isolés. C’est à dire que chaque mot devait être prononcé séparément pour que le système puisse les reconnaître. Ces systèmes ont été les premiers à être étudiés car ils reposent sur des techniques nécessitant peu de ressources de calcul. Une des manière les plus simples pour résoudre ce problème est de procéder par comparaison entre le signal observé et une réalisation de référence de chaque mot. La réalisation la plus proche du signal correspond alors au mot prononcé (Myers, 1980). Par la suite est apparu la reconnaissance automatique de la parole continue. Contrairement aux systèmes précédents, les mots présents dans le message audio ne sont pas séparés. C’est en fait la manière dont les êtres humains s’expriment naturellement. En effet, en analysant le signal acoustique produit par un être humain énonçant une phrase, on s’apperçoit qu’il n’y a pas de pause entre les mots. La production de la parole chez l’humain consiste en un flux ininterrompu de sons, quelque soit les mots sous-jacents. Cette tâche constitue un réel défi car il est nécessaire d’analyser le message audio dans son ensemble. Les premières études concernant la parole continue traitaient de la parole lue. Ce type de parole possède plusieurs caractéristiques qui font qu’elle est plus aisée à transcrire. Tout d’abord les conditions sont contrôlées. En effet, l’enregistrement est en général effectué dans un studio avec du matériel d’enregistrement adapté. De plus, la parole lue est plutôt stable, il n’y a pas de perturbation du signal dues par exemple à l’émotion, à des hésitations ou a des modifications intempestives de la position du locuteur par rapport au micro. Finalement le texte lu est en général issu d’ouvrages textuels disponibles. De ce fait, ils sont beaucoup plus rigoureux concernant la grammaire que ne l’est la parole spontanée. La structure du message est également différente. Les phrases spontanées sont en général plus courtes que les phrases écrites (Biber, 1988). Par la suite, les systèmes et les algorithmes qui ont été développés pour la parole lue ont commencé à être adaptés à la parole spontanée, comme le décrivent par exemple Gauvain et al. (2002). Ce changement est en parti dû au fait que la puissance des ordinateurs avait augmenté, permettant de développer de nouvelles approches plus gourmandes en ressources. De plus, l’apparition de campagnes d’évaluation sur ce type de données a offert à la communauté scientifique une référence commune pour comparer les systèmes et donc pouvoir plus facilement évaluer l’apport des travaux de chacun. On peut notamment citer la campagne HUB4 en 1996 (Stern, 1997) pour l’anglais, financée par l’Defense Advanced Research Projects Agency (DARPA), par le biais du National Institute of Standards and Technology (NIST) ou les campagnes RT qui ont suivi . Pour le français on peut citer la campagne ESTER (Gravier et al., 2004), financée par le Ministère de l’Enseignement Supérieur et de la Recherche français et la Direction Générale de l’Armement par l’intermédiaire du projet Technolangue, qui a eu lieu en 2005, puis ESTER-2 qui s’est déroulée en 2008.

L’analyse perceptive

   Partant du constat que l’appareil auditif humain est très performant pour reconnaître la parole même dans des conditions difficile, des travaux ont été menés dans le but de s’inspirer de ce système pour améliorer les méthodes d’analyse de la parole. L’idée est de mettre à profit les connaissances que nous avons du processus perceptif humain pour modéliser de manière plus fine les processus auditif et s’en servir pour mettre en oeuvre des méthodes d’analyse plus robustes. Par exemple la méthode d’analyse Perceptual Linear Predictive (PLP), proposée par Hermansky (1990) vise à introduire des connaissances issues de la psycho-acoustique dans l’estimation des modèles auto-régressifs semblables à ceux utilisés dans l’analyse de prédiction linéaire. Techniquement, il s’agit d’ajouter à une analyse LPC une résolution en fréquence non linéaire à l’aide de bandes critiques sur une échelle de Bark, une préaccentuation du signal non linéaire selon une courbe isotonique et une compression en racine cubique du spectre résultant pour simuler la loi de perception humaine en puissance sonore. Les coefficients PLP sont ensuite calculés comme le sont les coefficients LPC.

Estimation par discrimination maximale

   Au lieu de maximiser, comme précédemment, la vraisemblance des données, il est possible d’utiliser d’autres critères d’optimisation pour l’estimation des paramètres des modèles. L’approche Maximum Mutual Information (MMI) propose par exemple de maximiser l’information mutuelle entre les données d’entraînement et les HMM. Contrairement à l’approche de maximum de vraisemblance où les paramètres des modèles sont estimés individuellement, dans l’approche MMIE on va chercher à maximiser la vraisemblance d’un modèle tout en minimisant la vraisemblance des autres sur les mêmes données. Cette approche peut donc être considérée comme discriminante. Elle abouti sur un jeu de paramètres qui maximisent la dépendance statistique entre chaque modèle et ses données. Cette approche a été proposée par Bahl et al. (1986) pour l’estimation des paramètres des modèles de Markov cachés dans une tâche de reconnaissance de mots isolés. Plus tard, Valtchev et al. (1997) proposeront l’adaptation de cette approche pour les systèmes de reconnaissance automatique de la parole continue grand vocabulaire.

Adaptation des paramètres

   Il existe également des techniques qui permettent d’adapter les nouvelles données observées aux anciens modèles acoustiques. L’avantage de ces approches est qu’il n’y a pas besoin d’adapter les modèles.
Régression linéaire des paramètres L’adaptation feature Maximum Likelihood Linear Regression (fMLLR) proposée par Gales (1998) est l’une de ces approches. L’idée est d’effectuer une adaptation MLLR des vecteurs de paramètres issus des nouveaux documents à transcrire pour les rapprocher de ceux issus des données d’entraînement des modèles acoustiques initiaux. Ainsi, une fois les transformations MLLR appliquées aux vecteurs d’observation, ils peuvent être décodés avec les modèles acoustiques initiaux.
Normalisation du conduit vocal La technique appelée Vocal Tract Lenght Normalization (VTLN) en est un autre exemple. Elle a été proposée par Zhan et Waibel (1997) et consiste à modifier les vecteurs d’observation pour effectuer une normalisation du conduit vocal. En effet, cet aspect diffère d’un locuteur à l’autre et ajoute du bruit dans les paramètres. Ces variations sont éliminées par des filtres de fréquences.

Algorithmes synchrones

   Il s’agit des algorithmes les plus utilisés dans les systèmes de reconnaissance automatique de la parole. Le plus répandu dans cette famille est l’algorithme de Viterbi en faisceau (beam search). Le principe de ces algorithmes est d’explorer le graphe d’hypothèses de manière synchronisée avec le signal de parole. L’inconvénient de tels algorithmes est qu’il est très difficile d’intégrer des informations contextuelles dans la fonction de coût utilisée. Dans le cadre de la reconnaissance automatique de la parole il est essentiel de pouvoir utiliser un score linguistique contextuel fourni par le modèle de langage n-gramme à la fonction de coût. Il est possible de modifier l’algorithme pour intégrer cette information en créant artificiellement des chemins du graphe dépendant de l’historique. Cette modification est très lourde, c’est pour cela que les systèmes de reconnaissance automatique de la parole basés sur ce type d’algorithmes effectuent en général un décodage initial avec des modèles de langage bigrammes.

Représentation des hypothèses

   Lors du processus de décodage, un système de reconnaissance automatique de la parole génère un ensemble d’hypothèses explorées sous la forme de séquences de mots. On représente habituellement ces hypothèses par un graphe acyclique dirigé appelé treillis de mots. Dans un tel graphe, chaque noeud correspond à un instant donné, et chaque arc est une hypothèse de mot pondérée par un score linguistique et un score acoustique. On voit très clairement que le treillis de mots est une représentation compacte des hypothèses puisque les chemins aboutissant aux mêmes mots sont mutualisés. Il existe un certain nombre d’algorithmes éprouvés pour parcourir un tel graphe à la recherche d’une solution optimale qui ont des caractéristiques différentes, comme l’algorithme A∗ ou Viterbi.

Passes successives de décodage

   Le mode de représentation en graphe des hypothèses explorées par le processus de décodage est très utile car il offre une représentation simple et complète des hypothèses de transcription. Il est alors possible de raffiner ce graphe avec de nouvelles informations par passes successives. La complexité est ainsi réduite par rapport à un processus de décodage unique qui intégrerai d’emblée l’ensemble des informations. Il est par exemple de plus en plus courant d’utiliser ce principe pour étendre par étapes l’ordre du modèle de langage. Une première passe de décodage est effectuée avec un modèle de langage d’un ordre donné, par exemple des bigrammes. Le treillis de mots issu de ce processus est ensuite fourni à une seconde passe de décodage qui y remplacera les probabilité linguistiques bigrammes par celle d’un ordre supérieur. La première passe de décodage est rapide et permet de sélectionner un sous-ensemble d’hypothèses à approfondir. La seconde passe peut donc intégrer des probabilités linguistiques plus précises et donc plus lourdes à calculer car le nombre d’hypothèses est réduit.

Modèle multigram

   Le modèle de langage multigram a été proposé par Deligne et Bimbot (1995). Il repose sur le constat que l’ordre des modèles n-grammes est de taille fixe quelque soit le mot. L’idée proposée ici est de modéliser la probabilité d’un mot étant donné un contexte de taille variable, dépendant du mot. Techniquement, il s’agit d’une sorte de modèle de langage n-gramme avec n variant suivant le contexte. Ils montrent un gain par rapport aux modèles de langage ngrammes conventionnels sur une tâche particulière.

Estimation conjointe

   Lorsque l’on dispose de plusieurs sources d’informations, il est également possible de construire directement un modèle de langage prenant en compte toutes ces informations. Chaque source est alors représentée par un ensemble de contraintes que la distribution finale doit respecter. L’intersection de toutes ces contraintes constitue alors un ensemble de distributions possibles. En l’absence de toute autre information, le choix de la distribution à considérer pour le modèle final doit se faire de la manière la plus neutre possible. Dans le domaine des statistiques, ne pas prendre de décision revient à choisir le modèle dont la distribution est la plus uniforme. Plus une distribution est uniforme, plus son entropie est élevée. Pour trouver la distribution la plus uniforme parmi celles se trouvant à l’intersection des contraintes, il suffit de chercher celle dont l’entropie est maximale. L’algorithme Generalized Iterative Scaling (GIS) proposé par Darroch et Ratcliff (1972) est en général utilisé pour l’estimation de tels modèles. Les travaux de Berger et al. (1996) présentent cette approche pour la modélisation du langage dans le cadre de la traduction automatique. Della Pietra et al. (1992) proposent une approche équivalente appliquée à la reconnaissance automatique de la parole.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Résumé
Abstract
Introduction
I Principes des systèmes de reconnaissance automatique de la parole Markoviens 
1 Les systèmes de reconnaissance automatique de la parole 
1.1 Introduction
1.1.1 Applications
1.1.2 Historique
1.1.3 Formulation théorique du problème
1.1.4 Vue d’ensemble du système de reconnaissance automatique de la parole
1.2 Paramétrisation
1.2.1 Introduction
1.2.2 Principe
1.2.3 Méthodes utilisées
1.2.4 Le vecteur de paramètres
1.3 Modèles acoustiques
1.3.1 Introduction
1.3.2 Les modèles de Markov cachés
1.3.3 Estimation des paramètres des modèles de Markov cachés
1.3.4 Adaptation des modèles acoustiques
1.3.5 Adaptation des paramètres
1.3.6 Choix des unités acoustiques
1.4 Le lexique
1.4.1 Introduction
1.4.2 Probabilité des variantes
1.4.3 Choix des mots et des phonèmes
1.4.4 Couverture lexicale
1.5 Le modèle de langage
1.5.1 Introduction
1.5.2 Modélisation statistique du langage
1.5.3 Les modèles de langage n-grammes
1.6 Le décodeur
1.6.1 Introduction
1.6.2 Algorithme de décodage
1.6.3 Représentation des hypothèses
1.6.4 Passes successives de décodage
1.6.5 Décodage N-best
1.7 Evaluation d’un système de reconnaissance automatique de la parole
1.7.1 Le taux d’erreur sur les mots
1.7.2 Autres mesures
2 La modélisation du langage 
2.1 Introduction
2.2 Modélisation statistique du langage
2.3 Modèle de langage n-gramme
2.4 Modèle de langage n-gramme de classes
2.4.1 Formulation
2.4.2 Choix des classes
2.5 Autres modèles de langage
2.5.1 Reposant sur un modèle n-gramme
2.5.2 Autres approches
2.6 Estimation des modèles de langage n-grammes
2.7 Lissage des modèles de langage n-grammes
2.7.1 Phénomène de pénurie de n-grammes
2.7.2 Principe du lissage
2.7.3 Techniques de décompte
2.7.4 Technique de redistribution
2.7.5 Lissage de Kneser-Ney Modifié
2.8 Comparaison des modèles
2.9 Combinaison de sources d’informations
2.9.1 Interpolation de modèles de langage
2.9.2 Estimation conjointe
2.10 Adaptation des modèles de langage
2.10.1 Les modèles adaptatifs
2.10.2 Adaptation non supervisée
2.10.3 Adaptation supervisée
II Étude du Web comme source de données en modélisation du langage
3 Le Web comme source de données 
3.1 Introduction
3.2 Le Web
3.2.1 La taille du Web
3.2.2 Accéder aux données du Web
3.3 Le Web pour la reconnaissance automatique de la parole
3.4 Mesurer la couverture du Web
3.4.1 Mesurer la fréquence d’une séquence de mots sur le Web
3.4.2 Les facteurs qui influencent la couverture lexicale
3.4.3 Les corpus
3.4.4 Résultats
3.4.5 Discussion
3.5 Conclusion du chapitre
III Adaptation automatique du lexique 
4 Etat de l’art : adaptation automatique du lexique 
4.1 Décalage entre lexique et données à transcrire
4.1.1 Conséquences directes
4.1.2 Conséquences indirectes
4.2 Importance du phénomène
4.2.1 L’influence de la langue
4.2.2 L’influence du contenu
4.3 Détection des mots hors-vocabulaire
4.3.1 Détection par fillers acoustiques
4.3.2 Détection par caractérisation de mesures
4.3.3 Combinaison de techniques
4.4 Adaptation automatique du lexique
4.4.1 Choix d’une source d’information
4.4.2 Sélection des nouveaux mots
4.4.3 Phonétisation des nouveaux mots
4.4.4 Score linguistique des nouveaux mots
4.4.5 Autres approches
4.5 Conclusion du chapitre
5 Adaptation locale et dynamique du lexique 
5.1 Introduction
5.2 Principes de l’augmentation locale et dynamique du lexique
5.2.1 Augmentation locale
5.2.2 Augmentation contextuelle
5.3 Extraction de requêtes caractéristiques des mots Hors-vocabulaires
5.3.1 Les moteurs de recherche Web
5.3.2 Stratégie n-gramme
5.3.3 Stratégie patrons
5.3.4 Stratégie basée sur la sémantique à court terme
5.3.5 Stratégie n-gramme et patrons guidée par la sémantique
5.4 Injection des nouveaux mots dans le processus de transcription
5.4.1 Substitution dans la transcription
5.4.2 Insertion des nouveaux mots dans le lexique
5.5 Dispositif expérimental
5.5.1 Les corpus d’évaluation
5.5.2 Le système de reconnaissance automatique de la parole
5.5.3 Détection des mots hors-vocabulaire
5.5.4 L’augmentation lexicale
5.6 Experimentations
5.6.1 L’importance du moteur de recherche
5.6.2 Performances des requêtes
5.6.3 Robustesse des requêtes
5.6.4 Performances de l’injection des mots
5.7 Conclusion du chapitre
IV Adaptation des scores linguistiques à partir du Web 
6 Etat de l’art : Adaptation des scores linguistiques à partir du Web 
6.1 Introduction
6.2 Collecte de documents
6.2.1 Collecte dynamique
6.2.2 Collecte a priori
6.2.3 Collecte hybride
6.2.4 Traitement des documents
6.3 Exploitation des moteurs de recherche
6.4 Conclusion
7 Modèles de langage probabilistes et possibilistes Web 
7.1 Introduction
7.2 Probabilités
7.2.1 Probabilités estimées sur corpus
7.2.2 Probabilités estimées sur le Web
7.3 Possibilités
7.3.1 Introduction
7.3.2 Possibilités estimées sur le Web
7.3.3 Possibilités estimées sur corpus
7.4 Intégration dans le processus de reconnaissance automatique de la parole
7.4.1 Score linguistique à part entière
7.4.2 Probabilités
7.5 Combinaison de probabilités et de possibilités
7.5.1 Possibilités comme borne supérieur des probabilités
7.5.2 Probabilités Web comme modèle de repli
7.5.3 Possibilités comme facteur de repli linguistique
7.5.4 Combinaison log-linéaire
7.6 Dispositif expérimental
7.6.1 Les corpus
7.6.2 Les systèmes de reconnaissance automatique de la parole
7.6.3 Optimisation des paramètres
7.7 Expérimentations
7.7.1 Mesures de probabilité et de possibilité
7.7.2 Possibilités et probabilités Web comme repli du modèle probabiliste corpus
7.7.3 Possibilités comme bornes supérieures des probabilités
7.7.4 Combinaison log-linéaire
7.8 Conclusion
Conclusion et perspectives

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *