Les documents bruités dans des espaces homogènes

Traitement Automatique du Langage Naturel

La recherche d’information (RI) a pour objectif d’extraire un ensemble de documents pertinents sachant une requête délivrée par l’utilisateur, en général à un moteur de recherche. Le domaine du Traitement Automatique du Langage Naturel (TALN) consiste, lui, au traitement du langage dit « humain ». Ce domaine est issu de l’Intelligence Artificielle (IA) et est connexe à de nombreux autres domaines proches de l’IA, comme le traitement de la parole ou l’indexation de documents multimédias. Les outils développés par les scientifiques du TALN sont fréquemment utilisés dans le domaine de la RI (Stock, 2007). Ces pré-traitements permettent une exploitation efficace des corpus de très grandes tailles, comme par exemple, les données issues d’Internet indexées par les moteurs de recherche (Kruschwitz, 2005). Parmi ces outils performants issus du TALN et largement utilisés dans le domaine de la RI, nous trouvons :
• les procédés de segmentation d’un document textuel en une succession de termes (tokens) (Manning et Schütze, 1999) de phrases, de thèmes…
• l’utilisation d’une liste de mots au contenu informatif faible, pour ne garder que les termes les plus pertinents du document (Manning et Schütze, 1999),
• les modules de reconnaissance d’entités nommées (Stock, 2007),
• les outils d’étiquetage (tagging) appelés Part-Of-Speech (POS) tagging permettant de définir la classe morpho-synthaxique d’un terme au sein d’une phrase (verbe, nom, préposition, . . .) (Manning et Schütze, 1999),
• les systèmes de résolution d’anaphores (les pronoms comme « elle » ou « lui ») ainsi que les ellipses (omission dans une phrase d’un terme) (Stock, 2007).

Analyse sémantique latente (LSA)

Les chercheurs en RI ont donc proposé de nouvelles méthodes de réduction de l’espace de représentation permettant automatiquement de trouver des relations sémantiques entre les mots et les documents formant le corpus ou la collection de documents. La première est l’indexation sémantique latente ou analyse sémantique latente (Latent semantic indexing or analysis (Analyse Sémantique Latente ou Latent Semantic Analysis (LSA)/LSA)) (Bellegarda, 1997; Deerwester et al., 1990; Bellegarda, 2000). LSA est un paradigme original formulé dans le contexte de la RI et très souvent utilisé, en particulier durant la fin des années 90, pour réduire l’espace de représentation. (Deerwester et al., 1990) exposent la méthode de réduction de l’espace de représentation LSA/LSA permettant de modéliser les relations liant les mots du vocabulaire, pour en extraire des ensembles de mots appelés classes de mots ou concepts. LSA utilise une décomposition en valeurs singulières (Singular-value decomposition (SVD)) (Golub et Van Loan, 1989) permettant la création d’un espace sémantique représentant les relations thématiques entre les mots et les documents. Une description détaillée de ce modèle est disponible dans l’annexe B. La méthode d’indexation sémantique latente (LSA) a été appliquée dans de nombreuses tâches en recherche d’information où elle y obtient des résultats souvent significativement meilleurs que ceux obtenus par les méthodes classiques. Dans (Dumais, 1991), des techniques similaires à celles utilisées dans les vecteurs à base de fréquence de mots ont été appliquées à la méthode LSA, comme la pondération ou l’utilisation du relevance feedback. Ces améliorations ont permis d’améliorer les résultats obtenus avec la méthode LSA. Dans (Foltz et Dumais, 1992), les auteurs comparent la méthode LSA avec d’autres méthodes lors d’une tâche de filtrage d’informations. Les résultats obtenus montrent que LSA permet de sélectionner l’information la plus pertinente et de supprimer la redondance. L’auteur dans (Dumais, 1993) a également utilisé LSA durant la campagne d’évaluation TREC-1 avec des résultats convenables. Il a montré que la taille de la représentation des documents contenus dans le corpus fourni lors de cette campagne pouvait être réduite par une décomposition SVD dans un délai raisonnable (un jour avec un seul processeur) sachant les moyens matériels limités de l’époque (1993). Dans (Dumais, 1994), l’auteur a ensuite appliqué LSA à la tâche de question-réponse (extraction d’information dans une base de grande taille à partir d’un jeu de requêtes) durant la campagne TREC-2 avec des résultats contrastés, principalement dus à des problèmes lors de l’utilisation du système SVD SMART (Buckley et al., 1993). LSA a également montré son efficacité dans le domaine de la reconnaissance de la parole, et plus précisément, dans la constitution d’un modèle de langage. Ainsi, les auteurs dans (Gildea et Hofmann, 1999) proposent une méthode fondée sur LSA et l’algorithme Algorithme Espérance-Maximisation ou Expectation maximisation algorithm (EM), permettant de baisser la perplexité d’un modèle n-gramme (Brown et al., 1992). La perplexité a pour vocation de mesurer la qualité de ces modèles de langage, qui sont indispensables lors de la phase de reconnaissance de la parole, en utilisant l’historique d’un terme sachant un corpus de textes. D’autres études ont confirmé l’efficacité de LSA par la suite (Berry et al., 1995; Hofmann, 1999a; Landauer et Dumais, 1997; Landauer et al., 1997; Story, 1996) dans des contextes et des tâches similaires. Plus récemment, la méthode LSA a été utilisée dans des tâches de reconnaissance de la parole ou d’analyse des contenus parlés, par exemple pour le choix du meilleur nombre de n-grammes (n mots qui se suivent) dans les modèles de langage (Bellegarda, 2000). Le modèle LSA a été utilisé pour la détection de mots hors-vocabulaire dans des documents audios (Lecouteux et al., 2009). Dans (Papadimitriou et al., 1998), les auteurs analysent les forces et faiblesses de LSA en développant un modèle génératif probabiliste s’appuyant sur un corpus de textes. Ils montrent que l’utilisation de LSA en lieu et place d’une méthode générative probabiliste, telle que le maximum de vraisemblance ou les méthodes bayésiennes, n’est pas forcement pertinente. Le modèle LSA ne reproduit pas convenablement la structure statistique du corpus d’apprentissage. De plus, la décomposition en valeurs singulières (SVD) nécessaire est coûteuse en ressources matérielles.

Analyse sémantique latente probabiliste (PLSA)

Pour répondre aux faiblesse du modèle LSA, (Hofmann, 1999a) propose une approche probabiliste de LSA appelée modèle Analyse Sémantique Latente Probabiliste ou Probabilistic Latent Semantic Analysis (PLSA). Ce modèle permet d’obtenir une représentation plus réaliste du document en associant plusieurs thèmes à un même document, avec des pondérations. Dans PLSA chacun des termes composant le document est associé à un thème. Le principe de ce nouveau modèle est de représenter chaque mot contenu dans la collection de documents comme un échantillon issu d’un modèle de mixtures de variables aléatoires déterminées à partir d’une loi multinomiale. Ces mots peuvent être considérés comme des « concepts » même si la relation entre cette distribution au sein du vocabulaire et un « concept », comme nous l’entendons, n’est pas explicite. Ainsi, chaque mot est généré depuis un concept ou thème, et les mots composant un document peuvent être issus de thèmes différents. Les documents sont alors représentés comme une distribution parmi les thèmes fixés composant le modèle PLSA. Cette représentation du document est dite « réduite ». Ce modèle, même s’il représente une amélioration notable de LSA, comporte néanmoins certaines faiblesses puisqu’il ne fournit pas de modèle probabiliste au niveau du document. Ainsi, PLSA considère chacun des documents composant un corpus comme un ensemble de proportions du mélange de thèmes, mais ne fournit aucun modèle génératif probabiliste de ces valeurs. Ceci entraîne deux problèmes importants :
• le nombre de paramètres grandit proportionnellement avec la taille du corpus, et donc la taille du vocabulaire, ce qui a tendance à conduire au phénomène de surapprentissage,
• la difficulté d’associer, à un document n’apparaissant pas dans le corpus à l’origine du modèle PLSA, une distribution sur les mixtures de thèmes. Une description détaillée de la méthode PLSA/PLSA est fournie dans l’annexe C. Bien qu’originalement pensée pour répondre aux faiblesses de la méthode LSA dans le contexte de la recherche d’information (Niu et Shi, 2010; Kim et al., 2003), cette méthode a connu un grand succès dans d’autres domaines, tels que le traitement de l’image (Zhuang et al., 2009; Sivic et al., 2005; Fergus et al., 2005; Cao et Fei-Fei, 2007; Wong et al., 2007; Lu et Zhai, 2008; Niebles et al., 2008; Mei et al., 2007; Zhang et Gong, 2010) ou le traitement vidéo.

Allocation latente de Dirichlet (LDA)

Le modèle LDA, proposé pour la première fois par (Blei et al., 2003), offre une solution pour contourner les défauts du modèle PLSA. Le nombre de paramètres du modèle est limité par le nombre k de thèmes le composant. Ainsi, le modèle conserve une taille fixe n’augmentant pas avec le nombre de documents composant le corpus d’apprentissage. Le paradigme LDA permet également une bonne estimation de la probabilité d’un document non rencontré lors de la phase d’entraînement, connaissant les thèmes composant le modèle. Il est explicité plus précisément dans l’annexe D. Le modèle LDA est minutieusement décrit dans (Blei et al., 2003) ou dans (Griffiths et Steyvers, 2004; Heinrich, 2005; Blei et Lafferty, 2009; Berry et Kogan, 2010). L’impact de la méthode LDA dans le domaine du traitement automatique de la langue écrite (puis dans d’autres domaines par la suite comme l’image et l’audio) est majeur (Wang et McCallum, 2005). LDA a suscité de nombreux travaux qui s’intéressent aux problèmes d’estimation sous-jacents (Griffiths et Steyvers, 2004; Asuncion et al., 2009) ou proposent des extensions de ce modèle :
• le processus hiérarchique de Dirichlet ou hierarchical Dirichlet processes (HDP) (Teh et al., 2004),
• le modèle dynamique de thèmes ou dynamical topic model (DTM) (Blei et Lafferty, 2006b),
• le modèle corrélé de thèmes ou correlated topic model (CTM) (Blei et al., 2007),
• le modèle auteur-thème LDA ou Author-Topic LDA (Rosen-Zvi et al., 2004),
• ou labeled LDA : un modèle plus récent utilisant les étiquettes attribuées à un document composant le corpus d’apprentissage du modèle (Ramage et al., 2009).
Ce modèle propose d’utiliser la connaissance a priori de classes auxquelles les documents appartiennent pour élaborer des espaces de thèmes « guidés » par ces étiquettes. Ces variantes ne sont pas détaillées ici, cette partie se concentrant sur le modèle initial (LDA) utilisé dans la suite de ce travail. L’estimation des paramètres (distributions) du modèle LDA n’est pas triviale comme nous pouvons le constater dans l’équation D.9. Ceci rend le calcul des probabilités impossible (Blei et al., 2003). L’utilisation de la méthode classique pour l’estimation des paramètres d’un modèle telle que l’algorithme EM (voir section C.3) est à éviter. Cependant, les méthodes provenant du machine learning permettent de contourner cette difficulté. Ces méthodes sont décrites dans la section suivante.

LDA dans le domaine de la parole

La méthode LDA a été utilisée dans les tâches de classification ou de catégorisation de documents textuels principalement. Dans le domaine du traitement automatique de la parole, l’approche LDA a été implémentée pour l’adaptation du modèle de langage (Heidel et al., 2007). Les auteurs l’utilisent pour déterminer la probabilité qu’un document soit généré sans tenir compte de l’ordre des mots. De plus, LDA construit son modèle de thèmes au niveau du document, ce qui est contraire à l’idée initiale des modèles de langage dans le domaine de la reconnaissance automatique de la parole, qui eux sont fondés sur le modèle n-gramme. L’auteur dans (Wallach, 2006) propose de ne pas utiliser le document comme un ensemble de termes isolés, mais comme un ensemble de bi-grammes. Ainsi, le modèle de langage initial bâti sur le mot et son « contexte » (n-gramme) est préservé. Le document est ainsi vu comme un « sac-de-bigrammes ». Comme évoqué précédemment, LDA est une méthode voisine de PLSA. Ces deux techniques sont comparées pour l’élaboration d’un modèle de langage performant en termes de Taux d’erreur-mot (TEM) ou Word Error Rate (WER) dans (Chien et Chueh, 2008). Dans cet article, les auteurs proposent un Modèle de Langage Latent de Dirichlet (MLLD) ou latent Dirichlet language model (LDLM) pour la modélisation de séquences de mots n-grammes du modèle de langage. Le modèle LDLM est alors comparé à un modèle de langage utilisant PLSA dans la tâche de reconnaissance de la parole sur le corpus du The Wall Street Journal (WSJ). Les résultats montrent que le modèle issu d’une analyse latente de Dirichlet obtient de meilleurs résultats (TEM de 5,19 %) que le système de base (modèle n-gramme) avec un TEM de 5,38 %, ou que le modèle de langage proposé par (Gildea et Hofmann, 1999) s’appuyant sur l’algorithme EM (Annexe C.3) avec un TEM de 5,25 %. Plusieurs autres méthodes utilisant LDA pour composer un modèle de langage ont été proposées comme le Topic Cache Latent Dirichlet language model (TCLDLM) (Chueh et Chien, 2010) ou le Dirichlet class language model (DCLM) (Chien et Chueh, 2011). D’autres études sont allées plus loin en proposant ce dernier modèle de langage (DCLM) fondé sur le modèle LDA, mais en tenant compte de l’historique d’un terme. Cette séquence de termes est projetée dans un espace de thèmes pour déterminer le log-vraisemblance marginal sur les classes apprises par le modèle LDA. Ce modèle ne considère plus le document comme un « sac-de-mots », mais comme un ensemble de termes combinés à leurs historiques dans le modèle de langage s’appuyant sur les thèmes latents. Ce procédé permet de déterminer les séquences de n- grammes d’une manière automatique non-supervisée. Cette méthode a montré son efficacité dans la tâche de reconnaissance de la parole sur le même corpus (WSJ) comparativement à d’autres méthodes fondées sur les espaces de thèmes comme LDLM avec un TEM de 5,02 %, atteignant même un TEM de 4,92 % pour la version dite cache de DCLM. Toutes ces études sont motivées par la faiblesse de l’information sémantique intégrée au Système de Reconnaissance Automatique de la Parole (SRAP). Malgré des progrès constatés dans des situations particulières, LDA n’est pas devenu une méthode « consensuelle » en RAP mais elle est devenue un outil standard de l’analyse des contenus parlés (Speech Analytics).

Classification à base de SVM

Durant cette étape, les systèmes de catégorisation sont entrainés à partir de la représentation vectorielle afin d’attribuer automatiquement le thème le plus pertinent à chaque conversation. Ce processus de catégorisation nécessite un classifieur multiclasses. La méthode un-contre-un est choisie avec un noyau linéaire. Cette méthode donne, en général, de meilleurs résultats que la méthode un-contre-tous (Yuan et al.,2012). Pour ce problème multi-catégories, T représente le nombre de catégories ou classes et ti, i = 1, . . . , T représente les classes. Un système de catégorisation binaire (un-contre-un) est entraîné pour chaque paire de classes distinctes : tous les systèmes binaires T(T − 1)/2 sont ensuite construits. Le système de catégorisation binaire Ci,j est entrainé, ti étant une classe positive et tj une classe négative (i 6= j). Pour une nouvelle représentation vectorielle (vecteur de fréquence de mots, équation 2.2, ou vecteur d’espace de thèmes, équation 2.3) d’une transcription d du corpus de test, si Ci,j signifie que d est dans la classe ti, alors le vote pour la classe ti est incrémenté de un. Sinon, le vote pour la classe tj est augmenté de un. Une fois le vote de tous les systèmes de catégorisation achevé, la classe ayant le plus grand nombre de votes est attribuée à la transcription d.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Résumé
Abstract
Introduction
I Projection de documents bruités dans un espace thématique
1 État de l’art de la représentation de documents dans des espaces de thèmes
1.1 Introduction
1.2 Modèle à base de fréquence de mots
1.3 Modèles thématiques
1.3.1 Analyse sémantique latente (LSA)
1.3.2 Analyse sémantique latente probabiliste (PLSA)
1.3.2.1 PLSA pour la recherche d’information
1.3.2.2 PLSA pour le traitement de la parole
1.3.2.3 PLSA pour le traitement de l’image
1.3.3 Allocation latente de Dirichlet (LDA)
1.3.3.1 Algorithmes d’estimation des paramètres du modèle LDA
1.3.3.2 Collapsed Gibbs Sampling
1.3.3.3 Mesure de la performance des modèles à base de thèmes
1.3.3.4 LDA dans le domaine du traitement automatique du langage écrit
1.3.3.5 LDA dans le domaine de la parole
1.3.3.6 LDA dans le domaine du traitement de l’image
1.4 Conclusions
2 Représentation robuste de documents par projection dans un espace thématique homogène
2.1 Introduction
2.2 Représentation vectorielle robuste de documents parlés fortement bruités
2.2.1 Problématiques liées à la catégorisation de transcriptions automatiques fortement bruitées
2.2.2 Historique des méthodes pour la catégorisation de documents audios transcrits automatiquement
2.2.3 Représentation d’un document audio transcrit automatiquement
2.2.3.1 Représentation par fréquence des mots
2.2.3.2 Représentation du document dans un espace de thèmes
2.2.4 Méthodes de catégorisation
2.2.4.1 Classification à base de SVM
2.2.4.2 Distance de Mahalanobis
2.2.5 Protocole expérimental
2.2.6 Résultats
2.2.6.1 Performance de l’identification de catégories
2.2.6.2 Impact des méthodes de catégorisation
2.2.6.3 Impact de la réduction de l’espace de représentation par analyse en composantes principales
2.2.6.4 Précision de la transcription des mots discriminants
2.2.7 Conclusions pour la catégorisation de documents audios fortement bruités dans un espace de thèmes
2.3 Représentations fondées sur des espaces de thèmes LDA dans diverses tâches de RI
2.3.1 Contextualisation d’un message court dans un espace de thèmes
2.3.2 Extraction de mots-clés dans des transcriptions de vidéos communautaires
2.3.3 Catégorisation de messages courts représentés dans un espace de thèmes pour la prédiction du Buzz
2.4 Conclusion générale du chapitre
II Multiples représentations thématiques de documents bruités pour une catégorisation robuste
3 Projection d’un document bruité dans des espaces multiples
3.1 Introduction
3.2 Contributions
3.2.1 Détection d’événements sociaux dans des documents bruités issus du Web
3.2.1.1 Système de détection d’événements fondé sur une représentation multi-granulaires
3.2.1.2 Protocole expérimental
3.2.1.3 Résultats et discussions
3.2.1.4 Conclusions sur la représentation multi-granulaires de documents bruités issus du Web
3.2.2 Représentation multi-thèmes de documents parlés transcrits automatiquement pour une catégorisation robuste
3.2.2.1 Approche proposée pour une représentation multi-vues d’une transcription fortement bruitée
3.2.2.2 Protocole expérimental
3.2.2.3 Résultats obtenus lors de la catégorisation de représentations multi-vues de dialogues issus de transcriptions automatiques
3.2.2.4 Conclusions sur l’apport d’une représentation dans de multiples espaces de thèmes pour la catégorisation de transcriptions fortement imparfaites
3.3 Conclusions générales sur la représentation multiple de documents bruités dans des espaces de thèmes
4 L’analyse factorielle pour une catégorisation robuste d’une représentation multiple compactée d’un document bruité
4.1 Introduction
4.2 Domaines d’application de l’analyse factorielle
4.2.1 L’analyse factorielle pour la vérification du locuteur
4.2.2 L’analyse factorielle pour la segmentation en locuteurs
4.2.3 L’analyse factorielle pour la reconnaissance de la parole
4.2.4 L’analyse factorielle dans le domaine du traitement d’image
4.3 Représentation compacte au moyen d’un i-vecteur
4.3.1 Définition de l’espace de variabilité totale pour l’élaboration des i-vecteurs
4.3.2 Du i-vecteur pour la vérification du locuteur au c-vecteur pour la catégorisation de documents
4.4 Contributions : Représentation compacte de documents bruités s’appuyant sur l’espace des i-vecteurs
4.4.1 Représentation des documents bruités dans un espace de vocabulaire homogène
4.4.2 Variation des paramètres du modèle LDA pour une représentation multi-vues d’un document
4.4.2.1 Variation du nombre de thèmes K
4.4.2.2 Variation de α
4.4.2.3 Variation de β
4.4.3 Représentation multiple dans un espace homogène de mots discriminants
4.4.4 Standardisation des c-vecteurs
4.4.5 Protocole expérimental
4.4.5.1 Corpus d’articles Reuters-21578
4.4.5.2 Mesure de similarité
4.4.6 Résultats
4.4.6.1 Représentation compacte de transcriptions automatiques bruitées
4.4.6.2 Représentation compacte de documents textuels
4.5 Conclusion sur l’apport des méthodes issues de l’analyse factorielle pour une représentation robuste de documents bruités
III Caractéristiques hyper-complexes de termes bruités
5 Projection de documents bruités dans l’espace hyper-complexe des Quaternions
5.1 Introduction
5.2 Les Quaternions
5.3 Domaines d’application des quaternions
5.3.1 Traitement d’images à l’aide des quaternions
5.3.2 Les quaternions dans la gestion de mouvements
5.3.3 Méthodes génériques bâties sur l’algèbre des quaternions
5.4 Représentation de documents bruités par des quaternions
5.4.1 Système bâti sur une représentation vectorielle de quaternions
5.4.1.1 Extraction d’un ensemble de termes discriminants
5.4.1.2 Segmentation du dialogue
5.4.1.3 Représentation d’un document dans un vecteur de quaternions
5.4.1.4 Méthode de catégorisation
5.4.2 Expérimentations
5.4.2.1 Systèmes de base
5.4.2.2 Résultats et discussions
5.5 Conclusions sur l’apport d’une représentation d’un document bruité dans un espace hyper-complexe
IV Conclusions et Perspectives de recherche
Conclusions générales
Perspectives
Appendices