Construction automatique d’outils et de ressources linguistiques à partir de corpus parallèles

L’annotation linguistique de ressources consiste à ajouter des informations de nature interprétative aux données brutes originales [Garside et al. 1997]. Ces informations peuvent être d’ordre terminologique, lexical, morphologique, syntaxique ou sémantique et les ressources linguistiques peuvent être des lexiques, dictionnaires, transcriptions de dialogues ou corpus de textes [Véronis 2000].

Les applications utilisant les ressources linguistiques annotées sont nombreuses et diverses : recherche d’information interlingue, fouille de textes, extraction d’informations, aide à la traduction, traduction automatique, etc. C’est la raison pour laquelle, depuis quelques années, la construction automatique de telles ressources est devenue un champ de recherche important en Traitement Automatique de la Langue (TAL) [Hamon et al. 2007] [Viprey and Léthier 2008] [Mazziotta 2010] [Bestgen 2013]. La plupart des approches développées pour la construction de ressources linguistiques annotées ont un objectif commun : minimiser le coût de la production de telles ressources en supprimant l’intervention humaine ou en la limitant à la seule tâche de validation et d’évaluation. Le point commun de ces approches est de trouver et d’explorer des mécanismes non (ou très peu) coûteux pour exploiter des ressources linguistiques annotées déjà disponibles pour certaines langues et des corpus parallèles ou comparables pour produire de nouvelles ressources annotées pour des langues faiblement dotées.

Projection interlingue d’annotations linguistiques

La projection interlingue consiste à identifier des équivalences terminologiques, morphosyntaxiques, syntaxiques ou sémantiques à partir de corpus de textes parallèles ou comparables. Deux processus constituent un prérequis pour les approches de projection interlingue d’annotations à partir de corpus : un alignement au niveau des paragraphes, des phrases ou d’unités lexicales de taille variable, et une analyse linguistique pour l’annotation des textes en langue source. Ces approches permettent de produire des ressources linguistiques adéquates à moindre coût pour des langues peu dotées mais elles ouvrent également la voie à des recherches sur l’extension multilingue d’outils monolingues. Nous pourrons citer les travaux de Yarowsky et al. [2001] qui ont utilisé un corpus parallèle pour adapter des outils monolingues (POS Taggers, chunkers et analyseurs morphologiques) à de nouvelles langues. La projection entre langues a été réalisée en utilisant des techniques d’alignement de mots entre les phrases du corpus parallèle. Cette approche a été adaptée par Hwa et al. [2002] aux nivaux grammatical et syntaxique pour faire une projection des informations concernant les dépendances syntaxiques de l’anglais vers le chinois. Feldman et al. [2006] ont expérimenté la projection interlingue à partir de corpus comparables pour transférer des étiquettes morpho-syntaxiques entre le russe, le polonais et le tchèque. L’annotation en allemand de rôles sémantiques par projection interlingue à partir de la paire de langues anglais-allemand a été déjà abordée par Padó and Lapata [2005, 2009]. Pado and Pitel [2007] ont évalué la généricité de cette approche du point de vue des langues en l’appliquant à la paire anglais-français. Les résultats sont proches de ceux obtenus pour l’allemand. Kim et al. [2011] ont utilisé des informations fournies par un aligneur de mots pour transférer les entités nommées et leurs relations de l’anglais vers le coréen en vue de la construction d’un corpus d’apprentissage pour un système d’extraction d’information à partir du Web. Abdulhay [2012] a utilisé les relations sémantiques extraites par transitivité traductionnelle à partir de corpus multilingue aligné pour la constitution d’une ressource sémantique en arabe. Plus récemment, Jabaian [2012] s’est intéressé à la portabilité multilingue d’un système de compréhension de la parole en proposant d’utiliser la traduction automatique afin de minimiser le coût du développement d’un nouveau système de compréhension dans une nouvelle langue [Jabaian et al. 2013].

Les approches de projection interlingue par alignement de mots affichent des résultats satisfaisants en annotations lexicales et morpho-syntaxiques pour les couples de langues voisines, mais les résultats pour les annotations syntaxiques et sémantiques des langues à morphologie riche restent insufisants.

Multilinguisme et traitement automatique de la langue

Les technologies du TAL ont pour objectif d’aider à analyser rapidement de grosses quantités de données textuelles. Cette analyse (linguistique) consiste à déterminer les unités de sens que contient le texte à traiter. Pour réaliser cette tâche, le processus d’analyse linguistique a besoin d’un ensemble de modules de traitement dont le nombre et la nature varient selon la langue considérée et d’un ensemble de ressources linguistiques adaptées. Il existe principalement deux types d’approches utilisées pour le développement des outils de TAL : celles à base de règles et de lexiques dites « symboliques » [Fuchs 1993] et celles s’appuyant sur des corpus dites « statistiques » [Cornuéjols and Miclet 2002]. La combinaison de ces deux approches a permis le développement de méthodes hybrides [Jurafsky 2000].

L’analyse linguistique à base de règles repose sur des ressources généralement construites à la main. L’objectif étant le transfert de l’expertise des linguistes pour disposer des lexiques et des règles nécessaires au fonctionnement des outils de TAL. Le principal avantage de cette approche est qu’elle fournit des résultats présentant un minimum de qualité lexicale et grammaticale due à l’utilisation de ces ressources linguistiques. Les approches statistiques tablent sur la mise en évidence, par des techniques d’apprentissage automatique, des régularités présentes dans des corpus significatifs de textes. Les performances des outils TAL utilisant des modèles neuronaux profonds pour les langues riches en données annotées, s’approchent de plus en plus de la performance humaine. En revanche, les performances de ces outils pour les langues peu dotées sont largement en dessous des performances des modèles de l’état de l’art basés sur les ressources linguistiques (lexiques et règles grammaticales). Ceci est dû au fait que l’apprentissage profond nécessite des données annotées volumineuses pour fournir des performances élevées.

Modules et ressources pour l’analyse linguistique monolingue

Certains modules de l’analyse linguistique sont génériques dans la mesure où ils peuvent assurer le traitement de la majorité des langues traitées. D’autres, plus spécifiques, ne sont utilisés que dans des cas bien précis définis selon la langue à traiter. Une analyse linguistique standard se compose des modules suivants [Besançon et al. 2010] :

1. Tokenisation : Ce module consiste à découper les chaînes de caractères du texte en mots, en prenant en compte le contexte ainsi que les règles de découpage. Ce module utilise généralement des règles de segmentation ainsi que des automates d’états finis.

2. Analyse morphologique : Ce module a pour but de vérifier si le mot (token) appartient à la langue et d’associer à chaque mot des propriétés syntaxiques qui vont servir dans la suite des traitements. Ces propriétés syntaxiques sont décrites en classes appelées catégories grammaticales. La consultation de dictionnaires de formes ou de lemmes permet de récupérer les propriétés syntaxiques concernant les mots à reconnaître.

3. Analyse morpho-syntaxqiue : Après l’analyse morphologique, une partie des mots restent ambigus d’un point de vue grammatical. Par exemple, le mot « car » peut avoir la catégorie grammaticale « Conjonction » ou « Substantif ». L’analyse morphosyntaxique réduit le nombre des ambiguïtés en utilisant soit des règles ou des matrices de désambiguïsation. Les règles sont généralement construites manuellement et les matrices de bi-grams et tri-grams sont obtenues à partir d’un corpus étiqueté et désambiguïsé manuellement.

4. Analyse syntaxique : Ce module consiste à identifier les principaux constituants de la phrase et et les relations qu’ils entretiennent entre eux. Le résultat de l’analyse syntaxique peut être une ou plusieurs structures syntaxiques représentant la phrase en entrées. Ces structures dépendent du formalisme de représentation utilisé : un arbre syntagmatique, un arbre de dépendance ou une structure de traits. L’analyse en dépendance syntaxique consiste à créer un arbre de relations entre les mots de la phrase. Le module d’analyse syntaxique utilise des règles pour l’identification des relations de dépendance ou des corpus annotés en étiquettes morpho-syntaxiques et en relations de dépendance.

5. Analyse sémantique : Ce module a pour objectif de construire une représentation du sens de la phrase à analyser, en associant à chaque concept rencontré un objet ou une action appartenant à un référentiel. Il existe plusieurs niveaux pour l’analyse sémantique : désambiguïsation lexicale, étiquetage en rôles sémantiques, etc.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 Introduction
1.1 Introduction
1.1.1 Motivations
1.1.2 Projection interlingue d’annotations linguistiques
1.1.3 Multilinguisme et traitement automatique de la langue
1.1.4 Structure de la thèse
1.2 Jeux d’étiquettes syntaxiques et sémantiques
1.2.1 Les étiquettes morpho-syntaxiques universelles
1.2.2 Les étiquettes sémantiques à gros grain
1.2.3 Les étiquettes des relations de dépendance syntaxique universelles
1.3 Les réseaux de neurones pour l’analyse linguistique
2 Projection interlingue d’annotations linguistiques – État de l’art
2.1 Introduction
2.2 Définitions
2.2.1 Annotation linguistique
2.2.2 Langues peu dotées
2.2.3 Alignement de mots
2.2.4 Transfert d’annotations
2.3 État de l’art
2.3.1 Approches basées sur l’alignement de mots
2.3.2 Approches basées sur les plongements lexicaux bilingues de mots
3 Réseaux de neurones récurrents pour l’annotation multilingue
3.1 Approche proposée
3.1.1 Description de notre approche
3.1.2 Architectures neuronales utilisées
3.1.3 Construction de nos modèles neuronaux -Algorithme d’apprentissage-
3.2 Améliorations de nos modèles neuronaux
3.2.1 Traitement des mots hors-vocabulaire
3.2.2 Nouvelles variantes de RNN pour l’ajout d’informations externes
3.2.3 Combinaison des modèles basées RNN et projection interlingue standard
3.3 Conclusion
4 Annotateur morpho-syntaxique multilingue fondé sur les réseaux de neurones récurrents
4.1 Annotateur morpho-syntaxique non supervisé par projection simple – notre référence
4.2 Évaluation de notre approche pour la construction l’annotateur morphosyntaxique multilingue
4.2.1 Corpus et outils
4.2.2 Adaptation du modèle neuronal sur la langue cible
4.2.3 Analyse des résultats
4.2.4 Bilan
5 Annotateur en SuperSenses multilingue fondé sur les réseaux de neurones récurrents
5.1 Annotation en SuperSenses
5.2 Annotateur en SuperSenses multilingue fondé sur les réseaux de neurones récurrents
5.2.1 Corpus et outils
5.2.2 Systèmes évalués
5.2.3 Analyse des résultats
5.2.4 Bilan
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *