Les difficultés particulières de la catégorisation des textes multilingue

Les difficultés particulières de la catégorisation des textes multilingue

La communication est un processus nécessaire pour l’être humain. Cette communication peut être orale (parole) ou écrite. Actuellement, l’information peut avoir comme support trois média de base : le texte, le son et l’image. Notre travail se focalisera sur les textes, ainsi le terme « document » induit directement qu’il s’agit d’un document textuel. Vu l’apparition d’internet et le nombre important de collections de documents multilingues, il est devenu indispensable au utilisateur du web de trouver les documents pertinents, quelles qu’en soient leurs langues. Ce qui a donné naissance à un nouveau domaine qui est le domaine de catégorisation des textes multilingue.

Catégorisation des Textes

Comme déjà cité dans l’introduction générale, internet a fournit à ses utilisateurs une base gigantesque de documents textuels. Afin de trouver les documents pertinents dans un temps raisonnable, il est nécessaire d’avoir des solutions pour la recherche de tels documents. Une des solutions est la catégorisation des textes. Ce chapitre présente la définition de la catégorisation des textes ainsi que son processus, il expose aussi quelques applications de la catégorisation des textes, les méthodes d’apprentissage utilisées dans ce domaine et les difficultés qui le caractérise.

Définition

F. le processus qui consiste à associer une valeur booléenne à chaque paire (dj,ci)∈D×C,où D est l’ensemble des textes et C est l’ensemble des catégories. La valeur V (Vrai) est alors associée au couple (dj, ci) si le texte dj appartient à la classe ci tandis que la valeur F (Faux) lui sera SEBASTIANI définit Formellement dans [Sebastiani, 2002] la catégorisation des textes comme associée dans le cas contraire. Le but de la catégorisation des textes est de construire une procédure (modèle, classificateur) notée : Φ: D × C → {V, F} qui associe une ou plusieurs étiquettes (catégories) à un document dj telle que la décision donnée par cette procédure coïncide le plus possible avec la fonction Φ: D × C → {V, F}, la vraie fonction qui retourne pour chaque vecteur dj une valeur ci.

Processus de la catégorisation des textes

Le processus reçoit en entrée un document textuel afin de lui trouver sa catégorie, pour cela plusieurs étapes doivent d’être suivies. D’après [Jalam, 2003], ces étapes sont :
– La représentation des textes
– La Pondération des termes
– La réduction de la taille du vocabulaire
– Choix de classificateur
– Evaluation du modèle

Représentation de texte 

Afin de bien classifier les textes il est nécessaire d’utiliser une technique de représentation efficace. Les différentes méthodes qui existent pour la représentation des textes sont :

Représentation en sac de mots (bag of words)
Cette méthode consiste à représenter le document sous forme d’un vecteur de mots. Le processus qui permet de convertir le texte d’un document en un ensemble de termes est appelé l’analyse lexicale qui permet de reconnaître les espaces de séparation des mots, les ponctuations, les chiffres,…etc., pour qu’ils seront tous supprimés de la représentation. Cette représentation a comme avantage d’exclure toute analyse grammaticale et toute notion de distance entre les mots, mais présente comme inconvénient la difficulté de délimiter les mots dans certaines langues telles que l’Arabe ou l’Allemand.

Représentation avec les racines lexicales
Cette méthode consiste à remplacer les mots du document par leurs racines lexicales, qui peut être réalisée en utilisant un des algorithmes les plus connus pour la langue anglaise qui est l’algorithme de Porter [Porter, 1980] de normalisation de mots qui sert à supprimer les affixes de ces derniers pour obtenir une forme canonique. Cette méthode a comme avantage de regrouper les différentes flexions d’un mot dans une seule composante, et comme inconvénient la perte de sens car la racine extraite peut être commune à des mots se rapportant à des concepts différents. A titre d’exemple : les mots vol, volant, vole ont la même racine vol mais se rendent à trois notions différentes.

Représentation avec les lemmes
Cette méthode consiste à remplacer les mots du document par leurs lemmes, elle doit utiliser l’analyse grammaticale afin de remplacer les verbes par leurs formes infinitives et les noms par leurs formes au singulier. En effet, Un mot donné peut avoir différentes formes dans un texte, mais leur sens reste le même. Par exemple, les mots vol, volant et vole seront remplacés par leurs lemmes : vol, volant et voler selon le contexte. Cette représentation est simple mais elle peut causer une perte d’informations donnée par le contexte nécessaire à la distinction des lemmes polysémiques (possèdent plusieurs sens) et la présence de synonymes, considérés comme des lemmes différents même s’ils font référence au même concept.

Représentation avec les n-grammes
Cette méthode consiste à représenter le document par des n-grammes. Le n-gramme est une séquence de n caractères consécutifs. Cette technique présente plusieurs avantages. Les n-grammes capturent automatiquement les racines des mots les plus fréquents sans passer par l’étape de recherche des racines lexicales, indépendante de la langue, les espaces sont pris en considération parce qu’en effet, la non prise en compte de ces derniers introduit du bruit.

Représentation conceptuelle
Cette méthode consiste à représenter le document sous forme d’un ensemble de concepts, ces concepts peuvent être capturés en utilisant les réseaux sémantiques ou les sous arbres (un sous arbre représente une hiérarchie de concepts). Cette méthode a comme avantage selon REHEL dans [Réhel, 2005] de réduire l’espace de travail car les mots qui sont synonymes partagent au moins un concept. Cependant, l’inconvénient majeur de cette représentation est qu’il n’existe pas des bases lexicales pour toutes les langues.

Catégorisation des Textes Multilingue 

Grâce aux progrès et au développement des technologies informatiques, au réseau internet qui relie le monde entier, certains pays finalisent les moyens d’utiliser leurs langues nationales. Ces facteurs aident à la disponibilité de l’information multilingue qui devient indispensable de faciliter la communication d’internet entre différents paramètres de lieu, pays et langues.

Définition 

La catégorisation des textes multilingue consiste à catégoriser un texte rédigé dans une langue donnée, à partir d’un modèle de prédiction construit sur une base d’apprentissage dans une ou plusieurs langue cible. En effet il s’agit de savoir comment catégoriser un document en utilisant des documents d’autres langues.

Les types de catégorisation des textes multilingue 

La catégorisation des textes multilingue se rapporte à l’attribution des documents basés sur leurs contenus, à une ou plusieurs catégories prédéfinies. La catégorisation des textes multilingue peut être traitée selon différents schémas.

Catégorisation des textes par croisement de langues
Dans La catégorisation des textes par croisement de langues, dite en anglais CrossLanguage Text Categorization (CLTC), un ensemble de documents étiquetés est disponible dans une seule langue. Cet ensemble est utilisé pour catégoriser des documents non étiquetés exprimés dans une autre langue. Pour cela, deux manières différentes de traduction peuvent être employées.
• Traduction des documents étiquetés : les documents étiquetés sont traduits dans la langue des documents non étiquetés afin d’être utilisé pour catégoriser ces derniers.
• Traduction des documents à classer : Dans ce cas, c’est les documents non étiquetés qui sont traduit vers la langue des documents étiquetés. Le classificateur est donc construit en utilisant des documents non traduit.

Catégorisation des textes par multiples langues
Dans ce cas, le classificateur est construit en utilisant un ensemble de documents étiquetés dans plusieurs langues afin de catégoriser des documents de différentes langues. Ce scénario exclu l’utilisation des stratégies de traduction donc, aucune perte d’information n’est faite.

Catégorisation des textes avec la langue universelle
Ce scénario utilise une langue de référence universelle à laquelle tous les documents sont traduits. Cette langue devrait contenir toutes les propriétés des langues et doit être organisée d’une façon sémantique : les mots indiquant les mêmes concepts dans les langues devraient être traduits aux mêmes termes dans la langue universelle.

Travaux connexes 

Le domaine de la catégorisation multilingue des textes étant un domaine récent, les travaux dans ce domaine ne sont pas nombreux par rapport aux autres domaines voisins. En effet, la majorité des travaux proviennent essentiellement de ces domaines voisins et plus particulièrement le domaine de la recherche d’information multilingue.

Les approches proposées par JALAM dans [Jalam, 2003] sont parmi les premiers qui abordent le domaine de la catégorisation multilingue. En effet, D’après JALAM trois solutions basées sur la traduction automatique sont proposés et qui sont :
• Le premier, nommé le schéma « trivial » qui représente une extension naïve du schéma de catégorisation monolingue habituel. Il consiste en l’apprentissage de plusieurs modèles (un modèle pour chaque langue).
• Le deuxième est un schéma permettant l’apprentissage d’un seul modèle.
• Le troisième consiste à la traduction de textes de plusieurs ensembles d’apprentissage vers une langue cible pour ensuite apprendre un seul modèle « mixte ».
Une autre approche proposée dans [Gliozzo & al, 2005] consiste à résoudre le problème de la catégorisation multilingue par la construction d’un modèle multilingue du domaine à partir d’un corpus comparable, afin de définir par la suite une fonction de similarité générale entre les documents de différentes langues. Cette fonction est utilisée dans un classificateur SVM. Vu le sucées d’utilisation des ontologies dans la catégorisation monolingue, une autre approche proposée dans [Guyot & al, 2005] consiste à utiliser une ontologie multilingue pour la recherche d’information multilingue en écartant l’utilisation des techniques de traduction automatique. Christopher YANG, Chih-Ping WEI et Huihua SHI ont proposés dans [Yang & al, 2007] une approche pour le cas de la catégorisation multilingue par multiple langue qui consiste en trois principales phases :
• Construction de thésaurus bilingue en utilisant la technique d’analyse de cooccurrence généralement utilisée dans la recherche d’information par croisement de langue (dite en anglais Cross Language Information Retrieval) et CLTC.
• Apprentissage de la catégorisation en tenant en compte non seulement des documents pré classifiés en une langue L1 mais également des documents pré classifiés en une autre langue L2 et en utilisant aussi le thésaurus bilingue construit.
• Assignation de la catégorie pour chaque document non classifié dans L1 ou L2 en utilisant le modèle correspondant de catégorisation des textes induit précédemment.

Identification de la langue 

La détection de la langue dans laquelle le texte à classifier est rédigé est très importante. Elle consiste à attribuer une unité textuelle, supposée monolingue, à une langue. Cette identification devient alors intéressante puisque nous parlons de multilinguisme. Il existe deux familles d’approches dans l’identification de la langue :
– Approche linguistique : nécessite des connaissances linguistiques préalables, qui seront intégrées dans le programme informatique, par exemple la présence de certaines chaînes de caractères spécifiques et de certains mots.
– Approche statistique : utilise des ressources construites automatiquement à partir d’un corpus textuel représentatif de la langue qui à pour objectif de capturer au moyen de modèles statistiques ou probabilistes par exemples les mots les plus fréquents, et les séquences de n-grammes les plus fréquentes.

Conclusion Générale

Nos travaux développés dans ce mémoire s’inscrivent dans le cadre de la représentation conceptuelle pour la catégorisation multilingue des textes. Rappelons que le but de la catégorisation est d’apprendre à une machine à classer un texte dans la bonne catégorie en se basant sur son contenu.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
Chapitre I : Catégorisation des Textes
I. Introduction
II. Définition
III. Processus de la catégorisation des textes
III.1. Représentation de texte
III.1.1. Représentation en sac de mots (bag of words)
III.1.2. Représentation avec les racines lexicales
III.1.3. Représentation avec les lemmes
III.1.4. Représentation avec les n-grammes
III.1.5. Représentation conceptuelle
III.2. Pondération des termes
III.2.1. Mesure TF (Term Frequency)
III.2.2. Mesure TFIDF (Term Frequency Inverse Document Frequency)
III.3. Réduction de la taille du vocabulaire
III.4. Choix de classificateur
III.5. Evaluation du modèle
IV. Applications de la catégorisation des textes
V. Difficultés particulières de la catégorisation des textes
VI. Conclusion
Chapitre II : Catégorisation des Textes Multilingue 
I. Introduction
II. Définition
III. Les types de catégorisation des textes multilingue
III.1. Catégorisation des textes par croisement de langues
III.2. Catégorisation des textes par multiples langues
III.3. Catégorisation des textes avec la langue universelle
IV. Travaux connexes
V. Identification de la langue
VI. Traduction automatique
VII. Les difficultés particulières de la catégorisation des textes multilingue
VIII. Conclusion
Chapitre III : La Représentation Conceptuelle pour la Catégorisation des Textes
Multilingue
I. Introduction
II. Problématique
III. Description des approches suivies
III.1. Représentation en sac de mots
III.2. Traduction automatique
III.3. Représentation conceptuelle
III.5. Classification K-PPV
IV. Expérimentation et évaluation
IV.1. Technologies et outils de développement
IV.1.1. Langage JAVA
IV.1.2. Environnement de développement
IV.1.3. WordNet
IV.1.4. JWNL API
IV.2. Corpus utilisé
IV.3. Evaluation
V. Discussion
VI. Conclusion
Conclusion Générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *