Catégorisation des Textes Multilingue

Catégorisation des Textes Multilingue

Arbres de décision

Les arbres de décision sont composés d’une structure hiérarchique en forme d’arbre. Un arbre de décision est un graphe orienté sans cycles, dont les noeuds portent une question, les arcs des réponses et les feuilles des conclusions ou des classes terminales. Un classificateur de texte basé sur la méthode d’arbre de décision est un arbre de noeuds internes qui sont marqués par des termes, les branches qui sortent des noeuds sont des tests sur les termes et les feuilles sont marquées par catégories. [Abidi, 2011] Une méthode pour effectuer l’apprentissage d’un arbre de décision pour une catégorie Ci consiste à vérifier si tous les exemples d’apprentissage ont la même étiquette. Dans le cas contraire, nous sélectionnons un terme Tk, et nous partitionnons l’ensemble d’apprentissage en classes de documents qui ont la même valeur pour Tk, et à la fin on crée les sous-arbres pour chacune de ces classes. Ce processus est répété récursivement sur les sous-arbres jusqu’à ce que chaque feuille de l’arbre généré de cette façon contienne des exemples d’apprentissage attribués à la même catégorie Ci, qui est alors choisie comme l’étiquette de la feuille. L’étape la plus importante est le choix du terme de pour effectuer la partition. Toutefois, une telle méthode de construction d’arbre peut faire l’objet de surapprentissage, comme certaines branches peuvent être trop spécifiques pour les données d’apprentissage. La plupart des méthodes d’apprentissage des arbres incluent une méthode pour la construction d’arbre. [Dziczkowski, 2008]

Machine à support vectoriel

Les machines à support vectoriel (Support Vector Machines ou SVM) forment une classe d’algorithmes d’apprentissage qui peuvent s’appliquer à tout problème qui implique un phénomène F et qui à partir d’un jeu d’entrées X, produit une sortie Y= F(X). Le but est de retrouver F à partir de l’observation d’un certain nombre de couples entrée/sortie. Le problème revient à trouver une frontière de décision qui sépare l’espace en deux régions, à trouver l’hyperplan qui classifie correctement les données et qui se trouve le plus loin possible de tous les exemples. On dit qu’on veut maximiser la marge qui veut dire la distance du point le plus proche de l’hyperplan. Dans le cas de la catégorisation des textes, les entrées sont des documents et les sorties sont des catégories. En considérant un classificateur binaire, on voudra lui faire apprendre l’hyperplan qui sépare les documents appartenant à la catégorie et ceux qui n’en font pas partie. Les SVM conviennent bien pour la classification de textes parce qu’une dimension élevée ne les affecte pas puisqu’ils se protègent contre le sur-apprentissage. Autrement dit, il affirme que peu d’attributs sont totalement inutiles à la tâche de classification et que les SVM permettent d’éviter une sélection agressive qui aurait comme résultat une perte d’information. On peut se permettre de conserver plus d’attributs. Également, une caractéristique des documents textuels est que lorsqu’ils sont représentés par des vecteurs, une majorité des entrées sont nulles. Or, les SVM conviennent bien à des vecteurs dits clairsemés. Un autre aspect positif des SVM est qu’aucun ajustement de paramètres manuel n’est requis, car ils ont l’habileté de trouver automatiquement des paramètres adéquats. [Réhel, 2005]

Réseaux de neurones

Les réseaux de neurones (Artificial Neural Network) sont généralement optimisés par des méthodes d’apprentissage de type statistique grâce à leur capacité de classification et de généralisation, tels que la classification automatique de codes postaux ou la prise de décision concernant un achat boursier. Un réseau de neurone est en général composé d’une succession de couches dont chacune prend ses entrées sur les sorties de la précédente. Chaque couche i est composée de Ni neurones, prenant leurs entrées sur les Ni-1 neurones de la couche précédente. À chaque synapse est associé un poids synaptique, de sorte que les Ni-1 sont multipliés par ce poids, puis additionnés par les neurones de niveau i, ce qui est équivalent à multiplier le vecteur d’entrée par une matrice de transformation. Mettre l’une derrière l’autre, les différentes couches d’un réseau de neurones revient à mettre en cascade plusieurs matrices de transformation et pourrait se ramener à une seule matrice produit des autres, s’il n’y avait à chaque couche, la fonction de sortie qui introduit un non linéarité à chaque étape. Ceci montre l’importance du choix judicieux d’une bonne fonction de sortie : un réseau de neurones dont les sorties seraient linéaires n’aurait aucun intérêt. [Zeggane Mokhtar, 2009]

Catégorisation des Textes Multilingue Grâce aux progrès et au développement des technologies informatiques, au réseau internet qui relie le monde entier, certains pays finalisent les moyens d’utiliser leurs langues nationales. Ces facteurs aident à la disponibilité de l’information multilingue qui devient indispensable de faciliter la communication d’internet entre différents paramètres de lieu, pays et langues. Beaucoup de travail est actuellement concentré sur l’anglais puisque c’est la langue principale du web. Pourtant, un besoin se fait sentir pour les autres langues car le web est chaque jour plus multilingue puisque les utilisateurs actuels ne se contentent plus d’accéder aux informations et de les manipuler seulement dans leurs langues maternelles, mais ils tentent de plus en plus de franchir le pas vers les autres langues d’où l’apparition de la catégorisation des textes multilingue. Plusieurs raisons ont été à l’origine pour les traitements de données multilingues : la disponibilité de plus en plus large des documents mis en réseau et distribués au plan international, le nombre croissant de non-anglophones qui se connectent en ligne, la création de zones de coopération entre des pays (Union Européenne, Forum Asie- Pacifique, etc.), le développement de l’infrastructure de communication et de l’Internet. Ce chapitre présente les types de catégorisation des textes multilingue. Ensuite, les deux étapes supplémentaires par rapport au schéma classique de catégorisation des textes monolingue. Enfin, nous citons les difficultés de catégorisation des textes multilingue.

Problématique

La problématique dont ce mémoire traite, consiste dans la catégorisation des textes dans des langues différentes selon le même arbre de classification, en représentant les textes par des concepts. C’est l’un des domaines qui tente d’apporter des améliorations et de réduire la tâche de l’humain. L’objectif à viser c’est de chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories. Pour ce faire, il est nécessaire de disposer d’un ensemble de textes préalablement étiquetés dans une langue donnée à partir duquel nous évaluons les paramètres du modèle de prédiction pour associer automatiquement une étiquette à tout nouveau texte rédigé dans une langue quelconque. Notre travail s’intéresse à la représentation conceptuelle, dans laquelle l’unité de vecteur serait un concept (groupe des synonymes), en comparant avec une représentation en sac de mots dont l’unité de vecteur serait un mot. Cette représentation conceptuelle nous permet de voir comment l’intégration d’une ressource externe telle que WordNet admet une amélioration des performances de classification. Pour cela, nous avons implémenté deux approches qui se différencient dans l’étape de représentation. En effet la première consiste à représenter les documents étiquetés en utilisant WordNet puisqu’ils sont exprimés en L1, et les documents non étiquetés en L2 doivent être traduits afin de pouvoir être traités en utilisant WordNet. Et la deuxième, basée sur la représentation en sac de mots. Pour les deux approches, nous devons appliquer les méthodes issues de l’apprentissage automatique pour la catégorisation des textes. Nos premiers besoins d’évaluation s’expriment à l’aide d’une présentation générale de la catégorisation des textes selon les étapes suivantes :

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
Chapitre I : Catégorisation des Textes
I.Introduction
II.Définition
III. Processus de la catégorisation des textes
III.1. Représentation de texte
III.1.1. Représentation en sac de mots (bag of words)
III.1.2. Représentation avec les racines lexicales
III.1.3. Représentation avec les lemmes
III.1.4. Représentation avec les n-grammes
III.1.5. Représentation conceptuelle
III.2. Pondération des termes
III.2.1. Mesure TF (Term Frequency)
III.2.2. Mesure TFIDF (Term Frequency Inverse Document Frequency)
III.3. Réduction de la taille du vocabulaire
III.4. Choix de classificateur
III.5. Evaluation du modèle
Applications de la catégorisation des textes
Difficultés particulières de la catégorisation des textes
Conclusion
Chapitre II : Catégorisation des Textes Multilingue
I.Introduction
II.Définition
III. Les types de catégorisation des textes multilingue
III.1. Catégorisation des textes par croisement de langues
III.2. Catégorisation des textes par multiples langues
III.3. Catégorisation des textes avec la langue universelle
IV.Travaux connexes
V.Identification de la langue
VI.Traduction automatique
VII. Les difficultés particulières de la catégorisation des textes multilingue
VIII. Conclusion
Chapitre III : La Représentation Conceptuelle pour la Catégorisation des Textes Multilingue
I.Introduction
II.Problématique
III. Description des approches suivies
III.1. Représentation en sac de mots
III.2. Traduction automatique
III.3. Représentation conceptuelle
III.5. Classification K-PPV
IV.Expérimentation et évaluation
IV.1. Technologies et outils de développement
IV.1.1. Langage JAVA
IV.1.2. Environnement de développement
IV.1.3. WordNet
IV.1.4. JWNL API
IV.2. Corpus utilisé
IV.3. Evaluation
Discussion
Conclusion
Conclusion Générale
Références Bibliographies

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *