Le traitement du corpus documentaire par les approches statistiques

Le traitement du corpus documentaire par les approches statistiques

De la Recherche d’Information à l’Analyse des Sentiments

Dans les dix dernières années les tâches de gestion basées sur le contenu de documents (collectivement connu sous le nom de « Recherche d’Information » – ang : Information Retrieval – IR) ont acquis un statut important dans le domaine des systèmes d’information, en raison de l’augmentation de la disponibilité des documents sous forme numérique et de la nécessité d’y accéder en souplesse.

La Catégorisation de Texte (ang : Text Categorization – TC), l’activité de l’étiquetage des textes en langage naturel avec des catégories de thématiques prédéfinies, est une de ces tâches. Celle-ci remonte au début des années 60, mais elle n’est devenue l’un des principaux sous-domaines de la discipline des systèmes d’information qu’au début des années 90, grâce à un intérêt accru et à la disponibilité de matériels plus puissants. La catégorisation de texte est actuellement appliquée dans de nombreux et différents contextes : l’indexation de documents basée sur un lexique, le filtrage de documents, la génération automatique de métadonnées, la suppression de l’ambigüité du sens des mots, le peuplement des catalogues hiérarchique de ressources Web, et en général toutes les applications nécessitant l’organisation de documents ou le traitement sélectif et l’adaptation de documents [Sebastiani (2002)].

Actuellement la « TC » est un domaine entre l’Apprentissage Automatique (ang : Machine Learning – ML) et la Recherche d’Information (IR). Elle partage un certain nombre de caractéristiques avec d’autres tâches telles que l’extraction de connaissances à partir de textes et la Fouille de Textes (ang : Texte Mining) [Knight (1999), Pazienza (1997)]. La « ML » décrit un processus inductif général qui construit automatiquement un classificateur de texte par l’apprentissage, à partir d’une série des documents préclassifiés ou de caractéristiques de catégories d’intérêts. La Fouille de Textes est un ensemble de traitements informatiques consistant à extraire des connaissances selon des critères de nouveauté ou de similarité dans des textes produits par des humains pour des humains [Joachims & Sebastiani (2002), Lewis & Haues (1994)].

Un domaine utilisant les techniques de IR, TC, ML ou Fouille de Texte est notamment le domaine de l’Analyse des Sentiments, connu sur le nom de (ang : Opinion Mining). La recherche dans ce domaine couvre plusieurs sujets, notamment l’apprentissage de l’orientation sémantique des mots ou des expressions, l’analyse sentimentale de documents et l’analyse des opinions et attitudes à l’égard de certains sujets ou produits.

La Catégorisation de Texte a été utilisée dans un certain nombre d’applications différentes. Les premières applications concernées étaient l’indexation automatique pour les systèmes de Recherche d’Information (IR) booléens. Les premières recherches dans le domaine ont été effectuées par Borko et Bernick [Borko & Bernick (1963)], Gray et Harley [Gray & Harley (1971)], Heaps [Heaps (1973), Maron [Maron (1961)]. A chaque document est attribué un ou plusieurs mots ou expressions clés décrivant son contenu, ces mots et expressions clés appartiennent à un ensemble fini appelé dictionnaire contrôlé, souvent composé d’un thesaurus thématique hiérarchique (par exemple, le thesaurus de NASA pour la discipline aéronautique, ou le thésaurus de MESH pour la médecine) [Sebastiani (2002)]. Habituellement, cette attribution est effectuée par des indexeurs manuels, et c’est donc une activité coûteuse. Divers classificateurs de texte explicitement conçus pour l’indexation de documents ont été décrit dans la littérature, par exemple : Fuhr et Knorz [Fuhr & Knorz (1984)], Robertson et Harding [Robertson & Harding (1984)], et Tzeras et Hartmann [Tzeras & Hartmann (1993)].

L’indexation automatique utilisant les dictionnaires est étroitement liée à la génération automatique de métadonnées. Dans les bibliothèques numériques, nous sommes souvent plus intéressés par le marquage des documents par des métadonnées qui les décrivent sous différents aspects (par exemple, date de création, type de document ou le format, disponibilité, etc.). Le rôle de certaines de ces métadonnées est de décrire la sémantique du document de la signification des codes bibliographiques, des mots-clés ou des phrases-clés.

L’indexation avec un vocabulaire contrôlé est un exemple de la problématique générale d’organisation du document. Le plus souvent, de nombreux autres problèmes relatifs à l’organisation et au classement du document, que ce soit pour des organisations personnelles ou la structuration d’un document de base d’entreprise, peuvent être réglées par les techniques de TC. Dans les bureaux d’un journal, par exemple, les annonces doivent être classées dans les catégories telles que les rencontres, voitures à vendre, immobilier, etc. avant les publications. Les journaux avec un grand nombre d’annonces bénéficieraient d’un système automatique qui pourrait choisir pour une annonce la catégorie donnée la plus appropriée. D’autres applications possibles sont les applications d’organisation des brevets en catégories pour rendre leur recherche plus facile [Larkey (1999)], le classement automatique des articles de journaux sous les sections appropriées (par exemple, la politique, événements, styles de vie, etc.), ou le regroupement automatique en sessions des papiers de conférence [Sebastiani (2002)].

Une autre application des techniques de TC est le Filtrage de Textes (ang : Text Filtering – TF). Le Filtrage de Textes est l’activité de classification d’un flux de documents expédiés de manière asynchrone par un producteur d’information à destination d’un consommateur d’information [Belkin & Croft (1992)]. Un cas typique est une situation dans laquelle le producteur est une agence de presse et le consommateur est un journal [Hayes et al. (1990)]. Dans ce cas, le système de filtrage doit empêcher la livraison de documents qui n’intéressent pas le consommateur. Le filtrage peut être considéré comme un cas de TC de l’étiquetage, c’est la classification des documents en deux catégories disjointes, la catégorie « pertinents » et la catégorie « non pertinents ». En outre, un système de filtrage peut également classer les documents jugés pertinents pour le consommateur en catégories thématiques, en classant par exemple à part les articles de sport pour un journal de sport. Tous les articles de sports devraient être classés en fonction du sport qu’ils traitent, de manière à permettre aux journalistes spécialisés dans des sports individuels d’accéder uniquement aux documents les concernant. De même, un système de filtrage des mails peut filtrer les spam ainsi que classer les messages dans des catégories thématiques pour l’utilisateur [Androutsopoulos et al. (2000), Drucker et al.(1999)]. Un système de filtrage peut être installé chez le producteur d’information, dans ce cas il doit envoyer les documents seulement à des consommateurs intéressés, ou chez tous les consommateurs. Dans ce cas il doit bloquer la livraison de documents jugés sans intérêt pour le consommateur. Dans le premier cas, le système construit et met à jour un « profil » pour chaque consommateur [Liddy et al. (1994)], alors que dans le dernier cas un seul profil est nécessaire. Le filtrage d’information en utilisant les techniques de ML est largement débattu dans la littérature : Amati et Crestani [Amati & Crestani (1999)], Iyer et al. [Iyer et al. (2000)], Kim et al. [Kim et al. (2000)], Tauritz et al. [Tauritz et al. (2000)], et Yu et Lam [Yu & Lam (1998)].

Les techniques de TC permettent également de lever l’ambigüité sur le sens des mots (ang : Word Sense Disambiguation – WSD). La WSD est l’activité de recherche dans un texte des sens des mots ambigus. Un seul mot peut avoir plusieurs significations. La tâche du système WSD est donc de décider de quel des sens il s’agit. La WSD est très importante pour de nombreuses applications, y compris le traitement du langage naturel et l’indexation des documents par le sens des mots. La WSD peut être considérée comme une tâche de TC [Gale et al. (1993), Escudero et al. (2000)] si nous considérons le contexte d’occurrence des mots comme un document et le sens du mot comme une catégorie. La WSD est juste un exemple du problème plus général consistant à lever les ambiguïtés du langage naturel, un des problèmes les plus importants en linguistique computationnelle.

Parmi d’autres applications qui sont basées sur les techniques de TC nous pouvons citer la catégorisation des discours par combinaison de la reconnaissance de la parole [Myers et al. (2000), Schapire & Singer (2000)], la catégorisation de documents multimédias à travers l’analyse de légendes [Sable & Hatzivassiloglou (2000)], l’identification d’auteur de textes littéraires d’auteur inconnu [Forsyth (1999)], l’identification de la langue pour les textes de langue inconnue [Cavnar & Trenkle (1994)], l’identification automatique du genre du texte [Kessler et al. (1997)], le classement automatisé des essais [Larkey (1998)] et la catégorisation hiérarchique des pages Web [Attardi et al. (1998), Furnkranz (1999), Oh et al. (2000), Yang et al. (2002)].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Présentation du sujet
1.2 Organisation du rapport
2 Le traitement du corpus documentaire par les approches statistiques
2.1 De la Recherche d’Information à l’Analyse des Sentiments
2.2 La Catégorisation de Texte
2.3 L’Apprentissage Automatique
2.4 Représentation des corpus documentaires
2.4.1 L’unité linguistique
2.4.2 Prétraitement du texte
2.4.3 L’indexation des documents et la réduction de dimension
2.5 Les techniques de classification
2.5.1 Classificateur de Bayes
2.5.2 Calcul d’un classificateur par la méthode des SVM
2.5.3 Calcul d’un classificateur par la méthode des arbres de décision
2.5.4 Réseau de neurones
2.5.5 Mesure de performance
2.6 Conclusion
3 Analyse des sentiments
3.1 Opinion Mining, Analyse des Sentiments
3.2 Les besoins de connaitre des sentiments des autres
3.3 La complexité de notation d’opinion
3.4 Détection de phrases subjectives
3.5 La polarité et l’intensité de l’opinion
3.6 Différents approches pour l’analyse des sentiments
3.6.1 Le rôle de n-grammes dans la classification
3.6.2 L’importance des adjectifs
3.6.3 Traitement de la négation
3.6.4 Utilisation des méthodes d’apprentissage automatique
3.6.5 Approche de Dave
3.6.6 Utilisation de bootsraping
3.7 Conclusion
4 Analyse linguistique
4.1 Les systèmes de compréhension de textes
4.1.1 Solutions proposées
4.1.2 Le système UNITEX
4.1.3 Les dictionnaires
4.1.4 Le réseaux des transitions récursives
4.1.5 Les tables de lexique-grammaire
4.2 Extraction automatique d’information
4.3 Conclusion
5 Conclusion