Accès sémantique aux bases de données documentaires

La transmission du savoir et de la connaissance a, au cours de l’histoire, connu diverses formes et emprunté de nombreux canaux. Avec le développement et l’enseignement de l’écriture, la tradition orale a progressivement cédé sa place à une diffusion de l’information prenant la forme d’un document écrit . L’essor de l’imprimerie, et l’alphabétisation croissante de la population, a été une étape importante dans l’adoption de ce format comme vecteur principal de l’information et de la connaissance. Celles-ci ont alors pu se développer sur un média pérenne et diffusable à grande échelle.

La circulation de l’information écrite a cependant connu un tournant radical suite au développement des technologies de l’information et de la communication (TIC), lors de ce qui peut être désigné comme une révolution, à la fin du siècle passé. La numérisation et la dématérialisation des documents, ainsi que la création du réseau Internet, sont à ranger parmi les impacts concrets les plus visibles de cette révolution. Ces facteurs réunis ont eu un effet multiplicateur sur des tendances déjà présentes, à savoir l’augmentation du volume et la rapidité de production et de circulation de l’information. Au même titre que la révolution industrielle au XIXe siècle, la révolution numérique provoque de nombreux et importants impacts sur l’économie, la société, l’environnement, etc. En effet, en une bonne vingtaine d’années, l’informatique encore balbutiante et confinée aux laboratoires scientifiques et militaires s’est transformée en une technologie aujourd’hui utilisée par une large partie de la population à des fins professionnelles ou privées . De nombreux aspects de notre société ont été modifiés et influencés par les TIC. Citons, à titre d’exemple, l’impact sur :

– la vie quotidienne : envoi de courriels à la place de lettres, lecture des sites d’informations plutôt que des journaux-papier, achats sur internet, e-learning, guichet électronique (administration), e-health, travail à domicile, domotique, etc. ;
– l’économie : apparition, disparition ou modification de certains métiers et activités économiques. Par exemple, le domaine du journalisme, et plus précisément la presse écrite, a amorcé une mutation profonde, le format électronique remplaçant progressivement le format papier . Dans ce cadre, les métiers relatifs à la production du support disparaissent progressivement, du moins dans ce secteur d’activité, alors que les métiers en rapport avec l’élaboration du contenu sont modifiés. De nouveaux modes de production apparaissent également, dans la foulée du crowdsourcing , en impliquant la participation du public dans la création du contenu (Greenslade [2010]);
– le domaine social : apparition et accentuation d’inégalités sociales dues à l’incapacité de certains à avoir accès aux technologies de l’information, phénomène qui est parfois nommé fracture numérique (La Documentation française [2007], Lacroix [2010]) ;
– la culture : les langues peu représentées sur internet ou peu supportées par les logiciels sont affaiblies et, à terme, menacées de disparition (Diki-Kidiri [2007]). En cela, elles sont accompagnées de la culture qu’elles véhiculent.

En particulier, le fonctionnement des entreprises a été progressivement mais profondément modifié, à tel point que l’informatisation et l’adoption des technologies de l’information ont très souvent eu des conséquences importantes au niveau social et organisationnel . La matière première et le produit de l’activité économique se sont également transformés. Nous sommes en effet passés d’une société industrielle à une société de la connaissance . La richesse et la prospérité ne sont aujourd’hui plus majoritairement créées à partir des matières premières, des usines et des procédés de fabrication qu’elles mettent en œuvre, mais bien à partir de l’information et de la connaissance .

La société, et l’économie, de l’information sont cependant parvenus à un paradoxe. L’évolution de l’écrit manuscrit ou imprimé vers le format électronique a d’une part rendu une grande quantité de documents accessibles à un nombre important de personnes, mais a d’autre part eu tendance à noyer ces informations dans une masse documentaire si vaste qu’elle a rendu leur identification difficile. Face à cette (sur)abondance de documents numériques disponibles sur l’Internet, dans les entreprises ou dans les administrations (Boughanem et al. [2006]), et étant donné le nouveau statut de matière première de l’information et de la connaissance, le problème de l’accès à celles-ci est devenu un enjeu stratégique.

Le problème de l’accès à l’information

Le problème de l’accès à l’information n’est pas neuf. Il a déjà été abordé dans le domaine des sciences documentaires, pour des collections de documents-papier dans un premier temps, pour des ensembles de ressources électroniques ensuite. Avec l’avènement du réseau Internet et du Web , c’est un nouveau type de collection documentaire qui est apparu. Son importance en ce qui concerne le nombre de documents et d’utilisateurs ainsi que l’accès largement public, au contraire de certaines archives présentes dans les entreprises et autres grandes organisations, ont alors entraîné une concentration importante des innovations dans ce secteur. Si le web reste un cas particulier de collection de documents, les technologies développées pour y accéder sont néanmoins souvent applicables d’une manière générale à tout ensemble documentaire numérique.

Actuellement, l’accès aux collections électroniques de documents est souvent réalisé à l’aide de mots clés. Ce système, s’il rencontre un certain succès, que ce soit sur le Web ou dans le cadre d’autres fonds documentaires, est loin d’être idéal. Le problème de l’ambiguïté lexicale et celui représenté par les multiples possibilités d’expression d’une information sont des obstacles importants au bon fonctionnement des systèmes de recherche. En fait, ces derniers maîtrisent difficilement tout ce qui fait la diversité et la richesse d’une langue naturelle. Une méthode de recherche performante se doit de prendre ces aspects en compte, voire même de les dépasser. Afin de maximiser la couverture et la précision d’une recherche par rapport à une collection de documents, il peut être profitable de passer d’un espace de mots à un espace de concepts. L’accès aux documents devrait donc idéalement se dérouler sur une base sémantique et non lexicale. Si cet objectif est assez ambitieux et encore en grande partie hors de portée des technologies actuelles, il n’en demeure pas moins intéressant de se demander comment, dans un premier temps, apporter des éléments de sens à la représentation et à l’indexation des documents. Ce qui rend cette tâche difficile, c’est le caractère souvent hétérogène des collections de documents qui entraîne de nombreuses difficultés lors de l’inventaire, de la manipulation, du jugement de la qualité et de la pertinence, et finalement de l’indexation même des documents.

Recherche d’informations et extraction d’informations

Grishman [1997] définit l’extraction d’informations (EI) comme étant :

« the identication of instances of a particular class of events or relationships in a natural language text, and the extraction of the relevant arguments of the event or relationship. Information extraction therefore involves the creation of a structured representation (such as a data base) of selected information drawn from the text. »

Cette définition se situe dans la droite ligne de l’approche adoptée au cours des conférences MUC , Message Understanding Conference (Grishman et Sundheim [1996]), qui à partir du début des années 1990, ont contribué à fonder ce courant de recherche. Il peut sembler un peu réducteur de ne mentionner comme objet de l’extraction que les seuls événements et relations, mais ceux-ci peuvent être considérés selon une interprétation large qui se référera à un ensemble beaucoup plus vaste de types d’informations. D’aucuns préféreront cependant une formulation un peu plus générale, comme celle donnée par Moens [2006] :

« Information extraction is the identification, and consequent or concurrent classification and structuring into semantic classes, of specific information found in unstructured data sources, such as natural language text, making the information more suitable for information processing tasks. » (p. 4)

L’extraction d’informations consiste donc à rechercher des éléments spécifiques, définis par la tâche d’extraction, dans des textes non structurés (en langage naturel) et à les caractériser selon les catégories définies au préalable. Ce processus peut être vu comme une étape de (pré)traitement destiné à produire un document plus propice au traitement automatique, ou au contraire, si les informations extraites constituent le résultat attendu, comme un aboutissement. En recherche d’informations (RI), l’approche est différente. Baeza-Yates et Ribeiro-Neto [1999] en exposent le principe général : « the primary goal of an IR system is to retrieve all the documents which are relevant to a user query while retrieving as few as non-relevant documents as possible. » (p. 2) Un aspect important réside dans l’ordre de présentation des résultats : « To be effective in its attempt to satisfy the user information need, the IR system must somehow ‘interpret’ the contents of the information items (documents) in a collection and rank them according to a degree of relevance to the user query.» (Baeza-Yates et Ribeiro-Neto [1999], p. 2) L’activité de recherche implique une tâche préalable : l’indexation des documents. Celle-ci peut être effectuée selon diverses méthodes et produire différents types d’index. La recherche d’informations se déroule donc la plupart du temps en deux phases. Tout d’abord, les documents sont analysés afin d’y relier des clés d’indexation ou de les classer dans des catégories. Ensuite, la recherche consiste à comparer les requêtes formulées par les utilisateurs à cet index afin de retrouver les documents pertinents.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
I Indexation thématique semi-automatique
1 Introduction
1.1 Le problème de l’accès à l’information
1.2 Recherche d’informations et extraction d’informations
1.3 Les systèmes de recherche d’informations
1.3.1 Les premiers systèmes
1.3.2 Indexation dans un espace fermé de clés
1.3.3 Indexation dans un espace ouvert de clés
1.3.4 Les moteurs sémantiques
1.4 Les systèmes de catégories en tant que couche sémantique pour la recherche d’informations
1.4.1 Les systèmes terminologiques
1.4.2 Cas concrets d’utilisation de ressources terminologiques pour l’indexation et
la recherche de documents
1.4.3 Avantages, inconvénients et perspectives
2 Indexation semi-automatique, une approche symbolique de classification de textes
2.1 Introduction
2.1.1 Principes et hypothèses
2.2 État de l’art
2.2.1 Apprentissage artificiel
2.2.2 Utilisation de terminologies pour la classification
2.3 Adaptation d’une ressource terminologique en ressource d’extraction
2.3.1 Principe général
2.3.2 Élargissement de la description lexicale des concepts
2.3.3 Normalisation linguistique : racinisation et lemmatisation
2.3.4 Stopwords et ponctuation
2.3.5 Insertions
2.3.6 Casse et accentuation
2.3.7 Traitement d’exceptions
2.3.8 Génération automatique des transducteurs
2.4 Extraction et classification
2.4.1 Prétraitement des textes
2.4.2 Application des transducteurs au texte
2.4.3 Pondération
2.4.4 Réduction de la liste de catégories
2.5 Résultats et évaluation
2.5.1 Mesures
2.5.2 Première expérience : le corpus Parlementaire
2.5.3 Deuxième expérience : le corpus Médical
2.5.4 Conclusion
2.6 Amélioration des résultats par combinaison avec d’autres méthodes
2.6.1 Principes de combinaison en mode concurrent
2.6.2 Expérience 1 : SVM, sur corpus Parlementaire
2.6.3 Expérience 2 : analyse morphologique, sur corpus Médical
2.6.4 Conclusion
2.7 Perspectives
II Extraction d’informations temporelles et indexation thématique à dimension temporelle
3 La notion de temps
3.1 Introduction
3.2 La notion de temps
3.3 Le temps dans le langage naturel
3.4 Le texte au travers du triangle de référence
4 Expression du temps dans le langage naturel
4.1 Introduction
4.2 Les adverbiaux temporels
4.2.1 Nature des adverbiaux temporels
4.2.2 Rôle de l’adverbe
4.2.3 Interprétation de l’adverbe
4.3 Les connecteurs temporels
4.4 La notion de procès
4.5 Le(s) temps
4.6 L’aspect
4.7 Modèles des temps verbaux
4.7.1 Arnauld et Lancelot, la grammaire de Port-Royal
4.7.2 L’abbé Girard
4.7.3 Le modèle de Beauzée
4.7.4 Le modèle de Reichenbach
4.7.5 Le modèle de Vet
4.7.6 Le modèle des intervalles de Gosselin
4.7.7 Un regard final sur les modèles de temps verbaux
4.8 La structure du discours
4.9 Les cadres de discours
4.10 Conclusion
5 Modélisation du temps
5.1 Introduction
5.2 Modélisation de l’espace du temps
5.2.1 Calendriers et autres modélisations
5.2.2 La granularité
5.3 Modélisation des références à l’espace du temps .
5.3.1 Référence à une zone temporelle
5.3.2 Manipulation des références temporelles
5.3.3 Systèmes temporels et ontologies
5.3.4 Imprécision des références temporelles
6 Extraction d’informations temporelles
Conclusion générale