Gestion de l’incertitude dans le processus d’extraction de connaissances à partir de textes

L’information représente depuis toujours une source de connaissances et de savoir. A travers les années, différents moyens de communication et de diffusion d’information ont vu le jour. Aujourd’hui, l’outil qui s’est le plus imposé pour diffuser de l’information est le Web. Ce dernier, tel que nous le connaissons aujourd’hui entame ce qui est généralement considéré être sa troisième génération. En effet, lors de sa création, il s’agissait d’un ensemble de pages statiques créées pour publier des informations à grande échelle. La deuxième génération, nommée Web 2.0, désigne le Web participatif tels que les réseaux sociaux ou encore l’encyclopédie en ligne Wikipedia. Chaque utilisateur peut apporter sa contribution en ajoutant ou en publiant des informations à tout moment. La troisième génération quant à elle vise à rendre le Web plus significatif que les données qui y sont stockées puissent exprimer de la sémantique. C’est ainsi que l’on a attribué à cette génération le nom de Web Sémantique. La sémantique se réfère au sens des données. Une donnée prise individuellement n’est pleinement exploitable que si son sens et son contexte sont respectivement formellement spécifiés et liés.

De nos jours, « tout est à portée de main ». Les documents physiques, e.g., journaux, magazines, laissent peu à peu place aux documents numériques. Les documents sur le Web affichent une croissance impressionnante d’année en année. Toute personne désirant recueillir des informations sur un sujet quelconque se dirige vers le Web. Cependant, nous ne sommes pas en mesure d’analyser toutes les informations relatives au sujet en question. Dans [Car11], l’auteur souligne qu’à la vue de la quantité d’informations disponibles, le lecteur devient progressivement incapable de fournir le niveau de concentration nécessaire à la compréhension d’un document textuel. Ainsi, des informations essentielles peuvent lui échapper. En effet, les lecteurs sont capables de comprendre un article ou une phrase mais pas d’assimiler un grand nombre de pages, alors que les machines peuvent traiter un grand nombre de pages mais de manière moins précise. À lui seul, ce constat justifie le développement des outils capables de traiter toutes ces informations en un temps raisonnable. Ces outils doivent permettre d’extraire des informations pertinentes à partir d’un texte ou d’un corpus. Ceci aiderait par la suite d’autres systèmes tels que, la génération de résumés, la réponse à des requêtes utilisateurs de manière plus ciblée, le raisonnement sur les connaissances extraites afin de générer et déduire de nouvelles informations.

Les travaux présentés dans cette thèse, menés au sein du Laboratoire d’Informatique Gaspard Monge (LIGM) et de la société GEOLSemantics, s’inscrivent dans le cadre d’une extraction de connaissances à partir du texte. GEOLSemantics est une jeune entreprise créée en 2010, basée en région parisienne. Son objectif principal est de développer des outils d’extraction de connaissances basés sur le traitement automatique du langage naturel. Ces outils permettent de traiter une grande masse de données textuelles afin d’en extraire des connaissances structurées, datées, localisées et impliquant des agents physiques dans des faits et des événements. Elle s’appuie sur une expérience cumulée de plusieurs années dans le traitement linguistique. Les traitements sont multilingues et les langues traitées sont : le français, l’anglais, l’arabe et le chinois. La gestion de plusieurs langues s’avère de plus en plus nécessaire de nos jours, en particulier avec internet, afin de recouvrir un maximum d’informations. La modélisation des connaissances telle que l’introduit le Web Sémantique permet de s’affranchir de la langue de l’information initiale en adoptant un modèle formel pour représenter les connaissances extraites. Les domaines des textes traités par GEOLSemantics ne sont pas fixes. L’entreprise peut adapter son extraction en fonction du domaine choisi par le client. À son lancement, l’entreprise a choisi le domaine de la sécurité et de la veille stratégique. En travaillant sur le projet ANR SAIMSI , la société a acquis une expertise dans le domaine de la sécurité nationale, en traitant des flux d’informations collectés sur le Web.

Le Web Sémantique

Le Web est devenu depuis quelques années une source inépuisable d’information. Cela va du simple document textuel aux contenus multimédia. Le volume de ces données augmente exponentiellement d’année en année. Cependant, en raison de cette grande masse de données, nous devenons très vite dépassés par la quantité de documents disponibles sur le Web. Même si de nombreux outils, tels que les moteurs de recherche ou encore les agrégateurs de contenu, nous permettent d’accéder à l’information, ceci reste insuffisant, surtout dans l’ère du déluge de données. Il est alors nécessaire de développer des techniques permettant de faire interagir ces données. Ces interactions doivent nous permettre d’enrichir le Web actuel de fonctionnalités innovantes et à fort potentiel. C’est à cette tâche que s’est attelé le W3C en créant le web sémantique [BLHL+01]. Il s’agit de proposer des technologies supportant le passage d’un Web à contenu statique à un Web avec des données interprétables aussi bien par des humains que par des machines. Le but de cette extension du Web est d’apporter une structure pour permettre aux machines de communiquer, d’échanger et d’interpréter des données. Il est nécessaire de noter que cette version du Web n’est qu’une évolution du Web actuel, les standards tels que HTML, CSS, HTTP seront toujours utilisés, mais devrait néanmoins aboutir à une révolution de celui-ci. Pour atteindre ce but, un ensemble de langages est proposé afin d’automatiser le processus de représentation et de manipulation des données sur le Web. Dans cette section, nous allons nous intéresser à ces différents langages. Nous commencerons par le modèle de données RDF et les langages d’ontologie qu’il est possible de lui associer. Nous passerons ensuite au langage d’interrogation SPARQL, puis présenterons l’initiative du Linked Open Data et ses dernières évolutions. Nous nous intéresserons également aux moteurs d’inférence et leur apport dans la gestion des données sémantiques. Nous présenterons quelques outils de gestion proposés par le Web sémantique, à savoir Protégé pour l’aide à la gestion et création des ontologies, ainsi que Virtuoso pour la gestion des données RDF.

Cependant malgré tous les efforts qui peuvent être fournis pour rendre le Web Sémantique plus omniprésent, il est pour le moment impossible d’obliger tous les utilisateurs du Web (essentiellement ceux qui publient) à utiliser des standards qui leur paraissent bien plus compliqués qu’une simple page HTML. En effet, pour exploiter pleinement le potentiel qu’offrent les technologies du Web sémantique, il faut passer par des systèmes d’extraction de connaissances ou bien avoir identifier des bases de connaissances existantes. De même, une grande partie des données disponibles sur le Web sont représentées par des document textuels qu’il convient de traiter de manière indépendante afin d’extraire le potentiel le plus large. Dans ce qui suit, nous présentons les principaux standards définis par la communauté du Web Sémantique qui sont utilisés dans notre outil d’extraction et de gestion de la connaissance.

Architecture du Web sémantique

L’initiative principale du Web sémantique est la proposition d’un ensemble de technologies pour la publication de données sémantiques sur le Web. Pour présenter ces principes, nous commençons par introduire une architecture globale communément acceptée [HJS11 ; Hor+05].

Dans cette architecture, nous identifions 2 principales parties : (1) les protocoles et langages standards, (2) les composants logiciels.

1. Les protocoles et langages :
— URI/IRI : désigne les protocoles d’identification des ressources sur le web, chaque ressource devra être identifiée de manière unique. Elle permettra de donner accès à l’ensemble de la description d’une entité donnée.
— RDF/XML : désigne les langages de description de données. Il s’agit de langages balisés, dont chaque ’tag’ désigne l’interprétation à donner à l’information contenu. Les espaces de noms (namespaces) sont des conteneurs ou répertoires pour un vocabulaire particulier. Les préfixes de ces espaces de noms permettent de définir des raccourcis.
— SPARQL/RDFS/OWL/RIF : représente les langages de modélisation et d’interrogations des données sémantiques.

2. Les composants logiciels :
Cette partie permet d’implémenter des applications qui reposent sur les protocoles définis précédemment. Ces applications reposent sur des logiques et des règles de raisonnement qui permettent d’inférer de nouvelles connaissances. La provenance quant à elle est assurée par le billet de signatures numériques qui permettent de retrouver l’origine des données, connaissances, ontologies. Ceci afin de permettre d’avoir un Web plus fiable.

La représentation RDF

Le RDF [KCM04] pour Resource Description Framework est un langage de description de données recommandé par le W3C, la première spécification date de 1999 , suivie par une autre en 2004 . Plus récemment, une version dénotée RDF1.1. a été publiée en 2014 . Le but est de proposer un modèle de données plus simple que d’autres représentations déjà proposées telles que XML, afin de faciliter l’interaction et la diffusion des données sur le Web. Le RDF se présente sous forme de triplets Sujet-Prédicat-Objet (S-P-O) où le Sujet désigne une ressource ; le Prédicat, la relation et enfin l’Objet peut être soit une ressource ou bien un attribut qualifiant le sujet, il se présente alors sous forme de littéral. Une ressource est identifiée par une URI (Unique Resource Identifier) [BLFM98] (ou bien IRI pour Internationalized Resource Identifier). Tel que son nom l’indique, l’URI est un identifiant unique, il permet d’uniformiser tous les accès à une même information (ressource). Une URI syntaxiquement correcte ne doit pas contenir de caractères spéciaux (« <« , « > », ’ »’ (double quotes), espace, « { « , « } « , « | », » \\ », « ∧ », et » ‘ « ). Cependant, en l’absence de ressource attitrée, des nœuds vides (blank nodes) sont attribués. Ceci est particulièrement utile dans le cadre d’une extraction de connaissances à partir de texte car les entités ne sont pas toujours facilement identifiables en début d’analyse du texte. Il existe plusieurs syntaxes pour représenter des données RDF :
— RDF/XML : est la première représentation à avoir vu le jour, elle respecte des règles de balisage du XML, ce qui rend pratique le parcours de graphe. Pour ces mêmes raisons, ce formalisme est aussi considéré comme verbeux.
— N-Triples : il s’agit de présenter un triplet par ligne, chaque triplet doit se terminer par un « . », les URI doivent être entre « <> ». Ce formalisme est facilement lisible par l’être humain mais ne supporte aucune compression du volume de données.
— Turtle/Notation3 : est une sous représentation de triplets N3. Elle permet une représentation plus concise en utilisant par exemple le ”, ” pour indiquer la présence de plusieurs couples sujet-prédicat pour un même objet, alors que ”; ” indique la présence de plusieurs prédicats pour un même sujet.

— TriG : est une extension de Turtle, cette notation est particulièrement utilisée pour la représentation d’un ensemble de triplets RDF (RDF Dataset). Elle permet de définir des graphes qui englobent les datasets.
— N-Quads : permet d’introduire la notion de graphe en ajoutant un quatrième élément à un triplet. Celui-ci correspond à une URI identifiant un graphe. Elle permet également d’ajouter un contexte pour le triplet en question.
— RDF/JSON : avec l’adoption massive du javascript et la croissance des librairies supportant la notation JSON (JavaScript Object Notation), publier des données RDF en JSON parait nécessaire. Les triplets (SPO) suivent alors une structure du type : { ”S” : { ”P” : [ O ] } } .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Contexte de l’étude
1.1 Le Web Sémantique
1.1.1 Architecture du Web sémantique
1.1.2 La représentation RDF
1.1.3 Les ontologies
1.1.4 Le langage SPARQL
1.1.5 Le Linked Open Data
1.1.6 Les outils de gestion du Web Sémantique
1.2 Extraction de connaissances à partir de textes
1.2.1 Donnée, information, connaissance
1.2.2 Les tâches de l’extraction de connaissances
1.2.3 Représentation des connaissances
1.2.4 Applications
1.3 Gestion de l’incertitude
1.3.1 Définition de l’incertitude
1.3.2 Incertitude et extraction de connaissances
1.3.3 Incertitude dans le Web Sémantique
1.4 Conclusion du premier chapitre
2 Système d’extraction de connaissances
2.1 Les problématiques de GEOLSemantics
2.2 Analyse morphosyntaxique
2.2.1 Découpage du texte et segmentation
2.2.2 Lemmatisation et Catégorisation
2.2.3 Reconnaissance des entités nommées
2.2.4 Identification des relations syntaxiques
2.2.5 Gestion de la négation, des modalités et des pronoms
2.3 Extraction de connaissances
2.3.1 Présentation de l’ontologie geol.owl
2.3.2 Création de triplets RDF
2.4 Mise en cohérence
2.4.1 Regroupement des entités nommées
2.4.2 Regroupement des autres individus
2.4.3 Alignement d’individus
2.4.4 Résolution de dates relatives
2.4.5 Ajout des labels
2.5 Enrichissement à partir du LOD
2.5.1 Choix du jeu de données
2.5.2 Alignement d’ontologies
2.5.3 Récupération des instances
2.6 Démonstrateur : Représentation graphique des résultats
2.6.1 Visualisation multilingues
2.6.2 Sélection de sous graphes
2.7 Évaluation par rapport aux autres systèmes
2.7.1 Présentations des autres systèmes
2.8 Conclusion du second chapitre
3 Gestion de l’incertitude
3.1 Qualification de l’incertitude
3.1.1 Incertitude liée au texte
3.1.2 Incertitude liée à l’extraction
3.1.3 Incertitude liée à l’enrichissement
3.2 Représentation de l’incertitude
3.2.1 Au niveau de l’ontologie
3.2.2 Au niveau du RDF
3.3 Quantification de la connaissance
3.4 Conclusion du troisième chapitre
4 Interrogation et visualisation des résultats
4.1 Interrogation des connaissances incertaines
4.1.1 Réécriture de requêtes
4.1.2 Prise en compte de la confiance accordée à la source
4.2 Présentation de l’interface utilisateur et visualisation des graphes
4.2.1 Interface utilisateur
4.2.2 Visualisation graphique des résultats de l’analyse
4.3 Conclusion du quatrième chapitre
Conclusion