Interrogation d’un réseau sémantique de documents : application aux sources de droit

Recherche d’information sémantique et sur le web

Visant à résoudre les limitations des modèles par mots-clés, la recherche sémantique (recherche par le sens plutôt que par les chaînes de caractères) a fait l’objet d’une grande vague de recherche dans les communautés de la RI et du web sémantique.
Dans le domaine de la RI, plusieurs approches sémantiques ont été définies. Certaines sont basées sur des méthodes statistiques qui étudient la co-occurrence des termes dans le texte, d’autres appliquent des algorithmes basés sur des techniques de traitement du langage naturel tout en s’appuyant sur des thésaurus et des taxonomies (par ex. Wordnet).
Le web sémantique a été lancé pour automatiser des tâches qui nécessitent un certain niveau de compréhension conceptuelle des objets impliqués et permettre à des logiciels de combiner les informations et les ressources d’une manière cohérente [Fernández et al., 2011]. L’utilisation des ontologies [Gruber, 1993], élément clé dans les nouvelles technologies du web pour la représentation des connaissances, a permis de surmonter les limites de la recherche par mots-clés dans le domaine de la RI (par ex. en utilisant les annotations sémantiques des documents [Kiryakov et al., 2004a]).
La RI sur le web sémantique est différente de la RI sémantique par le fait qu’elle traite principalement des objets, par la complexité des interfaces d’interrogation initialement destinées à manipuler des bases de connaissances et par l’absence des algorithmes de classement de résultats à une grande échelle qu’est le web.

Enjeux de la recherche d’information juridique

Les documents juridiques sont des documents structurés fortement interconnectés. L’accès à l’information dans ce domaine est aussi problématique pour les citoyens qui essayent de comprendre la norme qui s’applique à leur cas particulier que pour les juristes professionnels qui doivent déterminer comment la loi s’applique sur des cas particuliers. Le domaine juridique pose de ce fait des questions spécifiques en terme de recherche d’information.
Structure d’un document La structure du document est importante à prendre en compte. Un texte juridique, notamment le texte d’une loi, est composé d’articles qui ont un cycle de vie autonome. Ils peuvent être modifiés ou même abrogés indépendamment de la loi considérée dans son ensemble. Il est essentiel pour un juriste de pouvoir consolider un texte de loi, c’est-à-dire retrouver toutes les modifications qui s’appliquent à ce texte, et retrouver la version en vigueur à une date donnée, parce qu’il faut pouvoir déterminer le droit qui s’applique à un moment particulier du passé. Il faut également pouvoir ajuster la granularité documentaire (texte complet ou article de ce texte) aux besoins de l’utilisateur et prendre en compte la complexité du cycle de vie du document juridique qui peut être signé, publié, entré en vigueur, promulgué, modifié et abrogé à des dates différentes. Les systèmes actuels d’accès à l’information juridique, comme Normattiva 3 ou UK Legislation 4, prennent partiellement en compte ce type de propriétés quand ils proposent un accès temporel aux sources juridiques (point in time access). Document indépendant vs. collection documentaire Le plus souvent cependant, dans ces systèmes, les notions de modification ou d’abrogation – qui sont en réalité des relations intertextuelles – sont modélisées comme des attributs de documents. On peut savoir quel est le statut d’un document juridique mais on n’a pas directement accès au texte qui lui confère ce statut. La dimension intertextuelle des collections de documents juridiques est mal prise en compte. Elle est pourtant centrale dans la compréhension du raisonnement juridique : un texte ne s’interprète pas isolément, indépendamment de la jurisprudence et des interprétations auxquelles il a donné lieu, des textes qui sont venus le modifier ou des décrets qui en précisent l’application. La dimension intertextuelle des collections juridiques est reconnue comme un facteur de complexité majeur [Bourcier, 2011] pour la compréhension du droit. Ouvrir cette complexité est aujourd’hui un défi majeur pour l’accès à l’information juridique. Contenu d’un document Au-delà de ces besoins particuliers au domaine juridique, il faut également fournir des outils sémantiques d’accès au contenu pour permettre aux utilisateurs de retrouver des documents à partir de leurs métadonnées d’identification (date de publication, titre, type de document, numéro d’un article, etc.) mais aussi de certaines notions clés.
Le domaine juridique et la RI logique Il est essentiel de comprendre que le tri des résultats retournés par un moteur de recherche n’est pas central dans le domaine juridique, où la recherche d’information se doit d’abord d’être exhaustive. La sécurité juridique impose en effet de prendre connaissance de tous les documents qui se rapportent à un cas particulier. Il est préférable de laisser le contrôle au juriste qui peut progressivement affiner sa requête en fonction de ses besoins plutôt que de lui présenter un sous-ensemble de documents sélectionnés en fonction d’un critère de pertinence défini a priori. En cela, la recherche d’information juridique se distingue clairement des moteurs de recherche généralistes sur le web.

Efforts de structuration de l’information juridique

Les textes juridiques possèdent des structures complexes et variables selon le type des documents. Des efforts sont faits pour structurer les documents juridiques et faciliter l’échange et l’exploitation de ces données. Des outils d’aide à l’édition réglementaire sont proposés. En parallèle, plusieurs standards XML juridiques sont définis pour normaliser la structure des textes de loi et assister la production de ces textes. Des efforts sont également faits pour rendre ces données compatibles avec les standards et normes définis dans le web sémantique (XML, RDF, SPARQL) et définir des modèles sémantiques (ontologies) pour différents domaines. Ces efforts ont pour but d’assurer l’interopérabilité des données, faciliter leur gestion et leur accès par les utilisateurs.

Création ou édition de la réglementation

[Engeljehringer and Schefbeck, 2006] indique que le terme écriture de la loi (legislative drafting ou writing law) fait référence au cadre formel de l’exécution de cette tâche. Il décrit le processus de rédaction comme un processus itératif composé de trois étapes :
comprendre, analyser les règles et les instructions (qui ne sont pas toujours écrites) ; modéliser, composer, structurer, éditer les documents législatifs ; ajouter des détails en toute liberté (par ex. pour la formulation des définitions).
Selon le type du document, la création du texte doit respecter un certain nombre de contraintes sur la structure.

Ontologies du droit

Avec la numérisation des documents juridiques et la définition des standards XML, des ressources ontologiques et terminologiques sont parallèlement créées pour représenter et spécifier le contenu sémantique de ces documents [Shaheed, 2005, Gangemi et al., 2005, Després and Szulman, 2007, Hoekstra et al., 2009, Mommers, 2010]. Ces ressources existent sous plusieurs formes : des catalogues et index numériques non structurés (vocabulaires contrôlés destinés à l’indexation de contenus), des thésaurus (ensemble de descripteurs structurés à travers des relations d’équivalence, de généralité ou de spécificité, par ex. Eurovoc), des ontologies lexicales (ressources terminologiques structurées sur la base de relations linguistiques : hyperonymie, hyponymie, synonymie) et des ontologies (ressources sémantiques contenant des classes, des attributs, des relations et des instances) [Bourcier and Fernández-Barrera, 2012]. Selon le degré d’abstraction du domaine couvert, les ontologies peuvent être classées en trois catégories : ontologies de haut-niveau ou top ontologies (par ex. DOLCE), ontologies noyaux ou core ontologies (par ex. LKIF core, CLO), ontologies de domaine.

Traitement de l’intertextualité

Dans le domaine juridique, la cohérence des composants de la loi est exigée. La vérification de la cohérence ne peut se faire qu’à travers l’étude des liens intertextuels entre les sources de droit (vérification des interactions inter-réglementaires). L’avancée des techniques de traitement et d’accès à l’information juridique a rendu plusieurs tâches, difficiles et fastidieuses il y a quelques années, plus faciles pour les utilisateurs (juristes, secrétaires de mairies, citoyens). Les techniques et outils proposés ont traité la structure d’un document dans tous ses détails (structure logique du texte, les concepts, les dates, etc.) ce qui permet une interrogation plus précise sur le contenu d’un document. L’étude de la structure de la collection documentaire (les documents considérés dans leur ensemble aussi bien qu’individuellement) dans un but de recherche d’information a reçu moins d’attention. L’un des défis de tout système de RI juridique est de gérer la complexité du réseau de sources juridiques qui contient les informations nécessaires à l’utilisateur. Habituellement, cette information est répartie sur les différents documents de la collection. En d’autres termes, la connaissance juridique est structurée en morceaux contenus dans divers documents et le but de l’utilisateur est de les identifier et de les interpréter conjointement. Un système de RI juridique doit donc permettre de suivre les «traces des connexions» entre des éléments de connaissances juridiques et de les présenter de manière cohérente à l’utilisateur. Ces traces sont définies comme des références explicites et implicites. Identifier les références implicites demande des connaissances très spécialisées (ontologies, règles, etc.) contrairement aux références explicites qui sont plus directement accessibles par leur représentation textuelle [Brighi and Palmirani, 2009]. L’identification des références explicites a permis de mesurer la complexité juridique en termes d’intertextualité, fournissant ainsi une idée approximative de la quantité de références croisées que les professionnels du droit doivent connaître sur le domaine réglementaire étudié.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte général
1.1.1 Recherche d’information
1.1.2 Recherche d’information sémantique et sur le web
1.2 Contexte applicatif : le projet Légilocal
1.3 Enjeux de la recherche d’information juridique
1.4 Objectif et contributions
1.5 Structure du document
2 Accès à l’information juridique
2.1 Introduction
2.2 Caractéristiques des données juridiques
2.2.1 Structure et hiérarchie des sources de loi
2.2.2 Réseau de réglementations et complexité juridique
2.3 Efforts de structuration de l’information juridique
2.3.1 Création ou édition de la réglementation
2.3.2 Représentation des documents
2.3.3 Ontologies du droit
2.3.4 Synthèse
2.4 Méthodes d’accès à l’information juridique
2.4.1 Portails généralistes de sources de droit
2.4.2 Outils spécialisés
2.4.3 Données gouvernementales ouvertes sur le web
2.5 Traitement de l’intertextualité
2.6 Conclusion
3 Recherche d’information et graphe de documents
3.1 Introduction
3.2 Recherche d’information classique
3.2.1 Indexation ou processus de représentation
3.2.2 Appariement ou processus de recherche
3.2.3 Tri de résultats
3.2.4 Reformulation de requêtes
3.2.5 Modèles de RI
3.2.6 Mesures d’évaluation
3.2.7 Interface utilisateur
3.3 Recherche d’information sémantique
3.3.1 Annotation sémantique
3.3.2 Modèles de RI numériques et à base de connaissances
3.3.3 Modèles logiques de RI
3.4 RI et Analyse de liens
3.4.1 Intertextualité dans les systèmes de RI existants
3.4.2 Analyse de graphes de citation
3.4.3 Analyse des liens hypertextes (algorithmes Page Rank et HITS)
3.4.4 Analyse socio-sémantique
3.5 Conclusion
4 Méthodes pour la modélisation et l’interrogation de données complexes
4.1 Introduction
4.2 AFC et ARC : fondements théoriques
4.2.1 Notions de base de la théorie des treillis
4.2.2 L’Analyse Formelle de Concepts
4.2.3 L’Analyse Relationnelle de Concepts
4.3 Applications de l’AFC et ARC
4.4 Web sémantique et web de données
4.4.1 Les technologies du web sémantique
4.4.2 Le web de données et les données liées sur le web
4.4.3 Les ontologies
4.5 Application à l’analyse documentaire dans le web sémantique
4.5.1 Vocabulaires conceptuels et annotation sémantique
4.5.2 Ontologies documentaires
4.6 Synthèse
5 Interrogation d’un réseau sémantique de documents : application aux sources de droit
5.1 Introduction
5.2 L’enjeu de l’intertextualité dans Légilocal
5.2.1 Objectif de la thèse
5.2.2 Intertextualité dans les sources de droit
5.3 Modélisation des collections documentaires
5.3.1 Caractéristiques des collections documentaires
5.3.2 Les collections comme graphes de documents
5.3.3 Exemples de collections juridiques
5.4 Interrogation des collections documentaires
5.4.1 Langage de requêtes
5.4.2 Exemples
5.4.3 Analyse des besoins des juristes
5.4.4 Jeu de requêtes types
5.4.5 Discussion
5.5 Conclusion
6 RI et intertextualité : approche conceptuelle
6.1 Introduction
6.2 Collection documentaire et choix de modélisation
6.3 Modélisation du contenu sémantique par l’AFC
6.3.1 Construction des treillis formels
6.3.2 Interprétation des structures conceptuelles
6.4 Modélisation des liens intertextuels par l’ARC
6.4.1 Modèle de données
6.4.2 Construction des treillis relationnels
6.4.3 Interprétation de la structure relationnelle
6.4.4 Modèle de la collection documentaire
6.5 Interrogation du modèle documentaire
6.5.1 Stratégie de recherche dans le modèle documentaire
6.5.2 Requêtes simples
6.5.3 Requêtes relationnelles
6.5.4 Déroulement sur un exemple
6.6 Navigation dans la structure conceptuelle
6.6.1 Raffinement et expansion des résultats
6.6.2 Recherche par exemple de documents
6.6.3 Recherche de réponses approchées
6.7 Algorithmes d’interrogation et de navigation
6.8 Requêtes exprimables par le modèle
6.9 Conclusion
7 RI et intertextualité : approche sémantique
7.1 Introduction
7.2 Bonnes pratiques pour la construction de vocabulaires
7.3 Première ontologie documentaire
7.3.1 Structure globale de l’ontologie
7.3.2 Modélisation de la collection documentaire
7.3.3 Modélisation des documents
7.3.4 Modélisation sémantique des contenus textuels
7.4 Deuxième ontologie documentaire
7.4.1 Gestion des versions d’un document
7.4.2 Gestion des références
7.4.3 Structure globale de l’ontologie
7.4.4 Positionnement par rapport au standard juridique Metalex
7.5 Mise en œuvre des ontologies documentaires
7.5.1 Instanciation et interrogation dans la première ontologie
7.5.2 Instanciation et interrogation dans la deuxième ontologie
7.6 Conclusion
8 Expérimentation
8.1 Introduction
8.2 Corpus OIT
8.2.1 Description du corpus
8.2.2 Requêtes OIT et réponses pertinentes
8.2.3 Approche conceptuelle : AFC/ARC
8.2.4 Approche sémantique : première ontologie
8.2.5 Discussion
8.3 Corpus Légilocal
8.3.1 Description du corpus
8.3.2 Requêtes Légilocal et réponses pertinentes
8.3.3 Exécution sur la première ontologie documentaire
8.3.4 Exécution sur la deuxième ontologie documentaire
8.3.5 Discussion
9 Conclusion et perspectives
9.1 Conclusion
9.2 Perspectives
Bibliographie