Analyse automatique de corpus judiciaires

Deux grands paradigmes de jugement se distinguent par l’importance qu’ils accordent aux règles juridiques [Tumonis, 2012]. D’une part, les adeptes du Formalisme Juridique, plus pertinent dans le droit civil, considèrent que toutes les considérations normatives ont été incorporées dans les lois par leurs auteurs. D’autre part, l’école du Réalisme Juridique, plus proche du «Common Law », permet un pouvoir discrétionnaire entre les jugements en raisonnant selon le cas. Les premières tentatives d’anticipation des comportements judiciaires s’appuyaient sur une formalisation des lois. Il en est né le « droit computationnel », qui est une sous discipline de l’« informatique juridique ». Il s’intéresse, en effet, au raisonnement juridique automatique axé sur une représentation sémantique riche et plus formelle de la loi, des régulations, et modalités de contrat [Love & Genesereth, 2005]. Il vise à réduire la taille et la complexité de la loi pour la rendre plus accessible. Plus précisément, le « droit computationnel » propose des systèmes répondant à différentes questions, comme « Quel montant de taxe dois-je payer cette année ? » (planification juridique), « Cette régulation contientelle des règles en contradiction » (analyse réglementaire), « L’entreprise respecte-t-elle la loi ? » (vérification de la conformité) [Genesereth, 2015]. Les techniques pro Formalisme Juridique étaient déjà critiquées au début des années 60, parce qu’excessivement focalisées sur les règles juridiques qui ne représentent qu’une partie de l’institution juridique [Llewellyn, 1962]. Pour analyser le comportement judiciaire, plusieurs variables plus ou moins contrôlables, comme le temps, le lieu et les circonstances, doivent aussi être prises en compte [Ulmer, 1963]. Etant donné que les juristes s’appuient sur la recherche de précédents, Ulmer [1963] conseille de se concentrer sur les motifs réguliers que comprennent les données pour réaliser des analyses quantitatives. Il est possible d’exploiter la masse de décisions pour identifier de telles régularités car une collection suffisante d’une certaine forme de données révèle des motifs qui une fois observés sont projetables dans le futur [Ulmer, 1963]. Il s’agit de raisonnements à base de cas qui se distinguent de ceux à base de règles. Les premiers outils automatiques d’anticipation des décisions étaient généralement des systèmes experts juridiques. Ces derniers résonnent sur de nouvelles affaires en imitant la prise de décision humaine par la logique en général et souvent par analogie. Ils s’appuient sur un raisonnement à base de règles, c’est-à-dire à partir d’une représentation formelle des connaissances des experts ou du domaine. En droit, il s’agit de la connaissance qu’a l’expert des normes juridiques, et de l’ordre des questions à traiter lors du raisonnement sur un cas (appris par expérience). Le modèle explicite de domaine nécessaire ici se trouve dans une base de connaissances où les normes juridiques sont représentées sous forme de « SI … ALORS … », et les faits sont généralement représentés dans la logique des prédicats. Un système expert juridique doit s’appuyer sur une base de connaissances juridiques exhaustive et disposer d’un moteur d’inférence capable de trouver les règles pertinentes et le moyen efficace, par déduction, de les appliquer afin d’obtenir la solution du cas d’étude aussi rapidement que possible. Les systèmes experts ont échoué dans leur tentative de prédire les décisions de justice [Leith, 2010]. La première raison découle de ce que Berka [2011] a appelé le « goulot d’acquisition de connaissances » c’est-à-dire le problème d’obtention des connaissances spécifiques à un domaine d’expertise sous la forme de règles suffisamment générales. L’autre raison tient à l’interprétation ouverte du droit et à la complexité de la formalisation applicable sans tenir compte des particularités de l’affaire. Deux paradigmes s’affirment comme de bonnes alternatives aux raisonnement à base de règles. La première est le raisonnement à base de cas qui concerne une recherche de solution, une classification ou toute autre inférence pour un cas courant à partir de l’analyse d’anciens cas et de leurs solutions [Moens, 2002]. Un tel système juridique affecte à un nouveau cas, la solution des cas les plus similaires déjà résolus [Berka, 2011]. Pour un problème de classification, l’algorithme des k-plus-proches-voisins est une méthode adéquate de raisonnement à base de cas [Poole & Mackworth, 2017]. L’algorithme du plus proche voisin (1-plus-proche voisin) est utilisé notamment par Ashley & Brüninghaus [2009] pour identifier les types de faits (« facteurs ») d’une affaire. Pour d’autres problèmes plus complexes, les différences entre les deux cas peuvent exiger une adaptation de la solution du cas le plus similaires. La seconde alternative est l’apprentissage automatique. Contrairement aux paradigmes de raisonnement précédents qui nécessitent de programmer explicitement des étapes ou instructions à exécuter, cette alternative concerne le développement de programmes qui apprennent automatiquement à accomplir une tâche à partir des données auxquelles ils ont accès. L’apprentissage automatique est plus récemment utilisé pour la prédiction de l’issue d’affaires. Pour exemple, Katz et al. [2014] entraînent des forêts aléatoires [Breiman, 2001] sur les cas de 1946-1953 pour prédire si la Cour Suprême des États-Unis infirmera ou confirmera une décision de juridiction inférieure. Leur approche parvient à prédire correctement 69,7% des décisions finales pour 7700 cas des années 1953-2013. Ils ont amélioré ce résultat par la suite en augmentant le nombre d’arbres et la quantité de données [Katz et al. , 2017]. Toujours pour la prédiction des décisions de la Cour Suprême des Etats-Unis, Waltl et al. [2017b] utilisent des techniques de traitement automatique du langage naturel (TALN) pour extraire moins d’attributs caractéristiques de décisions que Katz et al. [2014] à partir des décisions d’appel de la Cour Fiscale allemande (11 contre 244). Ils obtiennent des valeurs de F1-mesures entre 0,53 et 0,58 (validation croisée à 10 itérations) pour la prédiction de la confirmation ou l’infirmation d’un jugement en appel avec un classifieur bayésien naïf. Notre objectif est d’alimenter les analyses quantitatives de corpus jurisprudentiels en proposant des méthodes d’extraction de connaissances pertinentes telles que les méta-données d’affaires, les règles juridiques associées, les demandes des parties, les réponses des tribunaux, et les liens entre ces données. L’un des postulats évalués empiriquement dans cette thèse est que l’identification de ces diverses connaissances est possible par l’analyse des textes judiciaires basée sur des méthodes du TALN, de la fouille de textes et de la recherche d’information. Cependant, l’application de ces méthodes exigent certaines adaptations pour surmonter les divers défis décrits par Nazarenko & Wyner [2017] : textes très longs et en grande quantité, corpus régulièrement mis à jour, influence subjective de facteurs sociaux et d’opinions politiques, couverture de problématiques économiques, sociales, politiques très variées, langage complexe, etc.

Annotation et extraction d’information

L’annotation consiste à enrichir les documents pour les préparer à des analyses, faciliter la recherche d’affaires pertinentes, et faire la lumière sur des connaissances linguistiques sous-jacentes au raisonnement juridique. Les éléments annotés peuvent être de courts segments de texte mentionnant des entités juridiques [Waltl et al. , 2016; Wyner, 2010] comme la date, le lieu (juridiction), les noms de juges, des citations de loi. L’annotation de passages plus longs consiste à identifier des instances de concepts juridiques plus complexes comme les faits [Wyner, 2010; Wyner & Peters, 2010; Shulayeva et al. , 2017], les définitions [Waltl et al. , 2016, 2017a], des citations de principes juridiques [Shulayeva et al. , 2017], ou des arguments [Wyner et al. , 2010]. Différentes méthodes ont été expérimentées pour la reconnaissance d’information dans les documents judiciaires. La plupart reposent sur l’entraînement d’algorithmes d’apprentissage automatique supervisé sur un ensemble d’exemples annotés manuellement (résultats attendus). Parmi ces algorithmes, on retrouve par exemple les modèles probabilistes HMM (modèles de Markov cachés, cf. § 2.2.1.1) et CRF (champs aléatoires conditionnels, cf. § 2.2.1.2) dont l’application est étudiée au chapitre 2. Ces modèles peuvent être combinés à d’autres approches dans un système global. En effet, après avoir segmenté les documents à l’aide d’un modèle CRF, Dozier et al. [2010] ont par exemple combiné plusieurs approches pour reconnaître des entités dans les décisions de la Cour Suprême des ÉtatsUnis. Ils ont défini manuellement des détecteurs distincts à base de règles pour identifier séparément la juridiction (zone géographique), le type de document, et les noms des juges, en plus de l’introduction d’une recherche lexicale pour détecter la cour, ainsi qu’un classifieur entraîné pour reconnaître le titre. Ces différents détecteurs ont atteint des performances prometteuses, mais avec des rappels limités entre 72% et 87%. Suivant la complexité des éléments à extraire, un système peut exploiter un lexique pour les motifs simples et non-systématiques (indicateurs de mentions de résultats ou de parties) et des règles pour des motifs plus complexes et systématiques (noms de juges, énoncés de décisions) [Waltl et al. , 2016, 2017a; Wyner, 2010]. Cardellino et al. [2017] ont par ailleurs utilisé un modèle CRF et des réseaux de neurones pour la reconnaissance d’entités nommées juridiques dans des jugements de la Cour Européenne des Droits de l’Homme. Ils définissent une hiérarchie des entités nommées distinguant au niveau 1, les entités nommées des non-entités, spécialisées par 6 classes au niveau 2 (par exemple, Personne, Document), spécialisées par 69 classes au niveau 3 (par exemple, Rôle Juridique, Règlement), spécialisées par 358 classes au niveau 4 (par exemple Juge, Code Juridique). Les basses performances qu’ils rapportent sur le corpus juridique illustrent bien la difficulté de la détection d’entités juridiques dans les décisions judiciaires (F1-mesures de 0.25, 0.08, 0.03 en moyenne respectivement pour les niveaux 2, 3, 4). Plus récemment encore, Andrew & Tannier [2018] proposent une approche pour l’extraction d’entités nommées d’une transaction d’investissement et des relations qu’elles partagent dans des décisions du Luxembourg rédigées en français. Ils combinent un modèle CRF pour les entités à une grammaire GATE JAPE [Thakker et al. , 2009] pour les relations, et obtiennent un faible taux d’erreur pour le CRF de 3.12%. Pour la détection des arguments, par contre, Moens et al. [2007] proposent une classification binaire des phrases : argumentative / non argumentative. Ils comparent notamment le classifieur bayésien multinomial et le classifieur d’entropie maximum tout en explorant plusieurs caractéristiques textuelles. Mochales & Moens [2008] proposent, pour la même tâche, une méthode d’extraction basée sur une formalisation de la structure des arguments dans les jugements par une grammaire sans contexte.

Classification des jugements

La classification de textes permet d’organiser un corpus en rangeant les documents dans des catégories généralement prédéfinies par des experts. Pour la classification des décisions, le principe des propositions de la littérature est d’entrainer un modèle statistique traditionnel sur une représentation des documents généralement définie à partir des connaissances du domaine. Par exemple, par classification binaire avec une Machine à Vecteurs de Support (SVM) [Vapnik, 1995] à noyau linéaire (cf. § 4.2.2.2), Aletras et al. [2016] identifient s’il y a eu une violation d’un article donné de la convention des droits de l’homme sur les jugements de la Cour Européenne des Droits de l’Hommes (CEDH) . Les vecteurs représentant les documents sont construits sur la base des 2000 n-grammes les plus fréquents. Certaines composantes sont les fréquences normalisées des ngrammes sélectionnés (modèle sac-de-mots [Salton et al. , 1975; Salton & McGill, 1983]), calculées distinctement pour différentes parties du document (Procédure, Circonstances, Faits, Loi applicable, la Loi et le document entier) ; ce qui résulte en une matrice document terme C. D’autres composantes sont définies par la fréquence des thématiques extraites par une catégorisation non supervisée (clustering) avec la similarité cosinus des n-grammes les plus fréquents représentés par leurs vecteurs dans C, i.e. le vecteur de leurs scores d’occurrence dans les différentes parties précédemment citées du document. Aletras et al. [2016] obtiennent une précision moyenne de 79% sur les 3 articles qu’ils ont étudiés. Notons tout de même la sélection des régions particulières (circonstances, faits, lois, etc.) du document à partir desquelles sont extraits les n-grammes. Cette sélection est un ajustement de la représentation des textes qui paraît nécessaire pour obtenir de bons résultats. La structuration préalable des documents est ainsi utile pour réduire le bruit qui occupe généralement plus d’espace que les passages ou éléments d’intérêt. Medvedeva et al. [2018] étendent ces travaux à neuf articles de loi, tout en montrant empiriquement, entre autres, la possibilité de prédire la violation des articles sur des périodes futures à celles couvertes par les données utilisées lors des phases d’entraînement. ¸Sulea et al. [2017a] traitent, d’autre part, l’identification des résultats dans des arrêts de la Cour Française de Cassation. Après un essai [ ¸Sulea et al. , 2017b] avec un SVM entrainé sur une représentation des documents par le modèle TF-IDF [Salton & Buckley, 1988], ils améliorent les résultats à l’aide d’un classifieur ensembliste de SVM à probabilité moyenne, parvenant à des F1-mesures de plus de 95% [ ¸Sulea et al. , 2017a]. Un classifieur SVM à probabilité moyenne combine plusieurs modèles SVM dits « faibles » (ou de base) entrainés chacun sur un sous-ensemble de la base d’apprentissage. Lors de la prédiction, chacun des SVM estime une probabilité d’appartenance du document classifié à chaque classe. La classe du document est celle dont la probabilité moyenne (robustement estimé par la médiane [Kittler et al. , 1998]) est maximale. Par ailleurs, Ashley & Brüninghaus [2009] identifient, par classification, des informations appelées « facteurs » (Factors [Ashley, 1990]), indispensables à leur système Issue-Based Prediction [Bruninghaus & Ashley, 2003] basé sur un raisonnement à base cas pour prédire la partie qui doit être favorisée sur une question juridique. Les facteurs sont en effet des aspects juridiques spécifiques à un domaine et importants pour la résolution d’un contentieux [Bench-Capon, 1997]. Ils font abstraction des faits dans les raisonnements à base de cas où ils sont définis sous forme de prédicats favorables soit au plaignant soit au défendeur. Sur l’appropriation illicite de secrets commerciaux (trade secret misappropriation), l’environnement d’enseignement CATO [Aleven & Ashley, 1997; Aleven, 2003] comprend 26 facteurs. On y retrouve par exemple les facteurs UniqueProduct (le produit est unique), Agreed-Not-To-Disclose (il existait un accord de non-divulgation entre le défendant et le plaignant), Info-ReverseEngineerable (les informations du produit peuvent être apprises par ingénierie inverse), et Disclosure-In-Negotiations (le demandeur a divulgué des informations concernant son produit lors des négociations avec le défendeur). Les deux premiers facteurs favorisent le plaignant, propriétaire du produit, et les deux derniers facteurs favorise le défendeur accusé. Un facteur s’applique à une affaire si la description de cette dernière contient un fait correspondant. Ashley & Brüninghaus [2009] définissent un classifieur (le-plus proche-voisin) par facteur pour identifier ceux qui s’appliquent à la décision. En effet, les phrases de faits des cas résolus sont labellisées par le facteur auxquels ces derniers correspondent. Ensuite, la classification d’un nouveau cas consiste à comparer les différentes phrases annotées à chacune des phrases de faits du nouveau cas, et à affecter à ces derniers le facteur de la phrase annotée la plus similaire. Au cours de leurs expérimentations, les auteurs démontrent que des adaptations de la représentation des cas par sac-de-mots sont nécessaires pour améliorer les résultats de classifications. Ils proposent deux méthodes améliorées de représentation [Brüninghaus & Ashley, 2001] : l’« abstraction des noms par les rôles » (roles-replaced representation) et les « schémas propositionnels » (propositional patterns). La représentation par abstraction des noms par les rôles consiste à remplacer les noms des parties et les informations sur le produit par leur rôle respectif : plaintiff (demandeur), defendant (defendeur), information (produit). Quant à la représentation par schémas propositionnels, elle consiste à définir, à l’aide de techniques de TALN, des attributs sous forme de propositions logiques du texte qui captent la signification du facteur. Pour le facteur Disclosure-In-Negotiations, pour capter le fait que le demandeur (π) a divulgué quelque chose, les auteurs définissent, par exemple, la proposition (π disclose) chaque fois qu’un synonyme du verbe disclose (divulger) est identifié. Réalisées sur 146 affaires, les expérimentations de validation croisée leave-one-out montrent l’impact des améliorations avec une F1-mesure moyenne de 0.211 pour les sacs-de-mots, 0.26 pour les schémas propositionnels, et 0.28 pour l’abstraction des noms par les rôles. D’autres catégorisations sont tout aussi utiles pour faciliter la recherche d’information. Par exemple, ¸Sulea et al. [2017b,a] expérimentent la classification pour identifier la formation judiciaire (chambre civile, chambre commerciale, chambre sociale, etc.) et la période (Intervalle d’années dans laquelle la décision a été prononcée) des décisions. La classification peut aussi servir à évaluer d’autres problématiques comme la similarité entre décisions [Ma et al. , 2018].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
i Contexte et motivations
ii Objectifs
ii.a Collecte, gestion et pré-traitement des décisions
ii.b Extraction de connaissances
ii.c Application : analyse descriptive
iii Méthodologie
iv Résultats
Chapitre 1 Analyse automatique de corpus judiciaires
1.1 Introduction
1.2 Annotation et extraction d’information
1.3 Classification des jugements
1.4 Similarité entre décisions judiciaires
1.5 Conclusion
Chapitre 2 Annotation des sections et entités juridiques
2.1 Introduction
2.2 Extraction d’information par étiquetage de séquence
2.2.1 Les modèles graphiques probabilistes HMM et CRF
2.2.1.1 Les modèles de Markov cachés (HMM)
2.2.1.2 Les champs conditionnels aléatoires à chaîne linéaire (CRF)
2.2.1.3 CRF et réseaux de neurones artificiels
2.2.2 Représentation des segments atomiques
2.2.3 Schéma d’étiquetage
2.3 Architecture proposée
2.3.1 Définition manuelle de descripteurs candidats
2.3.1.1 Descripteurs pour la détection des sections
2.3.1.2 Descripteurs pour la détection d’entités
2.3.2 Sélection des descripteurs
2.3.2.1 Sélection pour le modèle CRF
2.3.2.2 Sélection pour le modèle HMM
2.4 Expérimentations et discussions
2.4.1 Conditions expérimentales
2.4.1.1 Annotation des données de référence
2.4.1.2 Mesures d’évaluation
2.4.1.3 Outils logiciels
2.4.2 Sélection du schéma d’étiquetage
2.4.3 Sélection des descripteurs
2.4.4 Evaluation détaillée pour chaque classe
2.4.5 Discussions
2.4.5.1 Confusion de classes
2.4.5.2 Redondance des mentions d’entités
2.4.5.3 Impact de la quantité d’exemples annotés
2.4.5.4 Descripteurs manuels vs. réseau de neurones
2.4.5.5 Sectionnement en 4 sections pour l’extraction des demandes
2.5 Conclusion
Chapitre 3 Identification des demandes
3.1 Introduction
3.1.1 Données cibles à extraire
3.1.1.1 Catégorie de demande
3.1.1.2 Sens du résultat
3.1.1.3 Quantum demandé
3.1.1.4 Quantum obtenu ou résultat
3.1.2 Expression, défis et indicateurs d’extraction
3.1.3 Formulation du problème
3.2 Travaux connexes
3.2.1 Extraction d’éléments structurés
3.2.2 Approches d’extraction d’éléments structurés
3.2.3 Extraction de la terminologie d’un domaine
3.2.3.1 Métriques non-supervisées
3.2.3.2 Métriques supervisées
3.2.3.3 Discussions
3.3 Méthode
3.3.1 Détection des catégories par classification
3.3.2 Extraction basée sur la proximité entre sommes d’argent et termes-clés
3.3.2.1 Pré-traitement
3.3.2.2 Apprentissage des termes-clés d’une catégorie
3.3.3 Application de l’extraction à de nouveaux documents
3.4 Résultats expérimentaux
3.4.1 Données d’évaluation
3.4.2 Métriques d’évaluation
3.4.3 Détection des catégories par classification
3.4.4 Extraction de données des paires demandes-résultats
3.4.5 Analyse des erreurs
3.5 Conclusion
Chapitre 4 Identification du sens du résultat
4.1 Introduction
4.2 Classification de documents
4.2.1 Représentation de textes
4.2.2 Algorithmes traditionnels de classification de données
4.2.2.1 Le classifieur bayésien naïf (NB)
4.2.2.2 Machine à vecteurs de support (SVM)
4.2.2.3 k-plus-proches-voisins (kNN)
4.2.2.4 Arbre de décision
4.2.2.5 Analyses discriminantes linéaires et quadratiques
4.2.3 Algorithmes dédiés aux textes
4.2.3.1 NBSVM
4.2.3.2 fastText
4.2.4 Techniques d’amélioration de l’efficacité
4.3 Adaptations de la régression Gini-PLS pour la classification de textes
4.3.1 L’opérateur Gini covariance
4.3.2 Gini-PLS
4.3.3 Régression Gini-PLS généralisée
4.3.3.1 L’algorithme Gini-PLS généralisé
4.3.3.2 L’algorithme LOGIT-Gini-PLS généralisé
4.4 Expérimentations et résultats
4.4.1 Protocole d’évaluation
4.4.2 Classification de l’ensemble du document
4.4.3 Réduction du document aux régions comprenant le vocabulaire de la catégorie
4.5 Conclusion
Conclusion générale