Compréhension de Textes dans un domaine technique

Les résultats présentés dans cette thèse sont l’aboutissement de travaux menés consécutivement suivant deux axes très différents.

Nos premières recherches dans le domaine du traitement du langage naturel ont concerné le développement d’outils généraux pour l’écriture de grammaires. L’objectif était d’intégrer dans un même formalisme certaines caractéristiques propres aux grammaires d’unification et une théorie sémantique sur la représentation du discours, la Théorie de la Représentation du Discours (DRT), en utilisant au mieux les possibilités du langage Prolog. Ces outils devaient permettre de réécrire de façon plus « déclarative » une grammaire syntaxique générale du français et de décrire des phénomènes liés à la traduction de certains quantificateurs du langage naturel et à quelques cas d’anaphores. Aucun domaine d’application particulier, aucun corpus précis n’était alors considéré.

Le deuxième axe de travail, plus récent, le projet ACTES, s’est présenté de façon très différente, pour ne pas dire opposée, sous bien des aspects. Il s’agissait de réaliser un prototype permettant d’extraire automatiquement des connaissances à partir de textes techniques, écrits dans un sous-ensemble du langage naturel, spécifiant les déclenchements d’alarmes dans un avion.

Ces textes de spécification produits par des experts ont deux types d’utilisateurs: les programmeurs chargés d’implanter les procédures décrivant dans quelles conditions les processeurs embarqués sur un avion déclenchent les alarmes et avertissent le pilote ; les ingénieurs cogniticiens qui mettent au point un système expert simulant ces alarmes. Aujourd’hui les règles de production du système expert sont extraites « à la main » par ces ingénieurs. ACTES se présentait donc comme un projet prospectif sur l’automatisation du processus d’extraction des règles de production à partir de ces textes.

Les spécifications du projet insistaient sur deux types de fonctionnalités qui devaient guider l’élaboration du prototype: d’une part, la mise en place d’outils généraux d’analyse de textes ; d’autre part, la représentation de ces textes sous une forme permettant la mise-àjour ainsi que des vérifications de cohérence. Si le premier point se rapprochait de nos premiers travaux, mentionnés précédemment, l’ensemble du projet référait à de nombreux paradigmes . Nous allons les évoquer afin d’expliciter le cadre de notre travail, de préciser ceux que nous avons écartés et ceux sur lesquels nous focaliserons notre exposé.

La phase de définition dans la vie d’un logiciel est de toute première importance [BRACO 88]. Parmi les nombreux langages de spécifications existants, certains ont pour objectif de permettre à l’expert de pouvoir s’exprimer le plus naturellement possible.

[CHEN 82] présente plusieurs de ces langages semi-formels dont certains sont utilisés dans l’aéronautique pour la spécification de problèmes temps-réel. Mais la distance est encore grande entre le mode d’expression de l’utilisateur et le langage offert. De plus, paradoxalement (par rapport à l’approche semi-formelle), les possibilités de mise à jour et de vérifications sont peu mises en avant.

Balzer [BALZ 85] a choisi de développer des langages de spécifications proches du langage naturel pour la programmation. Le bilan de ses quinze ans de travaux montre les difficultés qu’il reste à résoudre pour franchir les étapes allant successivement de spécifications informelles, aux spécifications de haut niveau, bas niveau, et finalement à la compilation automatique.

Alors que les spécifications semi-formelles sont loin d’être maîtrisées, il pourrait sembler prématuré de s’attaquer à celles écrites en langage naturel, sachant qu’à tous ces problèmes de vérifications et de contrôles s’ajoutent ceux liés au traitement du langage naturel et que dans ce dernier domaine les techniques générales font encore défaut. Mais les faits sont là : malgré la floraison d’outils en tous genres d’aide à la spécification et de langages plus ou moins formels, l’essentiel des spécifications est aujourd’hui écrit en langue naturelle et le restera longtemps encore, de l’avis même des experts. Pour limiter au maximum le côté informel de la chose, les experts définissent souvent (comme dans ACTES) le cadre général de l’application avec des méthodes de spécification (SADT, SA, DLAO [CHEN 82]) et n’utilisent qu’un langage naturel contraint pour les descriptions de plus bas niveau. La question est donc posée pour savoir comment traiter informatiquement les textes existants écrits directement en langage naturel.

Les recherches dans ce domaine sont très récentes et peu nombreuses, citons, par exemple, [GRAN 87], [BIEB 87] et [SELI 85]. Pour le premier, l’analyse se fait phrase à phrase. Le texte n’est pas traité comme un ensemble. Quant au deuxième, il s’agit d’une bonne pré-étude du problème du traitement des spécifications aéronautiques.

Actes n’est pas à proprement parler un projet d’interface pour un système expert, même si les règles que le système complet devrait produire sont destinées à un système expert. Il ne s’agit pas d’offrir une interface à un expert lui permettant directement de spécifier ses règles et de les valider en utilisant un pseudo langage naturel. Nous ne sommes pas confrontés au problème que rencontrent les cogniticiens lors de l’extraction des connaissances auprès d’un expert, ni au problème de la construction d’un nouveau langage de spécification de haut niveau.

Le langage de spécification est tout trouvé: il s’agit du langage naturel employé dans les textes que nous avons à traiter. Les connaissances des experts y sont inscrites En particulier, la structuration des textes est une source d’informations précieuse pour guider l’extraction des règles. ACTES doit la prendre en compte. De plus, à la différence du système expert qui doit valider globalement l’ensemble des spécifications, l’architecture que nous proposons peut permettre d’envisager des validations locales portant sur un nombre limité de textes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
0.1. Les données du problème
0.2. Spécifications en langage naturel
0.3. Actes est-il un projet d’interface pour un système expert ?
0.4. Actes est un projet de compréhension de textes
0.5. Hypothèses de travail
0.6. Plan de la thèse
1. INTRODUCTION AU DOMAINE DU TRAITEMENT DU LANGAGE NATUREL
1.1. PROBLEMATIQUE
1.1.1. Les modèles syntaxiques
1.1.2. Interprétation sémantique
1.1.3. Interprétation du discours
1.1.4. Action et Intention
1.1.5. Génération
1.1.6. Systèmes de TLN
1.1.7. Approches connexionnistes
1.1.8. Remarques
1.2. APPROCHES THEORIQUES ACTUELLES
1.2.1. Analyse distributionnelle et sous-langages
1.2.2. Grammaires syntagmatiques, génératives, transformationnelles
1.2.3. Approches sémantiques
1.2.4. Approches lexicales
1.2.5. Remarque
1.3. OÙ ALLONS-NOUS ?
2. LES GRAMMAIRES D’UNIFICATION
2.1. INTRODUCTION
2.2. BREF HISTORIQUE
2.2.1. Motivations
2.3. STRUCTURES DE TRAITS ET UNIFICATION
2.3.1. Categories grammaticales
2.3.2. Variantes
2.3.3. Comparaisons avec PROLOG
2.4. EXTENSIONS
2.4.1. Descriptions disjonctives de traits
2.4.2. Généralisation et contraintes négatives
2.5. TYPES ET REPRESENTATION DES CONNAISSANCES
2.5.1. Types et sorts dans UCG
2.5.2. Types et héritage dans LIFE
2.6. DISCUSSION
3. SEMANTIQUE, TEXTE ET ANAPHORES
3.1. INTRODUCTION
3.2. UNE SEMANTIQUE, POUR QUOI FAIRE ?
3.2.1. Une sémantique qui n’a pas de sens ?
3.2.2. Sémantique et formule logique intermédiaire
3.3. LA THEORIE DE LA REPRÉSENTATION DU DISCOURS (DRT)
3.3.1. Processus de construction du sens d’un texte
3.3.2. Universel et négation
3.3.3. Conditions d’accessibilité
3.3.4. Un exemple de type « donkey sentence »
3.3.5. Continuation du discours/texte
3.4. LA RESOLUTION D’ANAPHORES DANS LES TEXTES
3.4.1. Le problème de l’anaphore dans les textes
3.4.2. Anaphores et références
3.4.3. Stratégies, connaissances multiples
3.4.4. DRT et anaphores: retour critique
3.5. CONCLUSIONS SUR NOTRE APPROCHE DE LA DRT
CONCLUSION