Analyse syntaxique automatique du français écrit

Le logiciel SPIRIT [FLUHR, 1982, 1984]

SPIRIT est un logiciel documentaire qui inclut indexation automatique des documents textuels et recherche dans une base de données à partir d’une question formulée en langue naturelle. Il associe traitements linguistiques et statistiques.

Les traitements linguistiques ont pour objet :

1 de résoudre les synonymies, c’est-à-dire de détecter les différentes formes d’une même unité de sens pour les remplacer par un représentant unique.
2 de lever les homographies : distinguer deux formes identiques qui recouvrent des unités de sens distinctes.
3 de relever les relations de dépendance syntagmatique qui lient les mots dans une phrase.
4 de compresser l’information

La réalisation de ces objectifs met en jeu différents niveaux d’analyse linguistique : morphologie flexionnelle et dérivationnelle, syntaxe, sémantique et pragmatique, ainsi qu’un dictionnaire important (250.000 entrées). Les traitements statistiques opèrent sur les textes et les questions, après le traitement linguistique. Ils classent les textes en fonction de leur degré de pertinence à une question . . Ce logiciel, dont on connaît surtout les fonctionnalités externes, est d’un grand intérêt: en effet, il est opérationnel et donc validé sur un ·nombre de documents significatif. En ce là, les conclusions de C. FLUHR sont à prendre en compte : « Les différences d’efficacité entre les techniques (statistiques) sont minimes. Elles sont en fait très faibles vis-à vis de l’int1uence de la qualité des traitements linguistiques sur la statistique. En effet, la non-reconnaissance des synonymes et des homographes perturbent beaucoup la statistique. »

Un autre intérêt du logiciel SPIRIT est de proposer une alternative partielle aux opérateurs booléens : les relations de dépendance syntagmatiques à la fois plus précises et plus proches du fonctionnement de la langue naturelle.

Le projet SYDO, comme les logiciels PIAF et SPIRIT, accorde la. priorité aux traitements linguistiques. Cependant, ces deux derniers logiciels font intervenir des connotations sémantiques dans le dictionnaire, connotations utilisées, par exemple, pour détecter les synonymes ; or, les traits sémantiques attachés à une forme sont très dépendants du contexte, ils ne sont donc pas toujours transposables d’un contexte dans un autre, et réduisent ainsi le domaine d’application du logiciel. C’est en cela que le projet SYDO est original : l’analyse morpho-syntaxique d’un texte est une voie d’accès à son contenu informatif, de ce fait les traitements linguistiques sont applicables à des textes scientifiques indépendamment du domaine traité. Les informations de nature sémantique interviendront ultérieurement, si besoin est, et leur portée· sera limitée à un domaine précis.

LE PROJET SYDO

Elimination des ambiguïtés

La langue naturelle est intrinsèquement ambiguë. Nous 1′ admettons, et ne lèverons jamais toutes les ambiguïtés. Cependant, le traitement automatique nous impose d’être vigilants. En effet, si une étape du traitement crée des ambiguïtés, la suivante y ajoutera les siennes. Et comme, un système automatique ne peut choisir entre plusieurs solutions linguistiquement admissibles, il les conserve toutes. Ainsi de quelques ambiguïtés peuvent naître de très nombreuses solutions. La vigilance requisè s’exercera sur deux points : d’une part, en veillant lors de chaque étape à ne pas créer des ambiguïtés superflues, d’autre part en éliminant dès que possible, les solutions parasites, c’est-à-dire au moment où l’on dispose de l’information pour ce faire. On espère ainsi éviter la création de solutions parasites, que l’on ne pourrait éliminer dans une phase ultérieure, l~s informations nécessaires ayant disparu.

Régularisation

Le fonctionnement ·de la langue naturelle respecte le plus souvent des règles peu nombreuses. Néanmoins, toute règle érigée appelle en cmi.trepartie une liste d’exceptions. Ces exceptions peuvent à leur tour nécessiter d’autres règles qui auront un domaine d’application très restreint ; elles auront cependant le même statut que les règles à haut rendement. Le risque est alors grand de se trouver face à beaucoup de règles, parmi lesquelles quelques unes seront souvent utilisées, et les autres, très nombreuses, quasiment jamais. Outre le gaspillage d’espace et de temps, cette solution présente un inconvénient majeur: des règles trop nombreuses ont des effets difficilement contrôlables et peuvent alors engendrer des solutions parasites.

Pour éviter cet écueil, la solution retenue pour traiter exceptions et cas particuliers, est de les rapporter au cas général par un procédé de régularisation, matérialisé par une seule règle ayant un domame d’application bien défini. Les exceptions, ainsi régularisées, rejoindront pour la suite du traitement, le cas général.

Ces deux idées-forces nous serviront de pivot pour esquisser les fonctions de chacune des étapes préalables à l’analyse syntaxique. Nous ne reviendrons pas ici sur tous les aspects de chacune des étapes car ils ont déjà fait l’objet de plusieurs publications: aspects méthodologiques [ROUAULT 1983 et 1986], aspects linguistiques [BERRENDONNER, 1983], aspects informatiques [ANTONIADIS, 1984 et GALIOTOU, 1983].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
Les logiciels PIAFDOC et PIAFPS
Le groupe « Systèmes intelligents de recherche d’informations »
Le logiciel SPIRIT
LE PROJET SYDO
Saisie du texte
Elimination des ambiguïtés
Régularisation
Les majuscules
Les formes élidées
Consonnes géminées ·et quelques autres séquences de lettres
Prétraitement morphosyntaxique: éclatement des amalgames
L’analyse morphologique
Les aspects linguistiques
Les catégories
Les variables
Les aspects informatiques
Levées d’ambiguïtés morphologiques
La méthode statistique
La méthode linguistique
Délimitation des syntagmes minimaux
Le traitement des morphèmes discontinus
Cas de la négation
Cas des verbes conjugués aux temps composés
L’extraction des générateurs
Les générateurs : définitions
Extraction de générateurs
Pertinence des résultats
Extraction de syntagmes nominaux par segmentation du texte
ANALYSEURS SYNTAXIQUES POUR LANGAGES HORS-CONTEXTE AMBIGUS
Rappels et définitions
Grammaires et langages hors contexte
Reconnaissance et analyse syntaxiques
Caractéristiques des analyseurs
Premier critère : descendant 1 ascendant
Deuxième critère : général 1 particulier
Troisième critère : simple 1 multiple
Quatrième critère : prédictif 1 combinatoire
Cinquième critère : mode déclaratif 1 mode procédural
L’algorithme de Cocke
Caractéristiques
Notations particulières
L’accepteur
Description du fonctionnement
L’algorithme
Exemple
L’analyseur
Représentation des structures syntaxiques
L’analyseur syntaxique de COCKE
Exemple d’analyse
Variante de Y ounger
L’algorithme d’Earley
Caractéristiques
Notations et définitions particulières
La grammaire
La chaîne d’entrée
Définition et calcul de l’ensemble des premiers de X ..
Les structures de données
Accepteur
Description du fonctionnement pour m = 1
Algorithme d’Earley
Exemple
Analyseur
Première méthode
Le parcours d’une polystructure
Deuxième méthode
Complexité des algorithmes de reconnaissance
Automate à pile
Algorithmes de Cocke et Y ounger
Algorithme d’Earley
Notations
Espace requis par les listes d’états
Temps requis par l’accepteur
STRATEGIE D’ANALYSE
CONCLUSION