Traitement Automatique de la Langue Naturelle et interprétation

Problématique au sein du Traitement Automatique de la Langue Naturelle

Nous nous intéresserons particulièrement au traitement de la sémantique du langage naturel. Les principes que nous revendiquons sont les suivants :
– Tout d’abord, nous reconnaîtrons la primauté de la sémantique dans le langage, dont le traitement doit ainsi se dégager des spécificités des méthodes appliquées à la syntaxe. À ce sujet, nous envisagerons les distinctions entre syntaxe formelle et syntaxe linguistique. Nous récuserons ainsi les tentatives de manipulation / définition du sens à travers une analyse, si fine soit-elle, des phénomènes de surface du langage, qui correspond à une vision empruntée aux systèmes formels de l’articulation sémantique/syntaxe. Le principe de compositionnalité qui y est supposé devra également être explicité et rejeté dans le cadre de la sémantique. De plus, nous accorderons un statut premier au texte, et non à la phrase, dont le régime, du point de vue logique, est celui de la limite supérieure de l’application des méthodes syntaxiques (ce qui n’a plus lieu d’être si l’on aborde la sémantique, où au contraire c’est le texte (et le contexte) qui prime(nt)).
– Ensuite, nous nous placerons dans une position interprétative. Tout d’abord, nous accuserons les assimilations entre compétences interprétative et générative, en explicitant leur origine dans une vision restrictive du langage comme vecteur d’information. Voulant aborder le sens d’un énoncé linguistique comme éminemment situé, et donc dépendant des conditions de communication et des intentions de son destinataire, nous récuserons la symétrie précédente et nous nous dirigerons ainsi vers une vision différentielle de la sémantique. Cette prise de position dans le structuralisme nous permettra de nous interroger sur l’identité des unités sémantiques, qui devra être construite et structurée et non simplement vue comme le résultat d’un décodage.

– Enfin, nous expliciterons plus en détail le rôle que nous assignons à l’outil informatique dans le cadre du traitement de la langue naturelle. Au vu des précédentes constatations, nous préciserons notre passage d’une automatisation impensable, puisque seul l’humain peut supporter les notions de l’interprétation, à une assistance et une source de suggestions. Après avoir explicité les conditions de cette coopération entre l’homme et la machine, nous discuterons également des types d’applications envisageables (et envisagées), tant du point de vue de la méthode que du domaine linguistique.

Place de la syntaxe dans le TALN

À partir de la prédominance constatée de la syntaxe dans les applications du TALN, alors que tout le monde reconnaît le sens comme objectif, il faut bien se poser la question de sa nature et de son rôle dans l’approche du sens. De plus, la syntaxe telle qu’elle est définie pour les systèmes de traitement de la langue (systèmes informatisés donc formels) est-elle bien celle dont on parle dans des considérations plus centralement linguistiques ? Nous tenterons donc de dégager les tenants et les aboutissants de la profusion d’applications centralement syntaxiques dans le TALN, et comparer ceux-ci avec nos objectifs et prises de position.

Prédominance de la syntaxe dans le TALN

Revenons quelques temps sur les tentatives initiales en traduction automatique, telles qu’elles fleurirent après la dernière guerre, motivées par la volonté américaine de traduire automatiquement les messages russes. Les productions en ce sens, avant d’être déclarées inutilisables par la comité ALPAC en 1965, s’appuyaient essentiellement sur l’utilisation de correspondances mot-à-mot. Les traditions sous jacentes à l’époque provenaient plus de la cryptographie (dont le succès dans son traitement informatique était validé) que de la linguistique véritable. À partir de là, deux programmes majeurs furent envisagés au vu des échecs : affiner l’analyse syntaxique ou apporter des connaissances générales au système. On peut citer par exemple Weaver, reconnaissant que le «décodage du russe vers l’anglais» [66] est plus complexe qu’une simple correspondance, et Bar-Hillel [3], qui reconnaît le besoin de connaissances sur le monde, et non plus sur la langue (lexique et grammaire) pour parvenir à une traduction acceptable. S’affirment donc deux programmes : le premier vise l’affinement syntaxique (comme affinement/complexification de la structure) ; le second concerne le mode de coordination du thème de la connaissance avec l’objet linguistique. Pour l’instant, nous étudierons la première possibilité : développement des méthodes d’analyse morphologique (dictionnaire de formes simples et règles de composition des mots, cela dès les premières tentatives de traduction, pour diminuer la place en mémoire des dictionnaires), et surtout syntaxique, afin de déterminer la structure de la phrase, et atteindre ainsi une meilleure compréhension, donc traduction. Dans le cas de la traduction, cela suppose toujours une correspondance, non plus au niveau du mot, mais au moins au niveau du syntagme et de la proposition. Ceci se traduit également par le développement de formalismes syntaxiques originaux, à partir des simples grammaires syntagmatiques, en cherchant à atteindre un taux de couverture maximal des phrases correctes analysées. À ce propos nous ne pouvons bien entendu pas nous affranchir de citer les travaux de Chomsky [11, 12], et leur abondante tradition critique qui a nourri presque toute la recherche en TALN, qui s’inscrivent pleinement dans cette vision du sens (structure profonde) accessible par la forme (structure de surface). Nous ne nous lancerons pas dans une critique maintes fois proposée, mais reconnaîtrons simplement que la théorie de la grammaire transformationnelle constitue l’approfondissement le plus notable de cette vision générale. Ces formalismes ne furent pas utilisés exclusivement à des fins de traducteurs automatiques. Une grande majorité d’outils de TALN utilisent un analyseur morpho-syntaxique ou parser. Que ces outils servent à l’interrogation de bases de données en langage naturel, à la production de résumé ou l’indexation de documents, en bref des outils qui visent à une certaine forme de compréhension de la langue, ils passent presque toujours par une phase purement syntaxique. C. Fuchs [19] reconnaît à la syntaxe un statut de nécessité pour la généralité de l’outil, dans le sens de la variété des énoncés que celui-ci traite. À travers des domaines variés, de la météorologie à la classification des bateaux [24], en passant par la simulation de dialogues psychanalytiques [68] (de nombreux ouvrages discutent de ces différents outils, notamment [4], [15], [55]), la constante serait donc la structure syntaxique, sorte de substrat originel de la langue. D’ailleurs cette primauté doit être remise en question, dans la mesure où elle contredit des données établies en psychologie expérimentale. On peut en effet établir facilement l’accès de l’enfant à la langue par la sémantique, et l’apparition tardive d’une compétence syntaxique (voir à ce propos les travaux de J. Piaget [45]). Parle-t-on alors de la même syntaxe dans les deux cas ?

La syntaxe pour la sémantique

L’articulation entre syntaxe et sémantique, projetée dans le monde du TALN, se traduit de différentes façons. Il y a tout d’abord le schéma souvent invoqué d’un traitement séquentiel de l’information langagière, à l’aide de différents modules spécialisés, dans l’ordre : module morphologique (reconnaissance des mots), module syntaxique (identification des syntagmes et des structures de phrases), module sémantique (modélisation du contenu des mots et de la phrase), et module pragmatique (utilisation des données sémantiques, en fonction du type d’application : traduction, réponse à une question, inférences, etc.) Un système répondant à ce schéma central est par exemple le célèbre SHRDLU de Winograd [69] qui manipule un robot à partir d’ordres énoncés en anglais, ou le LUNAR de Woods [70] qui traduit les questions en requêtes pour une base de données. Même si la syntaxe s’analyse correctement, ne laissant subsister que quelques ambiguïtés, le travail du traitement sémantique sensé la suivre n’est jamais résolu correctement (en tout cas, sûrement pas dans le cas d’une généralité d’énoncé que l’analyse syntaxique est sensée mettre à sa portée). Ceci orienta donc la recherche vers le développement de formalismes «mixtes», comme la LFG (Lexical Functional Grammar) [1], où les notions sémantiques, traduites par des formules logiques, sont intégrées directement dans le traitement syntaxique. On voit également des tentatives d’ajouter des considérations sémantiques à des formalismes d’analyse syntaxique, comme le propose A. Abeillé pour les TAGs dans [52]. Mais il faut aussi noter le développement de formalismes purement sémantiques, pour attaquer à nouveau le problème. Ces formalismes rejoignent ainsi des considérations plus générales sur la représentation de connaissances, mais on y retrouve toujours une prédominance des principes fondamentaux de la syntaxe, à savoir la notion de calcul et de compositionnalité. Cette fois, des notions sémantiques sont calculées, mais toujours à partir de données locales attribuées aux mots, même si elles sont bien plus riches que de simples catégories grammaticales. Notons également, mais nous y reviendrons par la suite, les présuppositions que traduit la pluralité d’utilisation de ces formalismes. Leur classicisme en IA, et dans le domaine de la représentation de connaissances induit une prise de position sur le langage, dont il faut prendre conscience. Il s’agit bien de formalismes de représentation de connaissances, pas de représentation de sens. Leur utilisation est compréhensible lors de l’application à un système classique de l’IA, comme la résolution de problèmes ou la réponse à des questions sur une base de données (ou base de connaissances), mais dans un cas général de représentation du sens, la prudence est de mise, d’autant plus que la notion même de connaissance reste opaque. Dans un cadre applicatif, comme celui de l’IA, la notion de connaissance est liée à celle de représentation, et une telle assimilation des deux réalités pose donc le problème de la représentativité du sens, dont nous discuterons par la suite.

Il faut également noter la (ré-)apparition de méthodes d’analyses de corpus s’inspirant du paradigme distributionnaliste [23], mettant en œuvre une approche sans aprioris de la sémantique basée sur des considérations de surface, mais purement empiriques et statistiques. Il faut y voir ici un autre moyen de signifier, voire d’affirmer l’accessibilité du sens par l’analyse de la surface. La seule notion extérieure à la restriction empirique des données traitées vient ici de la reconnaissance de l’unité du corpus (comptes-rendus d’actes médicaux comme dans [22]) : le principe de compositionnalité, s’il n’est pas directement exploité, n’en reste pas moins présent. Il est cependant important de noter la diminution de la complexité des relations syntaxiques (au sens large) utilisées : ne subsistent plus que des considérations d’identité de forme, de différence, et de proximité. Nul besoin en effet pour classifier des formes linguistiques, de les articuler autour de notions grammaticales complexes (et d’ailleurs inapplicables dans le cas de corpus importants) : la complexité ici provient justement du nombre. Nous nous permettrons d’y voir ici un argument pour la reconnaissance de la sémantique, par une diminution de la complexité de la modélisation syntaxique. De plus, et nous y reviendrons à la fin de ce chapitre, ces méthodes ne produisent que des propositions quant à la nature du sémantique, en ce sens qu’elle laissent, pour l’affirmation de phénomènes liés aux corpus analysés, la conclusion finale à l’homme qui va interpréter ces données statistiques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 Problématique au sein du Traitement Automatique de la Langue Naturelle
1 Introduction
2 Place de la syntaxe dans le TALN
2.1 Prédominance de la syntaxe dans le TALN
2.2 Syntaxe linguistique et syntaxe formelle
2.3 La syntaxe pour la sémantique
2.4 Premier principe
3 De la nature du formalisme sémantique
3.1 Langage et information
3.2 Sens situé et interprétation
3.3 L’autre sémantique
3.4 Deuxième principe
4 Le texte, l’homme et la machine
4.1 Coopération Homme / Machine
4.2 Informatique et interprétation
4.3 Quelles applications ?
5 Conclusion
2 Une approche linguistique du TALN : La Sémantique Interprétative
1 Approche structuraliste et herméneutique
1.1 La lignée structuraliste, le problème de l’identité
1.2 Le problème du global et du local. L’alternative herméneutique
1.3 La sémantique du local
1.3.1 Diverses possibilités
1.3.2 Exemples d’utilisation de la microsémantique
1.3.3 La microsémantique différentielle
1.3.4 Les sèmes de F. Rastier
1.4 Sèmes et informatique
2 Vers une formalisation de l’interprétation
2.1 Les phénomènes à prendre en compte
2.2 Le processus interprétatif
2.3 La notion d’interprétant et le problème de la norme
3 Concepts et outils de base
3.1 Les sémèmes
3.1.1 Leur forme : la lexie
3.1.2 Signifiant ou signifié ?
3.2 Limiter les éléments distinctifs : classes et oppositions
3.3 Taxèmes : classes minimales
3.3.1 Justifications des taxèmes
3.3.2 Le taxème comme focalisation de l’interprétation
3.3.3 Taxème et sème micro-générique
3.4 Les sèmes spécifiques : de la différence à l’opposition
3.4.1 Forme des sèmes spécifiques
3.5 Le taxème comme typologie des sèmes : l’inhérence et l’afférence
3.5.1 Actualisation et virtualisation
3.5.2 Relations entre les différents types de sèmes
3.5.3 Pour en finir avec l’afférence
3.6 Domaines : vers la référence
3.7 Dimensions : une porte vers les effets métaphoriques
4 Globaliser l’interprétation : les isotopies et leurs présomptions
4.1 Deux façons de voir l’isotopie
4.1.1 L’isotopie comme constat
4.1.2 L’isotopie comme processus : de la présomption à la validation
4.2 L’isotopie approfondie
4.2.1 Syntagmatique et paradigmatique
4.2.2 Isotopie et niveaux sémantiques
4.2.3 Caractérisation d’une isotopie
4.2.4 Caractérisation de plusieurs isotopies
4.3 Remaniement de la notion
4.3.1 Isotopie et ordre syntagmatique
4.3.2 Isotopie et ordre paradigmatique
4.3.3 Le cas des isotopies spécifiques
4.3.4 Isotopie et processus
5 Conclusion
3 Description formelle de la structure sémantique
1 Les sémèmes
2 Les taxèmes
3 Les spécèmes
3.1 Les spécèmes en général
3.2 Spécèmes et graphes d’opposition
4 Les sèmes
5 Isotopies
5.1 Définition
5.2 Réflexions sur la fonction I
5.3 Justification des principes
5.4 Contraintes sur les composantes d’une isotopie
5.4.1 Spécèmes – partie spécifique
5.4.2 Taxèmes – Partie générique
5.4.3 Sémèmes – Partie afférente
6 Les relations entre entités
6.1 Notations
6.2 Identité et différence définitoires
6.3 Propagation de l’identité des sémèmes
6.4 Propagation de l’identité des sèmes
6.5 Compatibilités entre S-identité et SE-identité
6.5.1 Taxèmes
6.5.2 Spécèmes
6.5.3 Isotopies
6.5.4 Sémèmes
7 Vers une forme manipulable de l’isotopie
7.1 Projection de l’isotopie sur S
7.2 Introduction de la notion d’épisémème
7.3 Définition de l’ordre sur E
7.4 Ordres induits
7.4.1 Ordre sur S
7.4.2 Ordre des isotopies
CONCLUSION