Brève historique du traitement automatique du langage naturel

Brève historique du traitement automatique du langage naturel

Historiquement, les premiers travaux importants dans le domaine du TALN ont porté sur la traduction automatique, avec, dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques phrases russes, sélectionnées à l‟avance, furent traduites automatiquement en anglais. Depuis 1954, de lourds financements ont été investis et de nombreuses recherches ont été lancées. Les principaux travaux présentés concernent alors la fabrication et la manipulation de dictionnaires électroniques, car les techniques de traduction consistent essentiellement à traduire mot à mot, avec ensuite un éventuel réarrangement de l‟ordre des mots. Cette conception simpliste de la traduction a conduit à l‟exemple célèbre suivant : la phrase The spirit is willing but the flesh is weak (l‟esprit est fort mais la chair est faible) fut traduite en russe puis retraduite en anglais. Cela donna quelque chose comme : The vodka is strong but the meat is rotten (la vodka est forte mais la viande est pourrie) ! Ce qui ressort de cet exemple, c‟est que de nombreuses connaissances contextuelles (i.e. portant sur la situation décrite) et encyclopédiques (i.e. portant sur le monde en général) sont nécessaires pour trouver la traduction correcte d‟un mot (par exemple ici spirit, qui, suivant les contextes peut se traduire comme esprit ou comme alcool). Posant comme conjecture que tout aspect de l‟intelligence humaine peut être décrit de façon suffisamment précise pour qu‟une machine le simule, les figures les plus marquantes de l‟époque (John Mc Carthy, Marvin Minsky, Allan Newell, Herbert Simon) y discutent des possibilités de créer des programmes d‟ordinateurs qui se comportent intelligemment, et en particulier qui soient capables d‟utiliser le langage. Aujourd‟hui, le champ du traitement du langage naturel est un champ de recherche très actif. De nombreuses applications industrielles (traduction automatique, recherche documentaire, interfaces en langage naturel), qui commencent à atteindre le grand public, sont là pour témoigner de l‟importance des avancées accomplies mais également des progrès qu‟il reste encore à accomplir.

Les niveaux de traitement

Nous introduisons dans cette section les différents niveaux de traitements nécessaires pour parvenir à une compréhension complète d‟un énoncé en langage naturel. Ces niveaux correspondent à des modules qu‟il faudrait développer et faire coopérer dans le cadre d‟une application complète de traitement de la langue.

Nous considérons à titre d‟exemple l‟énoncé suivant :

(1) Le président des antialcooliques mangeait une pomme avec un couteau,

Nous envisageons les traitements successifs qu‟il convient d‟appliquer à cet énoncé pour parvenir automatiquement à sa compréhension la plus complète. Il nous faudra successivement :
– identifier les composants lexicaux, et leurs propriétés : c‟est l‟étape de traitement lexical ;
– identifier des constituants (groupe) de plus haut niveau, et les relations (de dominance) qu‟ils entretiennent entre eux : c‟est l‟étape de traitement syntaxique ;
– construire une représentation du sens de cet énoncé, en associant à chaque concept évoqué un objet ou une action dans un monde de référence (réel ou imaginaire) : c‟est l‟étape de traitement sémantique.
– identifier enfin la fonction de l‟énoncé dans le contexte particulier de la situation dans lequel il a été produit : c‟est l‟étape de traitement pragmatique.

Le niveau lexical 

Le but de cette étape de traitement est de passer des formes atomiques (tokens) identifiées par le segmenteur de mots (Nugues, 2006), c‟est-à-dire de reconnaître dans chaque chaîne de caractères une (ou plusieurs) unité(s) linguistique(s), dotée(s) de caractéristiques propres (son sens, sa prononciation, ses propriétés syntaxiques, etc). Selon l‟exemple (1), l‟étape d‟identification lexicale devrait conduire à un résultat voisin de celui donné ci-dessous, dans lequel on peut constater en particulier l‟ambiguïté d‟une forme telle que président: cette chaîne correspond à deux formes du verbe présider (indicatif et subjonctif), ainsi à une forme nominale, et sa prononciation diffère selon qu‟elle représente un nom ou un verbe.

On conçoit aisément que pour les mots les plus fréquents, comme « le », la solution la plus simple est de rechercher la forme dans (un lexique) précompilé. Dans les faits, c‟est effectivement ce qui se passe, y compris pour des formes plus rares, dans la mesure où l‟utilisation des formalismes de représentations compacts permettant un accès optimisé (par exemple sous la forme d‟automates d‟états finis), et l‟augmentation de la taille des mémoires rend possible la manipulation de vastes lexiques (de l‟ordre de centaines de milliers de formes). Pour autant, cette solution ne résout pas tous les problèmes. Le langage est création, et de nouvelles formes surgissent tous les jours, que ce soit par emprunt à d‟autres langues (il n‟y a qu‟a écouté parler les enseignants des autres modules de la dominante informatique !), ou, plus fréquemment, par l‟application de procédés réguliers de créations de mots, qui nous permettent de composer pratiquement à volonté de nouvelles formes immédiatement compréhensibles par tous les locuteurs de notre langue : si j‟aime lire Proust, ne peut-on pas dire que je m‟emproustise, que de proustien je deviens proustiste, voire proustophile, puis que, lassé, je me désemproustise… Ce phénomène n‟a rien de marginal, puisqu‟il est admis que, même si l‟on dispose d‟un lexique complet du français, environ 5 à 10 % des mots d‟un article de journal pris au hasard ne figureront pas dans ce lexique. La solution purement lexicale atteint là ses limites, et il faut donc mettre en œuvre d‟autres approches, de manière à traiter aussi les formes hors-lexiques.

Le niveau syntaxique

La syntaxe est l‟étude des contraintes portant sur les successions licites de formes qui doivent être prises en compte lorsque l‟on cherche à décrire les séquences constituant des phrases grammaticalement correctes: toutes les suites de mots ne forment pas des phrases acceptables (Ligauzat, 1994). La description des contraintes caractéristiques d‟une langue donnée se fait par le biais d‟une grammaire. Les modèles et les formalismes grammaticaux proposés dans le cadre du traitement automatique du langage sont particulièrement nombreux et variés. Le niveau syntaxique est donc le niveau conceptuel concerné par le calcul de la validité de certaines séquences de mots, les séquences grammaticales ou bien-formées. On conçoit bien l‟importance d‟un tel traitement dans une application de génération, pour laquelle il est essentiel que la machine engendre des énoncés corrects. Dans une application de compréhension, la machine analyse des textes qui lui sont fournis, et dont on peut supposer qu‟ils sont grammaticaux. Pourquoi donc, dans ce cas, mettre en œuvre des connaissances syntaxiques ? Une première motivation provient du fait que les textes ne sont pas toujours grammaticaux, par exemple à cause des fautes d‟orthographes. Une analyse syntaxique peut donc permettre de choisir entre plusieurs corrections à apporter à une phrase incorrecte, mais également se révéler bien utile pour améliorer les sorties d‟un système de reconnaissance optique de caractère ou d‟encore un système de reconnaissance de la parole.

Une seconde raison est que l‟entrée du module syntaxique est une série de formes étiquetées morpho syntaxiquement, une forme pouvant avoir plusieurs étiquettes différentes. Une première fonction du module syntaxique consiste donc à désambiguïser la suite d‟étiquettes, en éliminant les séquences qui correspondent à des énoncés grammaticalement invalides.

Le niveau sémantique 

Intuitivement, la sémantique se préoccupe du sens des énoncés (yvon, 2007). Une phrase comme Le jardin de la porte mange le ciel, bien que grammaticalement parfaitement correcte, n‟a pas de sens dans la plupart des contextes. Mais qu‟est ce que le sens ? Pour une expression comme la bouteille de droite dans la phrase :

Sers-toi du vin. Non, pas celui-là, prends la bouteille de droite.

Le sens correspond à l‟objet (au concept) désigné. Dans cet exemple, le sens dépend étroitement du contexte : il faut une représentation de la scène pour savoir de quelle bouteille, et donc de quel vin, il s‟agit. Pour une expression prédicative, comme Il commande un Margaux 1982, le sens peut être représenté par un prédicat logique comme <demander(paul,chateau_margaux_82)>. L‟identification d‟un tel prédicat dépend encore une fois du contexte. Le verbe commander aurait en effet renvoyé à un autre prédicat s‟il s‟agissait de commander un navire.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 : LE TALN et LE RTE
1) Introduction
2) Brève historique du traitement automatique du langage naturel
3) Les niveaux de traitement
3.1) Le niveau lexical
3.2) Le niveau syntaxique
3.3) Le niveau sémantique
3.4) Le niveau pragmatique
4) Les difficultés du TALN : ambiguïté
4.1) Ambiguïté des graphèmes (lettres)
4.2) Ambiguïté dans les propriétés grammaticales et sémantiques
4.3) Ambiguïté de la fonction grammaticale des groupes de mot
4.4) Ambiguïté de la portée des quantificateurs, des conjonctions et des prépositions
4.5) Ambiguïté sur l’interprétation à donner en contexte à un énoncé
5) La reconnaissance de l’inférence textuelle (RTE)
5.1) Introduction
5.2) Les applications du RTE
5.2.1) La recherche d’information
5.2.2) L’extraction d’information
5.2.3) Le système question- réponse
5.2.4) La traduction automatique
5.2.4) Le résumé automatique
5.2.5) L’acquisition des Paraphrases (AP)
5.3) Le challenge “PASCAL Recognizing of Textual Entailment”
5.3.1) La préparation du corpus
5.3.2) Les directives de jugements
5.3.3) Les mesures d’évaluation
5.4) L’analyse des principales méthodes utilisées
5.4.1) Les prétraitements
5.4.1.1) Le Niveau lexical
5.4.1.2) Le niveau syntaxique
5.4.1.3) Le niveau sémantique
5.4.2) Les différents niveaux d’inférence textuelle
5.4.2.1) L’inférence au niveau lexical
5.4.2.2) L’inférence au niveau lexico syntaxique
5.4.2.3) L’inférence sémantique (logique)
5.4.3) Les ressources utilisées
5.4.3.1) Le WordNet
5.4.3.2) Le FrameNet
5.4.3.3) Le Cyc
5.5.4) Quelques exemples d’inférence utilisés par des groupes de recherches
5.5.4.1) La reconnaissance de l’inférence textuelle basée sur l’analyse de dépendance et WordNet (Université nationale de l’éducation a distance de Madrid)
5.5.4.2) COGEX (université du Texas, USA)
5.5.5) Conclusion
5.6) Conclusion
Chapitre 2: Le temps dans la langue
1) Introduction
2) la structure de points
3) la structure d’intervalles
4) la structure d’événements
5) La théorie d’Allen
5) le temps dans la langue
5.1) Le modèle de Reichenbach
5.2) Les adverbiaux temporels
6) L’inférence temporelle
6.1) Le travail du groupe Human Language Technology Research Institut (HLTRI) sur l’inférence temporelle
6.2) Synthése
7) Conclusion
Chapitre 3 : L’élaboration du corpus
1) Introduction
2) L’élaboration du corpus
3) Classification de l’inférence temporelle
3.1) Les inférences entre expressions temporelles
3.1.1) Les inférences entre dates
3.1.2) les inférences entre adverbiaux temporels
3.1.3) Les inférences entre dates et adverbiaux temporels
3.3.2) Les inférences entre évènements
3.3.2.1) Les relations entre évènements temporels
3.3.2.2) Les inférences lexico sémantiques
3.3.4) Les inférences entre évènements et expressions temporelles
3) Le bilan de l’étude du corpus
4) Conclusion
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.