Principe de composition des mots arabes

Principe de composition des mots arabes

PARTIE A: ÉTAT DE L’ART

Cette partie dresse un tableau des principaux travaux qui ont contribués au traitement automatique de la langue arabe. Chapitre 1: La langue arabe, ses caractéristiques, ses difficultés de traitement ainsi que les outils disponibles pour son traitement Dans ce chapitre, nous abordons en premier lieu les particularités de cette langue: sa morphologie, sa syntaxe ainsi que ses différents types de phrases. Ensuite, nous donnons une brève présentation sur les obstacles qui rendent son traitement automatique une tâche difficile à maîtriser face aux problèmes variés issus de sa nature agglutinante, sa richesse flexionnelle, l’absence de voyellation de la majorité des textes arabes écrits, etc. Après, nous donnons un aperçu sur les approches de TALA se rapportant au niveau morphologique et syntaxique tout en présentant pour chaque niveau les différents travaux de recherche inhérents ainsi que leurs contributions effectuées. Chapitre 2: Désambigüisation, techniques, modèle et outils Dans le second chapitre, nous commençons par présenter un état de l’art sur les approches et travaux traitant essentiellement de la désambiguïsation morphologique et lexicale. Nous donnons ensuite une synthèse sur les travaux de recherche qui se sont intéressées sur la désambigüisation par diacritisation. Chapitre 3: Extraction d’information, approches et outils Ce chapitre s’intéresse à l’aspect sémantique des textes, voire leurs compréhensions et plus précisément l’extraction d’information (EI), lequel constitue un domaine aussi important que les autres. Nous commençons par définir ce concept, puis nous présentons son architecture type. Nous relatons ces techniques d’extractions automatiques d’informations à partir de textes, notamment celles basées sur le traitement automatique des langues. Enfin, nous présentons les différentes plateformes qui ont été adaptées à la langue arabe. PARTIE B: CONTRIBUTIONS La partie B présente et explicite nos différentes approches. Chapitre 4: Présentation de la plateforme AL2UML/AL2B Dans ce chapitre, nous commençons par présenter les enjeux, l’intérêt ainsi que les difficultés de l’automatisation de la modélisation conceptuelle des spécifications en LN vers des spécifications semi-formelles et formelles, tout en mettant l’accent sur l’importance et le rôle imminent de la phase de spécification des besoins dans le cycle de vie d’un SI. Nous définissons ensuite les différents types de spécifications et celles que nous avons traitées. Ensuite, nous situons notre travail par rapport aux travaux connexes. Nous donnons l’architecture de notre plateforme et présentons succinctement ses différents modules. Chapitre 5: Proposition d’une approche de désambigüisation morpho-lexicale Ce chapitre décrit notre première contribution qui est la proposition d’une nouvelle approche de désambigüisation morpho-lexicale à base d’une méthode multicritère d’aide à la décision combinée à une approche linguistique. Nous détaillons pour chaque étape du prétraitement le procédé suivi. Nous justifions ensuite le modèle linguistique obtenu et nous décrivons enfin l’expérimentation complète de l’approche proposée. Les résultats de ces évaluations seront également discutés. Chapitre 6 : Proposition d’une stratégie de Conceptualisation Ce chapitre décrit notre deuxième contribution qui est la proposition d’une stratégie pour la conceptualisation des textes annotés lors de la première phase. Nous détaillons et justifions nos choix et nous explicitons l’approche proposée ainsi que les différents algorithmes utilisés pour l’interprétation et la classification des différents types de phrases rencontrées. Nous i.Introduction générale 21 tentons de justifier l’apport du modèle pivot pour la représentation finale de la conceptualisation. Une évaluation de l’approche sur des textes contenant près d’une centaine de phrases est discutée en fin de chapitre. Chapitre 7: Vers la génération du diagramme de classe d’UML et la formalisation en event-B Ici, sera présentée notre troisième approche à savoir l’extraction et la génération des concepts clés du diagramme de classe d’UML à partir du modèle pivot de la phase antérieure. Ensuite, nous expliquons le « comment » de la représentation de ce diagramme de classe en XML, ainsi que sa transformation en spécifications event-B pour la vérification de son exactitude. Conclusion générale et perspectives Nous synthétisons l’ensemble de nos approches et proposons des perspectives. Une annexe est fournie contenant les utilitaires de TALA ainsi que des jeux d’essai de la plateforme.

Particularités de la langue arabe

Vu ses propriétés morphologiques et syntaxiques, la langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du TALN. Les premiers travaux de recherche, débutés vers les années soixante-dix, ont été concernés par les lexiques et la morphologie arabe. Avec l’avènement de l’Internet et des moteurs de recherche, la quantité de documents arabes disponibles en format électronique est devenue énorme. De ce fait, plusieurs travaux de recherche pour son traitement automatique commencent à émerger. Ces travaux ont pris diverses orientations se rapportant à la syntaxe, la sémantique, la recherche d’information, l’extraction d’information, la traduction automatique, l’indexation automatique de documents etc. (Boudjelbane,R., 2015) Comme les autres langues sémitiques, la langue arabe a une morphologie riche et complexe. L’arabe s’écrit de droite à gauche. Les lettres se lient entre elles comme dans l’écriture cursive du français ou de l’anglais. Les majuscules n’existent pas. L’écriture d’imprimerie est identique à l’écriture manuscrite. On emploie les mêmes signes de ponctuation qu’en français, mais on les écrit généralement à l’envers. L’alphabet arabe est formé de vingt huit graphèmes consonantiques. La majorité de ces graphèmes changent de forme selon qu’ils soient isolés ou écrits au début, au milieu ou à la fin d’un mot (Shaalan,K; Farghaly A., 2009). Une autre spécificité qui s’ajoute, est que le système d’écriture de l’arabe est diacritique. En effet, l’alphabet arabe est composé uniquement de consonnes et chaque consonne peut avoir différentes prononciations. Les signes diacritiques représentent les voyelles courtes, contrairement au français, ces voyelles ne sont pas des lettres de l’alphabet, ce sont des signes diacritiques qui se rajoutent aux consonnes (lettres) (Habash, N.Y, 2010). L’Arabe est composé de noms, de verbes et de particules. Les noms et les verbes sont dérivés de prés de 10.000 racines (Alsaad,A.; Abbod,M., 2014). Les particules (voir §1.3.2) sont utilisées pour compléter le sens des noms et des verbes. Étant donné que la langue arabe se caractérise par une morphologie dérivationnelle, flexionnelle et agglutinante assez complexe, le mot arabe, comme le représente la figure 1.1, n’est pas le résultat d’une simple concaténation de morphèmes13 comme c’est le cas pour l’anglais mais c’est à partir d’une racine (voir §1.3.1.a) trilitère ou quadrilatère, d’une combinaison de voyelles, de proclitiques, de préfixes, de suffixes, d’enclitiques et d’un schème morphologique (voir §1.3.1.b) qu’on obtient un mot (Al-Arfaj,A.; Al-Salman,A., 2015) et c’est ce qui explique sa forte tendance à la cliticisation.

 

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

LISTE DES FIGURES
INDEX DES TABLES
I. INTRODUCTION GÉNÉRALE
i. CONTEXTE DE L’ÉTUDE
ii. PROBLÉMATIQUE ET CONTRIBUTIONS
iii. ORGANISATION DE LA THÈSE
PARTIE A. ÉTAT DE L’ART
1. TRAITEMENT AUTOMATIQUE DE LA LANGUE ARABE
1.1 INTRODUCTION
1.2 PARTICULARITÉS DE LA LANGUE ARABE
1.3 LA GRAMMAIRE DE LA LANGUE ARABE
1.3.1 La morphologie
1.3.1.1 La racine
1.3.1.2 Le schème
1.3.1.3 Le lemme
1.3.2 Principe de composition des mots arabes
1.3.3 La syntaxe
1.3.3.1 La phrase verbale
1.3.3.2 La phrase nominale
1.3.3.3 La phrase locative
1.4 DIFFICULTÉS DE L’ANALYSE AUTOMATIQUE DE L’ARABE
1.4.1 Absence de voyelles
1.4.2 Segmentation de textes
1.4.3 Analyse morphologique
1.4.4 La lemmatisation : Le pluriel Brisé
1.4.5 Étiquetage grammatical
1.4.6 Analyse syntaxique
1.5 PRINCIPALES APPROCHES ET OUTILS DE TALA
1.5.1 Approches et outils de Segmentation de textes
1.5.2 Approches et outils d’analyse morphologique
1.5.3 Approches et outils d’étiquetage grammatical
1.5.4 Approches et outils d’analyse syntaxique
1.6 DISCUSSION
1.7 CONCLUSION
2. LA DÉSAMBIGÜISATION: TECHNIQUES, MODÈLES ET OUTILS
2.1 INTRODUCTION
2.2 APPROCHES DE DÉSAMBIGÜISATION
2.2.1 Désambigüisation morphologique
2.2.1.1 Approches symboliques
2.2.1.2 Approches probabilistes
a. Modèle de langue (LM
b. Modèle n-classes
c. Modèle de MARKOV
2.2.1.3 Approches hybrides
6.2.5 Le réseau sémantique
6.2.5.1 Les nœuds du RSB
6.2.5.2 Les arcs du RSB
6.2.6 Normalisation du RSB
6.3 RÉSULTATS ET DISCUSSIONS
6.4 CONCLUSION
7. LA SEMI-FORMALISATION EN UML ET LA FORMALISATION EN EVENT-B
7.1 INTRODUCTION
7.2 ARCHITECTURE DU SYSTÈME DE FORMALISATION
7.2.1 Extraction des concepts du diagramme de classe
7.2.2 Génération de XML Schéma du diagramme de classe
7.2.3 Formalisation de la modélisation conceptuelle en event-B
7.3.3.1 RODIN, outil support d’event-B
7.2.3.2 Event-B par rapport à B classique
7.2.3.3 Structure d’un modèle Event-B
7.2.3.4 Passage d’UML vers event-B
7.2.3.5 le Plug-in UML-
7.3 RÉSULTATS ET ÉVALUATIONS
7.4 CONCLUSION
8. CONCLUSION GÉNÉRALE ET PERSPECTIVES
BIBLIOGRAPHIE
ANNEXE.

 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *