Construction des ontologies

Construction des ontologies

Contexte et problématique

Depuis son émergence, dans les recherches d’extraction et de modélisation de connaissances, la notion d’ontologie s’est rapidement diffusée dans un grand nombre de domaines de recherche en informatique. Définie comme la représentation formelle et consensuelle au sein d’une communauté d’utilisateurs, des concepts propres à un domaine et des relations qui les relient, la notion d’ontologie apparaît comme un moyen de représenter explicitement et de partager des objets d’un domaine ainsi que leur sémantique. Compte tenu du caractère prometteur de cette notion, de nombreux travaux portent sur l’exploitation des ontologies dans des domaines aussi divers que le TALN (Traitement Automatique de la Langue Naturelle), la recherche d’information, le commerce électronique, le web sémantique, la spécification des composants logiciels, l’intégration de systèmes d’information, etc.. L’efficacité de tous ces travaux dépend de l’existence ou non d’une ontologie de domaine susceptible d’être exploitée.

Or, la conception d’une telle ontologie s’avère particulièrement difficile si l’on souhaite qu’elle fasse l’objet de consensus dans une communauté assez large. Un moyen très largement utilisé pour atteindre cet objectif est de partir d’éléments préexistants dans le domaine : corpus de textes, dictionnaire, taxonomies, thésaurus, fragments d’ontologies préexistants, des schémas de bases de données, etc. et de les exploiter comme connaissance a priori pour la construction progressive d’une ontologie du domaine. Cette tâche correspond à un apport de connaissances et est difficilement automatisable. Dans le cas de la construction d’ontologies à partir de textes, par exemple, il existe néanmoins, et en particulier lorsque des corpus importants sont utilisés, la possibilité de recourir à des outils informatiques pour faciliter l’extraction des termes et des relations, l’analyse syntaxique et distributionnelle, l’identification des synonymes et homonymes, etc., et cela, jusqu’à la représentation formelle de l’ontologie.

Par ailleurs, s’il existe des outils tels que Protégé1, OntoEdit2, etc., utilisés pour éditer formellement une ontologie supposée déjà conçue, et s’il existe également plusieurs outils de traitement automatique de la langue (TAL) permettant d’analyser automatiquement les corpus de textes et de les annoter sur les points de vue syntaxique, distributionnel et statistique, il est difficile de trouver une procédure globalement acceptée, ni a fortiori un ensemble d’outils supports permettant de concevoir une ontologie de domaine de façon progressive et explicite à partir d’un ensemble de ressources informationnelles relevant de ce domaine. Nous nous intéressons dans ce travail de thèse, à la construction semi-automatique d’une ontologie à partir de textes et plus particulièrement une ontologie pouvant représenter un domaine spécifique en langue Arabe.

Objectif et contributions

La construction entièrement manuelle d’une ontologie est une tâche rude, complexe et nécessite beaucoup de temps et de ressources. Le recours à des méthodes automatiques ou semi-automatiques est devenu indispensable, toutefois le recours aux experts pour la validation des résultats au cours de ce processus de création permet d’aboutir à une ontologie plus accomplie et plus précise. Notre objectif dans cette thèse est de proposer et d’implémenter une approche pour la construction semi-automatique d’une ontologie de domaine à partir des textes arabe. L’objectif principal de cette approche est l’extraction des éléments constituant l’ontologie à partir d’un corpus de textes, qui sont principalement les termes et les relations sémantiques reliant ces termes.

Pour atteindre cet objectif, nous avons proposé un processus qui se base principalement sur trois grandes phases : d’abord, nous avons commencé par la collecte et le prétraitement de notre corpus. Dans cette phase, et après la collecte et le filtrage des documents constituant le corpus, le texte passe par trois étapes : la normalisation, la suppression des mots vides et la lemmatisation. Ensuite, dans la deuxième phase, le texte obtenu sera utilisé pour extraire les termes simples et composés par une méthode statistique qui est la méthode des segments répétés. Les segments trouvés dans le texte seront filtrés deux fois : par le filtre TF-IDF (Term Frequency-Inverse Document Frequency) et le filtre coupant. La troisième phase consiste à relier les termes simples et composés trouvé précédemment par trois types de relations sémantiques : Hyperonyme, synonyme et antonyme, en se basant sur les documents textuels de notre corpus, sur un dictionnaire et sur une base de données lexicale. La méthode utilisée dans cette phase se base sur l’apprentissage de marqueurs linguistiques à partir du corpus de texte, des ressources externes et une intervention d’un expert du domaine.

Organisation de la thèse Cette thèse est structurée comme suit :

Le premier chapitre est consacré à tous ce qui concerne les ontologies dont : les constituant, la classification, les langages de représentation, les méthodes de construction et les outils d’édition et de construction des ontologies à partir des textes. Le deuxième chapitre est un état de l’art, il se décompose en deux parties ; la première concerne les approches et outils d’extraction de termes et aussi de relations ; et la deuxième partie contient des résumés de quelques travaux sur la construction d’ontologies à partir des textes arabes. Il convient de dire que, dans ce chapitre, nous avons mis l’accent sur les outils qui supportent ou qui peuvent être adaptés à la langue arabe. Le troisième chapitre, est consacré à la présentation de la méthode proposée pour la construction semi-automatique d’ontologies à partir de textes arabes : extraction de termes et de relations. A la fin de chaque phase, nous détaillons les résultats obtenus pour cette phase avec une évaluation et discussion des résultats obtenus. A la fin, nous présentons une conclusion générale avec quelques perspectives de ce modeste travail de recherche.

Construction des ontologies

La quantité de plus en plus croissante d’information dans tous les domaines a généré un besoin capital d’organisation et de structuration des contenus de documents, disponibles généralement sur le web. Les ontologies en sont un moyen prometteur et qui ne cesse de donner ses preuves. Leurs applications sont multiples : indexation, recherche d’informations, traduction automatique, e-Learning etc. Les principaux buts de la construction des ontologies sont la partageabilité, la portabilité, la réutilisabilité et la capitalisation de la connaissance et de l’expertise d’un domaine. Parce que l’information n’est pas statique, parce qu’elle se modifie, s’enrichisse, s’altère avec le temps et qu’elle vienne de différentes sources, nous avons besoin d’outils et de modèles qui permettent aux utilisateurs et aux experts du domaine de constituer, consulter et maintenir à jour leurs connaissances du domaine.

Le mot ontologie qui vient du grec ontos =être et logos= études, appartient à la philosophie ancienne grecque, Aristote le définit comme la science de l’Être en tant qu’être [Welty & Guarino, 2001]. Il est difficile de définir ce qu’est une ontologie d’une façon définitive. Le mot est en effet employé dans des contextes très différents touchant à la philosophie, la linguistique ou l’intelligence artificielle. Une définition, au sens strict, est donnée en juin 1993, par Gruber [Gruber, 1993], et qui est la plus citée en informatique plus précisément en intelligence artificielle (IA) : « An ontology is an explicit specification of conceptualization.» à savoir : «Une ontologie est une spécification explicite d’une conceptualisation ». L’expression spécification explicite signifie, que la conceptualisation est représentée dans un langage qu’il soit naturel (arabe, français..) ou formel (logique de description, graphes conceptuels..).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Résumé
Table des figures
Table des tableaux
Introduction générale
Contexte et problématique
Objectif et contributions
Organisation de la thèse
Chapitre 1 : Construction des ontologies
1.Introduction
2.Qu’est ce qu’une ontologie
3.Constituants d’une ontologie
3.1. Les concepts
3.2. Les propriétés
3.3. Les facettes
3.4. Les instances
3.5. Les relations
4.Classifications des ontologies
4.1. Ontologies pour la représentation des connaissances
4.2. Ontologies de domaine
4.3. Ontologies de haut niveau
4.4. Ontologies génériques (méta-ontologie)
4.5. Ontologies de tâches
4.6. Ontologies d’application
5.Méthodologie de construction d’une ontologie
5.1. Stratégies de construction d’une ontologie
5.2. Méthodologies de construction
5.2.1. Méthodologie de Uschold et Grüninger
5.2.2. La méthode « Methontology »
5.2.3. Méthodologie de Guarino et Welty
5.2.4. Méthode ARCHONTE
6.Langages de représentation des ontologies
6.1. RDF & RDFs
6.2. OIL
6.3. DAML et DAML+OIL
6.4. OWL
7.Outils de manipulation des ontologies
7.1. Outils d’édition des ontologies
7.1.1 PROTEGE
7.1.2 ODE (ONTOLOGY DESIGN ENVIRONMENT)
7.1.3 JENA
7.1.4 OntoEdit
7.1.5 WebOde
7.1.6 DoE
7.2. Outils de construction d’ontologies à partir des textes
7.2.1. Text2Onto
7.2.2. OntoGen
7.2.3. Terminae
Conclusion
Chapitre 2 : Etat de l’art sur la construction des ontologies à partir des textes
1-Introduction
2-Les étapes de construction d’une ontologie à partir de textes
2.1- Corpus
2.2- Segmentation
2.3- Etiquetage
2.4- Lemmatisation
2.5- Extraction de termes
2.6- Extraction de relations sémantiques
3-Les approches et les outils d’extraction de termes
3.1- Les approches linguistiques
3.1.1- UNITEX
3.1.2- NOOJ
3.1.3- GATE
3.2. Les approches statistiques
3.2.1. Les mesures de similarité pour l’extraction des termes
3.2.2. Les travaux de L. Lebart et A. Salem
3.2.3. Les travaux de Church
3.2.4. Les travaux de R. Oueslati
3.2.5. Les travaux de Kurshid
3.2.6. Les travaux de Heitz (le système EXIT)
3.2.7. Les travaux de Enguerhard (le système ANA)
3.2.8. Les travaux de Dias (Le système SENTA)
3.2.9. Discussion : les approches statistiques
3.3. Les approches hybrides
3.3.1 Système proposé par Boulaknadel
3.3.2. Discussion : les approches hybrides
3.4. Evaluation des systèmes d’extraction des termes
3.4.1. Le corpus de référence
3.4.2. La liste de référence
3.4.3. Les mesures statistiques
4- Les approches d’extraction de relations
4.1. Extraction des relations hiérarchiques
4.1.1. Les travaux de M. Hearst
4.1.2. Les travaux de E. Morin et C. Jaquemin
4.1.3. Les travaux de R. Snow
4.2. Extraction des relations non-hiérarchiques
4.2.1. La relation de causalité
4.2.2. La relation partie-de
4.3. Outils d’extraction de relations
4.3.1. OntoBuilder
4.4. Discussion : les approches d’extraction de relations
5- Les travaux sur la construction d’ontologies à partir des textes arabes
6- Conclusion
Chapitre 3 : Notre Contribution
1.Introduction
2.Objectif
3.Approche proposée
3.1. Corpus
3.2 Ressources externes
3.2.1 Le dictionnaire
3.2.2 La Base de données lexicale
4.Prétraitement du corpus
5.Extraction de termes
5.1. Calcul du poids des termes par la formule tf-idf
5.2. Application du filtre coupant
5.3. Résultats
5.4. Evaluation
6.Extraction de relations
6.1 Apprentissage des marqueurs
6.2. Résultats
6.3. Evaluation
Conclusion
Conclusion générale
Références

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *