EXTRACTION D’INFORMATION MEDICALE

EXTRACTION D’INFORMATION MEDICALE

Problématique

La recherche d’information classique est affectée par plusieurs problèmes dans différent domaine tel que le domaine médical où les termes importants (comme les entités médicales) sont rencontrés plusieurs fois. Toutefois, un terme peut apparaître plusieurs fois dans une collection de documents, mais à chaque fois avec une signification différente. Les systèmes de recherche d’information classique traitent les variations d’un terme comme étant des termes différents. Par exemple c’est le cas des synonymes et des abréviations. Cela affecte la recherche et nécessite soit l’intégration des thésaurus ou soit des médecins spécialistes pour spécifier toutes les variations possibles dans leur requête s’ils souhaitent récupérer tous les documents pertinents. Dans les rapports cliniques, les médecins utilisent des entités médicales ou une propre terminologie pour décrire l’état d’un malade, (exemple : abréviations, termes traduits, termes largement utilisées). De plus, les requêtes des médecins contiennent aussi des entités médicales ce qui donne l’opportunité aux moteurs de recherche d’améliorer leur compréhension. Ces concepts ou entités médicales peuvent avoir plusieurs variations et c’est le cas par exemple des synonymes (exemple: « gonarthrose » et « arthrose du genou »), ou d’exprimer une même relation entre deux entités médicales ayant une même catégorie sémantique (exemple: « orthèse genou » et « gonarthrose », « prothèse genou » et « gonarthrose »). Pour faire face à ce problème, ceci nécessite l’intégration des thésaurus ou des ontologies médicales pour spécifier toutes les variations des entités médicales contenues dans la requête pour pouvoir récupérer tous les documents pertinents. Bien qu’il existe des ressources sémantiques dans le domaine médicale (exemple: MeSH4 , SNOMED int5 , NCIt6 ) la plupart des relations qui existent dans ces ressources sont des relations hiérarchiques (hyponymie, hyperonymie et de synonymie), ces ressources manquent de relations syntagmatique (Embarek, 2008). Pour remédier à ce problème et pour assurer une recherche de qualité, nous avons utilisé les techniques d’extraction d’information pour pouvoir alimenter une ontologie médicale contenant les entités médicales et les relations syntagmatiques qui les relient. Cette ontologie est intégrée dans un système de recherche d’information médicale pour étendre la requête de l’utilisateur. Cinq tâches distinctes caractérisent les principales capacités fonctionnelles des systèmes EI actuels: la reconnaissance des entités nommées, la résolution de coréférence, le remplissage de patrons d’entités, l’extraction de relations, et la description d’évènement. Parmi ces tâches, nous nous intéressons à la reconnaissance des entités nommées et l’extraction de relations. Dans ce travail de thèse, nous étudions l’impact de l’extraction d’information dans un système de recherche d’information. Ainsi, nous avons divisé cette étude en deux grande parties; dans la première partie, nous avons développé une ontologie médicale à partir des informations extraites, dans ce cas nous avons entamé deux tâches ; (i) la reconnaissance des entités médicales et, (ii) l’extraction de relations sémantiques dans les rapports médicaux. Dans la deuxième partie de la thèse, nous avons proposé une approche sémantique de recherche d’information; cette approche est basée sur l’ontologie construite. Cette dernière est utilisée pour étendre la requête de l’utilisateur dans un système de recherche d’information. De nos jours, le médecin a besoin d’un système de recherche pour lui faciliter l’accès à ces rapports médicaux dans les brefs délais. Les systèmes de recherche centralisés deviennent insuffisants pour manipuler des informations à large échelle, ils sont inadéquat pour traiter un nombre important de requêtes sur l’index. Pour assurer une recherche rapide et scalable nous proposons une architecture à large échelle basée sur le Cloud Computing pour la représentation de l’index et l’ontologie dans un environnement distribué.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

RESUME
ABSTRACT
REMERCIEMENTS
DEDICACES TABLE DES MATIERES
LISTE DES TABLEAUX
LISTE DES FIGURES.
INTRODUCTION ET PROBLEMATIQUE
1. INTRODUCTION
1.1. Contexte de la thèse
1.2. Problématique.
1.3. Contributions
1.4. Liste De Publications
1.5. Organisation de la thèse PREMIERE PARTIE : ÉTAT DE L’ART
2. EXTRACTION D’INFORMATION MEDICALE
2.1. Introduction
2.2. L’extraction d’information
2.2.1. Définition
2.2.2. Les tâches d’extraction d’information
2.3. La Reconnaissance des Entités Nommées
2.3.1. Les classes des entités nommées
2.3.2. Les difficultés de la catégorisation des entités nommées
2.4. Extraction des Relations Sémantiques
2.4.1. Relations paradigmatiques
2.4.2. Relations syntagmatiques
2.5. Les Méthodes d’extraction d’information
2.5.1. Les méthodes à base de règles
2.5.2. Les méthodes d’apprentissage automatique
2.5.3. Les méthodes hybrides
2.5.4. Les méthodes à base d’ontologies
2.6. Mesures d’évaluation des Systèmes d’extraction d’information
2.7. Travaux sur l’extraction d’information médicale
2.7.1. Reconnaissance des entités médicales
2.7.1.1. Systèmes à base de règles
2.7.1.2. Systèmes à base d’apprentissage automatique
2.7.1.3. Systèmes utilisant l’approche hybride
2.7.2. Extraction des relations médicales
2.7.2.1. Systèmes à base de patrons
2.7.2.2. Systèmes par apprentissage automatique
2.7.2.3. Systèmes utilisant l’approche hybride
2.8. Conclusion
3. LES ONTOLOGIES ET LA RECHERCHE D’INFORMATION
3.1. Introduction
3.2. Les ontologies.
3.2.1. Définition
3.2.2. Les composants de base d’une ontologie
3.2.2.1. Les concepts
3.2.2.2. Les propriétés
3.2.2.3. Les relations
3.2.2.4. Les instances
3.2.2.5. Les axiomes
3.2.3. Classification des ontologies
3.2.3.1. Classification de Van Heijs
3.2.3.2. Classification de Guarino
3.2.3.3. Classification de Lassila et McGuinness
3.2.4. Méthodologie de modélisatio
3.2.4.1. La méthodologie de Uschold et King
3.2.4.2. La méthode METHONTOLOGY
3.2.4.3. La méthode ON-TO-KNOWLEDGE
3.2.4.4. La méthode ARCHONTE
3.2.5. Les formalismes de représentation des ontologies
3.2.5.1. Les graphes conceptuels
3.2.5.2. Les logiques de description
3.2.6. Les langages de représentation des ontologies
3.2.7. Les ressources sémantiques dans le domaine médical
3.2.7.1. Les dictionnaires
3.2.7.2. Les taxonomies
3.2.7.3. Les thésaurus
3.2.7.4. Les ontologies
3.3. La recherche d’information
3.3.1. Notions de base de la RI
3.3.1.1. Document.
3.3.1.2. Requête
3.3.1.3. Modèle de représentation
3.3.1.4. Le processus de recherche
3.3.1.5. Fonction de pondération
3.3.2. Système de recherche d’information (SRI
3.3.2.1. L’indexation
3.3.2.2. L’appariement requête-document
3.3.3. Les modèles de recherche d’information
3.3.3.1. Le modèle booléen
3.3.3.2. Le modèle vectoriel
3.3.3.3. Le modèle probabiliste
3.3.4. Les problèmes de la recherche d’information classique
3.3.5. Expansion de la requête
3.3.5.1. Utilisation d’un corpus de documents
3.3.5.2. Utilisation de Ressources sémantiques
3.3.5.3. Enrichissement basée sur les logs
3.3.5.4. Enrichissement basée sur des données du web
3.3.6. Évaluation des systèmes de recherche
3.3.7. Recherche d’information médicale à base d’ontologie
3.4. Conclusion
DEUXIEME PARTIE : APPROCHES PROPOSEES
4. RECONNAISSANCE DES EM ET RM A PARTIR DES RC ECRITS EN FRANÇAIS
4.1. Introduction
4.2. Les avantages du système proposé
4.3. Notre objectif
4.4. Principe de la solution proposée
4.4.1. Les grammaires locales
4.4.2. Reconnaissance des entités médicales
4.4.2.1. Processus de reconnaissance des entités médicales
4.4.2.2. Étude expérimentale et discussion des résultats
4.4.3. Extraction des relations médicales
4.4.3.1. Étude expérimentale et discussion des résultats
4.4.4. Bilan4.4.5. Construction de l’ontologie orthopédique
4.4.5.1. Les composants de l’ontologie
4.4.5.2. Construction de l’ontologie orthopédique
4.5. Conclusion
5. RECHERCHE D’INFORMATION MEDICALE
5.1. Introduction
5.2. Les objectifs de la solution proposée
5.3. Architecture adoptée
5.3.1.1. La phase d’indexation
5.3.1.2. La phase d’analyse de requête
5.3.1.3. La phase d’expansion de requête
5.3.1.4. La phase de recherche
5.4. Les méthodes d’expansion de requête proposées
5.4.1. Expansion des entités médicales
5.4.2. Expansion par extraction de relations sémantiques dans le contexte de la requête
5.4.3. Expansion par reformulation booléenne de la requête
5.4.4. Étude expérimentale et résultats obtenus
5.4.5. Comparaison avec la méthode classique
5.4.6. Discussion des résultats
5.5. Architecture distribuée à large échelle proposée
5.5.1. Exemples de systèmes de recherche d’information à large échelle
5.5.2. Proposition d’un système de recherche sémantique à large échelle
5.5.2.1. Vue d’ensemble
5.5.2.2. Les outils utilisés dans ce système
5.5.2.3. Description du système de recherche à large échelle proposé
5.5.2.4. Processus d’indexation et d’extraction
5.5.2.5. Processus de recherche
5.6. Conclusion
CONCLUSION ET PERSPECTIVES
BIBLIOGRAPHIE