Méthodes structurelles et sémantiques pour la mise en correspondance de cas textuels de dysmorphies fœtales

L’ingénierie des connaissances se place dans le cadre de l’intelligence artificielle. Située au croisement de l’héritage des systèmes experts, du traitement du langage naturel et des sciences cognitives, l’ingénierie des connaissances cherche à répondre à l’un des plus gros défis de l’IA : présenter les informations, les procédés de raisonnement et les connaissances spécifiques à un domaine métier dans des représentations dénuées d’ambigüités mais permettant de capturer les subtilités et nuances des langages de ces domaines pour permettre à un programme informatique d’automatiser une partie des traitements et raisonnements effectués habituellement par les spécialistes de ces domaines. Le but n’est jamais de remplacer l’expert, toujours de l’accompagner en facilitant l’accès aux connaissances et en accélérant les procédés cognitifs qui peuvent l’être. Dans cette thèse, nous nous intéressons plus spécifiquement à l’ingénierie des connaissances médicales le domaine de la fœtopathologie, qui est l’étude des anomalies et dysmorphies du fœtus. Les sources d’information utilisées par les ingénieurs de la connaissances sont multiples, mais elles sont principalement de deux types : les documents écrits par les spécialistes du domaine considéré et les entretiens effectués avec ces mêmes spécialistes. Les missions de l’ingénierie des connaissances sont donc de comprendre et décrire des domaines de la connaissance et rendre réutilisable et réutiliser les connaissances de ces domaines.

Plusieurs approches peuvent êtres utilisées, soit séparément soit conjointement, pour essayer de mener à bien ces missions. On pourrait citer deux grandes familles d’approches : celles basées sur les exemples et celles basées sur les formalisations. La première utilise l’inférence à partir de données enregistrées, l’apprentissage automatique (machine learning) ou le raisonnement par analogie. L’un de ses principaux représentant est le raisonnement à partir de cas (RàPC), où le but est de rapprocher des problèmes actuels à des problèmes déjà résolus par le passé, le présupposé étant que deux problèmes similaires devraient également avoir des solutions similaires. Une notion clef de cette famille est donc celle de similarité entre cas ou exemples, afin de pouvoir effectuer des regroupements.

Valeur du texte en ingénierie des connaissances médicales

La médecine partage avec bien d’autres domaines l’omniprésence de la représentation textuelle d’informations. Que cela soit dans les manuels de référence des spécialités, dans les comptes rendus d’examens ou dans les prescriptions et traitements, on retrouve la nécessité d’exprimer l’information sous des formats textuels ayant divers niveaux de structuration.

En France notamment, comme l’explique Charlet (2002), les tentatives d’informatisation des dossiers médicaux des patients ont montré la difficulté résidant dans la conservation du contexte de l’information lorsque des dossiers initialement textuels sont représentés en base de données. De plus, même en présence d’une aide apportée par un système de codage de l’information (via des formulaires associés à un thésaurus, par exemple), les médecins montrent une propension à adjoindre des notes en texte libre aux parcours cliniques qui, eux, sont représentés avec un codage particulier.

Il est également à noter que les efforts de formalisation des ingénieurs de la connaissance arriveront toujours après les besoins des médecins en termes de représentation de l’information. Autrement dit, quel que soit le niveau de formalisation atteint, l’avancée perpétuelle de la médecine fait qu’il existera toujours une période pendant laquelle les besoins de représentation des médecins n’auront pas encore reçu de réponse de la part des ingénieurs de la connaissance, période pendant laquelle la seule option pour les médecins sera d’utiliser le texte libre. Tout ceci tend à indiquer que le texte est un acteur indissociable du processus de sérialisation de l’information médicale, qu’il aura toujours une valeur aux yeux des spécialistes et qu’il restera donc nécessaire de composer avec lui.

Espace des représentations et continuum de structuration

L’extraction d’information d’un texte vise à construire un modèle de données et à l’instancier pour chaque document à partir des éléments trouvés, manuellement ou non, dans un texte libre. Ces deux états, texte libre et données représentées dans un modèle particulier, constituent deux points d’un espace unidimensionnel de représentations que nous appelons continuum de structuration, une notion qui rejoint le spectre caractérisé par Richter et R. Weber (2013b). Il s’agit d’une continuité, c’est à dire d’un ensemble de représentations concevables sur lequel on peut progresser, c’est à dire augmenter la quantité d’information exploitable de manière automatisée par un programme (en structurant et/ou formalisant de plus en plus la donnée). Si de surcroît on le fait sans changer la quantité d’information compréhensible par un humain, nous dirons que ce continuum est bidirectionnel. À l’inverse, s’il y a perte d’éléments d’information ou bien introduction d’ambiguïtés lorsque l’on passe d’une représentation moins structurée à une autre plus structurée, alors nous dirons qu’il est unidirectionnel, puisqu’il sera impossible de reconstituer la source d’information originale après s’être déplacé le long du continuum.

Plus formellement, on définit un continuum de structuration comme un triplet (R, <, P), où :
— R est un ensemble de représentations ;
— < est une relation d’ordre totale sur R ;
— P est un ensemble de fonctions de R → R strictement croissantes selon <, appelées progressions.

Imbrication des tâches d’analyses structurelle et sémantique

Pour tenir compte maintenant du contexte global des groupes de mots, nous allons utiliser le fait qu’une ontologie de domaine relie entre eux les différents concepts. C’est ici que nous faisons intervenir les notions de proximité et similarité sémantique (Harispe et al. 2013). Ces deux notions sont toutes deux des métriques qui rendent compte du lien qui existe entre deux concepts. Par exemple, un concept (celui de «véhicule ») qui est légèrement plus global qu’un autre (celui de « voiture ») aura une similarité assez forte avec ce dernier, et un concept (« café », en tant que boisson) qui partage une relation sémantique avec un autre (« tasse ») aura une proximité assez forte avec lui.

Une fois les deux tâches réalisées, nous avons d’un côté la structure arborescente du document, de l’autre les fermetures sémantiques potentielles pour chaque groupe de mots. Pour affiner ces fermetures sémantiques et réduire l’espace des possibles, nous allons retrouver le contexte global dans la structure arborescente précédemment obtenue. Ainsi, certaines informations présentes uniquement au niveau de granularité grossier ou niveau intermédiaire pourront être répercutées au niveau fin ou niveau détaillé en comparant la proximité des concepts potentiels relevés et en retenant les plus proches.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Valeur du texte en ingénierie des connaissances médicales
1.1.1 Espace des représentations et continuum de structuration
1.1.2 Texte libre contre texte semi-structuré
1.1.3 Mots, termes et concepts
1.1.4 Imbrication des tâches d’analyses structurelle et sémantique
1.2 Un système de raisonnement à partir de cas textuels de fœtopathologie
1.2.1 Contexte d’application : le projet Accordys
1.2.2 Problèmes posés par le corpus
1.2.3 Hypothèse de recherche : intérêt d’une approche hybride structure/contenu
1.2.4 Objectif de la thèse dans ce contexte
1.3 Organisation du mémoire
2 État de l’art
2.1 Méthodes de mesure de similarité basées sur le texte
2.1.1 Modèles vectoriels
2.1.2 Analyse distributionnelle
2.1.3 Topic modeling
2.2 Structuration et extraction d’informations venant de corpus de texte
2.2.1 Traitement des structures énumératives
2.2.2 Segmentation et étiquetage de textes et séquences
2.2.3 Désambiguïsation d’un corpus
2.2.4 Raisonnement à partir de textes (TCBR)
2.2.5 Traitement spécifique des comptes rendus médicaux
2.3 Mesures de similarité basées sur des données utilisant une représentation formalisée
2.3.1 Ontologies et langages formels de représentation des connaissances
2.3.2 Mesures de similarités sémantiques
2.3.3 Usage des technologies du Web sémantique en RàPC
2.4 Comparaisons de structures de données
2.4.1 Mesure de similarités entre chaînes de symboles
2.4.2 Mise en correspondance et mesure de similarités entre arbres
2.5 Synthèse de l’état de l’art
3 Matériel
3.1 Corpus d’Accordys
3.1.1 Provenance et contenu d’un cas documenté de fœtopathologie
3.1.2 Détail d’un compte rendu d’examen fœtoplacentaire
3.1.3 Obtention de
zerregr
zerftrg
zrgttehet
zrgethth
ertzerz
ereggeth
ergteht
ACC et nommage des fichiers
3.1.4 Qualité générale du corpus
3.1.5 Fichiers de détection des duplications
3.2 Ontologies et terminologies de domaine
4 Méthode
4.1 Méthodologie générale
4.1.1 Construction d’un modèle de cas
4.1.2 Élaboration de différentes méthodes d’évaluation de similarités à comparer
4.1.3 Constitution d’une base de cas
4.2 Mise au propre et filtrage du corpus d’Accordys
4.2.1 Sélection du corpus d’entraînement
4.2.2 Filtrage du corpus avec MET.F.I
4.2.3 Filtrage du corpus avec MET.F.S
4.3 Segmentation
4.3.1 MET.Seg.Simple
4.3.2 MET.Seg.Apprentissage
4.4 Annotation sémantique automatique
4.5 MET.Sim.Txt et MET.Sim.Sem : comparaison par modèle vectoriel
4.6 MET.Sim.Struct : mise en correspondance d’arbres
4.6.1 MET.Map.Flexible
4.6.2 MET.Map.Inst
4.6.3 MET.Map.Hybride
4.7 Protocole d’évaluation des différentes méthodes
4.7.1 Comparaison de deux métriques de similarité
4.7.2 Intervention des fœtopathologistes
4.8 Conclusion
5 Conclusion