La mise en correspondance de cas textuels de dysmorphies fœtales

VALEUR DU TEXTE EN INGÉNIERIE DES CONNAISSANCES MÉDICALES

Sous des formats textuels ayant divers niveaux de structuration. En France notamment, comme l’explique Charlet (2002), les tentatives d’informatisation des dossiers médicaux des patients ont montré la difficulté résidant dans la conservation du contexte de l’information lorsque des dossiers initialement textuels sont représentés en base de données. De plus, même en présence d’une aide apportée par un système de codage de l’information (via des formulaires associés à un thésaurus, par exemple), les médecins montrent une propension à adjoindre des notes en texte libre aux parcours cliniques qui, eux, sont représentés avec un codage particulier.
Il est également à noter que les efforts de formalisation des ingénieurs de la connaissance arriveront toujours après les besoins des médecins en termes de représentation de l’information. Autrement dit, quel que soit le niveau de formalisation atteint, l’avancée perpétuelle de la médecine fait qu’il existera toujours une période pendant laquelle les besoins de représentation des médecins n’auront pas encore reçu de réponse de la part des ingénieurs de la connaissance, période pendant laquelle la seule option pour les médecins sera d’utiliser le texte libre.
Tout ceci tend à indiquer que le texte est un acteur indissociable du processus de sérialisation de l’information médicale, qu’il aura toujours une valeur aux yeux des spécialistes et qu’il restera donc nécessaire de composer avec lui.

Structuration et extraction d’informations venant de corpus de texte

Nous nous intéresserons ici d’abord à deux choses : les structures énumératives et l’ambigüité dans un corpus de texte. Nous présenterons ensuite le domaine du raisonnement à partir de textes (une branche du RàPC), puis de l’extraction d’information depuis des comptes rendus médicaux.

Traitement des structures énumératives

Comme l’explique Virbel (1999) : Énumérer mobilise deux actes : un acte mental d’identification des éléments d’une réalité du monde dont on vise un recensement, et où on établit une relation d’égalité d’importance par rapport au motif de recensement ; et un acte textuel qui consiste à transposer textuellement la coénumérabilité des entités recensées, par la coénumérabilité des segments linguistiques qui les décrivent.
L’acte d’énumération consiste donc à regrouper des éléments indépendants sous un même critère d’homogénéité. Ainsi, le critère d’homogénéité des informations énumérées est le fait qu’ils présentent tous une observation faite sur une sous-partie d’un placenta.Une structure énumérative (SE) se compose d’une énumération (succession) d’items, possiblement précédée d’une amorce et terminée par une conclusion (ou clôture) (Luc 2001). Ho-Dac et al. (2010) appelle enumeraThème le critère d’homogénéité qui relie les items qui se trouvent au sein d’une même énumération. L’énuméraThème se trouve donc un niveau hiérarchique au dessus des items.

Segmentation et étiquetage de textes et séquences

La segmentation correspond à une première forme de structuration à un unique niveau de granularité (autrement dit en mettant à plat les quatre niveaux définis précédemment). On peut définir plusieurs types de segmentation :
Segmentation en unités lexicales, telles que les mots, phrases, paragraphes ou certains types de structures énumératives (Ho-Dac et al. 2010), Segmentation en thèmes (topics).
La phase d’étiquetage (typage) des segments identifiés est parfois considérée séparément de la segmentation en elle-même. En effet, pour savoir où un segment de texte se termine et où un autre commence, il peut être important d’avoir défini la nature du segment courant, et peut-être des segments qui l’environnent. Le repérage des mots du texte (tokenisation) est par exemple fréquemment suivi par la détermination de leur nature grâce à un étiquetage morpho-syntaxique. Le regroupement des phrases ou paragraphe d’un texte en segments thématiquement liés n’est vraiment utile que si l’on peut caractériser d’une manière ou d’une autre le thème de chaque segment. Ainsi et au vu de nos besoins, nous considérerons segmentation et étiquetage comme un tout indissociable.

Désambiguïsation d’un corpus

Désambigüiser une unité lexicale consiste à trouver l’ensemble des sens possibles et à choisir, en fonction du contexte, celui qui semble le plus probable. Un des premiers modèles de représentation des sens d’un mot, appelé analyse sémique ou componentielle, donne une bonne idée des notions manipulées lors de cette tâche. En analyse sémique une unité lexicale (mot par exemple) a plusieurs sèmes. Un sème (ou trait sémantique) est un composant distinctif de cette unité lexicale qui sera soit positif (l’unité a ce composant), soit négatif (l’unité n’a pas ce composant) soit sans objet (l’unité est orthogonale à ce composant). Ce dernier cas signifie que caractériser en fonction de ce composant n’aurait pas de sens, et serait une erreur catégorielle. Par exemple, la phrase «La couleur bleue est plus lourde que la couleur rouge.» n’a pas de sens dans le langage courant : les couleurs ne possèdent pas de masse, elles ne peuvent donc avoir ni la propriété d’être lourdes, ni sa négation, puisque que dire d’une couleur qu’elle est « légère » n’a pas plus de sens. Couleur et masse sont des notions orthogonales dans le langage courant, bien qu’un domaine artistique pourrait par exemple utiliser une notion de masse pour comparer des couleurs.

Les ontologies et le Web sémantique dans le domaine médical

Le domaine du Web sémantique a été lié au domaine médical peu de temps après sa création. L’un des premiers apports attendus est l’amélioration de l’intéropérabilité des données. Le Web sémantique fournit en effet des standards ouverts pour représenter (RDF) et donner du sens (SKOS, RDFs, OWL) aux données. Les données des systèmes d’information hospitaliers sont la plupart du temps enfermées dans des formats propriétaires. Ceci rend plus difficile la tâche d’agrégation de données dans le cadre d’études cliniques. Le développement de ressources termino-ontologiques (RTO) médicales permet de plus facilement réutiliser et opérationaliser ces données.
Des efforts ont été déployés récemment pour utiliser plus amplement les langages du Web sémantique pour représenter des données cliniques. Tao et al. (2011) par exemple présente une étude visant à fournir une base en RDF à la représentation des méta-données d’études cliniques exprimées dans le modèle HL7 Detailed Clinical Models 7 ou ISO11179. Au delà de leur intérêt pour les études cliniques rétrospectives à partir de données issues d’examens particuliers, les standards du Web sémantique ont aussi un intérêt pour augmenter l’intéropérabilité des ressources à la disposition des médecins eux-mêmes. Ainsi, dans le domaine des guides de bonnes pratiques cliniques par exemple, Galopin et al. (2014) proposent une méthode basée sur un raisonnement ontologique pour détecter les discordances entre différents guides de bonnes pratiques à l’intention des médecins généralistes pour le traitement du diabète et de l’hypertension.
Pour pouvoir partager aussi bien les données que le sens précis qu’elles doivent avoir, de nombreux efforts ont été dépensés dans la création d’ontologies de domaines, autrement dit d’ontologies apportant la spécification d’une conceptualisation d’un sous-domaine médical particulier, par exemple en génétique (Ashburner et al. 2000), en obstétrique (Dhombres et al. 2010), en pneumologie (Baneyx 2007), en oncologie (Sioutos et al. 2007) et en médecine urgentiste (Charlet et al. 2012). Pour centraliser et répertorier cette masse grandissante de ressources, des portails en ligne tels que BioPortal 8 en anglais ou HeTOP 9 (multilingue) ont été mis en place afin de rendre plus facilement accessibles ces ontologies médicales. Ces portails sont notamment intéressants pour les mappings (alignements) qu’ils proposent entre ces ontologies et également entre ceux qu’ils établissent avec des ressources termino-ontologiques plus générales de la médecine et donc de taille beaucoup plus imposante, qui ont souvent été développées à partir de thésaurus. Il s’agit de ressources telles que la SNOMED-CT, le Medical Subject Headings (MeSH), Foundational Model of Anatomy (FMA) ou l’Unified Medical Language System (UMLS).

Usage des technologies du Web sémantique en RàPC

Les problématiques de représentations des connaissances étant au coeur de la thématique RàPC, c’est donc naturellement que cette communauté a commencé à utiliser les ontologies pour formaliser les cas et les liens qu’ils entretiennent (Richter et R. Weber 2013a) ainsi que les langages issus du web sémantique pour représenter ces cas en base et pour les échanger. Nous présentons par la suite des travaux en RàPC utilisant des connaissances pour réaliser diverses étapes du cycle de RàPC, puis des applications dans le domaine médical.

RàPC et connaissances du domaine

Les outils de RàPC ont assez rapidement intégré des méthodes de représentation et de comparaison de cas tenant compte de la sémantique. Ainsi, deux des principaux outils de création d’application de RàPC sans développement myCBR (Bach et al. 2014) et jCOLIBRI (Recio-García et al. 2014) proposent une intégration du langage OWL et de certaines mesures de similarité sémantiques. Avant cela, divers travaux s’étaient intéressés à l’application d’un système de raisonnement à partir de cas sur une base de connaissances formalisées. Bergmann et Schaaf (2003) tout d’abord se sont intéressés aux relations qui existent entre le RàPC structuré et la gestion de connaissances à base d’ontologies (F-Logic dans leur cas), et concluent à une forte relation entre les deux approches aussi bien technologiquement que méthodologiquement. Aamodt (2004) décrit le paradigme du Knowledge-Intensive CBR (KI- CBR), où le système est enrichi avec des connaissances générales du domaine considéré dans le but de « permettre au système de RàPC de raisonner avec des critères pragmatiques et sémantiques plutôt que purement syntaxiques ».
Diverses recherches ont eu lieu pour intégrer le Web sémantique et la prise en compte de la sémantique dans les diverses étapes du cycle de RàPC, comme l’adaptation (Lieber et al. 2008) (Cojan et Lieber 2011) ou l’acquisition de connaissances (Badra et al. 2009).
Ontañón et Plaza (2012) s’intéressent à l’utilisation des opérateurs de raffinement (généralisation et spécialisation) sur les feature terms pour la partie remémoration du RàPC.

Applications en informatique médicale

Le raisonnement à partir de cas étant l’application du raisonnement par analogie au sein de systèmes d’aide à la décision, il semble assez naturel de vouloir l’appliquer à des domaines dans lesquels les spécialistes procèdent souvent par analogie pour identifier des pathologies. Ainsi, les systèmes de RàPC médicaux sont une branche des systèmes d’aide à la décision médicale, qui eux-mêmes sont une branche de l’informatique médicale. Les liens entre l’intelligence artificelle, l’informatique et la médecine ne sont pas récents, et divers ouvrages existent sur le sujet (Fieschi 1984) (Grémy 1987) (Degoulet et Fieschi 2012). Ici, par analogie nous n’entendons pas nécessairement de comparer des cas entre eux, mais également de comparer ces cas à des prototypes déjà établis, prototypes qui ne correspondent pas nécessairement à des cas réels ayant existé. Deux problématiques importantes sont donc ici étudiées : représenter et comparer. Représenter implique de séparer ce qui a trait à un cas particulier (les données de ce cas) de ce qui est connaissance générale d’un domaine médical. Pantazi et al. (2004), qui montrent une utilisation du raisonnement à partir de cas pour la détection de motifs en imagerie médicale, articulent les liens entre connaissances générales et connaissances individuelles (les cas venant des dossiers patient informatisés), et expliquent la difficulté en informatique médicale de faire se rencontrer ces deux types de connaissances.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Valeur du texte en ingénierie des connaissances médicales
1.1.1 Espace des représentations et continuum de structuration
1.1.2 Texte libre contre texte semi-structuré
1.1.3 Mots, termes et concepts
1.1.4 Imbrication des tâches d’analyses structurelle et sémantique
1.2 Un système de raisonnement à partir de cas textuels de fœtopathologie
1.2.1 Contexte d’application : le projet Accordys
1.2.2 Problèmes posés par le corpus
1.2.3 Hypothèse de recherche : intérêt d’une approche hybride structure/contenu
1.2.4 Objectif de la thèse dans ce contexte
1.3 Organisation du mémoire
2 État de l’art
2.1 Méthodes de mesure de similarité basées sur le texte
2.1.1 Modèles vectoriels
2.1.2 Analyse distributionnelle
2.1.3 Topic modeling
2.2 Structuration et extraction d’informations venant de corpus de texte
2.2.1 Traitement des structures énumératives
2.2.2 Segmentation et étiquetage de textes et séquences
2.2.3 Désambiguïsation d’un corpus
2.2.4 Raisonnement à partir de textes (TCBR)
2.2.5 Traitement spécifique des comptes rendus médicaux
2.3 Mesures de similarité basées sur des données utilisant une représentation formalisée
2.3.1 Ontologies et langages formels de représentation des connaissances
2.3.2 Mesures de similarités sémantiques
2.3.3 Usage des technologies du Web sémantique en RàPC
2.4 Comparaisons de structures de données
2.4.1 Mesure de similarités entre chaînes de symboles
2.4.2 Mise en correspondance et mesure de similarités entre arbres
2.5 Synthèse de l’état de l’art
3 Matériel
3.1 Corpus d’Accordys
3.1.1 Provenance et contenu d’un cas documenté de fœtopathologie
3.1.2 Détail d’un compte rendu d’examen fœtoplacentaire
3.1.3 Obtention de ACC et nommage des fichiers
3.1.4 Qualité générale du corpus
3.1.5 Fichiers de détection des duplications
3.2 Ontologies et terminologies de domaine
4 Méthode
4.1 Méthodologie générale
4.1.1 Construction d’un modèle de cas
4.1.2 Élaboration de différentes méthodes d’évaluation de similarités à comparer
4.1.3 Constitution d’une base de cas
4.2 Mise au propre et filtrage du corpus d’Accordys
4.2.1 Sélection du corpus d’entraînement
4.2.2 Filtrage du corpus avec MET.F.I
4.2.3 Filtrage du corpus avec MET.F.S
4.3 Segmentation
4.3.1 MET.Seg.Simple
4.3.2 MET.Seg.Apprentissage
4.4 Annotation sémantique automatique
4.5 MET.Sim.Txt et MET.Sim.Sem : comparaison par modèle vectoriel
4.6 MET.Sim.Struct : mise en correspondance d’arbres
4.6.1 MET.Map.Flexible
4.6.2 MET.Map.Inst
4.6.3 MET.Map.Hybride
4.7 Protocole d’évaluation des différentes méthodes
4.7.1 Comparaison de deux métriques de similarité
4.7.2 Intervention des fœtopathologistes
4.8 Conclusion
5 Réalisations et discussion
5.1 Filtrage des fichiers dupliqués
5.2 Annotation et analyse du corpus
5.2.1 Concepts les plus fréquemment retrouvés
5.2.2 Autres remarques concernant le résultat de l’annotation
5.3 MET.Sim.Txt et MET.Sim.Sem : comparaison par modèle vectoriel
5.4 Comparaison des méthodes d’homogénéisation de cas
5.4.1 Résultats de MET.Seg.Simple
5.4.2 Résultats de MET.Map.Flexible utilisée seule
5.4.3 Résultats de MET.Map.Inst utilisée seule
5.4.4 Résultats de MET.Map.Hybride et conclusion sur l’homogénéisation de cas
6 Perspectives et conclusion
6.1 Divergences entre les réalisations et la méthode prévue
6.2 Mapping entre arbre cas et arbre modèle
6.3 Prétraitement du corpus et post-traitement des arbres
6.4 Ontologie dédiée au domaine
6.5 Retour sur le continuum de structuration
6.6 Conclusion
7 Annexe
7.1 Extraits de code
7.1.1 Typage des lignes d’un compte rendu
7.1.2 Fonction de mesure de similarité entre locus