Simplification automatique de textes techniques et spécialisés

La disponibilité croissante d’informations médicales et de santé sur l’Internet facilite l’accès à ces informations. Il est en effet possible de consulter des publications scientifiques, des articles d’encyclopédies ou des publications de sociétés savantes tout en restant chez soi en quelques clics. Cependant, il a été observé que cette démocratisation d’informations spécialisées n’améliore pas leur compréhension par le grand public (Ad Hoc Committee on Health Literacy for the Council on Scientific Affairs, 1999). Nous illustrons l’opacité des informations médicales librement accessibles dans l’exemple (1), issu d’un article de Wikipédia , une encyclopédie en ligne collaborative, libre et gratuite. Comme nous pouvons le voir, ce texte, qui est pourtant créé à destination du grand public, contient de nombreux termes dont la compréhension par des personnes sans formation médicale n’est pas évidente.

Le cholestéatome est une forme d’otite chronique avec présence d’épithélium pavimenteux stratifié dans l’oreille moyenne. Cet épithélium desquame et se kératinise (structure histologique de l’épiderme), et peut provoquer l’érosion voire la destruction des structures contenues dans et autour de l’oreille moyenne. La forme la plus fréquente est le cholestéatome acquis par évolution terminale d’une otite chronique (poches de rétractions essentiellement). Une perforation tympanique acquise post-traumatique ou post-otitique peut également entrainer un cholestéatome par migration de l’épiderme du conduit par la perforation surtout si elle est au contact du sulcus (perforation dite marginale) .

Par ailleurs, des études ont montré qu’une meilleure compréhension des informations de santé par les patients et leurs familles conduit à une meilleure adhésion au traitement et à un processus de soins plus réussi (Berkman et al., 2011). En effet, cette étude indique qu’une faible compréhension des informations de santé mène vers des comportements inadaptés consistant en un recours moindre aux services de soin, en une mauvaise aptitude à suivre des traitements ou des recommandations de santé publique. De plus, l’incompréhension des informations de santé peut également déteriorer la qualité de la communication entre le médecin et le patient et diminuer la confiance mutuelle. La compréhension d’informations médicales par le grand public est donc un enjeu sociétal important.

Deux aspects liés à la compréhension de documents de santé

Pour assurer la bonne compréhension de documents, deux aspects entrent en jeu. Chacun des ces aspects est géré par un domaine de recherche spécifique et complémentaire :
1. D’un côté, nous avons la personne qui lit le document. Il s’agit typiquement du patient ou de sa famille, qui n’ont en général pas de connaissances spécifiques dans le domaine médical. Selon son expérience personnelle, le patient présente ainsi une certaine connaissance et alphabétisation médicale, et donc une certaine capacité à comprendre les informations médicales. Le domaine de recherche qui s’occupe de cet aspect s’appelle éducation thérapeutique du patient (ETP). Ce domaine a pour objectif de rendre les patients plus aptes à recevoir l’information médicale et à la traiter . C’est également ce domaine qui est en capacité de définir les besoins informationnels du patient.
2. De l’autre côté, nous avons le document lu par le patient. Le document a ses propres caractéristiques et, entre autre, son niveau de lisibilité. Pour améliorer la lisibilité du document, il est nécessaire de diagnostiquer les difficultés de compréhension et de les simplifier. Ce processus peut être effectué manuellement ou automatiquement. Lorsque ce processus est effectué automatiquement, il relève du domaine de traitement automatique de langues (TAL).

Pour assurer une compréhension optimale d’un document, les deux aspects doivent être appariés : le document doit présenter un niveau de lisibilité satisfaisant pour le niveau d’alphabétisation du lecteur. Ainsi, les informations présentées doivent comporter le niveau optimal de détails par rapport aux attentes informationnelles de son lecteur. Notre travail s’intéresse à la simplification automatique de documents de santé : il se place donc du côté de cette deuxième question de recherche. Nous allons donc proposer et mettre en oeuvre des méthodes de TAL. À ce jour, il existe plusieurs initiatives qui poursuivent l’objectif de faciliter l’accès aux informations à destination de différents types de population. Nous présentons deux de ces initiatives :
— FALC facile à lire et à comprendre (Audiau, 2009) est une initiative active au niveau européen. Il s’agit d’un ensemble de recommandations définies pour permettre une présentation d’informations accessible au plus grand nombre d’utilisateurs. Ces recommandations sont accessibles en ligne sur le site d’UNAPEI . Ces recommandations portent sur différents aspects des documents, comme par exemple leur mise en page mais surtout la présentation d’informations. Ainsi, une des recommandations indique qu’il faut placer le texte avec une phrase par ligne, faire des phrases courtes, ne pas utiliser de négations, ne pas utiliser plusieurs polices de caractères dans un même texte, ne pas utiliser de notions abstraites, etc.
— Dans le cadre de l’ETP, la Haute Autorité de Santé a également publié un cadre méthodologique pour la conception de documents d’informations écrits . Ces recommandations sont spécifiquement dédiées aux documents de santé.

Simplification automatique

La simplification automatique de textes est un domaine du traitement automatique des langues, qui a pour objectif d’appliquer des transformations sur les phrases d’un texte afin de les rendre plus lisibles, tout en conservant leur sens intact. La tâche a une importance aussi bien à destination des humains (Carroll et al., 1999) que pour faciliter d’autres applications du TAL (Chandrasekar et al., 1996). Concernant la simplification effectuée à destination des machines, différentes applications concrètes du TAL sont donc concernées. Nous présentons ici quelques exemples :
— La première application de simplification cherchait à simplifier les structures de phrases pour qu’elles soient plus faciles à traiter par les analyseurs syntaxiques (Chandrasekar et al., 1996).
— Par ailleurs, la simplification a été utilisée pour adapter certains types de textes à des outils, qui n’ont pas été entraînés pour les traiter spécifiquement, comme par exemple l’analyse d’un texte biomédical effectuée avec des outils entraînés sur des textes journalistiques (Jonnalagadda et al., 2009). Concernant la simplification effectuée à destination des humains, ces méthodes sont explorées à destination de différents publics :
— les personnes mal ou non alphabétisées (Williams & Reiter, 2005) ;
— les personnes sourdes qui ont également des difficultés de lecture et d’écriture (Inui et al., 2003) ;
— les lecteurs dyslexiques (Rello et al., 2013) :
— les personnes atteintes d’autismes (Barbu et al., 2013).
Dans le domaine médical – dans lequel nous nous plaçons ici – la simplification peut également servir à faciliter l’éducation thérapeutique des patients (Brin-Henry, 2014) ou l’accès à l’information par les enfants (De Belder & Moens, 2010).

Création du corpus comparable

Corpus existants

Dans le domaine de simplification automatique, les corpus comparables contiennent des textes complexes et simples traitant des mêmes sujets. Ils nécessitent des méthodes spécifiques, ou un pré-traitement, avant d’être transformés en corpus parallèles alignés et pouvoir être exploités pour les travaux sur la simplification (Brunato et al., 2014). Si les corpus comparables ont l’avantage d’être plus facilement disponibles que les corpus parallèles, les traitements requis pour leur transformation en corpus parallèles alignés sont assez conséquents. Il existe quelques corpus parallèles alignés, obtenus à partir de corpus comparables, disponibles pour la recherche. Ils sont principalement le résultat de simplifications manuelles. Le corpus le plus fréquemment utilisé est le corpus SEW-EW (Simple English Wikipédia – English Wikipédia). SEW-EW propose des couples de documents issus d’articles de Wikipédia en anglais et de leur version en Simple English . C’est un corpus disponible librement, qui a été souvent utilisé dans les travaux de recherche (Zhu et al., 2010a; Biran et al., 2011; Coster & Kauchak, 2011a). Actuellement, il existe deux autres corpus, qui sont également utilisés dans les travaux sur la simplification automatique en anglais :
— Newsela (Xu et al., 2015) est un corpus d’articles de journaux réécrits selon quatre niveaux de simplification. Il est à noter que les consignes données aux rédacteurs ne sont pas publiques. Newsela n’est pas libre d’utilisation. Il est notamment interdit de publier les modèles entraînés sur ces données. De plus, le corpus n’est pas distribué avec une division en ensembles d’entraînement, de test et de validation, ce qui rend difficile la comparaison entre différents travaux qui exploitent ce corpus ;
— WikiLarge (Zhang & Lapata, 2017) est la compilation de trois corpus publiés précédemment (Zhu et al., 2010a; Woodsend & Lapata, 2011; Kauchak, 2013), tous issus de Wikipédia. WikiLarge est disponible librement sans restriction pour la recherche, avec une division en ensembles d’entraînement, de test et de validation. Il est également possible de construire un corpus parallèle à partir de la version francophone de Wikipédia et de Vikidia , une encyclopédie en ligne créée sur le modèle de Wikipédia à destination des enfants de 8 à 13 ans. Cette source a servi pour un travail sur la simplification syntaxique en français (Brouwers et al., 2014) mais n’est pas rendue disponible pour d’autres chercheurs.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction
1.1. Motivation et contexte
1.2. Deux aspects liés à la compréhension de documents de santé
1.3. Simplification automatique
1.4. Objectifs
2. Création du corpus comparable
2.1. Introduction
2.2. Corpus existants
2.3. CLEAR : un corpus médical comparable pour la simplification
2.3.1. Articles encyclopédiques
2.3.2. Notices de médicaments
2.3.3. Résumés Cochrane
2.3.4. Bilan
2.4. Création des données de référence : couples de phrases alignées manuellement
2.5. Typologie des procédés de simplification
2.5.1. Méthode
2.5.1.1. Annotation des cas de regroupement et de découpage de phrases
2.5.1.2. Schéma d’annotation sémantique en types de transformation
2.5.1.3. Annotation syntaxique
2.5.2. Résultats
2.5.2.1. Regroupement et découpage de phrases
2.5.2.2. Analyse des transformations lexicales et syntaxique
2.6. Conclusion
3. Création du corpus parallèle
3.1. Introduction
3.2. État de l’art
3.3. Méthodologie pour l’alignement de phrases parallèles
3.3.1. Pré-traitement
3.3.2. Alignement de phrases
3.3.3. Évaluation
3.3.4. Expériences
3.3.4.1. Baseline
3.3.4.2. Détection de phrases parallèles avec une distribution équilibrée
3.3.4.3. Détection de phrases parallèles selon la sémantique des paires
3.3.4.4. Détection de phrases parallèles avec une distribution déséquilibrée
3.3.5. Résultats
3.3.5.1. Pré-traitement
3.3.5.2. Alignement de phrases parallèles
3.3.5.3. Baseline
3.3.5.4. Détection de phrases parallèles avec une distribution équilibrée
3.3.5.5. Détection de phrases parallèles selon la sémantique des couples avec des données équilibrées
3.3.5.6. Détection de phrases parallèles avec une distribution déséquilibrée
3.3.6. Analyse des erreurs
3.3.7. Valorisation des données : tâche 2 de DEFT 2020
3.3.8. Limites et perspectives
3.4. Étude de la similarité sémantique
3.4.1. Annotation manuelle de la similarité sémantique
3.4.1.1. Données
3.4.1.2. Processus d’annotation
3.4.1.3. Échelles et critères d’annotation des annotateurs
3.4.1.4. Scores agrégés
3.4.2. Analyse des annotations
3.4.2.1. Répartition par score
3.4.2.2. Coefficients de corrélation
3.4.3. Calcul automatique de la similarité des paires de phrases
3.4.4. Bilan
3.5. Conclusion
4. Expériences en simplification automatique
4.1. Introduction
4.2. État de l’art
4.2.1. Simplification automatique de textes
4.2.1.1. Simplification syntaxique
4.2.1.2. Simplification lexicale
4.2.1.3. Méthodes d’apprentissage
4.2.2. Méthodes et outils d’évaluation de la simplification automatique
4.2.2.1. Évaluation automatique
4.2.2.2. Évaluation humaine
4.2.2.3. Discussion
4.3. Expériences en simplification basées sur le modèle de traduction neuronale
4.3.1. Données linguistiques
4.3.2. Protocole expérimental
4.3.3. Évaluation
4.3.4. Résultats
4.3.4.1. Évaluation quantitative
4.3.4.2. Évaluation qualitative
4.4. Conclusion
5. Conclusion