La segmentation d’images histologiques par calcul haute performance

Tissu nerveux

Le tissu nerveux est commun aux organismes vivants du sous-règne bilateria. Il s’organise en plusieurs systèmes et intègrent deux familles cellulaires : les neurones et les cellules gliales. Les neurones assurent la transmission de l’influx nerveux. Ils sont composés d’un corps cellulaire, le soma ou péricaryon, et d’une structure arborescente servant aux connexions nerveuses dont les prolongements cytoplasmiques sont appelés neurites. Le soma peut prendre une grande diversité de forme et de taille. Les neurites se décomposent en deux catégories : 1) l’axone, qui peut atteindre un mètre de longueur et voie de sortie de l’influx nerveux, est souvent entouré d’une gaine de myéline qui accélère la transmission de l’influx nerveux ; 2) l’arbre dendritique, voie d’entrée de l’influx nerveux, il comporte des dentrites et permet les connexions avec de nombreux axones issus d’autres neurones via les synapses. Les synapses peuvent être tripartites voire quadripartites [Schafer et al., 2013][Rudy et al., 2015]. Dans ces cas, les cellules gliales interstitielles participent à l’activité synaptique en la régulant. Les neurones et les cellules gliales forment ainsi un réseau discret permettant la transmission et le traitement de l’information. Les neurones ne sont cependant pas les seules cellules composant le tissu nerveux du système nerveux central, les cellules gliales représentent quant à elles plus de la moitié des cellules du cerveau humain [Azevedo et al., 2009][Squire et al., 2012]. Il est estimé que le corps cellulaire d’un neurone a un rayon compris entre 2,5 et 15 μm [Andersen et al., 2016]. Ce sont les neurones qui vont nous intéresser dans ce manuscrit. Les astrocytes sont des cellules étoilées étroitement connectées aux neurones et qui forment l’essentiel du tissu extraneuronal. Elles participent au maintien de la barrière hématoencéphalique, régulent l’apport en nutriments aux neurones, contribuent à la communication interneurones et maintiennent l’homéostasie de l’encéphale. Elles jouent également un rôle immunitaire et réparateur en cas d’atteinte des neurones, participant à la création des cicatrices gliales. Les cellules microgliales ont une fonction similaire à celle des macrophages dans le reste du corps. Une fois activées, elles forment la principale défense immunitaire du système nerveux et ont pour rôle de détecter et phagocyter les débris neuronaux et les agents infectieux présents dans le cerveau. Non activées, ces cellules participent aussi à la maturation des synapses au sein des synapses quadripartites [Schafer et al., 2013]. Les oligodendrocytes forment les gaines de myéline qui entourent les axones dans le SNC (ce rôle est joué par les cellules de Schwann dans le système nerveux périphérique [Squire et al., 2012]). Ces gaines accélèrent la vitesse de transmission de l’influx nerveux dans les axones.

Maladie d’Alzheimer et recherche préclinique

La maladie d’Alzheimer, décrite par Alois Alzheimer en 1906 [Berrios, 1990], est la maladie neurodégénérative la plus répandue dans le monde avec une prévalence de 5% à 8% pour les plus de 60 ans en 2017 [Witthaus et al., 1999][World Health Organisation, 2017]. Elle est aussi une des maladie les plus coûteuses pour la société dans les pays développés [Hay et al., 1987]. Les symptômes de la maladie évoluent au cours du temps [Förstl et al., 1999]. Les stades précoces impliquent des difficultés à entreprendre des tâches complexes et la perte de la mémoire à court terme. Avec le temps, les troubles de la mémoire s’aggravent et les patients deviennent de plus en plus grabataires. L’aphasie (impossibilité de parler), l’apraxie (impossibilité de bouger) et l’agnosie (perte de la reconnaissance des stimuli sensoriels) s’ajoutent à la liste des symptômes. Dans le dernier stade de la maladie, le patient ne peut plus quitter son lit sans aide et se trouve dans un état d’apathie et de fatigue constante. Bien que la maladie d’Alzheimer soit terminale, la cause de la mort est souvent externe (pneumonie, infection liée aux escarres) [Förstl et as. 1999]. Cette maladie est caractérisée à l’échelle du tissu par deux lésions : Les plaques amyloïdes sont des accumulations extracellulaires de la 𝛽-amyloïde, forme clivée de la protéine précurseur de l’amyloïde (APP). Ces accumulations entraînent un dysfonctionnement des neurones environnants, puis la mort neuronale par apoptose ou par nécrose [Yankner et al., 1990][Turner et al., 2003][Priller et al., 2006]. Bien que les causes de la formation de ces plaques restent inconnues, une hypothèse étudiée est celle de la propagationagrégation, mécanisme similaire à celui de la maladie de Creutzfeldt-Jakob [Laurén et al., 2009]. Une des hypothèses les plus récentes est la théorie de la clearance, expliquant le surplus de 𝛽- amyloïde par un manque de sommeil entraînant un mauvais renouvellement du liquide cérébrospinal, ce procédé étant indispensable au nettoyage des milieux extracellulaires [Xie et al., 2013] La dégénérescence neuro-fibrillaire : la protéine Tau est une macromolécule essentielle à la stabilité de la tubuline, protéine constituant majoritairement l’assemblage des microtubules qui forment le cytosquelette des axones. Les protéines tau se positionnent perpendiculairement à l’axone et assurent la rigidité des microtubules et le bon transport axonal. La dégénérescence neuro-fibrillaire est le détachement par hyperphosphorylation de ces protéines Tau de la tubuline vers le milieu intracellulaire. L’activité axonale s’en trouve extrêmement dégradée, empêchant le fonctionnement normal du neurone [Hernández et Avila, 2007]. Ces deux lésions provoquent au niveau de l’encéphale une atrophie et une inflammation du tissu nerveux. C’est cette atrophie qui induit la majorité des symptômes de la maladie [Yankner et al., 1990][Turner et al., 2003][Priller et al., 2006][Hernández & Avila, 2007]. Dans la recherche translationnelle, la recherche préclinique se positionne entre la recherche biologique fondamentale à l’échelle des cellules et la recherche clinique consacrée au diagnostic et à l’étude de nouveaux traitements pour l’homme [Jucker, 2010]. Les objets d’étude principaux en recherche préclinique sont les modèles animaux. Un modèle animal est un animal non humain ayant développé, par modification génétique, par provocation sous la forme de lésions ou naturellement, un état similaire à un état pathologique humain. L’enjeu scientifique de l’expérimentation sur les modèles animaux est de comprendre les mécanismes en jeux et de développer des thérapies pour améliorer leur condition. Une fois validée sur les modèles animaux, une thérapie est ensuite testée en recherche clinique. Les rongeurs et les lapins font partie des espèces les plus utilisées en tant que modèle animal à hauteur de 80% [Report from the commission to the council and the european parliament, 2010]. À MIRCen, les modèles animaux utilisés sont les rongeurs (souris et rats) et les primates non-humains (microcèbes et macaques). Toutes les expérimentations sont soumises aux normes et législations européennes visant la réduction du nombre d’animaux sacrifiés à but de recherche (Directive 2010/63/EU).

Imagerie par Résonance Magnétique

L’imagerie par résonance magnétique (IRM) utilise le plus souvent la résonance magnétique des atomes d’hydrogène présents dans les molécules d’eau composant le corps humain. Un aimant avec une force magnétique comprise entre 0,2 et 17 Teslas va d’abord aligner les spins des molécules paramagnétiques. Puis grâce à une antenne radiofréquence, une impulsion électromagnétique va exciter les atomes d’hydrogène passant alors dans un état de haute énergie. Le temps d’excitation représente le temps de changement d’état de spin de l’atome d’hydrogène, le spin s’alignant avec le champ électromagnétique de l’aimant. Quand les impulsions sont stoppées, le spin retourne à sa position d’équilibre en émettant une onde électromagnétique. Des antennes captent ces ondes ainsi que leurs caractéristiques. Le temps de retour à l’équilibre du spin de l’atome d’hydrogène est appelé temps de relaxation. Ces temps d’excitation et de relaxation sont spécifiques au type de tissu, et les différences locales de ces ondes électromagnétiques captées permettent de caractériser localement les tissus. Une étape de reconstruction permet de restituer une image tridimensionnelle. Une image utilisant le contraste issu du temps d’excitation est appelé une image en pondération T1, celle utilisant le contraste issu du temps de relaxation est appelé une image en pondération T2 (Figure 3). Les pondérations T1 et T2 sont des exemples parmi plusieurs séquences IRM existantes. Le choix de la séquence est motivé par l’objet biologique à observer et le contexte de l’observation [Knight et al., 2016]. L’origine de l’IRM dans l’imagerie biomédicale remonte à 1969 avec l’étude de Damadian pour détecter des tumeurs implantées dans des modèles murins (rongeurs) [Damadian, 1971]. Depuis, plusieurs études ont permis la visualisation, entre autre, de l’oxygénation du sang par effet BOLD (permettant de mesurer les différence d’oxygénation du sang) [Ogawa et al., 1990], des fibres de matière blanche [Le Bihan et al., 2001] ou des marqueurs pathologiques de la maladie d’Alzheimer [Jack et al., 2004]. Cet examen n’est pas invasif et les images acquises ont habituellement une résolution spatiale isotrope comprise entre quelques dizaines de microns et le millimètre, la résolution dépendant de plusieurs paramètres (type d’examen, appareillage, gradients, temps d’acquisition ou encore séquence utilisée).

Imagerie de sections histologiques entières

Les coupes produites par les protocoles d’histologie classiques sont ensuite visualisées avec un microscope optique ou numérisées afin de pouvoir être stockées et analysées, les tissus histologiques subissant une péremption au fil des décades (contamination bactérienne, mycoses, perte d’intégrité du tissu). Pour numériser des sections entières, MIRCen est équipé d’un scanner de lames virtuelles Axio Scan Z.1 (https://www.zeiss.com/) capable d’acquérir ces sections entières avec une résolution planaire inférieure au micromètre. À haute-résolution (grossissement x20, 0,22×0,22 µm²), la numérisation peut prendre de plusieurs heures à quelques jours pour 50 sections de cerveau de macaque ou 800 sections de cerveau de souris (ce qui correspond à un demi cerveau de macaque et à trois cerveaux de souris pour un marquage). Dans le cas des protocoles de clarification, un microscope à feuille de lumière numérise le volume en trois dimensions en quelques minutes jusqu’à plusieurs heures en fonction des réglages. Le traitement et la préparation des tissus prend au moins deux semaines (de 8 à 18 jours [Renier et al., 2014]), ce temps variant en fonction de la taille de l’organe à clarifier et des marqueurs utilisés. Dans le cas des études post-mortem, la visualisation ou la quantification d’un volume en trois dimensions (3D) permet d’obtenir des informations plus précises quant à la localisation spécifique d’un marqueur. Dans le cas de l’imagerie cérébrale, la reconstruction post-mortem 3D offre la possibilité d’étudier le cerveau dans son intégralité de les comparer avec les volumes produits in vivo. Cette approche peut être utilisée pour valider de nouvelles techniques d’imagerie (instrumentation, séquences IRM, produits de contraste) ou encore quantifier précisément la distribution d’un marqueur voire de corréler plusieurs marqueurs d’intérêts sur une région ou l’ensemble du cerveau. Pour traiter en trois dimensions des organes de grandes tailles comme un cerveau de macaque (5x6x8 cm), des séries de sections histologiques doivent être empilées et reconstruites en trois dimensions. Cette étape peut être réalisée pour un ou plusieurs marqueurs rendant possibles une colocalisation des marqueurs sur un volume entier à haute résolution. Des protocoles spécifiques ont été développés et sont fréquemment utilisés à MIRCen pour mener diverses études biologiques [Dauguet et al., 2007][Dubois et al., 2010][Vandenberghe et al., 2016]. Le recalage est l’étape de traitement de l’image centrale permettant de réaliser la reconstruction 3D tout en compensant la déformation des tissus due aux procédés de production d’une section histologique. Pour mener à bien cette tâche, il est possible d’aligner les coupes vers une référence géométrique soit acquise in vivo (comme une IRM [Malandain et al., 2004]) soit acquise juste avant la coupe des sections (comme la reconstruction d’une référence photographique blockface) [Dauguet et al., 2007]. Les déformations peuvent être dues à des contractions, à la coloration, à la fixation, à des distorsions mécaniques des tissus dues au prélèvement ou à la coupe. Le recalage à l’aide des photographie prises pré-coupe est la technique la plus utilisée à MIRCen du fait de sa très grande efficacité et précision. Les photographies sont prises avant la coupe de chaque section de tissu. En fin d’expérience, les photographies sont empilées produisant ainsi un volume 3D cohérent qui sera utilisé pour reconstruire la série de coupes histologiques qui seront produites dans un second temps. La méthode de correspondance par bloc (Block-Matching) est utilisée pour recaler les sections à aligner avec leurs photographies correspondantes [Ourselin et al., 2001][Dauguet et al., 2007]. Des blocs de taille fixée sont définis dans les deux images puis une corrélation est calculée pour chaque paire de blocs entre les deux images, ce qui génère une carte de corrélation et un champ de déformation. Une transformation rigide optimale ayant trois paramètres (un paramètre de rotation et deux paramètres de translation) est ensuite calculée entre la photographie de référence et sa section histologique. Cette transformation optimale maximise la fonction de coût de la corrélation entre la section transformée et la photographie correspondante. À partir du champ de déformation, une transformation affine est ensuite estimée en utilisant l’estimation rigide comme initialisation. Une transformation affine a cinq paramètres, un paramètre de rotation, deux de translation, un de dilatation et un de cisaillement. La transformation affine optimale est la transformation minimisant la perte quadratique entre deux blocs corrélés. Ce protocole parvient, dans la majorité des cas, à corriger les principales déformations des sections histologiques et à reconstruire l’organe en trois dimensions. Les seules déformations qui ne sont pas correctement corrigées sont les déformations non-linéaires dues à, par exemple, des déchirures ou des repliements.

Réduction de dimensionnalité et problème de stabilité

Les méthodes projectives sont une suite d’opérations algébriques transformant l’espace de description afin de trouver une ou plusieurs composantes, fusionnant plusieurs caractéristiques, décrivant de manière condensée la donnée. Ces méthodes peuvent ainsi servir pour compresser ou sélectionner des caractéristiques. Néanmoins, l’interprétabilité des composantes, fusions linéaires de plusieurs caractéristiques, est particulièrement complexe à appréhender. De plus, ces méthodes ne permettent pas d’optimiser l’extraction de caractéristique en excluant les espaces algorithmiquement trop complexes à calculer. En effet, si les composantes sélectionnées fusionnent des caractéristiques issues d’extractions coûteuses (comme les caractéristiques d’Haralick Section 5.3.2), le calcul de ces espaces devient obligatoire. Les méthodes de sélection de caractéristiques jugent quant à elles les caractéristiques individuellement ou par sous-ensembles. Ces méthodes permettent une meilleure interprétabilité des espaces de caractéristiques et de l’optimisation de l’étape d’extraction. Pour toutes ces raisons, j’ai donc choisi cette famille de méthodes. Elles jugent la pertinence d’une caractéristique ou d’un groupe de caractéristiques pour un objectif donné et à l’aide d’une métrique spécifique. Une caractéristique qui n’est pas pertinente est appelée caractéristiques non-informative parfois, elle est aussi appelée en anglais garbage feature (caractéristique détritus) [Kudo et al., 2000]. Le principal problème des méthodes de sélection de caractéristiques est le manque de stabilité de la sélection pour une méthode d’apprentissage automatique donnée [Kalousis et al., 2005][Meinshausen et al., 2010][Kuncheva et al., 2018]. Ce problème implique un manque de généralisation des ensembles de caractéristiques sélectionnées, ces ensembles étant trop spécifiques par rapport à la base d’apprentissage utilisée. À l’origine, les méthodes étaient en général conçues pour améliorer les performances en termes de qualité de segmentation et de temps de traitement. La stabilité n’était pas la priorité des recherches sur le sujet. En effet, le phénomène de pointe [Sima et Dougherty, 2008] permet d’améliorer parfois les résultats d’évaluation (F-Score par exemple) de la classification en réduisant le nombre de caractéristiques [Kudo et al., 2000][Guyon, 2003]. Pour l’instant, ce phénomène de pointe n’est pas prédictible et l’ensemble de caractéristiques sélectionnées est un optimum local lié à la base d’apprentissage, se focalisant uniquement sur la recherche de la meilleure évaluation possible. De ce fait, il n’est pas forcément généralisable pour des données similaires. Quelques méthodes tentent de pallier ce problème [Meinshausen et al., 2010 [Awada et al., 2012][Shah et al., 2012][Kuncheva et al., 2018]. Par exemple, la méthodologie de Meinshausen et Bühlmann (reprise dans un contexte différent par Shah et alumni) consiste à améliorer les méthodes existantes en introduisant des amorces agrégantes (bagging) dans certains procédés de sélection [Breiman, 1994][Meinshausen et al., 2010]. Les amorces agrégantes permettent de moyenner les différents sous-ensembles sélectionnés. Les méthodologies présentées dans l’étude comparative d’Awada et as. sont des méthodes développées pour mesurer la stabilité d’une méthode de sélection, pas pour réaliser une sélection stable [Awada et al., 2012]. À notre connaissance, il n’existe pas de méthodologie dont le but soit la stabilité de la sélection est le but. Une méthodologie répondant à ce critère pourrait être utilisée afin d’évaluer et de comparer de manière simple et robuste la stabilité des méthodes de sélection de caractéristiques. La classification des méthodes de sélection de caractéristiques en trois familles de méthodes a été choisie car elle est le plus souvent présentée dans les études comparatives (Figure 16) [Guyon, 2003][Chandrashekar et Sahin, 2014][Kuncheva et al., 2018]. Les filter methods seront appelées « méthode à filtre » car elles filtrent les caractéristiques sans utiliser l’apprentissage automatique. Les embedded methods seront appelées « méthodes incluses » car la sélection est directement incluse dans l’étape d’apprentissage. Enfin, les wrapper methods seront appelées « méthodes intégrées » car la sélection est réalisée dans le cadre de l’évaluation ou de la validation du modèle d’apprentissage.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Contexte
1. Système nerveux central (SNC)
1.1. Tissu nerveux
1.2. Anatomie et fonction du SNC
1.3. Maladie d’Alzheimer et recherche préclinique
2. Imagerie cérébrale
2.1. Imagerie in-vivo
2.1.1. TEP
2.1.2. IRM
2.2. Imagerie post-mortem
2.2.1. Protocoles de production des tissus
2.2.2. Imagerie de sections histologiques entières
2.3. Quantité de données numérisées
3. Problématique
II Etat de l’art
4. Quantification des marqueurs histologiques
4.1. Stratégie de quantification du tissu marqué
4.2. Méthodes de quantification des données d’histologie
4.2.1. Méthodes de quantification manuelles
4.2.2. Méthodes de quantification semi-automatiques
4.2.3. Méthodes de quantification automatiques
5. Méthodes d’apprentissage automatique supervisée
5.1. Evaluation et validation d’une segmentation
5.2. Méthodes d’apprentissage automatique classiques en histologie
5.2.1. Machine à support de vecteur
5.2.2. Modèle de mélange de gaussiennes
5.2.3. Forêt aléatoire
5.2.4. Apprentissage profond (Deep Learning)
5.3. Définition des caractéristiques
5.3.1. Espaces colorimétriques
5.3.2. Espaces décrivant la texture
5.3.3. Complexité algorithmique
6. Réduction de dimensionnalité
6.1. Réduction de dimensionnalité et problème de stabilité
6.2. Familles de méthodes de sélection de caractéristiques
6.2.1. Méthodes à filtres
6.2.2. Méthodes incluses
6.2.3. Méthodes intégrées
6.3. Objectifs et difficultés de la méthode de sélection souhaitée
III Extraction et sélection de caractéristiques
7. Bases de données biologiques
7.1. Cadre éthique de l’étude
7.2. Étude du marqueur NeuN
7.2.1. Production des données histologiques NeuN
7.2.2. Segmentations manuelles de NeuN
7.3. Étude du marqueur anti-Phox2B
7.3.1. Production des données histologiques anti-Phox2B
7.3.2. Segmentations manuelles d’anti-Phox2B
7.4. Vecteur initial de caractéristiques utilisé pour NeuN et anti-Phox2B
8. Développements logiciel réalisés
8.1. Matériel informatique utilisé
8.2. Environnement logiciel BrainVISA
8.3. Algorithmes de segmentation
8.3.1. BioVision
8.3.2. Multi-seuillage
8.3.3. Forêt aléatoire
8.4. Extraction de caractéristiques
9. Exploration des espaces de caractéristiques par Force Brute
9.1. Principe et objectifs de l’exploration par Force Brute
9.2. Méthode de sélection des familles de caractéristiques
9.2.1. Définition d’une famille de caractéristiques
9.2.2. Critères de sélection des familles
9.2.3. Sélection des meilleures familles de caractéristiques
10. Sélection de caractéristiques par Force Brute
10.1. Principe et objectifs de la sélection par Force Brute
10.2. Méthode de sélection des caractéristiques
10.2.1. Algorigramme de la méthode proposée
10.2.2. Critères de sélection de caractéristiques
IV Mise en œuvre et validation de la méthode
11. Comparaison des méthodes de segmentation
11.1. Résultats obtenus avec un marqueur spécifique : NeuN
11.2. Résultats obtenus avec un marqueur non-spécifique : anti-Phox2B
12. Sélection de caractéristiques pour le marqueur spécifique NeuN
12.1. Rappel de l’objectif de la segmentation
12.2. Sélection basée sur la Force Brute
12.2.1. Familles sélectionnées pour NeuN
12.2.2. Vecteur de caractéristiques stables
12.3. Gain computationnel
13. Sélection de caractéristiques pour un marqueur non-spécifique : anti-Phox2B
13.1. Rappel de l’objectif de la segmentation
13.2. Sélection basée sur la Force Brute
13.2.1. Familles sélectionnées pour anti-Phox2B
13.2.2. Vecteur de caractéristiques stables
13.3. Gain computationnel
Discussion et Perspectives