Inférence de réseaux causaux à partir de données interventionnelles

Contexte biologique

Génomique

Les êtres vivants, de la bactérie à l’être humain, sont tous bâtis à partir de cellules. Celles-ci contiennent notamment du matériel génétique, ARN ou ADN protégé par une membrane qui définit la limite de la cellule. De plus, ces cellules peuvent posséder un noyau où le matériel génétique y est protégé. Le dogme fondamental de la biologie pose la relation entre ADN, ARN et protéine comme le pilier central des organismes vivants. Par divers mécanismes, l’ADN est transcrit en ARN, qui lui même est traduit en protéine, avec des variations nombreuses dans ces deux étapes en fonction de l’environnement cellulaire. Ces protéines assurent les différentes fonctions cellulaires et extracellulaires, comme les voies de signalisation ou de transport au sein de la cellule, mais aussi la défense contre les attaques extérieures via les anticorps ou la transformation moléculaire via les enzymes. Ces différentes catégories de molécules font chacune l’objet d’études approfondies, pour en comprendre le fonctionnement, parmi lesquelles :
— la génomique, qui est l’information disponible sur l’ADN d’un individu,
— la transcriptomique, qui est l’ensemble des transcrits présents dans la cellule,
— la protéomique, qui est l’ensemble des protéines exprimées par une cellule à un instant donné,
— la métabolomique, qui est l’ensemble des petites molécules, les métabolites, présentes dans la cellule à un instant donné,
— la phénomique, qui est l’ensemble des phénotypes, c’est-à-dire les caractéres observables,
— la métagénomique, qui concerne l’information génétique disponible dans un milieu donné (par exemple, l’intestin).

Ces différents champs -omics ont par nature de nombreux liens entre eux, et varient en fonction du temps, de l’environnement cellulaire et extra-cellulaire. Ainsi dans un organisme complexe comme un mammifère, le transcriptome issu d’une cellule de foie à une étape embryonnaire sera tout à fait différent de celui d’une cellule de cœur d’un adulte, du fait de phénomènes épigénétiques comme la méthylation ou l’acétylation. Un exemple célèbre d’influence de l’épigénétique concerne la couleur des poils de rats : celle-ci varie en fonction de la méthylation d’un certain gène, allant du jaune au gris [24]. Il faut bien comprendre que ces différentes études ne sont possibles que par les formidables progrès techniques réalisés ces dernières décennies. En effet, les avancées se sont succédées avec une vitesse folle : avec la découverte de l’ADN en 1953 [104], ou de la structure de la première protéine toujours en 1953 [88], ou du séquençage complet d’un génome en 1977 [87]. Le passage à l’échelle industrielle de ce séquençage au début du XXIe siècle a mis à la portée du plus grand nombre la lecture du génome. Ce sont des données qui ont l’avantage d’être stable pour un individu donné, peut-être plus encore que le phénotype, contrairement aux concentrations ou même la présence d’ARN, de protéines ou de métabolites. Cependant cette stabilité se paye par la perte des des informations épigénétiques plus difficiles à obtenir, celles-ci modulant l’expression du génome dans le temps et dans l’espace. Ce cadre étant précisé, nous travaillerons uniquement avec des données transcriptomiques, en prenant comme hypothèse qu’elles décrivent fidèlement l’état d’activation ou d’inactivation des différents gènes présents dans le génome.

Ces données massives nécessitent des outils particuliers, et notamment des outils mathématiques. Cela donne lieu à la biologie des systèmes, qui s’entend regarder l’ensemble des éléments conjointement, permettant une interprétation qui ne peut être révélée par l’étude de chacun de ces éléments [59; 83]. Dans notre cadre particulier, il s’agira de l’étude de réseaux de régulation de gènes plutôt que celle de chacun des gènes pris indépendamment. Ces modèles mathématiques ne peuvent souvent être utilisés et appliqués que grâce à l’outil informatique : ainsi la biologie computationnelle concerne cette interface entre les données biologiques et l’informatique, où les problématiques de temps de calcul ou de stockage mémoire sont souvent de mise. Cette thèse s’inscrit dans ce cadre : nous allons tout au long de cette thèse présenter des méthodes capables d’utiliser de grands jeux de données issues de la biologie, dans le but d’évaluer les mécanismes du vivant par des moyens informatiques.

La lecture massive du génome étant actée, se pose la question de la compréhension des fonctions et des interactions à l’intérieur du génome. Cette compréhension nécessite souvent de faire varier un unique paramètre, ici un unique gène, toutes choses égales par ailleurs. La sélection a pourtant été longtemps l’unique manière de faire varier cette composante génétique, avec son lot de variables confondantes. Cela peut par exemple prendre la forme d’une invalidation fonctionnelle, c’est-à-dire qu’une lignée sélectionnée porte une version mutée d’un gène, amenant la perte de la fonction d’une protéine. La technique de l’ARN interférent, dont la découverte date des années 90, a permis de limiter quelque peu ces variables confondantes [92]. Cette technique consiste à injecter dans les cellules concernées de petits fragments qui s’apparient spécifiquement avec des ARN complémentaires dont l’on souhaite la destruction. Cet appariement provoque la destruction des ARN ciblés. Néanmoins cette spécificité n’est pas totale, et il y a toujours potentiellement des off-target, c’est à-dire un appariement et donc une destruction avec d’autres ARN. Avec cette technique, on parlera de knock-down d’un gène, c’est-à-dire de la diminution de l’expression d’un gène, sans toutefois faire disparaitre cette expression. Récemment de nouvelles techniques sont apparues permettant l’édition précise et directe du génome. Parmi elles se trouve la très prometteuse CRISPR-Cas9 [93]. Cette technique consiste, par l’intermédiaire du complexe moléculaire CRISPR-Cas9, à détruire précisément une portion du génome. Cela permet de réduire considérablement ce phénomène de off-target. On parlera dans ce cas de knock-out ou d’invalidation génétique : il n’y a plus du tout d’expression pour le gène concerné, contrairement au knock-down.

Transcriptomique

Recueil des données

L’acquisition des données transcriptomiques s’effectue essentiellement par deux techniques : celle basée sur les microarrays ou puces à ADN, et celle, plus récente, basée sur le high throughput sequencing ou séquençage à haut débit. La première à été découverte dans les années 1970, même si le développement moderne et industriel date de la fin des années 1990 [10]. Dans les deux cas, puce ou séquençage, on commence par extraire les ARN des cellules, puis on synthétise un ADN complémentaire pour chaque molécule d’ARN, notée ADNc. Pour permettre la lecture, on démultiplie le nombre de chaque ADNc via la technique d’amplification en chaîne par polymérase, ou polymerase chain reaction. Les procédures diffèrent ensuite en fonction de la technique utilisée : pour les puces à ADN, on retransforme les ADNc en ARNc, que l’on colore différemment en fonction de conditions expérimentales différentes. On prépare un gel où sont fixés des ADN complémentaires à des gènes dont l’on souhaite mesurer l’activité, et on laisse ensuite s’apparier librement les ARNc avec ces brins d’ADN. Le résultat est une puce possédant des milliers de lieux de depôts délivrant une couleur différente. C’est la mesure de cette fluorescence, en lien avec les colorations des différentes conditions expérimentales, qui permet d’obtenir une quantification relative du niveau d’expression, ou absolue si une seule condition est utilisée. Le séquençage quant à lui utilise directement le brin d’ADNc, qu’il va séquencer, c’està-dire lire les éléments constitutifs du brin d’ADN. Une des techniques majeure, le pyroséquençage, à été découverte dans les années 1980. L’apparition des premiers séquenceurs industriels à haut-débit ne se fera que dans la fin des années 2000 [46]. Ceux-ci sont dits de deuxième génération, succédant à des séquenceurs à bas-débit. Ceci signifie principalement que ces machines sont capables de lire l’intégralité du génome extrêmement rapidement, en quelques heures seulement, là ou la précédente génération avait pris des années pour lire un seul génome. Les progrès technologiques se poursuivant, une troisième génération de séquenceurs, encore plus rapides, précis et moins chers arrive sur le marché.

Etapes de pré-traitement

Quelle que soit la technique utilisée, les données ne sont généralement pas directement exploitables. Les différentes quantités obtenues ne sont pas comparables, du fait de la réponse propre à chaque puce. En plus de cette variabilité de mesure, il y a aussi celle inhérente à l’expérience : chaque observation induit un bruit propre sur l’ensemble des gènes qu’il convient de normaliser. Nous utiliserons principalement des bruits gaussiens, et ce faisant les données doivent respecter cette structure. Pour les données de puces, une intensité lumineuse, strictement positive, est donnée en sortie. Pour les données de séquençage, ce sont des comptages. Ceux-ci peuvent poser problème lorsque nombre de comptage est trop faible. On exclura donc ces cas là, traitables en utilisant une autre modélisation, par loi de Poisson [41] ou par une loi binomiale négative [3]. Pour revenir vers une distribution gaussienne, le principe est d’utiliser une transformation log2 . Des packages R permettent d’affiner cette normalisation, limma [94] pour les données de puces, ou voom [57] pour celles de séquençage. En fonction de la méthode d’acquisition choisie, d’autres prétraitements sont nécessaires. Par exemple, plusieurs ARN peuvent traduire l’expression d’un même gène [69]. Deux solution sont utilisés en pratique : choisir un représentant parmi ces différents ARN ou effectuer une moyenne. Le choix dépend des problématiques biologiques sous jacente ainsi que des informations supplémentaires disponible. A défaut, on choisira ici de prendre la moyenne dans le but de rendre comparable les différents niveau d’activations des gènes.

Réseaux de régulation génique

Pour étudier l’effet des différents gènes, les biologistes ont tout d’abord travaillé selon une approche réductionniste : chaque élément est étudié à la loupe indépendamment du reste [95]. Cela a donné lieu à quantité d’informations, ce qui a permis d’établir les premières voies de signalisation métaboliques. Cependant, dans de nombreux cas, il n’y a pas ou peu d’informations sur une éventuelle interaction entre plusieurs constituants. Les données massives de transcriptomique peuvent quant à elles être utilisées pour effectuer une approche exploratoire, via l’utilisation des réseaux de régulation de gènes. Un réseau de régulation de gènes, ou gene regulatory network, est un réseau que l’on infère à partir de données d’expression de gènes [27]. En ce sens, ce réseau traduit les interactions entre les différents gènes. Celles-ci sont de multiples natures : activation / inhibition via un facteur de transcription, méthylation d’un promoteur, transcription de micro-ARN. Dans tous ces cas, l’expression d’un gène a une influence sur l’expression d’un autre gène. Bien sûr, ne disposant que d’une infime partie de l’information, les différents intermédiaires liant les gènes sont oubliés, et l’on dira qu’un gène active ou inhibe un autre gène si l’on peut détecter une telle action à partir des données. Cela pose donc la question de l’inférence de ces réseaux. Dans la partie suivante, nous allons étudier les différents outils statistiques le permettant.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction générale
1.1 Contexte biologique
1.2 Réseaux bayésiens
1.3 Causalité
1.4 Organisation du manuscrit
2 Hypothèse d’acyclicité
2.1 Introduction
2.2 Méthode
2.3 Applications et exemples
2.4 Discussion
2.5 Annexe
3 Détection de relations causales marginales
3.1 Introduction
3.2 Méthode
3.3 Résultat
3.4 Discussion
3.5 Références
4 Estimation d’effets causaux par pénalisation L2
4.1 Introduction
4.2 Causalité dans l’expression des gènes
4.3 Navigation dans l’espace des ordres : MCMC-Mallows
4.4 Vers la grande dimension : Pénalisation ridge & squelette
4.5 Simulations et résultats
4.6 Conclusion
5 Parallel tempering
5.1 Introduction
5.2 Résultats
5.3 Conclusion
6 Approximation de Laplace
6.1 Introduction
6.2 Méthode
6.3 Résultats
6.4 Discussion-Ouverture
7 Discussion
A Annexes
A.1 Approche bayésienne
B Bibliographie
B.1 Références