Intégration de réseaux de régulations génétiques dans la classification de données transcriptomiques

Les puces à ADN sont des outils permettant de visualiser à un instant donné l’activité transcriptomique à l’équilibre d’un échantillon de cellules, pour un organisme modèle. L’activité transcriptomique porte l’empreinte des interactions moléculaires essentielles à la vie de la cellule. Cela se modélise classiquement par un réseau de régulations génétiques (RRG).

Pendant la thèse, nous nous sommes intéressés à l’utilisation de puces à ADN dans trois types de problèmes :
(a) pour déterminer, entre deux situations biologiques, quels sont les gènes qui sont différemment exprimés dans une situation plutôt qu’une autre, on parle alors d’analyse différentielle ;
(b) pour apprendre les différences existant entre deux classes d’individus afin de pouvoir prédire par la suite la classe de nouveaux individus, on parle alors de classification ;
(c) enfin, pour déterminer un réseau de régulations génétiques à partir d’un échantillon homogène, on parle alors d’inférence de RRG.

Ces trois questions sont bien connues des statisticiens dans le cas où le nombre d’individus est inférieur au nombre de variables. Cependant, dans le cas des expériences transcriptomiques, le nombre d’individus (de l’ordre de la dizaine) est très inférieur au nombre de variables (de l’ordre de la dizaine de milliers). On doit ainsi mettre en œuvre des méthodes de sélection d’attributs et des méthodes de classification ou de régression régularisées.

De plus, ces problèmes ne sont pas indépendants. D’une part, des méthodes d’analyse différentielle sont utilisées pour réduire la dimension des jeux de données dans la classification de données transcriptomiques. On y trouve deux classes de méthodes : les approches filter basées sur des tests d’hypothèses et les approches wrapper utilisant des méthodes de classification. D’autre part, les graphes inférés sur des données transcriptomiques peuvent également être utilisés dans des méthodes de classification et dans des méthodes d’analyse différentielle.

– Sur la droite de cette figure est représentée la méthodologie de classification que nous avons adoptée. La classification est effectuée dans un contexte de validation croisée, et la sélection de variables intervient uniquement sur les données d’apprentissage, comme cela est recommandé dans [Ambroise and McLachlan, 2002, Boulesteix and Strimmer, 2005].

– Sur la gauche est représenté le processus d’obtention du réseau de régulations génétiques à intégrer dans la classification. Les méthodes de classification existantes permettant d’intégrer un graphe utilisent toujours des graphes issus de bases de données publiques d’interactions entre gènes et produits de gènes. Cependant ces bases de données ne sont pas toujours adaptées à l’expérience biologique menée. Nous proposons donc d’inférer un ou plusieurs réseaux de régulations génétiques sur des données transcriptomiques indépendantes des données utilisées pour la classification.

La première partie de la thèse présente les méthodes de classification applicables aux expériences de transcriptomique haut-débit. En effet, du fait du nombre d’individus très faible par rapport au nombre de variables, les méthodes de classification échouent à proposer au clinicien ou au biologiste des fonctions de classification suffisamment performantes. Il faut donc non seulement mettre en œuvre des méthodes régularisées mais également des méthodes de réduction de dimension. Dans cette partie, nous mettons également en valeur l’importance, pour les méthodes de classification, de l’estimation des matrices de variance covariance entre les expressions des gènes à travers les individus des différentes classes.

La deuxième partie porte sur l’intégration à proprement parler d’un ou plusieurs graphes dans la classification. Les méthodes de l’état de l’art se concentrent sur la contrainte suivante : deux variables connectées dans le graphe à intégrer doivent avoir des poids identiques dans la classification. Cette contrainte est intégrée dans une méthode de classification comme les Support Vector Machines(SVM) [Rapaport et al., 2007, Zhu et al., 2009] ou dans une méthode de régression classique comme la régression LASSO [Li and Li, 2008]. Or, ces méthodes ne montrent pas d’amélioration notable des performances en classification. Nous proposons une méthode de classification basée sur l’analyse discriminante de Fisher, que nous avons appelée graph constrained discriminant analysis (gCDA), qui permet d’intégrer l’information contenue dans un RRG. L’intégration est effectuée lors des estimations des matrices de variance covariance effectuées dans l’algorithme de l’analyse discriminante. Nous montrons sur des données simulées que les performances en classification sont significativement améliorées.

La troisième partie traite la détermination d’un graphe à partir de données et l’adéquation d’un graphe à des données. Le premier point a été abordé lors d’un travail mené par Arthur Tenenhaus et a débouché sur l’implémentation d’une méthode d’inférence de réseaux. Le deuxième point apporte un complément d’une part aux méthodes d’inférence de réseau, car mesurer l’adéquation d’un graphe à des données permet de sélectionner parmi plusieurs graphes le « meilleur », et d’autre part à gCDA, car cela permet aussi de déterminer le modèle existant entre le graphe à intégrer et la matrice de variance covariance des données (voir rapport-gratuit.com).

La quatrième partie présente l’application de gCDA à des données transcriptomiques réelles issues de bases de données publiques. Cela nécessite d’articuler tous les outils présentés précédemment, de la classification régularisée avec sélection d’attributs à l’inférence de réseau. Nous comparons gCDA aux méthodes de l’état de l’art permettant l’intégration d’un graphe et aux LP-SVM. Nous montrons une amélioration des performances de classification sur certains de ces jeux de données.

Obtenir un RRG et des données transcriptomiques nécessite une collaboration étroite avec les biologistes en charge de la partie expérimentale et des traitements statistiques sur les données brutes. Pour ne pas nuire au fil conducteur de ce mémoire, nous avons reporté en annexe tous les travaux effectués pendant la thèse qui ne sont pas directement en rapport avec l’intégration d’un graphe dans un processus de classification. Les problématiques et données biologiques que j’ai étudiées pendant la thèse proviennent du Laboratoire d’Exploration Fonctionnelle des Génomes (LEFG) du CEA et de la société PartnerChip (start-up du CEA). Ces deux organismes ont participé au financement de la thèse. Le LEFG a hébergé une plateforme d’hybridation de puces à ADN ; il proposait un service d’analyse de données acquises sur des modèles biologiques internes au LEFG ou provenant d’équipes de recherche extérieures. PartnerChip est une société de service d’hybridation de puces Affymetrix qui offre également une prestation d’analyse de données. J’ai donc pu participer à de nombreux projets, complémentaires à mon sujet de thèse, portant sur les points suivants :
– la normalisation de puces à ADN Affymetrix. Nous avons effectué une étude bibliographique de différentes méthodes de normalisation et les avons implémentées sous R. Des traitements statistiques de routine ont été rajoutés et le tout a été compilé dans une librairie R. Cette librairie est actuellement utilisée par les ingénieurs de PartnerChip pour la production des analyses. Une partie de mon travail a également consisté à mettre à jour cette librairie en fonction des besoins de PartnerChip.
– l’analyse de données toxicogénomiques. Ce point concerne le travail effectué pendant mon stage de Master, présenté à la conférence BIOTECHNO 2008 [Guillemot et al., 2008b].

D’autres collaborations ont été entreprises pendant la thèse et ne seront pas explicitées dans ce rapport. Elles portent sur :
– l’analyse de données transcriptomiques de patients en choc septique sévère [Lukaszewicz et al., 2007].
– la localisation de territoires chromosomiques [Heride et al., 2010].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Introduction
1 État de l’art des méthodes de classification de données transcriptomiques
1.1 Méthodes de classification et de régression régularisées
1.1.1 Méthodes de régression
1.1.2 Les Support Vector Machines : une méthode de classification régularisée de référence
1.1.3 Validation croisée
1.2 Gestion de la très grande dimension : de n  p à n < p
1.2.1 Méthodes filter
1.2.2 Méthodes wrapper
1.2.3 Comparaison des différentes méthodes d’analyse différentielle sur des données simulées
1.3 Démarche complète de classification de données transcriptomiques
1.4 Discussion et perspectives
2 Intégration de réseaux de régulations génétiques dans la classification de données transcriptomiques
2.1 Méthodes de l’état de l’art
2.1.1 Intégration du réseau par des méthodes à noyau : transformation spectrale du Laplacien du graphe
2.1.2 Intégration du Laplacien du graphe dans la partie quadratique de la contrainte d’une régression elastic-net
2.1.3 Intégration des arêtes du graphe dans la contrainte de l’optimisation de SVM linéaires
2.1.4 Une contrainte commune
2.2 Approche proposée
2.2.1 Analyse Discriminante
2.2.1.1 Optimiser le ratio de la variance inter classes sur la variance intra classes
2.2.1.2 Déterminer la classe d’un nouvel individu
2.2.1.3 Estimations des paramètres de δ
2.2.2 Analyse discriminante régularisée
2.2.3 Intégration de G dans l’estimation de Σ
2.2.4 Intégration du graphe a priori dans la méthode gCDA
2.2.4.1 Modèle de simulation issu de [Li and Li, 2008]
2.2.4.2 Modèle de simulation proposé
2.2.4.3 Résultats sur les deux simulations
2.3 Discussion et perspectives
3 Inférence de réseaux de régulations génétiques et adéquation de réseaux à des données transcriptomiques
3.1 Coefficient de corrélation partielle
3.1.1 Expression du coefficient de corrélation partielle à l’aide de régressions OLS
3.1.2 Expression de la matrice de corrélation partielle à l’aide de la matrice de variance covariance
3.1.3 Résumé
3.2 Estimation de coefficients de corrélation partielle lorsque n ≤ p
3.3 Mesure de l’adéquation d’un graphe à un jeu de données
3.4 Résultats obtenus sur données simulées
3.4.1 Simulation d’un graphe aléatoire
3.4.2 Modèle de génération de données simulées
3.4.3 Comparaison de différentes méthodes d’inférence de réseaux
3.4.4 Comparer des graphes inférés avec un graphe de référence
3.5 Conclusion et Discussion
4 Résultats de l’intégration d’un graphe dans un processus de classification sur des données transcriptomiques réelles
4.1 Sélection des Probe Sets correspondant aux gènes impliqués dans le cancer selon la base de données KEGG
4.2 Inférence de réseaux de régulations génétiques
4.3 Description des données
4.3.1 Données de cancer de la prostate
4.3.2 Données de cancer du colon
4.3.3 Données de cancer du poumon
4.4 Résultats de classification
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *