la caractérisation et l’annotation des transcriptomes avec les séquenceurs haut débit

L’ADN

  Depuis le milieu du XXe siècle, nous savons que le vecteur de l’information génétique est l’acide désoxyribonucléique, plus connu sous son acronyme : ADN. Ce dernier est une macromolécule, c’est-à-dire une molécule composée de plusieurs molécules. Les constituants de base de l’ADN sont les nucléotides. Ils sont au nombre de quatre et se distinguent en deux catégories selon la base azotée (ou base) qui les compose : d’un côté les purines avec l’Adénine et la guanine, de l’autre les pyrimidines avec la cytosine et la Thymine. Les noyaux purines et pyrimidines sont ainsi complémentaires grâce à leurs propriétés physico-chimiques respectives permettant leur appariement par liaisons hydrogène, c’està-dire que la thymine est associée à l’adénine et la cytosine à la guanine. On parle de liaisons faibles permettant la construction de la structure tertiaire, c’est-à-dire la double hélice de l’ADN. Cette dernière est constituée de deux brins d’ADN complémentaires enlacés en spirale

Le génome

   Les notions précédentes constituent les éléments essentiels à la compréhension des problématiques actuelles de la biologie moléculaire chez les eucaryotes. L’étude des gènes a été longtemps limitée à celle d’un seul gène ou d’une portion d’un génome. Depuis les années 90, les études ont changé d’échelle pour passer à des analyses globales portant sur le fonctionnement d’un organisme, d’un organe, d’un cancer, etc, le tout à l’échelle du génome (et non plus à celle d’un seul gène). C’est sous le terme de génomique que se définit cette discipline de la biologie moderne. Elle est née de l’évolution concomitante des technologies et de l’informatique, elle comprend principalement 2 aspects : d’une part la génomique structurale qui va s’intéresser à la compréhension des génomes par l’étude de leur séquence, la cartographie des gènes et les comparaisons entre espèces, d’autre part la génomique fonctionnelle qui englobe l’étude des transcriptomes et des protéomes pour arriver à déterminer la fonction des gènes (voir section 1.2). Dans le cadre des programmes de génomique structurale, la première étape est celle du séquençage. Pour donner quelques chiffres, les premiers séquençages de génomes complets sont apparus dans les années 1990 et une dizaine de génomes de référence a vu le jour dans la période de 1990 à 2000. Le site du NCBI recense actuellement plus de 180 génomes disponibles (http://www.genomenewsnetwork.org/resources/sequenced genomes/genome guide p1.shtml). Les programmes d’annotation constituent le deuxième volet, ils nécessitent la mise en commun massive des connaissances et des résultats, c’est le cas du consortium ENCODE pour « the Encyclopedia of DNA Elements » créé pour l’annotation des génomes de l’homme et de la souris (http://genome.ucsc.edu/ENCODE/index.html), en répertoriant l’ensemble des éléments fonctionnels d’un génome incluant les protéines, les transcrits et les éléments régulateurs qui contrôlent les gènes [The ENCODE Project Consortium, 2007]. Parallèlement de nombreux projets de séquençage voient le jour, pour ne citer que les plus marquants, le programme des 1000 génomes humains portés par le 1000 Genomes Consortium et le projet Cancer initié par ENCODE dont la perspective est de coordonner des études à grande échelle sur plus de 50 types de cancers différents et correspondant à plus de 25 000 analyses [Via et al., 2010; International Cancer Genome Consortium et al., 2010]. L’accroissement de ces informations va de pair avec l’augmentation continue du nombre de base de données qui recensent ces informations [Galperin, 2007].

L’essor de la transcriptomique

  Au début du siècle, le séquençage des génomes apparaissait comme la clé de tous les mystères. Pourtant, le décryptage du génome humain [Consortium, 2001] a montré que les informations contenues dans les séquences d’ADN ne permettaient pas de comprendre le mode d’action d’un organisme vivant et les différences entre les espèces. Pour cause, très peu de gènes sont identifiés et l’écart génétique qui sépare les différents mammifères est faible : les gènes de la souris sont à 90% similaires à ceux de l’homme [Waterston et al., 2002]. Si peu de gènes, et si semblables d’une espèce à l’autre ! Comment croire qu’ils contiennent à eux seuls les clés du vivant ? Depuis quelques années, les séquences complètes des premiers génomes sont disponibles et accessibles sur la toile, ce qui accélère la progression de nombreux projets en biologie moléculaire, réduisant des années de travail à des mois, des mois à des jours. En fait, toutes ces informations disponibles sur les génomes ont permis d’aborder la biologie de manière globale et de développer de nouvelles méthodes d’études des transcriptomes. Des approches qui ont permis : la détection de nouveaux gènes dans les organismes ; la mise en évidence de structures complexes de gènes avec une multiplicité d’exons souvent très petits, mais aussi l’existence de zones transcrites non-codantes en dehors des gènes [Johnson et al., 2005; Gerstein et al., 2007] (FIGURE 1.7). Des nouvelles pistes ont ainsi été mises en exergues et ont permis d’identifier de nouveaux mécanismes de régulation cellulaires. Par exemple, des études ont montré qu’une majeure partie du génome, chez l’homme, est transcrite [Bertone et al., 2004; The ENCODE Project Consortium, 2007;  Rozowsky et al., 2007] et que la proportion et le rôle des ARN ne codant pas pour des protéines (ARNnc) est largement sous estimée [Amaral et al., 2008]. Ce type d’études, qui démontre la complexité de la transcriptomique, permettra sans doute d’aider à mieux comprendre l’expression et la régulation des gènes dans les cellules. À peine a-t-on édité quelques séquences complètes des génomes, que se présente un nouveau défi, encore plus grand, les interpréter.

Les génomes et les transcriptomes sont indissociables

  Cependant quelle que soit la méthode utilisée, l’exploitation des données de transcriptomes ne peut s’appuyer que sur une solide connaissance des génomes (séquençage, annotation, caractérisation des sites de régulation, conservation, etc) pour permettre une interprétation globale de l’information biologique. Les scientifiques parlent souvent de génome comme d’une unité simple, mais il s’agit en fait d’un concept largement idéalisé. En pratique, il s’agit d’une entité très variable,d’une espèce à une autre, aussi bien en terme de nombre de bases nucléotidiques, de chromosomes que de gènes. Lorsqu’on veut initier une analyse de séquences, il est nécessaire, dès la première étape, comme dans un texte, de déterminer l’ordre des pages, et les marques de ponctuation. Les facteurs de transcription illustrent bien cette nécessité d’avoir des informations solides à la fois sur le génome et le transcriptome. En effet, toutes les cellules d’un organisme possèdent le même génome, c’est-à-dire la même information génétique contenue dans des gènes avec une régulation sélective (activation des gènes caractéristiques d’un type cellulaire et répression des gènes inadéquats) qui confère aux cellules leur identité [Fisher, 2002]. Cette régulation transcriptionnelle implique d’étroites coopérations entre différents mécanismes impliquant les facteurs de transcription qui se lient sur des sites précis situés sur le génome, et des mécanismes épigénétiques qui modifient physiquement la chromatine. La plupart des mécanismes épigénétiques sont ubiquitaires, ils vont permettre la condensation ou le relâchement de la chromatine, ce dernier phénomène favorisant la transcription. La présence de facteurs de transcription spécifiques va conditionner la transcription et ainsi la spécificité cellulaire. Chaque type cellulaire possède son propre réseau de facteurs de transcription qui sont nécessaires à l’établissement et au maintien de son identité [Sieweke et Graf, 1998]. Dans l’idéal, pour comprendre parfaitement le comportement d’un facteur de transcription donné, les informations doivent être analysées dans un contexte cellulaire en considérant une foule de paramètres incluant l’architecture nucléaire, les domaines de la chromatine, les territoires chromosomiques. Une dérégulation de la transcription dans la cellule peut perturber l’identité cellulaire et ainsi favoriser le développement de tumeurs cancéreuses [Thorne et al., 2009]. La combinaison d’un ensemble d’informations, recueillies dans un système cellulaire donné, aide à l’annotation et la caractérisation des régions non codantes des génomes,ainsi qu’à la compréhension de leur rôle biologique [Alexander et al., 2010] : la caractérisation d’une nouvelle famille de longs ARN non-codants (ARNlnc) a permis la découverte de nouveaux mécanismes de régulation [Rinn et al., 2007; Derrien et Guigó, 2011].

Les ARN non-codants

   En 2004, une nouvelle technologie dénommée Tiling Arrays fait son apparition. Elle est fondée sur le même principe que celui des microarrays à une exception : le génome tout entier, et non plus une toute petite partie, est concernée. Cette particularité rend cette méthode ouverte avec un balayage massif du génome ce qui assure une couverture de la quasi totalité des transcrits exprimés [Bertone et al., 2004]. C’est à partir de cette technologie que des travaux issus de l’université de Yale [Bertone et al., 2004; Johnson et al., 2005] et la société Affymetrix [Cheng et al., 2005; Rozowsky et al., 2007] ont mis en évidence une transcription largement étendue dans le génome humain. De nombreuses régions transcrites ont ainsi été mises en évidence en dehors des gènes connus et des régions identifiées comme codantes car elles ont échappé à tout programme de prédiction : cette nouvelle transcription correspond essentiellement à des ARN non-codants (ARNnc) [Kapranov et al., 2007]. Ces derniers sont assimilés à de la « matière noire », allusion à un concept de l’astrophysique : « l’univers contiendrait beaucoup plus de matière que ce que l’on observe, du fait de l’existence d’une matière noire invisible autour des galaxies ». En effet, les transcrits représentent plus de la moitié de l’ADN d’un génome, alors que les gènes qui codent des protéines ne correspondent, eux, qu’à 1% de cet ADN ! En somme, la moitié de l’ADN se transcrit en ARN qui ne donne pas de protéine. A quoi servent ces transcrits ? Ce nouveau phénomène de transcription massive constitue l’un des points centraux du projet ENCODE, qui comprend l’analyse d’environ 1% du génome humain avec une précision inégalée [The ENCODE Project Consortium, 2007; Rozowsky et al., 2007]. Par ailleurs, l’abondance croissante des données transcriptomiques contrastant avec le décompte révisé à la baisse des gènes de protéines laisse supposer que le transcriptome a un rôle essentiel dans la régulation des gènes. Un autre élément indirect allant dans ce sens est l’abondance des facteurs de transcription (voir section 1.2), au nombre de plusieurs centaines de milliers, en particulier dans les régions introniques et intergéniques du génome [Mardis,2007]. En revanche, un argument contraire parle de surestimation de la transcription. Il semblerait en effet qu’une partie de cette matière noire ne soit que le simple reflet d’un bruit de fond transcriptionnel introduit par différents biais protocolaires [van Bakel et al., 2010]. Ce point fait toujours l’objet de débats et l’utilisation de  méthodologies complémentaires pourrait apporter des précisions sur la caractérisation de ce répertoire transcriptionnel.

La bioinformatique et les séquences biologiques

  L’analyse de séquences biologiques est souvent réalisée in vitro, par les chercheurs en biologie moléculaire, en physiologie ou encore en biochimie. Cependant, depuis l’invention du séquençage de l’ADN et surtout depuis la naissance des séquenceurs haut débit, une analyse in vitro est impossible. En effet, un nombre exponentiellement de séquences de génomes est généré, dont l’annotation reste à effectuer. C’est à ce niveau que la bioinformatique tient son intérêt en permettant une analyse in silico des données à traiter. La bioinformatique aborde les études sous un aspect plus formel où certaines théories développées dans le cadre de l’algorithmique du texte trouvent une application dans le traitement de ces séquences. En outre, il ne s’agit pas simplement d’appliquer des théories aux problèmes biologiques, mais de les adapter, d’en développer de nouvelles plus spécifiques. Dans le cadre du séquençage à haut débit, la première difficulté consiste à organiser une énorme masse d’information et de la rendre facilement accessible à l’ensemble de la communauté des chercheurs (voir section 2.3 du chapitre 2). La deuxième difficulté consiste à concevoir et développer des outils d’analyse capables de gérer cette même masse de données (voir section 2.4 du chapitre 2).

Séquenceurs haut débit

   Avant le passage aux séquenceurs à haut débit (SHD), les séquenceurs Sanger ont dominé l’industrie des génomes sur presque deux décennies et ont permis de nombreuses et considérables réalisations telles que le séquençage et l’assemblage complet du premier génome humain [ConsortiumInternational, 2004]. Cependant, malgré ces avancées sans précédent, le besoin de nouvelles technologies encore plus performantes s’est fait sentir,afin de pouvoir notamment cerner les transcriptomes [Metzker, 2010]. L’arrivée des SHD sur le marché a modifié les approches scientifiques et les applications biologiques. L’atout majeur offert par les SHD est le volume gigantesque de reads pour un coût abordable et une rapidité exceptionnelle. Entre les technologies Sanger et les SHD, on passe de plusieurs années de séquençage à seulement quelques heures, pour produire 100 fois plus de reads, avec un coût 1 000 fois plus réduit [von Bubnoff, 2008]. Cette puissance de séquençage repousse les limites de la biologie actuelle. Pour l’étude de l’expression des gènes,par exemple, les microarrays sont remplacés par les SHD qui sont capables d’identifier et de quantifier des transcrits rares encore inconnus. Ils peuvent donner des informations sur des épissages alternatifs ou des variants de gènes[Wold et Myers, 2007; Wang et al., 2009]. De plus, la faculté de séquencer le génome complet de beaucoup d’organismes ouvre la possibilité de faire des études comparatives et évolutives à grande échelle, ce qui était inimaginable il y a encore quelques années. Une importante application des SHD pourrait être le séquençage d’ une multitude de génomes humains afin de renforcer nos connaissances et compréhensions sur la façon dont les différences génétiques affectent la santé ou les maladies et la réponse aux traitements [Schuster et al.,2010].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I État de l’art
1 Contexte scientifique 
1.1 Introduction à la génomique
1.1.1 L’ADN
1.1.2 L’ARN
1.1.3 La protéine
1.1.4 Le gène
1.1.5 Le génome
1.2 Introduction à la transcriptomique
1.2.1 La transcription
1.2.2 L’essor de la transcriptomique
1.2.3 Les premières techniques
1.2.4 Les génomes et les transcriptomes sont indissociables
1.2.5 Les ARN non-codants
1.3 Introduction à la bioinformatique
1.3.1 La bioinformatique et les séquences biologiques
1.3.2 Les notations et définitions relatives aux séquences
1.4 Mutations biologiques 
2 Émergence du haut débit dans l’étude des transcriptomes 
2.1 Séquenceurs haut débit
2.1.1 Les différents types de séquenceurs
2.1.2 Les séquenceurs et les erreurs générées
2.1.3 Les séquenceurs et les applications
2.2 Différentes techniques du transcriptome par séquençage 
2.2.1 La DGE
2.2.2 Le RNA-Seq
2.2.3 Le ChIP-Seq
2.2.4 Le WGSS
2.2.5 La nouvelle dimension de la transcriptomique
2.3 Structures d’indexation et haut débit 
2.3.1 Les structures d’indexation classiques
2.3.2 Les structures compressées
2.4 Outils de mapping 
2.4.1 Les outils pour les séquences courtes
2.4.2 Les approches par filtration et les graines
2.4.3 Les limites du mapping
2.5 Erreurs de séquences et polymorphisme
2.5.1 La correction des erreurs
2.5.2 La détection des SNV/SNP
2.6 Jonctions d’épissage 
2.6.1 Les épissages classiques
2.6.2 Les épissages chimériques
II Résultats
3 Méthodes pour annoter des reads sur un génome 
3.1 Modélisation du bruit de fond
3.1.1 Définitions et notations des outils statistiques
3.1.2 Définitions des modèles
3.2 Estimations des erreurs de séquences
3.2.1 Occurrence et tag
3.2.2 Modélisation des estimateurs
3.2.3 Calcul de l’erreur standard
3.3 Annotation des transcrits
3.3.1 Pipeline transcriptomique
3.3.2 Méthode biologique pour valider l’expression des transcrits
3.4 Études expérimentales et résultats 
3.4.1 Études statistiques sur le positionnement des reads sur un génome
3.4.2 Évaluation des erreurs sur des ensembles de données réelles
3.4.3 Optimisation de la phase de mapping
3.4.4 Annotation et validation de nouvelles régions transcrites
3.5 Conclusion et discussions 
3.5.1 Les erreurs de séquences
3.5.2 Les séquences non localisées
3.5.3 La longueur des séquences : ni trop courte, ni trop longue
3.5.4 Une stratégie d’annotation : la détection de nouveaux transcrits
4 Structure pour indexer et interroger des reads 
4.1 Description de notre approche
4.1.1 Les requêtes
4.1.2 Les applications
4.2 Implantation de la structure et résultats 
4.2.1 L’algorithme principal
4.2.2 L’algorithme de construction par étape
4.2.3 La procédure pour répondre aux requêtes
4.2.4 Les considérations pratiques sur les Gk arrays
4.3 Description des méthodes alternatives aux Gk arrays 
4.3.1 Les tables des suffixes généralisées
4.3.2 Les tables de hachage
4.4 Comparaisons des structures de données
4.4.1 La description des expériences
4.4.2 Les comparaisons expérimentales
4.5 Conclusion et discussions 
4.5.1 Les Gk arrays, meilleurs que les structures actuelles
4.5.2 Les Gk arrays : une structure versatile
4.5.3 Les limites et les éventuelles perspectives
5 Algorithme spécialisé dans le traitement du RNA-Seq 
5.1 Description de notre approche 
5.2 L’algorithme de CRAC
5.2.1 Vue d’ensemble
5.2.2 Formalisation de l’algorithme
5.2.3 Distinguer les erreurs des causes biologiques
5.2.4 Analyse des breaks
5.2.5 Identifier des informations sur les régions multiples
5.2.6 Optimiser l’algorithme à cause des fausses localisations
5.2.7 Classifier les reads
5.3 Les méthodes expérimentales
5.3.1 La simulation de RNA-Seq
5.3.2 Calcul des scores pour différencier erreurs et causes biologiques
5.3.3 Traitement plus strict de CRAC pour les chimères
5.4 Matériels
5.4.1 Les données simulées
5.4.2 Les données réelles
5.4.3 Les logiciels utilisés pour les comparaisons
5.5 Résultats 
5.5.1 Comparaisons sur les données simulées
5.5.2 Comparaisons sur les données réelles
5.6 Conclusion et discussions 
Conclusion générale et Perspectives
A Matériels supplémentaires
A.1 Matériels supplémentaires des Gk arrays
A.2 Matériels supplémentaires de CRAC
Table des figures
Liste des tableaux
Liste des exemples

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *