Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN

La théorie fondamentale de la biologie moléculaire

Le dogme central de la biologie moléculaire explique le circuit de l’utilisation de l’information génétique au sein de la cellule. Il fait intervenir trois types de séquences : l’ADN (acide désoxyribonucléique), l’ARN (acide ribonucléique) et les protéines.

L’ADN

L’ADN est le support de l’information génétique chez les êtres vivants. Cette information génétique est héréditaire : nous la recevons de nos parents, qui l’ont eux-mêmes reçue de leurs parents et ainsi de suite. L’ADN est une macromolécule biologique qui, avec l’ARN, forme la famille des acides nucléiques. Il est caractérisé par la formation de deux brins enroulés l’un autour de l’autre pour former une double hélice. L’ADN est un polymère linéaire, c’est-à-dire une répétition de sous-unités en une seule chaîne sans embranchements. Dans le cas des acides nucléiques, ces sous-unités sont les nucléotides. Dans l’ADN, quatre nucléotides différents sont utilisés qui sont distingués par leur partie variable, la base azotée, l’adénine (A), la cytosine (C), la guanine (G) et la thymine (T). L’enchaînement de ces différents nucléotides forme une séquence que l’on peut représenter par une chaîne de caractères sur l’alphabet {A, C, G, T}. La molécule d’ADN est orientée et possède une extrémité dite 5’ et une autre dite 3’. Ce chiffre correspond au numéro du carbone dans la structure chimique.
On peut donc donner un sens à la séquence. Conventionnellement, une séquence est écrite à partir de son extrémité 5’ vers son extrémité 3’. Dans la structure en double hélice, les deux brins sont dans des sens opposés, on dit qu’ils sont anti-sens.

L’ARN

L’ARN est très similaire à l’ADN . C’est également un acide nucléique qui prend la forme d’un polymère linéaire. Cependant, en plus d’une légère modification dans la composition chimique du squelette (le sucre a un atome d’oxygène en plus étant donc un ribose au lieu d’un désoxyribose dans l’ADN), il existe une autre différence au niveau des bases azotées. En effet la thymine (T) dans l’ADN est remplacée par l’uracile (U) dans l’ARN. Ces deux ases possèdent les mêmes propriétés de complémentarité avec l’adénine (A).
Cependant l’uracile est capable de s’apparier, dans une moindre mesure, avec la guanine (G), tandis que dans l’ADN une interaction G-T est impossible. Une autre différence importante est que l’ARN est simple brin. Ce brin d’ARN résulte de la copie de l’un des deux brins de l’ADN au niveau d’un gène. Selon le dogme central, l’ARN est considéré comme une simple copie intermédiaire de l’information génétique et n’a pas d’autre fonction dédiée que de transporter cette information de l’ADN contenu dans les chromosomes vers le reste de la cellule.
Une autre propriété fondamentale de l’ARN pertinente dans le cadre de cette thèse, est sa capacité à s’apparier à lui-même. En effet, l’ARN étant simple brin, les bases azotées sont libres de s’apparier entre elles selon les même règles de complémentarité que pour l’ADN, la thymine étant remplacée par l’uracile. De ce fait, si un brin d’ARN possède deux sous-chaînes complémentaires inverses l’une de l’autre, ces deux sous-chaînes vont avoir tendance à s’apparier ensemble.
Il y a formation d’une structure dite en « tige-boucle » composée d’une section double brin formée par les deux sous-chaînes appariées (la tige) et d’une section simple brin formée de la partie comprises entre ces sous-chaînes (la boucle).

De l’ADN à l’ARN, aux protéines, au phénotype

Les différents acteurs ayant été présentés, je vais détailler les processus qui permettent à l’information génétique de passer de l’un à l’autre : la transcription, la traduction puis l’interaction des protéines produites au sein de réseaux.
La transcription :La transcription consiste en la copie d’une séquence d’ADN en une molécule d’ARN appelé ARN pré-messager. Cette étape est réalisée entre autres par une enzyme, l’ARN polymérase II (pol II) responsable de la polymérisation de l’ARN en prenant comme matrice de copie l’un des deux brins d’ADN du gène. L’ARN polymérase II est recrutée à l’aide de signaux présents dans le promoteur du gène qui sont généralement situés à moins d’un millier de nucléotides en amont du site d’initiation de la transcription. Le brin matrice est appelé brin transcrit. Pour un gène donné, le brin transcrit sera toujours le même. La sélection des nucléotides à ajouter se fait grâce à la complémentarité des bases. L’ARN prémessager est donc le complémentaire inverse du brin transcrit. Par construction, il est la copie du brin opposé, dit brin codant.
Cette molécule d’ARN n’est pas encore mature et va subir un ensemble de modifications, dont une étape d’épissage. Durant cette étape, des régions, appelées introns, sont éliminées. Les régions qui ont été conservées sont appelées exons. Les molécules d’ARN vont subir encore plusieurs d’autres modifications incluant l’ajout d’une coiffe 7-methylguanosine en 5’ et l’ajout d’une queue de polyA (une répétition de A) en 3’ qui leur permettent d’éviter la dégradation par un ensemble de mécanismes cellulaires. Après ceci, on obtient un ARN messager mature, ou ARNm, qui est exporté hors du noyau vers le cytoplasme.
La traduction :L’ARNm va maintenant servir de support pour la dernière étape, la traduction. La traduction permet de produire des protéines à partir de l’ARN. Il y a un changement de langage : d’une chaîne d’acides nucléiques d’un alphabet de taille 4 en une chaîne d’acides aminés d’un alphabet de taille 20. Cette traduction se fait au travers d’un code quasi universel, nommé code génétique. Celui-ci se base sur des triplets de nucléotides qui vont chacun correspondre à un acide aminé. Ces triplets sont appelés codons. Sachant qu’il y a 4 nucléotides possibles, il y a 4³= 64 codons possibles. Il existe 3 codons STOP codant pour l’arrêt de la traduction et un codon START. Mais il y a seulement 20 acides aminés. Le code génétique possède donc de nombreuses redondances.

Le mode de fonctionnement des miARN chez les plantes

Du gène au miARN mature :La synthèse de miARN nécessite plusieurs étapes de maturation. À l’inverse des animaux, où une partie importante des miARN est produite à partir de séquences introniques, chez les plantes la majorité des miARN est produite à partir de gènes qui leur sont spécifiquement dédiés (mais peuvent être tout de même aussi produits par des séquences introniques ). De façon générale, un gène ne résulte en la production que d’un seul miARN bien que dans de rares cas un même gène puisse être à l’origine de plusieurs précurseurs de miARN via la formation de plusieurs tige-boucle dans un même transcrit .
Tout comme pour les gènes qui sont traduits en protéines, c’est l’ARN polymérase II (Pol II) qui est chargée de la transcription des gènes de miARN. Ces gènes utilisent ainsi la même machinerie que le reste des gènes et peuvent donc être soumis aux mêmes mécanismes de régulation transcriptionnelle et s’intègrent au sein des réseaux de régulation de la cellule. De la même façon que les ARNm sont modifiés, l’ARN produit par les gènes de miARN va subir un ensemble de modifications comme l’ajout d’une coiffe en 5’, d’une queue poly-A en 3’ [180] et parfois même un épissage .
Le transcrit ainsi obtenu est appelé transcrit primaire, ou pri-miARN. La taille de ce pri-miARN peut varier entre 50 et 900 nucléotides . Le primiARN forme des structures secondaires de taille et de forme variables. Il est cependant caractérisé par l’existence d’une tige imparfaite issue du repliement par complémentarité de séquence du pri-miARN . Le pri-miARN va subir plusieurs modifications . Tout d’abord, un complexe enzymatique comprenant DCL1 va procéder à un premier clivage précis, généralement au niveau de la tige. À cette étape, l’intermédiaire est appelé précurseur, noté prémiARN. Le pré-miARN hérite de la structure en tige-boucle du pri-miARN. Le pré-miARN va être clivé de nouveau par DCL1 pour n’obtenir plus qu’une structure double brin d’environ 20 à 24 nucléotides, un duplex composé du miARN et de sa séquence quasi-complémentaire, le miARN∗, ou guide. Les imperfections de la tige au niveau du duplex (renflements et mismatchs) semblent être importantes dans la reconnaissance par DCL1.

L’actuel défi de la recherche de cibles de miARN

Les nouvelles technologies de séquençage sont capables de produire d’importantes quantités de données. Les procédures de recherche de miARN et de leurs cibles in vivo se sont énormément développées et nécessitent des outils d’analyse de données adaptés. De plus, des études récentes tendent à prouver l’existence de cibles de miARN dans des régions non codantes du génome.
Ceci implique de travailler sur l’intégralité du génome et non plus seulement sur les seules régions transcrites.
En parallèle, le coût de séquençage a largement diminué, produisant toujours plus de séquences de génomes d’espèces non-modèles, sur lesquelles la recherche de cibles de miARN est appelée à se développer. Ainsi, il est observé une augmentation de la quantité de données à analyser aussi bien avec de nouveaux miARN que de séquences génomiques sur lesquelles chercher les cibles. Il est donc nécessaire de proposer des outils capables de fournir un débit important et d’analyser rapidement ces données.
Nous avons pu voir que la phase préliminaire de recherche de séquences complémentaires est cruciale dans la recherche de cibles de miARN. Or, il n’existe pas beaucoup d’outils capables de rechercher exhaustivement les occurrences d’une petite séquence (21 à 24 nucléotides) avec un taux d’erreurs élevé incluant des gaps dans une séquence de plusieurs millions de bases, telle qu’un génome, tout en étant rapide.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
1 Le contexte biologique
1.1 La théorie fondamentale de la biologie moléculaire
1.1.1 L’ADN
1.1.2 L’ARN
1.1.3 Les protéines
1.1.4 De l’ADN à l’ARN, aux protéines, au phénotype
1.1.5 La diversité des ARN : au-delà de simples messagers
1.2 Les miARN
1.2.1 Historique
1.2.2 Le mode de fonctionnement des miARN chez les plantes
1.3 Recherche de cibles de miARN
1.3.1 Approche expérimentale
1.3.2 Critères d’identification de cibles pour une approche in silico
1.3.3 Les outils de prédiction de cibles
1.3.4 L’actuel défi de la recherche de cibles de miARN
2 Recherche de motifs approchée, les graines 01∗0
2.1 Notations et Définitions
2.2 La recherche de motifs approchée
2.2.1 La distance de Levenshtein
2.2.2 La recherche par programmation dynamique
2.2.3 Le filtrage par graine
2.3 L’indexation plein texte
2.3.1 Pourquoi indexer ?
2.3.2 Un premier index, le trie des suffixes
2.3.3 L’arbre compact des suffixes
2.3.4 La table des suffixes
2.3.5 Le FM-Index
2.4 Les graines 01∗0
2.4.1 Définitions
Efficacité du filtrage
2.4.2 Algorithme
2.4.3 Phases d’élongation et de vérification
2.4.4 Implémentation
2.5 Performances de Bwolo
2.5.1 Choix des outils pour la comparaison
2.5.2 Jeu de données 1 : séquences aléatoires
2.5.3 Jeu de données 2 : lectures de séquençage
3 Recherche de cibles de miARN chez A. thaliana et A. lyrata
3.1 Identification des cibles potentielles
3.1.1 Préparation des données
3.1.2 Construction de miARN aléatoires
3.1.3 Prédiction des cibles
3.2 Rappel et précision pour les cibles canoniques de A. thaliana
3.3 Analyse à l’échelle des génomes de A. thaliana et A. lyrata
3.3.1 Nombre de cibles potentielles de miARN
3.3.2 Distribution des cibles potentielles de miARN
3.3.3 Distribution des cibles intergéniques
3.4 Discussion
Conclusion Générale
Amélioration des graines 01∗0
Vers un outil adapté à un contexte biologique plus large
Bibliographie