Combinaison de modèles phylogénétiques et longitudinaux pour l’analyse des séquences biologiques

En exposant au milieu du dix-neuvième siècle la théorie de l’évolution, Charles Darwin donnait au monde un outil puissant d’analyse et de compréhension des organismes vivants, perçus pour la première fois dans leur grande diversité actuelle et dans ce qu’ils héritent en commun du passé. Ce faisant, il rendait possible les comparaisons interindividuelles ou interspécifiques, aujourd’hui fondamentales dans le domaine des sciences biologiques. On a découvert depuis lors que séquence, structure et fonction sont liées : des protéines présentant des séquences d’acides aminés que l’on peut mettre en correspondance l’une avec l’autre partageront souvent des fonctions semblables (par exemple l’hémoglobine et la myoglobine sont des protéines assurant toutes deux le transport de l’oxygène).

Lorsqu’on souhaite étudier des séquences partageant la même fonction, on les regroupe naturellement pour ensuite former un modèle statistique descriptif de l’ensemble. Traditionnellement, il existe deux sortes de tels modèles :
– ou bien l’on insiste sur les caractéristiques communes dans ce qu’elles ont de directement mesurable sur les séquences contemporaines,
– ou bien l’on modélise avant tout l’histoire évolutive qui a mené aux séquences observées.

Dogme central de la biologie moléculaire

Alors que dès le dix-neuvième siècle les travaux de Lamarck (1744–1829), Darwin (1809–1882) et Mendel (1822–1884) laissaient entrevoir la possibilité d’une évolution des espèces due à des facteurs extérieurs aux organismes vivants mais dont ceux-ci garderaient une trace imprimée d’une certaine façon en eux, c’est le vingtième siècle qui a apporté la découverte de ce fameux acide désoxyribonucléique (ADN) en 1953. Dès lors, les biologistes moléculaires et les évolutionnistes n’ont eu de cesse de se pencher sur la façon dont cet ADN (qui porte ce qu’on appelle le génome) s’exprime dans les cellules des organismes vivants. Très tôt, la communauté scientifique a décrit et adopté un schéma général pour l’expression de ce génome, en indiquant le chemin suivant : ADN → ARN → protéine .

SÉQUENCES NUCLÉOTIDIQUES, SÉQUENCES PROTÉIQUES : DES SUITES DE LETTRES QUI FONT SENS

pas les mêmes protéines que celles du foie, pour ne citer que deux exemples de tissus. C’est encore la régulation qui modifie l’expression des gènes en fonction de paramètres dynamiques issus du milieu dans lequel se trouve la cellule (stress, signalisation extérieure, etc). Enfin, nous sommes loin d’avoir percé tous les mystères de l’information génétique, et de nombreuses portions des génomes restent à l’heure actuelle sans explication concrète. Par exemple, le caractère répétitif de toute une classe de portions de séquences (« éléments transposables », ou « transposons ») issues de réplications (copier-coller) ou de translocations (couper-coller) qui forment chez certains organismes la majeure partie du génome, soulève de nombreuses interrogations sans réponse à ce jour.

Néanmoins, malgré toutes les brèches ouvertes dans le dogme central de la biologie moléculaire, ce dernier donne un schéma opérationnel qui n’a jamais été fondamentalement remis en cause mais bien plutôt de nombreuses fois validé par l’expérience. Ainsi, pour beaucoup de chercheurs en biologie moléculaire, l’objet d’étude s’est déplacé du génome (ensemble des séquences nucléotidiques, ou «ADN») vers les données d’expression (séquences ARN) ou encore vers le protéome (ensemble des protéines formant le patrimoine d’une espèce donnée). L’étude du protéome suffit par exemple à inférer des liens évolutifs entre espèces, à fabriquer des familles de séquences homologues, etc. Le protéome est dans cette thèse l’objet d’étude de référence, mais les modèles décrits ou développés opèrent avant tout sur des séquences biologiques, suites de lettres prises dans un alphabet de taille finie. Dans le cadre de ces modèles et sur le plan théorique, le fait que l’on parle de séquences d’ADN ou bien de protéines induit un changement d’alphabet : le génome est construit sur un alphabet à 4 lettres (les nucléotides), tandis que le protéome, issu du génome, est décrit par un alphabet de 20 lettres (chacune correspondant à un acide aminé). Dans ce qui suit, nous donnons brièvement quelques caractéristiques fondamentales des séquences génomiques et protéiques.

Séquences nucléotidiques, séquences protéiques : des suites de lettres qui font sens

Séquences nucléotidiques

L’acide désoxyribonucléique (ADN), avec sa structure hélicoïdale en double brin mise au jour en 1953, se compose de paires de nucléotides. Un nucléotide est une molécule complexe, typique dans sa composition de ce qu’on rencontre en chimie organique : il s’agit d’un assemblage d’atomes de carbone, d’oxygène, d’hydrogène, d’azote et de phosphore (plus précisément une baze azotée, un sucre et un groupe phosphate). Les nucléotides en usage dans les ADN du vivant sont au nombre de quatre : l’adénine (A), la cytosine (C), la guanine (G) et la thymine (T). La formule chimique brute pour la guanine telle qu’on la trouve dans l’ADN est par exemple C10H14N5O7P. Les deux membres d’une paire de nucléotides dans l’ADN double brin sont situés chacun sur un brin, et les appariements possibles sont au nombre de deux (si l’on n’ordonne pas les brins) : A-C et G-T.

Séquences protéiques

Les protéines sont véritablement les « machines à tout faire » du vivant. Lorsqu’elles ne participent pas à la structure des tissus, ces molécules complexes accomplissent un nombre incalculable de tâches qui forment ce que l’on appelle les circuits métaboliques du vivant, c’est-à-dire l’ensemble des actions de transformation de l’énergie et du matériel moléculaire au sein de la cellule. Les protéines sont tantôt catalyseurs, tantôt transmetteurs, tantôt effecteurs, etc. On peut citer en guise d’exemple un certain nombre de ces tâches, avec quelques-unes des protéines qui en sont responsables :
1. catalyse de réactions (enzymes),
2. liaison avec un ligand (récepteurs),
3. signalisation intra- (protéines kinases) et intercellulaire (hormones peptidiques, récepteurs d’hormones),
4. structure des cellules (kératine, collagènes),
5. motricité des tissus (kinésine, myosine).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Introduction aux séquences biologiques
1.1 Dogme central de la biologie moléculaire
1.2 Séquences nucléotidiques, séquences protéiques : des suites de lettres qui font sens
1.2.1 Séquences nucléotidiques
1.2.2 Séquences protéiques
1.2.3 Propriétés physico-chimiques des acides aminés
1.3 Structures, domaines et bases de données protéiques
2 Aligner des séquences homologues
2.1 Des matrices de score de similarité entre caractères
2.1.1 Matrices PAM
2.1.2 Matrices BLOSUM
2.2 Aligner deux séquences
2.2.1 Algorithme de Needleman et Wunsch
2.2.2 Algorithme de Smith et Waterman
2.2.3 BLAST et FASTA, deux outils très populaires
2.3 Alignements multiples : plus de deux séquences
2.3.1 Méthodes progressives
2.3.2 Méthodes itératives
2.3.3 Méthodes basées sur la cohérence
2.3.4 Alignements respectant la phylogénie
3 Des modèles pour décrire un alignement
3.1 Les précurseurs : tables de scores position-spécifiques
3.2 Modèles de Markov cachés (HMM)
3.3 HMM profils
3.3.1 Phases de conception d’un HMM profil
3.3.2 Score d’une séquence dans un HMM profil
3.3.3 SAM, première implémentation de HMM profil pour les séquences biologiques
3.3.4 HMMER 2.x
3.3.5 HMMER 3.0
3.4 Pondérer les séquences d’apprentissage pour maximiser l’informativité du modèle
3.4.1 Pondération sans construction d’arbre
3.4.2 Approches arborées
3.5 Sélectionner des colonnes d’intérêt dans un alignement, première étape du processus d’inférence d’un modèle
3.5.1 Mesures d’informativité basées sur l’entropie
4 Processus évolutifs et phylogénies
4.1 La révolution darwinienne
4.2 Deux approches de la phylogénie : maximum de parcimonie et maximum de vraisemblance
4.3 Des modèles de substitution pour quantifier l’évolution
4.4 Algorithme de Felsenstein
4.4.1 Présentation dans un contexte raciné
4.4.2 Algorithme dans un contexte non raciné
4.5 Rendre compte de la variabilité des taux d’évolution en fonction des sites : la loi Gamma
5 Combiner descriptions séquentielle et évolutive : les phylo-HMM
5.1 L’objectif de l’alignement guidé par la phylogénie
5.1.1 Autour du modèle links de Thorne, Kishino et Felsenstein
5.1.2 Mitchison & Durbin : HMM et matrices de substitution basées sur des arbres
5.1.3 Mitchison, 1999
5.2 Des phylo-HMM pour annoter des alignements
5.2.1 Siepel et Haussler, combinaison de modèles phylogénétiques et HMM pour l’analyse des séquences biologiques
5.2.2 Siepel et Haussler, modèles de Markov cachés phylogénétiques
5.3 Des modèles pour rechercher des homologues distants
5.3.1 Continuation de l’idée des Tree-HMM par Qian et Goldstein
Conclusion