Reconstruction phylogénétique par le maximum de parcimonie

La phylogénie moléculaire

Reconstructions phylogénétiques

Il existe plusieurs méthodes de reconstruction permettant d’inférer un arbre phylogénétique. La première est basée sur l’observation simple de la distance entre des séquences prises deux à deux, établie en termes de différences en nucléotides ou en acides aminés. La méthode des distances est représentée par la méthode UPGMA (tombée en désuétude) ainsi que la méthode BioNJ. Ces méthodes construisent des arbres non enracinés en incrémentant les séquences en fonction de leur proximité avec les précédentes. Elles suivent un modèle évolutif explicite, c’est-à-dire basé sur l’observation des mécanismes évolutifs à l’oeuvre. La seconde s’intéresse à l’état des caractères qui divergent à chaque site des séquences (les colonnes de l’alignement), c’est-à-dire qu’elle prend en compte la nature et la position des substitutions (transversion, transition, indel). C’est le cas des méthodes de maximum de parcimonie, de maximum de vraisemblance et d’inférence bayésienne. Ces dernières peuvent être subdivisées en deux groupes : le maximum de vraisemblance et l’inférence bayésienne, qui construisent un arbre phylogénétique en suivant un modèle explicite d’évolution, tout en calculant la probabilité de l’organisation des branches de l’arbre, ainsi que de la longueur de ces branches. Ces méthodes génèrent des arbres enracinés puisque les modèles appliqués tiennent compte de la flèche du temps. Le maximum de parcimonie, quant à lui, ne suit pas de modèle explicite d’évolution, puisqu’il se borne à comptabiliser le nombre de « pas mutationnels » nécessaires pour passer d’une séquence à une autre au sein de l’arbre.
Dans les deux cas, ces méthodes d’inférence phylogénétique s’appuient sur une matrice de distance qui est calculée à partir de l’alignement des séquences étudiées. La question fondamentale sous-jacente à la génération de ces matrices est la suivante : comment peut-on définir mathématiquement la distance évolutive, ou distance phénétique, entre deux séquences qui s’approchent au plus près de la réalité biologique de cette divergence. La nature stochastique des substitutions apparaissant dans des séquences au cours du temps est un concept assez partagé. Il convient donc d’établir un modèle de ce processus stochastique d’évènements de substitution.
La méthode la plus simple d’accès pour évaluer la distance entre deux séquences consiste à calculer la proportion de sites homologues divergents. Cette mesure est appelée p-distance et elle est exprimée en nombre de substitutions par site existant entre deux séquences. Si elle est simple à effectuer, cette méthode ne peut rendre compte de la distance phénétique réelle entre deux séquences. D’une part, elle ne prend pas en compte la possibilité des substitutions multiples sur un même site (exemple, la substitution observée d’une Thymine par une Guanine mais qui s’est déroulée par l’intermédiaire, non observable d’une Thymine en Cytosine puis en Guanine). D’autre part, elle ne peut non plus prendre en compte les phénomènes de réversion calculant une p-distance égale à 0 entre deux sites qui ont pourtant eu une histoire évolutive différente. Le calcul de la distance phénétique observée revient donc le plus souvent à sous-estimer la distance génétique réelle entre des séquences homologues. C’est la raison pour laquelle il convient de modéliser l’évolution afin de pouvoir corriger la mesure de la p-distance.
Plusieurs formules permettant de calculer la distance entre des séquences ont été formulées au cours du temps. Parmi elles, on trouvera celle énoncée par Nei en 1972 (Nei 1972) et en 1978 (Nei 1978) ou par Reynolds en 1983 (Reynolds et al. 1983).
Le principe des méthodes de modélisation de l’évolution par les distances tentent de générer un arbre phylogénétique à partir d’une matrice de distances établissant la distance génétique séparant des séquences deux à deux (Felsenstein 1988). Or, comme nous venons de le voir, la p-distance est une sous-estimation de la distance génétique réelle, et c’est pourquoi l’on va chercher à appliquer un modèle évolutif le plus réaliste possible pour les séquences considérées. Notons que l’utilisation d’un modèle irréaliste entrainera d’énormes biais dans la détermination de la topologie de l’arbre inféré à partir de la matrice (Lockart 1994 ; Van de Peer 1996).

Reconstructions phylogénétiques par la méthode des distances : UPGMA,minimum d’évolution et méthode du plus proche voisin

La première méthode développée fût l’UPGMA (pour Unweighted – Pair Group Method with Arithmetic means). Elle est aujourd’hui tombée en désuétude, car une des hypothèses sur lesquelles elle repose est l’hypothèse de l’horloge moléculaire stricte, c’està- dire un taux de substitution constant dans toutes les branches de l’arbre, arbre dit alors ultramétrique. Comme cela n’arrive pour ainsi dire jamais, cette méthode est donc extrêmement sensible à un taux de substitution variable selon les phylum (Huelsenbeck 1993). De plus, un arbre ultramétrique doit être enraciné, c’est-à-dire contenir un groupe externe, et dans lequel tous les taxa sont équidistants de la racine, condition qui n’est pas toujours réalisable.
D’autres algorithmes, comportant moins de biais analytiques ont été alors développés : la méthode du « minimum d’évolution » (ME) (Kidd 1971 ; Rzhetsky 1992b) et la méthode du plus proche voisin, ou « Neighbor-Joining » (NJ) (Saitou & Nei 1987). La méthode ME propose d’examiner toutes les topologies des arbres possibles et d’en calculer la longueur totale des branches 𝑆. La topologie retenue étant celle pour laquelle la longueur 𝑆 est minimale. L’une des limitations de cette méthode est qu’elle se veut heuristique, c’està- dire analysant successivement toutes les hypothèses possibles. La méthode NJ, pour sa part, est une approximation du ME. Bien que reposant également sur une heuristique comme le ME, il a été montré que les arbres produits par cette méthode était cependant très similaires à ceux générés par le ME (Pauplin 2000 ; Rzhetsky 1992a).
Quand bien même ces méthodes de reconstruction produisent des arbres phylogénétiques fiables, elles sont soumises au phénomène dit d’attraction des longues branches, biais d’analyse qui aura tendance à considérer des séquences très divergentes comme des séquences soeurs et donc à les regrouper au sein d’un même clade.

Reconstruction phylogénétique par le maximum de parcimonie

L’analyse phylogénétique par le maximum de parcimonie (MP) met en oeuvre un critère permettant d’estimer et de minimiser le nombre d’évènements évolutifs ayant permis le passage d’une séquence à une autre. Autrement dit, elle recherche le plus petit nombre de changement d’état des caractères composant les séquences. Cette méthode a tout d’abord été développée pour la comparaison de données morphologiques (Hennig 1966). Elle tire son origine d’un concept philosophique, dit du rasoir d’Ockham. Guillaume d’Ockham fut un philosophe franciscain (1285 – 1347) rationaliste qui postulat le concept suivant : « Pluralitas non est ponenda sine necessitate » (les multiples ne doivent pas être utilisés sans nécessité), ce qui signifie que les hypothèses les plus simples sont souvent les plus vraisemblables (nous verrons ultérieurement que cette assertion doit aussi être utilisée lors du choix d’un modèle évolutif, celui prenant en compte le moins de paramètres devant être privilégié). C’est pourquoi ce principe de parcimonie est également appelé principe de simplicité ou d’économie.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION 
1- L’évolution du vivant
1-1- Historique de la classification des espèces
1-1-1- La classification des espèces de l’antiquité au siècle des lumières
1-1-2- La théorie de l’évolution, ou la sélection naturelle
1-2- La transmission génétique de l’hérédité : de Mendel à la découverte de l’ADN
1-3- Le support de la diversité : la molécule d’ADN
1-3-1- Les signes de la diversité
1-3-1-1- Les substitutions, les insertions – délétions (indels)
1-3-1-2- Les recombinaisons
1-3-1-3- Les transferts latéraux de gènes
1-3-1-4- L’hybridation
1-3-2- Les processus de l’évolution des séquences d’ADN : les forces évolutives
1-3-2-1- La dérive génétique
1-3-2-2- La pluralité des sélections naturelles
2- Les méthodes d’analyse 
2-1- La phylogénie moléculaire
2-2- Le choix des données
2-3- Reconstructions phylogénétiques
2-4- Reconstructions phylogénétiques par la méthode des distances : UGPMA, minimum d’évolution et méthode du plus proche voisin
2-5- Reconstruction phylogénétique par le maximum de parcimonie
2-6- Les méthodes probabilistes
2-6-1- Les modèles évolutifs
2-6-2- Modélisation des substitutions selon un processus homogène markovien
2-6-3- Les principaux modèles évolutifs markoviens en phylogénie moléculaire
2-7- Modèles de codons pour les séquences codantes
2-8- Maximum de vraisemblance
2-9- Inférence bayésienne – chaines de Markov et technique de Monte Carlo
3- La datation moléculaire 
4- Les réseaux 
5- Les virus dans l’histoire évolutive du vivant
5-1- L’origine des virus
5-2- L’évolution des virus
6- La peste porcine africaine (PPA), ou African swine fever (ASF)
6-1- Historique – Distribution géographique
6-2- Signes cliniques – Pathogénie
6-3- Prévention de la maladie
7- Le virus de la peste porcine africaine 
7-1- Taxonomie – Classification
7-2- Structure – Génome – Protéines codées
7-3- Pénétration dans la cellule – Réplication – Morphogénèse
7-4- Réponse immune – Virulence
7-5- Epidémiologie – Hôtes – Transmissio
7-6- Variabilité – Sérologie – Typage
8- Etat de l’art en phylogénie du virus PPA 
9- Nature et objectifs de la thèse 
Partie 1
Partie 2
Partie 3
MATERIELS ET METHODES 
1- Les données 
1-1- Les données publiques
1-2- Les isolats malgaches
1-2-1- Préparation des macrophages alvéolaires
1-2-2- Isolement viral
1-2-3- Purification de l’ADN viral
1-2-4- Amplification des gènes viraux
1-2-5- Clonage T-A des amplicons PCR
1-2-6- Transformation des bactéries
1-2-7- Sélection des clones bactériens transformés
1-2-8- Préparation de l’ADN plasmidique
1-2-9- Séquençage des gènes d’intérêt
1-3- Création d’une base de données dédiée au virus PPA
2- Comprendre les relations qui unissent les isolats viraux : analyse approfondie de la phylogénie du virus PPA 
2-1- Analyse des données
2-1-1- Alignements
2-1-2- Analyse des alignements
2-1-2-1- Saturation des substitutions
2-1-2-2- Détection des recombinaisons
2-1-2-3- Composition des alignements
2-1-2-4- Analyse de la pression de sélection
2-2- Reconstructions phylogénétiques
2-2-1- Choix du modèle évolutif
2-2-2- Construction des arbres phylogénétiques
2-2-2-1- Maximum de vraisemblance
2-2-2-2- Inférence bayésienne
2-2-2-3- Enracinement des arbres
2-3- Classification des isolats de virus PPA
2-3-1- Approche par l’utilisation des distances entre isolats
2-3-2- Approche en réseau
2-3-3- Approche biologique
3- Datation moléculaire 
3-1- Datation moléculaire par maximum de vraisemblance
3-2- Datation moléculaire par inférence bayésienne
RESULTATS 
1- Abondement de la base de données dédiée au virus PPA avec les séquences malgaches 
1-1- Isolement des souches de virus PPA malgaches
1-2- Production des séquences d’intérêt
2- Analyse approfondie de la phylogénie du virus PPA 
2-1- Analyse des alignements
2-1-1- Vérification des alignements
2-1-2- Pertinence du signal phylogénétique contenu dans les alignements
2-1-3- Détection des recombinaisons
2-1-4- Composition des alignements
2-2- Reconstructions phylogénétiques
2-2-1- Enracinement des arbres
2-2-2- Reconstructions phylogénétiques utilisant le gène B646L
2-2-2-1- Maximum de vraisemblance
2-2-2-2- Inférence bayésienne
2-2-3- Classification des isolats de virus PPA
2-2-3-1- Classification par la méthode des distances
2-2-3-2- Analyse en réseau
2-2-3-2-1- Détermination d’un réseau d’haplotypes par le logiciel TCS
2-2-3-2-2- Détermination d’un réseau de partition ou « split-network »
2-2-3-3- Détermination de la signature moléculaire des isolats de virus PPA
2-2-4- Reconstructions phylogénétiques utilisant le gène E183L
2-2-4-1- Maximum de vraisemblance
2-2-4-2- Inférence bayésienne
2-2-5- Reconstructions phylogénétiques utilisant le gène CP204L
2-2-5-1- Maximum de vraisemblance
2-2-5-2- Inférence bayésienne
3- Datation moléculaire 
3-1- Détermination de la pression de sélection s’appliquant sur les séquences étudiées
3-2- Analyse en maximum de vraisemblance
3-2-1- Test de l’hypothèse de l’horloge moléculaire stricte
3-2-2- Horloge moléculaire locale
3-3- Analyse bayésienne par des chaines de Markov et technique Monte Carlo
3-3-1- Datation moléculaire du gène B646L
3-3-2- Datation moléculaire du gène CP204L
3-3-3- Datation moléculaire du gène E183L
DISCUSSION
DISCUSSION GENERALE – CONCLUSION – PERSPECTIVES 
BIBLIOGRAPHIE 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *