Optimisation de potentiels statistiques pour un modèle d’évolution soumis à des contraintes structurales

Modèles d’évolution à codons

Le but premier du modèle à codons présenté par Muse and Gaut était de paramétrer explicitement la diérence entre les codons synonymes et non synonymes [Muse and Gaut, 1994]. Même s’il faudrait théoriquement dénir une matrice de substitution de taille 64 ×64, les substitutions entre les codons stop et les codons menant à des acides aminés sont problématiques. En eet, des codons stop introduisent des variations dans la longueur de la séquence codée, de telles mutations sont trop délétères pour être xées et on peut donc ignorer les codons stops dans le processus de substitution. Déjà, dans le modèle de Muse et Gaut, le processus de substitution n’était décrit qu’entre les 61 codons codants, et nous utiliserons également cette convention. Par la suite, nous emploierons les notations simpliées suivantes : supposons deux codons, c et c0 , plus proches voisins, c’est à dire qu’ils ne dièrent qu’en une seule position. Notons b et b0 les nucléotides observés en cette position dans les codons c et c 0 et a (resp. a 0 ) l’acide aminé codé par le codon c (resp. c 0 ). On considèrera également que, si c et c 0 ne sont pas plus proches voisins, alors Qcc0 = 0. Alors, le modèle de substitution peut être décrit par la matrice de substitution Qcc0 : Qcc0 = πb 0ρbb0, (1.12) où πb 0 est donc la fréquence stationnaire du nucléotide b 0 et ρbb0 le taux d’échange de b vers b 0 . La matrice de substitution, Qcc0 est une matrice 61 × 61, et il est intéressant de noter que dans le modèle décrit par l’équation (1.12), le taux de substitution instantané de dépend pas de la fréquence stationnaire du codon, mais de celle du nucléotide muté.Ce modèle est noté MG − F1 × 4 car il est basé sur le modèle originel de Muse et Gaut, et que la matrice des fréquences stationnaires est une matrice de dimension 1 × 4 (chaque nucléotide a une fréquence qui lui est propre, mais qui est la même quelle que soit sa position dans le codon).

Implémentation d’un modèle SC

C’est à partir des idées proposées par Robinson et al. qu’a été développé le modèle proposé par Rodrigue et al, qui constitue le cadre méthodologique dans lequel s’articule cette thèse. En reprenant une formulation de la probabilité de xation basée sur celle de Robinson et al., ce modèle [Rodrigue et al., 2005] généralisait à plus de deux taxons la technique d’échantillonnage proposée par Robinson et al. A partir d’une topologie, d’un alignement de séquences et d’un jeu de paramètres appliqués à la relation structure/séquence, le modèle vise non pas à fournir la meilleure phylogénie, mais à comprendre les relations liant les séquences (nucléotidique et protéique) et la structure tridimensionnelle de la protéine, au sein de l’évolution. Toutefois, ce modèle a d’abord été formulé au niveau des acides aminés, et ce modèle étant par nature un peu trop phénoménologique (les mutations nucléotidiques synonymes ne sont par exemple pas prises en compte), le modèle a par la suite été reformulé en tant que modèle à codons, séparant ainsi la contribution de la mutation, appliquée sur la séquence nucléotidique, et la contribution de la sélection, appliquée sur la séquence protéique. Diérents modèles de mutation ont été intégrés dans ce programme (dont notamment GY −F61), mais pour la suite de cette thèse, nous ne considèrerons que le modèle MG− F1×4 qui propose diérents avantages. D’abord, ce modèle ne suppose pas des probabilités stationnaires diérentes selon le site dans le codon. Il peut en eet sembler étrange de considérer que les diérences de distribution des nucléotides entre les diérentes positions du codon soient liées à un modèle de mutation qui défavoriserait certains nucléotides à chaque position du codon. Au contraire, il est probablement plus logique, biologiquement parlant, de les considérer comme une conséquence de la sélection au niveau acide aminé. Mais surtout, ce modèle permet de tester la part de la sélection imputable à la relation structure/séquence de la protéine sans aucune autre information liée à la sélection. Ainsi, le modèle mutation/sélection lié à des contraintes structurales présenté ici, permet de tester diérents modèles de sélection sans redondance (théoriquement) entre les termes de mutation et de sélection.

Jeux de structures (decoys)

On peut opposer deux buts diérents lorsqu’on construit un jeu de structures. D’un côté, on peut chercher à retrouver le repliement d’une protéine, et on cherchera alors à construire un ensemble de repliements qui soit le plus large possible, en utilisant une représentation simpliée (coarse-grained). Ce repliement représente une structure générale, qui peut être utilisé par diérentes familles de protéines. D’un autre côté, on peut chercher à retrouver la conformation exacte d’une protéine, jusqu’aux conformations rotamériques des acides aminés et l’on préfèrera alors construire un jeu de structures qui soient proches de la structure cible, en faisant appel à une description extrêmement précise des acides aminés et des atomes constituant la protéine. Une méthode intuitive pour construire un jeu de structures explorant un large éventail de possibles, est de se baser sur les repliements de protéines existantes. Avec la production intensive de données moléculaires, qui ont eu lieu ces dernières années, on peut supposer que la Protein Data Bank (PDB) représente un ensemble exhaustif des repliements possibles. A partir d’une base de données de protéines naturelles, on peut donc construire un jeu de structures représentant la population de toutes les structures possibles (biologiquement), par threading [Jones et al., 1992a].

Formes générales de potentiels statistiques

Les champs de force semi-empiriques (issus des lois de la thermodynamique) comprennent beaucoup de paramètres qui ne sont pas facilement formalisables dans une représentation simpliée utilisant des potentiels statistiques. Par exemple, les interactions liées aux liaisons hydrogènes ne peuvent être décrites de la même manière dans un potentiel statistique. Cependant, on peut imaginer qu’une part de ces interactions soit captée par un simple potentiel de contact entre acides aminés. Comme on vient de l’évoquer, il existe diérentes manières de formaliser la représentation des acides aminés, qui, chacune, aecte diéremment la forme du potentiel statistique associé. De plus, la représentation choisie et la forme du potentiel statistique sont conditionnées par l’utilisation à laquelle est voué le potentiel statistique. Par exemple, si l’on cherche à retrouver les conformations rotamériques d’une protéine, voire même retrouver certaines structures, l’on préfèrera une représentation complexe [Maupetit et al., 2007]. Dans d’autres contextes, et notamment celui des modèles d’évolution SC, où l’on s’intéresse aux acides aminés et non aux atomes qui les composent, on préfèrera une structure coarse-grained. A cela s’ajoutent d’autres simplications liées à la structure : on peut par exemple représenter la structure tridimensionnelle par une simple matrice de contact ou bien essayer de représenter les distances entre toutes les paires, triplets ou quadruplets possibles d’atomes. Le potentiel qui sera utilisé dans ce mémoire est un potentiel statistique extrêmement simple, composé de deux termes, puisque cette thèse se concentre sur des méthodes d’optimisation de ce potentiel et non pas sur les diérents termes pouvant être utilisés. La forme du potentiel décrite par la suite présente l’avantage d’être généralisable à bien d’autres formes de potentiel [Kleinman et al., Submitted]. La suite de cette section (2.2.4.1 et 2.2.4.2) se concentre donc sur la manière de décrire ces deux termes : le premier décrivant un potentiel d’interaction entre deux acides aminés, et l’autre représentant l’accessibilité au solvant.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Préambule
Introduction
I Etat de l’art
1 Modèles d’évolution probabilistes
1.1 Introduction
1.2 Modèles de substitutions
1.2.1 Modèle de substitution markovien
1.2.2 Vraisemblance
1.2.3 Modèles d’évolution nucléotidiques
1.2.4 Modèles d’évolution à acides aminés
1.2.5 Modèles d’évolution à codons
1.3 Modèles mécanistiques
1.3.1 Modèle d’évolution mutation/sélection
1.3.2 Modèle d’évolution soumis à des contraintes structurales
1.3.3 Implémentation d’un modèle SC
2 Modéliser la sélection dépendant de la structure – Potentiels statistiques
2.1 Introduction
2.1.1 Principes généraux
2.1.2 Espace des structures
2.2 Quelle forme d’énergie ?
2.2.1 Quelques propriétés
2.2.2 Champs de force semi-empiriques
2.2.3 Potentiels statistiques
2.2.4 Formes générales de potentiels statistiques
2.2.5 Estimer des énergies du potentiel
2.2.6 Optimisation directe des énergies
2.3 Le problème du protein design
2.3.1 Introduction
2.3.2 Protein design versus protein folding
2.3.3 Le random energy model
2.3.4 Optimisation versus échantillonnage
2.3.5 Optimisation de potentiels dans un contexte de protein design
3 Méthodes numériques et statistiques
3.1 Introduction et notations
3.2 Algorithme de Metropolis-Hasting
3.3 Algorithme d’échantillonnage de Gibbs
3.4 Méthode de descente de gradient
3.5 Facteur de Bayes
3.6 Conclusion
II Optimisation de potentiels pour le protein design et l’évolution moléculaire
4 Développement du cadre statistique
4.1 Introduction
4.2 Article
4.2.1 Abstract
4.2.2 Background
4.2.3 Results
4.2.4 Discussion
4.2.5 Conclusions
4.2.6 Methods
4.2.7 Authors’ contributions
4.2.8 Acknowledgements
4.3 Conclusion
5 Optimisation des potentiels à l’aide d’une pseudo-vraisemblance
5.1 Introduction
5.2 Article
5.2.1 Abstract
5.2.2 Background
5.2.3 Results
5.2.4 Discussion
5.2.5 Conclusions
5.2.6 Methods
5.2.7 Authors contributions
5.2.8 Acknowledgements
5.3 Conclusion
6 Reformulation du probleme
6.1 Introduction
6.2 Article
6.2.1 Abstract
6.2.2 Background
6.2.3 Results
6.2.4 Phylogenetic analysis
6.2.5 Conclusions
6.2.6 Methods
6.3 Conclusion
7 Inclusion de structures leurres
7.1 Introduction
7.2 Article
7.2.1 Abstract
7.2.2 Background
7.2.3 Methods
7.2.4 Results
7.2.5 Discussion
7.3 Conclusion
III Bilan de l’approche
8 Perspectives
8.1 Directions futures
8.1.1 Affiner le terme d’interaction
8.1.2 Amélioration de l’approche par structures leurres
8.1.3 Optimisation de potentiels statistiques dans un modèle d’évolution
8.2 Applications
8.3 Conclusion
Conclusions
Annexes
A Liste des abbréviations
B Développement du cadre statistique
B.1 Fichier additionnel 1
B.2 Fichier additionnel 2
B.3 Fichier additionnel 3
B.4 Fichier additionnel 4
B.5 Fichier additionnel 5
B.6 Fichier additionnel 6
B.7 Fichier additionnel 7
B.8 Fichier additionnel 8
C Optimisation des potentiels à l’aide d’une pseudo-vraisemblance
C.1 Fichier additionnel 1
C.2 Fichier additionnel 2
C.3 Fichier additionnel 3
C.4 Fichier additionnel 4
C.5 Fichier additionnel 5
C.6 Fichier additionnel 6
Bibliographie