Mutualiser et partager, un défi pour la génomique fonctionnelle végétale

Les caractéristiques agronomiques du riz

Le riz est la deuxième céréale après le maïs en termes de surface cultivée (153 Mha en 2004) et de quantité produite (608 Mt en 2004), avec un rendement moyen de 4,0 t/ha qui masque de très importantes disparités [Sta05]. C’est, en revanche, la première céréale pour l’alimentation humaine avec des consommations annuelles très importantes dépassant dans certains pays en voie de développement les 100 kg/habitant. L’Asie domine l’économie du riz avec 90 % des surfaces et de la production qui y sont concentrées, l’Amérique Latine et l’Afrique se partageant l’essentiel des 10 % restants. Le riz est avant tout une production d’autoconsommation, les grands pays producteurs (Inde, Chine, Indonésie, Bangladesh, Thaïlande, Vietnam) étant également les principaux consommateurs [Cou07]. Le riz est cultivé dans des milieux très variés couvrant une large gamme d’altitudes et de latitudes. Cette plante, d’origine aquatique, et donc assez exigeante en eau par rapport à d’autres céréales, est surtout caractérisée par une grande plasticité vis-à-vis de ses conditions d’alimentation hydrique. C’est sur ce point que se fondent la plupart des classifications des types de rizicultures [Cou88] :
– Riziculture irriguée, endiguée, avec parfaite maîtrise de l’eau qui occupe 53 % des surfaces.
– culture inondée, endiguée, sans maîtrise de l’eau. Ce type de riziculture représente 25 % des surfaces.
– Riziculture pluviale dont l’alimentation hydrique dépend uniquement de la pluviométrie ou de la présence d’une nappe éventuelle. Ce type de riziculture représente 13 % des surfaces en Asie mais respectivement 60 et 75 en Afrique et en Amérique Latine.
– Riziculture flottante, qui suit la crue des grands fleuves, occupant 9 % des surfaces. Les rendements augmentent avec le degré de maîtrise de l’eau. En revanche, l’aménagement des rizières pour permettre l’irrigation, augmente les coûts de productions. La riziculture irriguée permet une intensification de la culture (double voire triple culture annuelle) et une diminution appréciable des aléas de culture garantissant des rendements élevés (6 t/ha en saison des pluies et jusqu’à 10 t/ha en saison sèche). La culture pluviale, en revanche, ne demande aucun aménagement particulier mais comporte plus de risques, notamment en cas de sécheresse. La production n’est répartie que sur un seul cycle de culture et les rendements sont plus faibles et plus variables (entre 1,5 t/ha et 4,5 t/ha). D’un point de vue botanique, le riz est une Monocotylédone de la famille des Poacées. Deux espèces sont cultivées, Oryza sativa (génome A, 2n=24) à distribution mondiale et Oryza glaberrima (génome A, 2n=24), cantonnée à l’Afrique de l’Ouest [Int05b]. Oryza sativa est une céréale autogame (moins de 1% d’allogamie d’après [Cha64]). Les structures génétiques traditionnellement cultivées sont donc essentiellement des lignées pures. La diversité génétique du riz est considérable avec plus de 150.000 variétés cultivées dans le monde et 107.000 accessions environ dans la banque de gènes de l’IRRI. C’est une espèce fortement bipolaire avec 2 groupes d’origines géographiques différentes, les indicas et les japonicas, clairement distingués sur la base de caractéristiques agromorphologiques, de comportement en croisement, et de marqueurs biochimiques et moléculaires. La recombinaison entre les deux groupes n’est ni facile ni fréquente. Le potentiel génétique a fait un bond exceptionnel à la fin des années 50 avec la découverte d’un mutant naturel semi-nain, Dee-geo-woo-gen, qui a été depuis très largement utilisé comme donneur de semi-nanisme. L’amélioration génétique du riz aboutit à la création de variétés à cycle court, ayant de bons rendements, une bonne qualité de grains ainsi que des qualités de résistances multiples à des insectes ou à des agents pathogènes. Une des variétés les plus utilisée en Asie, IR64, fut vulgarisée en 1985.

Le riz, une espèce modèle pour les Poacées

En plus des aspects économiques et agronomiques le riz a été retenu comme espèce modèle sur la base de plusieurs critères : Les caractéristiques de son génome C’est la céréale qui a le plus petit génome. Constitué de 12 paires de chromosomes, son génome contient peu de séquences répétées par rapport aux autres céréales (voir figure 1.1). Les relations entre le génome du riz et celui des autres céréales En 1995, un modèle général de l’organisation des différents blocs chromosomiques de céréales a été présenté [Moo95], selon lequel chaque génome est représenté par des cercles concentriques permettant d’établir la colinéarité entre segments de chromosomes des différentes céréales (figure 1.2). La conservation de l’ordre des gènes sur un chromosome d’une espèce à l’autre est appelé synténie. Comme on peut le voir sur cette figure, certains chromosomes de blé correspondent à des mosaïques de plusieurs chromosomes de riz (ch 5 et 7 de blé). Ce modèle en cercle concentrique permet de reporter des informations d’une espèce à une autre et de faire des prédictions. Par exemple, certains gènes et QTLs sont communs à différentes céréales, et leurs positions sur les cartes apparaissent à l’intersection d’un rayon avec les différents cercles. En théorie, si le principe de colinéarité est conservé entre blocs synténiques, nous pouvons retrouver un gène homologue à la même position chez les différentes céréales. C’est le cas pour le gène de nanisme sd1. Ce type d’observation est intéressant pour les espèces dont le génome n’est pas encore séquencé (i.e. blé ou maïs) car le fait d’avoir un gène homologue ou de nouveaux marqueurs facilite l’isolement du gène d’intérêt dans l’espèce cible (i.e. stratégie du clonage positionnel, section 1.4.2). La disponibilité d’outils pour l’analyse génétique Tous les outils créés visent à l’identification du rôle de chaque gène. Il y a tout d’abord l’annotation fonctionnelle, exécutée par des programmes bioinformatiques qui, de plus en plus, s’appuient sur des ressources biologiques (e.g. ADNc pleine longueur). Le riz ayant la particularité d’être facilement transformable par Agrobactérium (voir section 1.3.1), de nombreuses collections de mutants ont été développées de par le monde pour essayer d’identifier la fonction de tous les gènes. Couplées à des analyses phénotypiques, cette stratégie permet d’identifier des plantes mutantes pour un gène précis.

Le séquençage du génome du riz

Le séquençage du riz débute en 1999 coordonné par l’IRGSP (International Rice Genome Sequencing Project) . L’IRGSP, un consortium public dont l’objectif est de séquencer de manière exhaustive, clone par clone, le génome de la variété Nipponbare d’Oryza sativa L. ssp japonica obtiens une séquence complète en 2004 [Int05a]. Parallèlement, un groupe de Pékin en Chine séquence une variété de l’autre sous-espèce de riz, la sous-espèce indica [YHW+02, JJW+05], avec une technique différente, celle du shot gun. Durant cette période, deux sociétés Monsanto et Syngenta réalisent un séquençage complet de type shot gun de la variété Nipponbare [GRL+02]. Parmi les séquençages réalisés, celui effectué par l’IRGSP se distingue par le fait qu’il reste très peu de « trous » et qu’il ne s’agit pas d’un séquençage shot gun puisque toutes les séquences de BACs sont ancrées sur la carte génétique de référence du riz. Le nombre de gènes est estimé à 34.000 (pour 28.000 ADNc pleine longueur connus) avec très peu de différence en contenu en gènes entre les génomes indica et japonica mais des différences intergéniques massives [JJW+05]. Ces séquences ont permis d’accéder directement aux gènes. Des programmes de génomique fonctionnelle, tel celui du Cirad conduit par E. Guiderdoni, se sont mis en place afin de déterminer leur fonction, inconnue dans plus de 60 % des cas [HGA+04]. L’accès à l’ensemble des gènes cependant n’est qu’un préalable. Il faut ensuite déterminer les gènes pertinents dans le contexte agronomique visé par le biais d’études d’expression et, parmi ceux-ci, identifier ceux qui sont responsables de la variation phénotypique observée dans l’espèce. ll faut en analyser le polymorphisme et identifier les allèles favorables qui pourront être réunis par les sélectionneurs dans des variétés élites. Ces travaux sur la diversité fonctionnelle ont commencé chez le riz et devraient voir d’importants développements dans les années à venir.

Détection d’allèles correspondant à un gène candidat

Le même généticien, travaillant sur le génome du sorgho, se concentre maintenant sur l’étude d’un gène identifié chez Arabidopsis comme jouant un rôle essentiel dans la croissance racinaire. Il cherche à caractériser dans le génome du sorgho le gène et ses possibles allèles qui vont se révéler être les corollaires du gène d’intérêt chez Arabidopsis. A cet effet, il va mener des expérimentations sur le polymorphisme moléculaire attaché à ce gène et sur les effets de ce polymorphisme sur de possibles variations de croissance racinaire chez le sorgho.
– La première étape va alors consister à rechercher l’orthologue de ce gène chez le sorgho.
1. une première démarche consiste à utiliser Greenphyl, une ressource qui permet d’identifier l’orthologue chez le riz d’un gène d’Arabidopsis par phylogénomique à partir de la confrontation des séquences protéiques associées. Une fois ce gène identifié (s’il en existe un et qu’il est unique), la séquence nucléotidique du gène du riz peut être exploitée dans un second temps, pour rechercher dans la source de données GenBank une séquence de sorgho montrant une forte similarité.
2. Une deuxième démarche peut consister à révèler directement dans GenBank une similarité entre les séquences de sorgho et la séquence d’intérêt d’Arabidopsis. Mais cette démarche peut aboutir à des résultats moins pertinents en sachant que GenBank ne contient qu’une fraction des gènes du génome du sorgho et que les génomes du sorgho et d’Arabidopsis sont respectivement moins proches que les génomes du sorgho et du riz.
– Si lors d’une des deux démarches précédentes, le généticien trouve une séquence sorgho de qualité jugée suffisante, il peut sélectionner des amorces dans la séquence résultat, au moyen d’un outil publique de conception d’amorces de PCR comme Primer 3, et passer ensuite au travail de laboratoire pour réaliser le séquençage nécessaire afin de dégager des éléments de réponse à ses questions. Son objectif est, ici, de se concentrer sur les mutations qui vont avoir une incidence d’un point de vue fonctionnel. Il fera dans ce sens l’acquisition des informations sur les sous-régions fonctionnelles (ou « features » du gène) associées à la séquence résultat. Il va ainsi connaître les zones de bordure (zones d’épissage) entre les introns et les exons afin de pour pouvoir ancrer ses amorces dans les exons les mieux conservés.
– Si aucune séquence de sorgho ne répond aux critères de sélection, une alternative est alors de rechercher les régions les mieux conservées du gène d’Arabidopsis afin de pouvoir identifier le gène orthologue présent chez le sorgho à l’aide d’amorces. Dans un premier temps, il faut extraire de GenBank toutes les séquences de gènes complets de céréales (maïs, blé, orge, mil, larmes de Job, etc.) présentant une forte similarité avec le gène du riz, puis réaliser par exemple un alignement multiple au travers par exemple de l’outil en ligne ClustalW du portail SRS et enfin définir des amorces dégénérées permettant d’amplifier le gène chez le sorgho avec un outil comme Oligo6 ou Codehop. Pour ce faire, le généticien va chercher à ancrer ses amorces dans une zone bien conservée. Dans cette perspective, il traduit d’abord la séquence nucléotidique en séquence protéique en utilisant un outil de traduction en ligne et consulte ensuite la signature des domaines fonctionnels présents dans la séquence protéique résultat avec un outil comme ScanProsite ou SignalScan. Il lui reste alors à recadrer les domaines fonctionnels sur la séquence nucléotidique. Là-encore, le scénario démontre la nécessité de l’accès à différentes ressources (sources de données et outils de traitement) partagés par la communauté. Un diagramme de séquences UML modélise les différentes activités du généticien

Partage de l’information biologique

DANS le domaine biologique, l’observation joue un rôle important dans la compréhension des systèmes. L’étude des mécanismes biologiques se fait, en effet, par le biais d’hypothèses, qui le plus souvent, sont basées sur les connaissances acquises sur des modèles similaires. Prenons l’exemple des espèces végétales du riz (Oryza sativa) et de l’arabette des dames (Arabidopsis thaliana). Nous allons, ainsi, pouvoir transférer des connaissances acquises sur l’espèce la plus étudiée en génomique fonctionnelle, en l’occurrence Arabidopsis thaliana vers l’espèce la moins étudiée, ici Oryza sativa. Plus précisément, le gène ERECTA (Gene id : At2g26330) est connu chez Arabidopsis thaliana pour être impliqué, entre autres, dans les mécanismes de résistance à un pathogène Ralstonia solanacearum. La bactérie Ralstonia solanacearum est responsable de flétrissement et s’attaque à un large spectre d’hôtes (plus de 200 espèces végétales). La démarche communautaire, qui consiste à désigner des organismes comme Arabidopsis thaliana ou Ralstonia solanacearum comme étant des organismes modèles, prend ici tout son sens. Les études approfondies menées chez ces organismes vont pouvoir servir de support à de nouvelles études menées chez d’autres organismes et surtout à pouvoir cibler très rapidement les études qui vont se révéler pertinentes pour faire progresser les connaissances. Pour ce qui concerne Oryza sativa, un gène potentiellement orthologue du gène ERECTA (entrée Os06g10230 dans OryGenesDB) a été identifié, avec pour toute information disponible, sa séquence nucléique annotée. Il va s’agir alors de réutiliser les connaissances acquises en génomique fonctionnelle autour d’ERECTA (caractérisation de la variabilité d’expression, localisation spatiale et temporelle de l’expression du gène, gènes co-exprimés, etc) et de Ralstonia solanacearum, en supposant que ces connaissances sont valides dans le contexte d’Oryza sativa. L’échange et le partage des connaissances ainsi que les vecteurs de communication associés, se révèlent essentiels, non seulement pour comparer des données biologiques provenant de différents organismes et en inférer de nouvelles, mais aussi pour comprendre des phénomènes biologiques de manière globale. La notion de partage est pensée ici de manière large, comme une mise en commun de démarches scientifiques, de données, de modèles de données et d’outils de traitement. Cette notion est, pour beaucoup, à l’origine des besoins d’intégration des sources de données en biologie, qui seront détaillés dans le chapitre 3. La priorité dans ce chapitre, est toutefois donnée à la mise à disposition, à la fois facilitée et fiable, de données et de modèles de données depuis différents systèmes vers l’ensemble des acteurs de la communauté biologique. Nous discuterons dans une première partie des politiques internationales de partage de données depuis trois décennies et de leurs traductions en terme non seulement de sources de données mises en place mais aussi de moyens mis en oeuvre pour le partage. Nous aborderons dans une deuxième partie, les challenges actuels découlant de ces politiques de partage, à savoir les problèmes posés par l’existence de multiples sources de données et l’intégration nécessaire de ces sources de données. Enfin, une troisième et dernière partie s’attache à définir des concepts clés tels que les ontologies et les métadonnées se révélant d’importance dans la mise en place de systèmes intégrés pouvant apporter des éléments de réponses aux besoins complexes des biologistes en termes d’analyse et de confrontation des données.

Les moyens mis en oeuvre pour partager l’information

Au niveau mondial, les centres de ressources, créés au travers des politiques de collaboration, ont défini différents des formats de stockage afin de partager l’information produite par l’ensemble des communautés biologiques. Ces formats sont devenus très rapidement des standards sur lesquels se sont appuyés des outils de traitements pour définir à la fois leurs entrées et leurs sorties. Pendant longtemps, les fichiers plats dotés d’un format propriétaire ont été la principale forme de stockage de l’information biologique, particulièrement pour ce qui concerne les séquences biologiques. Ainsi, les banques généralistes de séquences (e.g. GenBank, EMBL, PIR, PDB, etc) distribuent leurs données selon leurs propres formats textuels [KFG84]. La figure 2.2 représente une séquence nucléique dans le format EMBL. Ce fichier possède une structure avec des identifiants de lignes à deux lettres qui permettent à des programmes d’en extraire plus facilement de l’information (e.g. AC signifie accession number, KW signifie keywords, etc. ). La force de ces formats est d’être facilement lu, interprété et de fait totalement adopté par l’ensemble des scientifiques17. Une règle d’organisation simple fait correspondre chaque fichier à un seul objet biologique. Ainsi chaque séquence biologique, et ses informations connexes (sousrégions fonctionnelles, auteurs, publications, références croisées, …) sera décrite au travers d’un seul fichier. Le recours à des fichiers textuels au format propriétaire pose des problèmes évidents de standardisation. Il n’existe ainsi ni consensus ni modèle défini et partagé pour que des applications puissent traiter les données de manière uniforme. Des langages, de description de données, standards comme ASN.1 puis plus récemment XML sont également utilisés aujourd’hui pour décrire et échanger les données biologiques. Les formats de séquences propriétaires n’en demeurent pas moins encore très largement exploités. Faciles à exporter et échanger, ils sont aussi préférés par les biologistes qui peuvent ainsi travailler directement sur les fichiers correspondants à leurs objets biologiques d’intérêt. Ce type de format valorise également directement les auteurs et leurs travaux en associant leurs noms aux objets biologiques caractérisés et aux fichiers sous-jacents. Enfin, de nombreux logiciels dédiés à l’analyse de séquences biologiques (GCG, FASTA, BLAST, suite EMBOSS, ALIGN, CLUSTAL, etc) ont pris l’habitude de manipuler en entrée, bon nombre de ces formats. Par exemple, le format FASTA est utilisé par la majorité des programmes d’alignement comme SIM ou T-COFFEE et de recherche de similarité de comparaison de séquences comme BLAST [AGM+90] ou encore FASTA. Depuis quelques années, les efforts de standardisation menés par les consortiums ont conduit à l’apparition de nouveaux formats textuels. Par exemple, le Gene Ontology Consortium, dont l’objectif initial est de centraliser les nomenclatures et les vocabulaires contrôlés en biologie moléculaire, est à l’origine de nombreux formats d’échange dont le format OBO (voir section 2.3.3.1). Le format GFF18(General Feature Format) est un autre format créé pour structurer l’annotation des séquences et notamment les informations que l’on qualifie de « features » dans la description des séquences d’ADN, d’ARN et protéiques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Abréviations
Introduction
I Contexte et état de l’art
1 Du Gène à la fonction
1.1 Introduction
1.2 La génomique végétale et le riz
1.2.1 Les caractéristiques agronomiques du riz
1.2.2 Le riz, une espèce modèle pour les Poacées
1.2.3 Le séquençage du génome du riz
1.3 La génomique fonctionnelle
1.3.1 La mutagénèse
1.3.2 Les différents types de mutagénèse insertionnelle
1.3.2.1 L’ADN-T
1.3.2.2 Les transposons
1.3.3 Utilisation des collections d’insertion
1.4 Le besoin d’accès à des multiples sources
1.4.1 Recherche d’information en génomique fonctionnelle
1.4.2 Exploitation des relations de synténie pour la découverte de gène
1.4.2.1 Recherche d’un gène candidat
1.4.2.2 Détection d’allèles correspondant à un gène candidat
1.4.3 Conclusion sur les scénarios d’usage
2 Formalismes et modèles des sources
2.1 Partage de l’information biologique
2.1.1 Organisation des sources de données
2.1.2 Les moyens mis en oeuvre pour partager l’information
2.1.3 L’open source et partage des schémas de bases de données
2.2 Les défis de l’intégration de données
2.2.1 La diversité et autonomie des sources à intégrer
2.2.2 Hétérogénéité des sources de données
2.2.2.1 Hétérogénéité syntaxique
2.2.2.2 Hétérogénéité sémantique
2.3 Standardisation des données
2.3.1 Les méta-données
2.3.2 Les ontologies
2.3.2.1 Représentation d’une ontologie
2.3.2.2 Alignement d’ontologies
2.3.2.3 Des éditeurs d’ontologies
2.3.3 Les ontologies et les méta-données dans le domaine biologique
2.3.3.1 Gene Ontology
2.3.3.2 EcoCyc
2.3.3.3 TAMBIS
3 État de l’art sur l’intégration
3.1 Critères d’évaluation des approches d’intégration
3.1.1 Formats des données intégrées
3.1.2 Le type d’intégration
3.1.3 Le modèle de données ou le modèle pivot
3.1.4 Les degrés d’intégration sémantique
3.1.5 Le niveau de transparence
3.1.6 Construction du schéma global d’intégration
3.1.7 Choix de la localisation des sources
3.1.8 Langage de requêtes
3.2 L’approche matérialisée
3.2.1 Les entrepôts de données
3.2.2 Les entrepôts de données en bioinformatique
3.3 L’approche virtuelle
3.3.1 L’approche navigationnelle
3.3.2 La médiation
3.3.3 Systèmes bioinformatiques utilisant l’approche de médiation
3.4 Discussion
II Propositions : intégration de ressources végétales
4 Premier pas vers l’intégration
4.1 Introduction
4.2 Oryza Tag Line
4.2.1 Matériels et méthodes
4.2.1.1 Conception et mise en oeuvre
4.2.1.2 Contenu du système
4.2.2 Résultats
4.2.2.1 Analyses des données
4.2.2.2 L’interface du système
4.2.3 Discussion
4.3 OryGenesDB
4.3.1 Matériels et méthodes
4.3.1.1 Conception et développement
4.3.1.2 Contenu
4.3.2 Résultats
4.3.2.1 L’interface de requête
4.3.3 Discussion
4.4 Intérêt de l’intégration
5 Adaptation de Le Select pour la médiation de ressources végétales
5.1 Description du middleware
5.1.1 Principales caractéristiques
5.1.2 L’accès aux données
5.1.2.1 Le rôle des adaptateurs
5.1.2.2 Le rôle du médiateur
5.2 Description de l’intégration des sources
5.2.1 Description des sources
5.2.2 Publication des sources
5.3 Intégration sémantique des sources de données
5.3.1 Pré-intégration
5.3.2 Recherche de correspondances inter-schémas
5.3.3 Intégration
5.3.4 Construction d’une ontologie
5.4 Interrogation transparente des sources
5.4.1 Construction des vues
5.4.2 Exemples de requêtes
5.5 Conclusion
6 Intégration de sources de données par le biais de services web
6.1 Les services Web
6.1.1 Définitions
6.1.2 Utilisation des Services Web dans le domaine de la biologie
6.1.3 Evolutions des standards associés aux Services Web
6.2 Développement d’une application intégrée utilisant des services web
6.2.1 Analyse de l’existant
6.2.2 Définition des cas d’utilisation
6.2.3 Matériels et méthodes
6.2.3.1 Description de la plateforme BioMoby
6.2.3.2 Conception des services web
6.2.3.3 L’enchaînement des services web
6.2.4 Résultats
6.2.4.1 Création des services web
6.2.4.2 Développement de workflows
6.2.4.3 Implémentation de l’interface Web utilisateur
6.3 Discussion
III Synthèse et discussion
7 Synthèse et discussion
7.1 Synthèse
7.2 Discussion
7.2.1 Expérimentation menée au travers de Le Select
7.2.2 Intégration de sources de données par le biais de services web
7.2.3 Perspectives
IV Annexes
A Exemple de client d’appel de services web
B DTD établie pour valider le document XML final issue d’un workflow
C Document XML final issue d’un workflow
D Glossaire
Bibliographie