Du genotype au phénotype

DU GENOTYPE AU PHENOTYPE

CONTEXTE

Le développement de variétés améliorées implique la compréhension fine du déterminisme génétique des caractères d’intérêts agronomiques et industriels. Cette compréhension permet en effet d’optimiser l’efficacité de la sélection variétale en optimisant l’identification des croisements à effectuer, en réduisant les coûts d’expérimentation (sélection basée sur le génotype et non sur le phénotype) et en accélérant les cycles de sélection. Néanmoins l’identification des facteurs génétiques contrôlant la variabilité des caractères d’intérêt nécessite la mise en relation de données hétérogènes. Le phénotype (P) résulte des effets conjoints de 3 composantes : le génotype (G), l’environnement (E) et l’interaction entre le génotype et son environnement (G x E). Ceci est résumé par la formule suivante : P = G + E + G x E Puisque l’expression d’un gène n’est pas indépendante du milieu dans lequel ce gène s’exprime, il est important de pouvoir stocker les informations relatives à ces différentes composantes (informations génétiques, informations environnementales) et à leurs conséquences sur les phénotypes. Si aujourd’hui de nombreux système pour stocker ou exploiter les ressources génétiques existent, c’est qu’on a compris l’importance de l’accès à ces informations. Cependant, nous sommes forcés de constater la difficulté de trouver un système d’information générique pour accueillir les données de ces interactions génotype-environnement en agronomie.

INITIATIVES ÉXISTANTES

Dans l’état actuel, chaque agronome/généticien/sélectionneur gère ses données de manière individuelle le plus souvent à l’aide de tableurs. La quantité, la diversité l’hétérogénéité des formats de stockage de ces données sont importantes. Cette méthode de gestion des données a montré ses limites sur plusieurs plans : l’accès, la qualité et la traçabilité des informations. Les données sont parfois redondantes et éparpillées sur plusieurs fichiers et plusieurs supports physiques. En conséquence, le temps passé à rechercher une information devient considérable. Ces difficultés imposent le développement d’outils performants pour le stockage et l’exploitation des données. En outre la réalisation d’analyse intégrative est généralement rendue très difficile par la dispersion des données et leur absence de qualification. Suite à ce constat, les équipes du projet BFF ont décidé d’étudier les solutions existantes dans le domaine.

ECOFI: LA BASE DE DONNEESEXPERIMENTALEDU CIRAD ECOFI est une base de données expérimentale développée par le CIRAD pour la gestion des essais en agroécologie. C’est une base de données relationnelle conçue à partir de l’analyse des jeux de données issus d’essais pluridisciplinaires sur la canne à sucre. Ce système permet l’intégration des données phénotypiques de plusieurs espèces, à différentes échelles issues de plusieurs domaines (agronomie, entomologie, écophysiologie, malherbologie). Il utilise la technologie des métadonnées lui permettant d’ajouter librement autant de variables que l’on veut sans altérer la structure de la base de données. Dans les bases de données standards, chaque variable observée implique généralement une mise à jour du modèle de la base de données existante. Le modèle de données d’ECOFI ne nécessite pas une telle modification. La prise en compte d’une nouvelle variable est très facile et consiste seulement à l’ajout d’un nouvel enregistrement dans une table de métadonnées générique, après avoir mémorisé le nouveau libellé de la variable et sa définition (unité, type, échelle).

Cette technologie réduit le nombre de tables, de colonnes et de cellules vides, et améliore les performances des requêtes de base de données (Auzoux Sandrine, 2016). En revanche, ce système ne propose aucune gestion des échantillons, le dictionnaire des données d’ECOFI n’est pas en relation avec les ontologies existantes dans le domaine. Et il n’est pas capable de gérer plusieurs utilisateurs et partenaires. De plus, la description des dispositifs expérimentaux est limitée à 3 niveaux hiérarchiques, ce qui diminue grandement la capacité de l’outil à intégrer les dispositifs plus complexes.

EPHESIS: LE SYSTÈME D’INFORMATION DE L’URGI

L’URGI est une unité de recherche en génomique et bio-informatique de l’INRA, dédiée aux plantes et leurs pathogènes. Son activité de recherche porte sur l’intégration des données, la structure et la dynamique du génome. De plus, L’unité héberge une plate-forme bio-informatique française, Elixir. C’est au travers de cette plate-forme que l’URGI est en train de développer Ephesis, un système d’information dédié à l’étude des interactions génotype-environnement. C’est le système principalement utilisé par les chercheurs et agronomes de l’INRA. Il permet l’intégration des essais expérimentaux et des données environnementales. Mais il permet aussi de vérifier la qualité des données en établissant des liens avec d’autres systèmes qui références les ressources génétiques (ex : les données passeport). De plus, il dispose de dictionnaires de variables lié aux ontologies agronomiques notamment pour les espèces de maïs, tomates et vigne (C. Pommier, 2009).

Cependant, ce système ne permet pas le suivi des interventions techniques réalisé sur un essai ni le suivi des échantillons. Par ailleurs, le système ne permet pas la caractérisation des organes ou tout autre entité se trouvant à une échelle inférieure à celle d’une unité expérimentale. Ephesis ne permet pas non plus le suivi des informations de généalogies lié aux génotypes. En plus de ces aspects fonctionnels, il existe des aspects techniques qui posent problème. Ephesis est né d’un besoin institutionnel de l’INRA, il est par nature difficilement transférable à un autre institut. De plus, il est toujours en cours de développement ce qui engendre des difficultés pour travailler correctement.

VOLUMETRIE ET COMPLEXITE DES DONNEES

Les données produites par un centre de recherche agronomique sont de nature très hétérogène. Rien que pour le projet BFF qui se cantonne à l’étude de 2 espèces, c’est l’analyse d’environ 3000 génotypes en semis, répartis sur une trentaine d’essais et sur 10 lieux d’expérimentations depuis 2012 (Figure 2). Chacun des dispositifs expérimentaux mis en place peut être plus ou moins complexe et définit sur plusieurs niveaux (blocs, parcelles, places, placettes, etc.). Sur chacune des unités expérimentales que décrit le dispositif, s’applique une ou plusieurs modalités (Figure 3). Chaque essai est mené en suivant un itinéraire technique qui comprend toutes les interventions réalisées sur chacune des unités du dispositif (fertilisation, travail du sol, irrigation, etc.).

Ajoutés à cela, les essais agronomiques recensent des données liées aux caractéristiques des sols qu’ils soient géo-localisés ou non (profondeur, type de sol, humidité) et des données liées aux conditions climatiques (température, humidité, vent, rayonnement) récoltées toutes les minutes par des capteurs météorologiques. Ils récoltent aussi des données au champ sur une cinquantaine de caractères liés aux phénotypes des plantes (hauteurs, diamètres, nombre de feuilles, nombre d’entrenoeuds, etc.) ou à leur phénotype étendu (ex : taux d’envahissement par les mauvaises herbes) (Figure 4). De plus, ces études agronomiques génèrent des quantités importantes d’échantillons récoltés à toutes les échelles et à différents stades. Ces échantillons sont transférés à de nombreux laboratoires pour les analyser sur une trentaine de caractères histologiques, physiologiques et biochimiques.

LE FRAMEWORK

L’un des objectifs principaux de l’application est l’intégration des données via des formulaires en ligne. Pour ce faire il a été décidé en début de projet, d’utiliser le Framework PHP Phalcon. Les Framework offrent une méthode de travail structurée permettant de maintenir facilement un projet. Phalcon est un Framework PHP 5 open source performant. Il est écrit en C, et est disponible en tant qu’extension PHP. L’avantage de Phalcon est qu’il intègre un module de gestion des utilisateurs et des droits accès. Cependant, le recul qu’a apporté le développement de l’interface d’ECOFI avec ce Framework a montré son manque de souplesse et sa limitation vis-à-vis d’autres Frameworks sur le marché. Avec les contraintes de temps qu’imposent un stage de fin d’étude et la volonté de simplifier la maintenance des outils informatiques du centre de recherche, il était préférable de se tourner vers un Framework plus adapté au type de développement envisagé et plus simple d’apprentissage. C’est pour ces raisons et en nous fondant sur comparatif réalisé au travers d’entretiens et de retours de praticiens sur le développement d’application web, que nous avons finalement choisi le Framework CodeIgniter.

CodeIgniter 3 est un Framework PHP qui s’exécute du côté du serveur de l’application (back-end). Il est constitué d’un ensemble de ressources pour permettre un développement rapide, sécurisé et optimisé. Il possède une documentation claire et complète. C’est l’un des Framework PHP les plus légers actuellement (espace disque requis : 2 MB). De plus il offre une simplicité d’utilisation peu commune face à des concurrents tel que Symphonie, Phalcon ou encore CakePHP. Il utilise l’architecture logicielle MVC qui permet de faciliter grandement le développement et la maintenance des applications web (Reenskaug, 1979).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Glossaire
Présentation de l’organisme d’accueil
PRESENTATION DU CIRAD
LE PROJET BIOMASS FOR THE FUTURE
Introduction
DU GENOTYPE AU PHENOTYPE : CONTEXTE
INITIATIVES EXISTANTES
Ecofi : la base de données experimentale du cirad
Ephesis : le système d’information de l’urgi
Le breeding management system de l’ibp
Phénome networks et agrobase
Conclusion
DAPHNE
Le cahier des charges
Les caractéristiques du système d’informations
Matériels et méthodes
VOLUMETRIE ET COMPLEXITE DES DONNEES
APPROCHE DE DEVELOPPEMENT
LA BASE DE DONNEES
Présentation des packages et cas d’utilisations
LE FRAMEWORK
MODELE-VUE-CONTROLEUR
Le contrôleur
La vue
Le modèle
SYTEME DE GESTION DE VERSIONS : GIT
Résultats et discussion
IMPLEMENTATION DE LA BASE DE DONNEES
IMPLEMENTATION DE L’APPLICATION WEB
Fonctionnalités
DIFFICULTES RENCONTREES
Les objectifs
L’agilité
La généricité et les métadonnées
Conclusion et perspectives
Références
Annexes
ANNEXE 1 : LES OUTILS DE DEVELOPPEMENTS
La base de données
L’application web
ANNEXE 2 : L’ARCHITECTURE 3 TIERS
ANNEXE 3 : SCHEMA UML DE DAPHNE
ANNEXE 4 : POSTER SCIENTIFIQUE DE DAPHNE