La bio indication méthode indirecte de l’étude des sols

Présentation du sujet et des données

L’utilisation de la végétation de sous-bois par les forestiers pour estimer les caractéristiques stationnelles et les potentialités forestières remonte à près d’un siècle (Cajander, 1926). Les caractéristiques stationnelles représentent les propriétés d’un site étudié (géologie, topographie, climat, végétation) pouvant impacter la productivité du peuplement forestier, c’est-à-dire la population d’arbres présents sur le site. Les potentialités forestières représentent la capacité d’un sol, d’un site donné, pour la productivité d’une espèce. Ce n’est que depuis la fin du 20ème siècle que des méthodes formalisées ont été développées (ter Braak & Looman 1986) pour définir le caractère bioindicateur des espèces par rapport aux paramètres environnementaux. Un bioindicateur est un indice construit à partir d’une ou plusieurs espèces végétales, dont la présence ou l’absence, renseigne sur certaines caractéristiques écologiques de l’environnement.
Les modèles statistiques utilisés pour la bioindication sont fréquemment des modèles linéaires généralisés (ter Braak & Looman 1986) reliant la variable du milieu aux relevés floristiques composés de variables binaires. Celles-ci indiquent les présences/absences de nombreuses espèces, les modèles sont soit paramétrique, soit non paramétrique en utilisant les arbres de régression ou de classification (Vayssières & al. 2000). De plus, les prédicteurs sont en grand nombre, souvent fortement corrélés et en interaction (Vayssières & al. 2000). De nombreux modèles peuvent être équivalents (au sens du critère utilisé : erreur quadratique moyenne, AIC, BIC, …), ce qui rend délicate la sélection des variables à inclure pour obtenir le modèle final. D’autre part, les méthodes de bioindication actuellement applicables sur la France entière restent onéreuses car elles reposent sur des inventaires floristiques exhaustifs longs à réaliser (de 30 à 60 minutes). Par ailleurs, elles sont malaisées à mettre en œuvre par un non spécialiste, car elles présupposent la connaissance d’une part importante de la flore forestière française (plus de 500 espèces communes), et la capacité de déterminer les espèces dans une flore.
C’est pour cela que les objectifs du stage, visent à diminuer les connaissances préalables nécessaires à la bioindication, par les plantes, en diminuant le nombre d’espèces nécessaires (50 à 200 espèces). Le but étant d’optimiser la méthode de réalisation d’inventaires floristiques pour bioindiquer les qualités nutritionnelles comme le pH (potentiel hydrogène) et le C/N (nutrition azotée) des sites par la méthode des forêts aléatoires (partie 3 & Breiman 2001). Le pH mesure la concentration d’une solution aqueuse en protons H+ et le degré d’acidité d’une solution.
Le C/N est le rapport entre le carbone organique et l’azote total d’un horizon (couche du sol). C’est un indice qui sert à caractériser globalement les matières présentes dans le sol mais également les apports et restitutions organiques.

Apprentissage statistique

L’apprentissage statistique

En apprentissage statistique, nous disposons d’un échantillon d’apprentissage, qui est une suite de vecteurs aléatoires indépendants et identiquement distribuées (i.i.d.), qui est de même loi que (X,Y). De plus, (X, Y) est indépendant de l’échantillon d’apprentissage et sa loi est inconnue. L’entier naturel n représente le nombre d’observations de l’échantillon d’apprentissage. Etant donné que la loi de (X, Y) est inconnue, on essaie d’apprendre cette loi par l’échantillon d’apprentissage. En particulier, on essaie de comprendre le lien entre la variable Y (considérée comme la variable réponse) et la variable X (considérée comme variable explicative). La méthode statistique doit être capable de prédire la variable réponse et celle-ci doit être la plus proche possible de la vraie valeur, associé à la variable explicative.
Il existe deux cadres en apprentissage statistique, la régression et la classification.
Dans les limites de mon stage je m’intéresse uniquement à la partie régression. C’est pour cela que j’introduis les arbres de régression afin de mieux comprendre les forêts aléat oires.

Arbre de régression

Les arbres de décision, classification et régression, ont été introduit par Léo Breiman et al. (1984). On parle souvent de CART (Classification And Regression Trees), qui est l’abréviation du titre du livre, qui construit des pré dicteurs par arbre en régression. La méthode consiste à découper l’espace des variables explicatives X1,…, Xp dans le but d’expliquer Y.
Un arbre de régression est construit par une procédure itérative. Dans cette procédure, on commence par chercher une règle de division binaire d = d(x m ,s), du type x m s (s appartenant à (ensemble des réels), si Xm est quantitative) ou xm appartient à S (où S est est un sous-ensemble de l’ensemble des modalités de X m , X m est qualitative). Ceci permet de partager l’ensemble des observations initiales, noté t0 , et dit racine de l’arbre, en deux sous-ensembles, t g et t d , dits nœuds descendants de t0 . Parmi tous les partages possibles explorés sur toutes les variables explicatives et tous les seuils, on retient celui qui minimise le critère suivant.

Forêts aléatoires

Définition : Soit { (., Ѳ1), …, (., Ѳq)} une collection de prédicteurs par arbre, où (Ѳ1, …, Ѳq) est une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), indépendante de l’échantillon d’apprentissage. Le prédicteur des forêts aléatoires est obten u par agrégation (en faisant la moyenne des arbres) de cette collection de prédicteurs.
Les arbres qui composent la forêt sont construits ainsi : On génère tout d’abord plusieurs échantillons bootstrap. Ensuite, sur chaque échantillon une variante de CART est appliquée.
Plus exactement, on choisit aléatoirement l (l<n) observations parmi les n observations qui composent le jeu de données. Pour découper un nœud, on tire aléatoirement m variables parmi les p et on cherche parmi celles-ci la meilleure coupure (avec toujours le même critère). De plus, les arbres construits ne sont pas élagués. Sous R, pour générer les forêts aléatoires, j’utilise la fonction randomForest qui est incluse dans le package possédant le même nom (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2(3), 18–22.). Il y a deux paramètres dans cette fonction à préciser, ntree représentant le nombre d’arbres composant la forêt et le paramètre mtry représentant le nombre de variables d’entrées choisit de manière aléatoire (bootstrap) à chaque division.
Le tirage, à chaque nœud, des m variables, se fait, sans remise, et uniformément parmi toutes les variables (chaque variable a une probabilité 1/p d’être choisie). Le nombre m (m ) est fixé au début de la construction de la forêt et est identique pour tous les arbres.
C’est un paramètre très important de la méthode.

Sélection de variables

Il y a deux objectifs distincts en sélection de variables, l’un est l’interprétation et l’autre la prédiction. L’objectif d’interprétation cherche à sélectionner toutes les variables X fortement reliées à la variable réponse Y (même si les variables X sont corrélées entre elles).
L’objectif de prédiction cherche à sélectionner un petit sous ensemble de variables suffisant, pour bien prédire la variable réponse. Je présenterai une méthode générale et une méthode un peu plus complète, Genuer et al. (2010), pour faire ces sélections.

Sélection générale

L’objectif est de trouver un sous-ensemble de variables importantes suffisant pour la prédiction. Pour calculer l’importance d’une variable X , noté VI(X ), Breiman (2001) introduit un indice, dont j’ai pu trouver une explication assez simple dans la thèse de Genuer (2010) : si on permute aléatoirement la r-ième variable, on obtient un échantillon perturbé, noté , plus les permutations causent une forte augmentation de l’erreur, plus elle est importante. De plus, cet indice permet de distinguer les variables importantes et pertinentes des variables qui ne le sont pas. Cet indice est calculé par la formule suivante.
Une première procédure de sélection a consisté à retenir les q<p variables les plus importantes, puis de générer de nouveau une forêt avec ces variables . Puis, on continue ainsi, jusqu’à obtenir un nombre suffisant de variables pour lesquels l’erreur OOB n’est pas trop élevé ni trop faible. Car si l’erreur OOB est trop élevé le modèle n’est pas bon, à l’inverse s’il est trop faible le modèle est trop bon, c’est alors le surapprentissage. Voici les résultats pour cette sélection de variables. Avec le logiciel R, il y a un graphique intéressant dans le package randomForest qui s’appelle le varImPlot(), en voici un exemple, celui se trace avec la fonction varImPlot(). Ce graphique permet de voir le classement des variables des plus importantes au moins importantes. Dans l’exemple, il n’y a que quelques espèces parmi les 680 composants le jeu de données.
Enfin, avec cette sélection de variables, les variables (espèces végétales) les plus importantes sont les suivantes.
Pour le pH : Pteridium aquilinum, Lonicera periclymenum, Deschampsia flexuosa, Polytrichum formosum,Viburnum lantana, Acer campestre, Teucrium chamaedrys, Cornus sanguinea, Erica arborea,Calluna vulgaris, Lonicera xylosteum, Fraxinus excelsior, Thymus vulgaris, Euphorbia cyparissias,Viola reichenbachiana, Fagus sylvatica, Quercus robur, Brachypodium sylvaticum, Fragaria vesca,Atrichum undulatum, Athyrium filix femina, Ligustrum vulgare, Dryopteris filix mas, Crataegus laevigata, Carpinus betulus, Rubus fruticosus, Galium odoratum, Galium mollugo,Dryopteris dilatata, Dryopteris carthusiana, Betula pendula, Hieracium murorum, Teucrium scorodonia, Ribes alpinum, Vaccinium myrtillus, Sesleria caerulea, Abies alba, Sorbus aria, Brachypodium pinnatum, Epipactis helleborine, Phillyrea angustifolia, Rosa arvensis,Bromus erectus, Ulmus minor, Sorbus aucuparia, Dactylis glomerata, Juniperus communis,Cardamine pentaphyllos, Lonicera alpigena, Galium aparine.
Pour le C/N : Pinus pinaster, Pteridium aquilinum, Dicranum scoparium, Deschampsia flexuosa, Polytrichum formosum,Dactylis glomerata, Fraxinus excelsior, Molinia caerulea, Lonicera periclymenum, Teucrium scorodonia,Euphorbia cyparissias, Corylus avellana, Abies alba, Calluna vulgaris, Pleurozium schreberi, Luzula luzuloides,Atrichum undulatum, Quercus suber, Fagus sylvatica, Anthyllis montana, Picea abies, Acer pseudoplatanus,Carpinus betulus, Cytisus scoparius, Lamium galeobdolon, Acer campestre, Rubia peregrina, Prenanthes purpurea, Crataegus monogyna, Plagiomnium undulatum, Euphorbia characias, Scleropodium purum, Dryopteris dilatata, Quercus ilex, Arum maculatum, Leucobryum glaucum,Vaccinium myrtillus, Circaea lutetiana, Quercus petraea, Brachypodium sylvaticum,Linum suffruticosum subsp. appressum, Galeopsis tetrahit, Thymus serpyllum, Glechoma hederacea,Eryngium campestre, Viola reichenbachiana, Castanea sativa, Rubus idaeus, Galium mollugo, Prunus spinosa Oxalis acetosella, Athyrium filix femina, Rubus fruticosus, Quercus robur, Hedera helix, Polygonatum verticillatum, Carex pilulifera, Galium odoratum, Festuca altissima, Holcus mollis, Agrostis capillaris, Sorbus aucuparia, Orthilia secunda, Frangula alnus, Carex sylvatica, Dryopteris carthusiana,Dryopteris filix mas, Cornus sanguinea, Eurhynchium striatum, Alnus glutinosa, Bromus erectus, Sorbus aria,Urtica dioica, Sorbus torminalis, Lavandula angustifolia, Quercus humilis, Polygonatum multiflorum Galium corrudifolium, Rosa arvensis, Hieracium pilosella, Anemone nemorosa, Genista pilosa, Ajuga reptans,Quercus rubra, Vincetoxicum hirundinaria, Carex brizoides, Digitalis purpurea, Plantago media, Prunus avium,Hieracium murorum, Trifolium pratense, Carex flacca, Crataegus laevigata, Melampyrum sylvaticum, Phyteuma orbiculare, Deschampsia cespitosa, Genista anglica, Cistus salviifolius, Evonymus europaeus, Valeriana montana.
Pour le C/N (sans valeurs extrêmes) : Molinia caerulea, Fraxinus excelsior, Deschampsia flexuosa, Dicranum scoparium, Arum maculatum, Dactylis glomerata, Fagus sylvatica, Anthyllis montana, Euphorbia cyparissias,,Abies alba, Pteridium aquilinum, Scleropodium purum, Vaccinium myrtillus, Polytrichum formosum, Pinus pinaster, Quercus ilex, Lamium galeobdolon, Prunus spinosa, Calluna vulgaris, Atrichum undulatum, Carpinus betulus, Corylus avellana, Rubia peregrina, Pleurozium schreberi, Rumex acetosa, Galeopsis tetrahit, Crataegus monogyna, Quercus petraea, Fragaria vesca, Leucobryum glaucum, Brachypodium sylvaticum, Phillyrea angustifolia, Galium mollugo, Lonicera periclymenum, Teucrium scorodonia, Acer pseudoplatanus, Orthilia secunda, Geranium robertianum, Viola.reichenbachiana, Plagiomnium.undulatum, Sorbus.aucuparia, Hippocrepis.comosa, Evonymus europaeus, Acer campestre, Laserpitium gallicum, Carex flacca, Picea abies, Thuidium tamariscinum, Prenanthes purpurea, Linum suffruticosum.subsp. appressum, Rubus idaeus, Rosa arvensis, Dryopteris filix.mas, Oxalis acetosella, Lavandula angustifolia, Ulmus minor, Quercus robur, Circaea lutetiana, Castanea sativa, Melampyrum pratense, Anemone nemorosa, Vicia sepium, Lonicera xylosteum, Rubus fruticosus, Polygonatum verticillatum, Ajuga reptans, Galium odoratum, Bromus erectus, Festuca altissima, Ligustrum vulgare, Carex sylvatica, Cornus sanguinea, Bupleurum falcatum, Athyrium filix femina, Hedera helix, Quercus suber, Allium ursinum, Globularia cordifolia, Paris quadrifolia,Thymus serpyllum Eurhynchium striatum, Polygonatum multiflorum, Lotus delortii, Glechoma hederacea, Agrostis capillaris, Hordelymus europaeus, Sorbus aria, Carex pilulifera, Urtica dioica, Holcus mollis, Teucrium chamaedrys, Crataegus laevigata, Brachypodium pinnatum, Prunus avium, Dryopteris carthusiana, Hypnum cupressiforme, Conopodium majus, Plagiomnium affine, Geum urbanum, Pistacia terebinthus.
Je remarque qu’entre la sélection de variables, pour le C/N, avec et sans val eurs extrêmes, il y a 75 variables similaires, ce qui me paraît assez élevé. En fait, même si j’enlève les valeurs extrêmes, le nombre de variables sélectionnées restent inchangées mais les espèces choisies sont quand même assez différentes.

Sélection selon Robin GENUER et al

La procédure de sélection de variable se base selon la méthode de Genuer et al. (2010).
La première étape consiste à classer les variables par ordre décroissant d’importance, puis à retirer les variables de faible importance. Ensuite, avec les variables sélectionnées, on compare l’erreur OOB de modèles de forêts aléatoires emboités (à chaque pas on rajoute une variable dans le modèle) et on sélectionne le modèle réalisant la plus faible erreur.
Enfin, la dernière étape, qui a pour but de trouver un petit sous-ensemble de variables, suffisant pour bien prédire la variable réponse. Cette étape consiste d’ajouter (à chaque pas), une variable dans le modèle que si elle fait suffisamment diminuer l’erreur OOB. Cette procédure est appliquée aux jeux de données, afin de bien prédire le pH et le C/N. En voici les résultats.
Je constate que lorsque le nombre de variables augmente, l’erreur OOB varie entre 1.61 et 0.35 pour les modèles emboités et conserve 311 variables. Mais cela reste encore trop élevé, c’est pour cela que, la dernière étape des modèles prédictives, vise à dimi nuer le nombre de variables dans le but de bien prédire le pH en ne conservant que 91 variables, l’erreur OOB est comprise entre 1.61 et 0.37. C’est le modèle qui sera retenu. De plus, dans la sélection générale, j’avais choisi le modèle à 50 variables, en comparant avec les espèces choisies lors de cette sélection, il y a 41 espèces qui sont identiques, ce qui est élevé.

Discussion

La bio indication est une méthode indirecte de l’étude des sols. J’ai montré que grâce aux modèles des forêts aléatoires, on pouvait faire de la sélection de variables. L’avantage de cette méthode est qu’elle prend en compte les interactions et les corrélations entre les variables explicatives. De plus, elle est performante aussi bien pour des problèmes classiques (n>>p, n est le nombre d’observations et p le nombre de variables explicatives ) que pour des problèmes de grande dimension (n<<p). Néanmoins, l’un des inconvénients de cette méthode, est sa difficulté d’interprétation. En effet, pour un arbre de régression, il suffit uniquement de lire au niveau des nœuds les variables les plus importantes et de suivre les branches pour avoir la prédiction en fonction des variables. Nous perdons tous ces informations dans le cadre des forêts aléatoires et il est difficile de répondre à la question, pourquoi ces variables ont-elles étaient sélectionnées et pas les autres ? C’est pour cela, qu’il ne suffira pas uniquement de dire que telle espèce est très présente dans le jeu de données (comme par exemple le Pteridium aquilinium 26% de présence, ce qui est élevé pour une espèce), pour dire que c’est pour cela qu’elle a été sélectionnée. Car, il y a par exemple, l’espèce Teucrium chamaedrys, qui a seulement 5% de présence, mais qui a été aussi sélectionnée. De plus, ce n’est pas possible de dire que telle espèce a été choisi car cette espèce pour dans un sol acide ou un sol basique. En effet, l’espèce Acer campestre pousse sur des sols basiques tandis que l’espèce Deschampsia flexuosa pousse sur des sols acides. Pourtant, toutes les deux espèces ont été sélectionnées comme étant importante pour le pH. La même réflexion pourrait être faite pour le C/N.
De plus, j’ai voulu savoir s’il y avait des espèces qui étaient à la fois importante pour le pH et le C/N, en traçant l’importance des variables du pH en fonction de l’importance des variables du C/N.
Mais il n’y a que les espèces suivantes qui sont à la fois importantes au pH et au C/N : Pteridium aquilinium, lonicera periclymenum, Fraxinus excelsior, Deschampsia flexuosa, polytrichum formosum, Euphorbia cyparissias. Toutes les autres sont moins importantes.
En discutant, avec les spécialistes forestiers, ils pensent que pour les deux sélections de variables, cela représente beaucoup trop de variables, c’est pour cela que dans un rapport de Gégout et al. (2008), ils préconisent un découpage en zone biogéographique de la France. Voici le découpage en 5 zones.

Conclusion

Durant ce stage, j’ai pu m’initier à l’apprentissage statistique et à la recherche bibliographique. Bien que l’apprentissage soit une matière jeune, ces méthodes sont des plus performantes, que ce soit dans le cadre de la régression ou la classification. La méthode que j’ai étudiée tout au long de mon stage, les forêts aléatoires, semble être des plus efficace. Dans mon cas, je les ai utilisées pour faire de la sélection de variables.
En effet, les forêts aléatoires, m’ont permis de sélectionner moins d’une centaine de variables pour bien prédire le pH avec une erreur quadratique moyenne faible et un pourcentage de variance expliquée élevé. De même, pour le C/N, malgré que l’erreur soit élevée et un faible pourcentage de variance expliquée, j’ai réussi à réduire le nombre de variables explicatives.
De plus, de l’aveu même des spécialistes forestiers, le C/N est une variable assez compliquée à expliquer. Cependant, cette méthode possède un défaut majeur, l’interprétation des résultats. Le temps de calcul pour les modèles à plusieurs centaines de variables était relativement long. Pour gagner du temps, par exemple dans la sélection de Genuer, j’ai dû uniquement faire de la sélection avec deux forêts alors que dans son article (Genuer et al. 2010), ils en utilisent cinquante. En outre, la sélection faite dans les cinq zones va aider les techniciens sur le terrain car il s’agira de relever que les espèces sélectionnées dans ces zones-là. Cela sera, d’une part, plus facile pour eux, car ils n’auront qu’à connaître ces espèces, et d’autre part, ils prendront moins de temps à faire leurs relevés floristiques. D’un point de vue personnel, ce stage dans un autre laboratoire de recherche, m’a permis de rencontrer des chercheurs et doctorants formidables, mais aussi des stagiaires venant des quatre coins monde.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1) Introduction
1.1) Présentation du laboratoire
1.2) Présentation du sujet et des données
2) Modèles
2.1) Modèles statistiques
2.1.1) Modèle linéaire
2.1.2) Modèle additif généralisé
3) Apprentissage statistique 
3.1) L’apprentissage statistique
3.2) Arbre de régression
3.3) Forêts aléatoires
4) Sélection de variables 
4.1) Sélection générale
4.1.1) Résultats
4.2) Sélection selon Robin GENUER et al
4.2.1) Résultats
5) Discussion 
6) Conclusion
7) Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *