Évaluer la santé de la taxonomie zoologique

Candolle, Galton et Cattell

   Essaie-t-on soi-même de pénétrer dans le labyrinthe des faits et des théories scientifiques, on est arrêté très vite par deux obstacles. L’un est l’immensité du sujet, l’autre le sentiment qu’il ne faut pas substituer sa propre opinion à celle du public scientifique, ni surtout à l’opinion des hommes spéciaux de chaque science, qui détermine presque toujours l’opinion générale des savants. Dans le but d’éviter ces difficultés, je me propose d’essayer une méthode qui n’a pas encore été employée. Au lieu de consulter les auteurs et de mêler à leurs jugements mes propres opinions, dont la valeur est nulle, excepté dans une seule science, je chercherai ce que les principaux corps savants de l’Europe ont pensé des hommes qui se sont distingués depuis deux siècles. Alphonse de Candolle, p. 22 (1806-1893) Coïncidence curieuse, c’est le fils du créateur du terme taxonomie Augustin Pyramus de Candolle (1778 1841) qui réalise avec son Histoire des sciences et des savants depuis deux siècles, ce que l’on considère être le premier travail de scientométrie. Son analyse du nombre de membres étrangers nommés par les principales sociétés ou académies des sciences européennes lui permet d’évaluer la contribution de chaque nation au développement scientifique mondial (Polanco, 1995). Elle fut suivie par les travaux statistiques sur les scientifiques de Francis Galton (1822-1911), qui cherchait à montrer que l’hérédité est primordiale dans le choix d’une carrière et d’une réussite scientifique, et James McKeen Cattell (1860-1944), qui cherchait à démontrer que les conditions de travail des scientifiques en Amérique étaient moins bonnes que celles d’Europe et que le nombre de scientifiques dans le monde n’était pas assez élevé (Galton, 1874; Cattell, 1906 cités par Godin, 2005, p. 8). Si ces travaux représentent les premières études statistiques portant sur la science, et en particulier les scientifiques, l’histoire de la scientométrie retient toutefois qu’elle s’est développée à partir de la bibliométrie, qui date elle-même du début du XXe siècle.

Naissance de la bibliométrie

 L’une des maladies de notre époque est la multiplicité des livres ; ils surchargent tellement le public que celui-ci est incapable de digérer l’abondance de matière oiseuse quotidiennement éclose et répandue dans le monde Barnaby Riche, 1613 ; cité par de Solla Price (1972, p. 68) L’idée selon laquelle les scientifiques doivent faire face à une somme toujours plus vertigineuse de documents n’est pas nouvelle. Ce discours revient même de façon assez cyclique (Braun et Zsindely, 1985). Puisqu’il faut faire des choix, Cole et Eales (1917) proposent dès le début du XXe siècle une méthode permettant d’identifier les journaux indispensables à lire dans leur domaine, basée sur le dénombrement de textes scientifiques. Puis c’est Gross et Gross (1927) qui utilisent à leur tour ces méthodes pour aider les bibliothèques à faire des choix dans leurs abonnements, celles-ci ayant un budget trop limité pour souscrire à l’ensemble des journaux existants. Avec eux naît donc l’application aux journaux scientifiques de la bibliométrie- étude statistique des productions écrites (Rostaing, 1996, p. 9) – déjà avancée sur des publications juridiques (Shapiro, 1992). Les lois fondamentales de la bibliométrie sont énoncées rapidement, par Lotka (1926), Bradford (1934) et Zipf (1935). Le mot bibliométrie apparaîtra lui-même tardivement : « application des mathématiques et des méthodes statistiques aux livres, articles et autres moyens de communication » (Pritchard, 1969).

Garfield : mise en place des outils

   Les premiers instruments de travail de la scientométrie apparurent peu de temps après. Jusqu’alors, il n’existait pas de grande banque de données portant sur les productions scientifiques de domaines différents. Dès 1955, Eugene Garfield imagina pour l’aide à la recherche bibliographique des scientifiques l’existence d’un répertoire interdisciplinaire qui regrouperait les articles des principaux périodiques et leurs références (Garfield, 1955). Il fonda l’Institute for Scientific Information (ISI) en 1958 (Yancey, 2005) et la première version du Science Citation Index (SCI) vit le jour sous format papier à l’ISI en 1963. Les premiers instruments de travail de la scientométrie furent donc les journaux sélectionnés dans le SCI. À l’Est comme à l’Ouest, la scientométrie s’inscrit lors de sa naissance dans une vision très positiviste de l’activité de recherche. Non seulement la science constitue une activité exemplaire, qui se distingue radicalement des autres activités humaines par son caractère hautement rationnel, mais de plus les méthodes qui fondent sa rigueur peuvent et doivent lui être appliquées : c’est en quelque sorte du scientisme à la puissance deux. (Callon et al., 1993, p. 6)

Distributions bibliométriques : Lotka, Bradford, Zipf

   Les travaux les plus anciens font appel à la notion de regroupement et dénombrement de travaux scientifiques sur des critères précis. On cherche à savoir, par exemple, la quantité de travaux publiés sur un sujet donné, le nombre de journaux d’un pays particulier, le nombre d’auteurs d’un domaine précis… Ces regroupements peuvent être classés entre eux, et donnent alors lieu à des distributions statistiques (Figure 2.1). On observe très souvent la même distribution. Elle est caractérisée par une partie « cœur » et une partie « dispersion ». Par exemple, peu d’auteurs publient beaucoup, et beaucoup d’auteurs publient peu, ou peu de journaux concentrent la majorité des articles d’un domaine, et beaucoup en concentrent peu. Ces régularités ont donné lieu à ce que l’on a appelé des lois. Il ne faut pas les comprendre au sens des lois utilisées en physique : elles représentent le phénomène bibliographique, mais ne l’expliquent pas ; ici le terme de loi a donc plutôt le sens de tendance statistique. Loi de Lotka : elle stipule qu’un très petit nombre d’auteurs publie beaucoup, et une grande majorité d’auteurs publient peu. Par exemple, en observant la distribution du nombre d’articles par auteur, au 21 août 2011, de tous les travaux sur les Amphibiens contenus dans le Zoological Record , on obtient la courbe de la figure 2.2. Loi de Bradford : elle stipule qu’un très petit nombre de journaux concentrent la majorité de la littérature d’un domaine, et qu’un grand nombre de journaux en contiennent peu. Par exemple, en observant la distribution dans les différents journaux, au 21 août 2011, de tous les articles sur les Amphibiens contenus dans le ZR, on obtient la courbe de la figure 2.3. Loi de Zipf : elle stipule qu’un petit nombre de mots reviennent fréquemment dans un texte littéraire, tandis qu’un grand nombre de mots sont plutôt rares. Zipf avait intitulé sa loi « le principe du moindre effort » car cela suggérait la réflexion que l’être humain choisit et utilise plus facilement des mots familiers que des mots insolites par pure paresse. Toutes ces lois ont bien sûr été modélisées mathématiquement par leurs auteurs, mais nous n’entrerons pas dans les détails ici. Certains de ces modèles, initialement trop approximatifs, furent améliorés par la suite. Ces trois lois ont un air de famille qui a poussé certains auteurs à préciser le principe commun qu’elles pourraient partager. Solla Price a le premier tenté de les réunir (Rostaing, 1996, p. 41) avec une théorie reflétant le phénomène connu sous le nom « d’effet Saint-Matthieu », qui veut que l’ « on ne prête qu’aux riches » : le succès améliore les chances de succès, tandis que l’échec ne les diminue pas. Cela expliquerait la création d’un pôle cumulatif, et donc par opposition celle d’un pôle de dispersion. Les analyses scientométriques sont traditionnellement classées en deux catégories : celle des indicateurs d’activité et celle des indicateurs relationnels (Callon et al., 1993, p. 39). Elles mettent en jeu deux modèles différents du développement scientifique et technique. Le premier conçoit la science comme une activité productive ordinaire, dont les domaines sont établis, connus et mesurables par des méthodes quantitatives. Le second modèle quant à lui cherche à définir des thèmes de recherche et étudie leurs transformations de manière qualitative.

Le processus d’indexation

   Je reproduis ci-contre, en anglais, la description qui m’en a été faite par Nigel Robinson. « Currently over 5000 international journals plus monographs and other publications are reviewed by a team of graduate zoologists to select appropriate articles within the scope of ZR. Each article in scope is reviewed and indexed by identification of key concepts and posting those against a series of controlled vocabularies. The records in ZR receive broader terms in the hierarchy to allow upposted searching and cascading of narrower terms. Hence all new taxa entries will be upposted to New taxa – Nomenclature – Systematics. Index entries are made using a highly sophisticated electronic data capture system operated by the graduate zoologists. Our computer system is a data entry system linked to a large relational database which prompts our indexers to enter the correct information and checks they have done so correctly. It has over 200 checks to ensure accuracy and consistency and links to our controlled vocabularies of over 3000 terms to a given topic is indexed consistently. This ensures high levels of accuracy and provides mechanisms to record all taxonomic and nomenclatural changes individually and in a standard format which we can then make available in print or electronically. The views are not those of the individual indexer. We have strict guidelines and policies enforced by a sophisticated computerised data entry system to ensure all indexing is consistent and aligns with our editorial policies and accepted and defined zoological practices as defined by the Code. Over the years these system have evolved and now have many authority files associated with them together with built in checks and editorial controls to ensure data quality and standardization. This system is separate from the BIOSIS indexing system and employs different principles ».

Distribution des articles dans le ZR

   Le nombre total d’articles par année n’est pas une information disponible aux usagers du ZR. Il faut donc faire les recherches soi-même. Chaque article du ZR est caractérisé par deux années : l’année de sa publication, d’une part et l’année de son entrée dans le ZR, d’autre part. L’année d’entrée dans le ZR ne correspond pas toujours à l’année de publication. En effet, si l’on analyse les dates de publication des articles rentrés dans le ZR en 2005 , on constate qu’ils s’étendent de 1979 à, curieusement, 2006 (figure 3.4a). Il y a quasiment autant d’articles de 2004 que d’articles de 2005 qui ont été informatisés en 2005. Il y a donc un temps de latence non négligeable entre la publication de l’article et son entrée dans le ZR. La figure 3.4b montre le nombre de travaux publiés et référencés chaque année dans le ZR entre 1980 et 2008. On voit que le nombre de travaux publiés est supérieur au nombre de travaux référencés l’année correspondante ou l’année précédente, excepté de 1995 à 2004 où il semblerait qu’un grand nombre d’articles ait été traité. Le pic de 2000 est particulièrement important.

Taxonomie ou taxinomie ?

   On trouve, en français, deux graphies pour désigner la même discipline : taxonomie et taxinomie. Fischer et Rey (1983) expliquent que seule la forme taxinomie est étymologiquement correcte, et que la forme taxonomie vient de ce que Candolle a fait une erreur lors de sa formation en 1813. « Le seul fait que taxonomie ait été choisi par les systématiciens et zoologistes de langue anglaise qui font autorité dans ces sciences, ne justifie pas l’erreur de Candolle ni les fausses interprétations étymologiques et définitions qu’en ont fourni ces auteurs pour cautionner l’emploi de ce terme et le préférer à taxinomie : seul ce dernier mot est correct. Aussi ce n’est pas le purisme, mais la rigueur qui conseille de parler de taxinomie » (p. 113). Les auteurs concluent en disant qu’« il ne nous appartient évidemment pas de décider de la forme qui sera retenue. Cela est du ressort des spécialistes de la science des classifications ». Plutôt que d’entrer dans le débat sans fin qui fait s’opposer les partisans d’une étymologie juste aux partisans de l’usage , je considérerai pour ma part que le dernier mot revient à son auteur, aussi mauvais helléniste soit-il. Je choisis donc d’utiliser le terme « taxonomie » pour la suite de ce travail.

Vers une cartographie de la zoologie

   Comme le dit Velt dans son article récapitulatif Cartographies des connaissances scientifiques (2011), le classement des savoirs est une question philosophique majeure dont on peut trouver des représentations graphiques très anciennes. Citons ainsi, pour le plaisir des yeux, les représentations synthétiques présentes dans l’Arbor Scientiae de Lulle (1515, figure 4.1), dans les Tableaux accomplis de tous les arts libéraux de Savigny (1587, figure 4.2), ou encore dans l’introduction du premier tome de l’Encyclopédie de Diderot et d’Alembert (1751, figure 4.3). La plupart du temps, ces connaissances sont présentées sous forme d’arbre, i.e. sous une forme hiérarchisée. Ce choix de représentation laisse la porte ouverte au progrès puisqu’il rend possible l’ajout de nouvelles disciplines. La représentation sous forme de cercle de Savigny (figure 4.2) est une exception, qui ne laisse pas de place au progrès (Bibliothèque nationale de France, 1996). La forme hiérarchique prévaudra jusqu’au milieu du XXe siècle, et sera choisie en 1876 par le bibliothécaire américain Melvil Dewey pour mettre en place un système de rangement des ouvrages encore présent dans les bibliothèques du monde entier : la classification décimale de Dewey. Si elles facilitent l’accès aux connaissances et aux documents, ces représentations hiérarchiques utilitaires ne permettent toutefois pas de rendre compte des relations que les disciplines ont entre elles. Au milieu du XXe siècle, des représentations tenant compte de ces relations voient alors le jour : celle du physicien John Desmond Bernal en 1939 (Bernal, 1939) et celle du chimiste Harold Ellingham en 1948 (figure 4.4). Ces cartes sont basées sur les connaissances personnelles que chacun de leurs auteurs possèdent vis-à-vis de leur discipline. Dans les années 1960 apparurent les premières cartes basées non plus sur une expertise, mais sur des données quantitatives collectées, analysées puis représentées visuellement (Velt, 2011). Les données servant de support à la construction de ces cartes sont d’abord les données de co-citation, répertoriées dans les grandes bases de données bibliographiques disponibles (voir page 6). Le principe est que les documents ou journaux souvent cités ensemble, i.e. souvent co-cités, définissent un ensemble de recherche cohérent (Small, 1973) qui peut être visualisé graphiquement. Par la suite d’autres types de données furent utilisés pour représenter les liens entre disciplines : données linguistiques (Callon et al., 1986), association des deux méthodes précédentes ou, encore plus récemment, traces informatiques laissées par les chercheurs lors de leurs recherches bibliographiques sur des sites dédiés (Bollen et al., 2009). Depuis les années 2000, l’accroissement des moyens de calcul et le développement concomitant des outils a fait de la représentation cartographique des sciences une discipline en pleine expansion, d’autant plus investie que ses problèmes rejoignent ceux d’initiatives plus larges telles que la cartographie du World Wide Web ou des réseaux sociaux virtuels. La cartographie scientométrique ne se développe plus seulement dans les laboratoires, mais également au sein d’entreprises, véritables start-up montées par des chercheurs ; au sein d’associations ou encore de consortiums. Nous pouvons ainsi citer l’exposition Places and spaces , qui donna lieu à la publication de l’Atlas of science (Börner, 2010), les Maps of science 6 de SciTech Strategies (Boyack, Klavans et Small), ou encore les cartes de la science européenne développées par WebAtlas (Franck Ghitalla). Le tableau serait incomplet s’il ne mentionnait les projets de cartographies des sciences basés non plus sur la description de leur structure, mais sur la compréhension de leur(s) dynamique(s) et de leur évolution, comme le projet de cartographie des controverses scientifiques Macospol (coordinateur : Bruno Latour) ; ou encore plus récemment, les projets étudiant la cartographie comme outil d’évaluation de la recherche (Rafols et al., 2010). Nous voyons que ce domaine présente un éventail d’outils très divers. Pour répondre aux deux questions précédemment posées, j’ai sélectionné parmi toutes ces techniques deux approches cartographiques différentes et complémentaires. J’ai choisi d’utiliser le Zoological Record comme source principale des données. Cette base ne contenant pas de données de citations, j’ai utilisé l’approche relationnelle par cooccurrences de mots-clés pour réaliser une carte de la zoologie et ainsi répondre à la question de la délimitation de la taxonomie.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Préambule
I « Mesurer une discipline » : l’affaire de la scientométrie 
1 Une brève histoire de la scientométrie 
1.1 Les précurseurs
1.1.1 Candolle, Galton et Cattell
1.1.2 Naissance de la bibliométrie
1.2 Les fondateurs
1.2.1 Solla Price : mise en place d’une théorie sociologique
1.2.2 Garfield : mise en place des outils
1.3 L’essor d’une discipline
1.3.1 Développement des outils
1.3.2 Reconnaissance et visibilité de la discipline
1.3.3 Le volet applicatif : l’évaluation de la recherche et la veille technologique
2 Techniques de la scientométrie 
2.1 Distributions bibliométriques : Lotka, Bradford, Zipf
2.2 Indicateurs univariés
2.3 Cartes relationnelles de première génération
2.3.1 Co-publication
2.3.2 Citation de revues à revues, réseaux de citation
2.3.3 Analyse des co-citations
2.4 Cartes relationnelles de seconde génération
3 Le Zoological Record, base d’étude privilégiée 
3.1 Présentation
3.1.1 Historique
3.1.2 Propriétés
3.1.3 Informations techniques
3.1.4 Distribution des articles dans le ZR
3.1.5 Outils d’analyse du Zoological Record
3.2 Construction d’un corpus de travail issu du ZR
3.2.1 Faut-il chercher par genres ou par familles ?
3.2.2 Faut-il faire une recherche avec des termes complets ou utiliser
les troncatures ?
3.2.3 Faut-il rechercher par les noms vernaculaires ?
3.2.4 Requête finale
3.3 Gestion des auteurs synonymes
3.3.1 Quelle méthode utiliser ?
3.3.2 Outils à disposition
3.3.3 Algorithme d’homogénéisation
II La taxonomie, une discipline isolée 
4 Une discipline aux contours flous 
4.1 Étymologie
4.1.1 Création
4.1.2 Taxonomie ou taxinomie ?
4.2 Définitions d’auteurs
4.3 Définition par la pratique
4.4 Absence de consensus
4.5 Vers une cartographie de la zoologie
5 Cartographies de la zoologie 
5.1 Méthodologie
5.1.1 Principe général
5.1.2 Outils disponibles
5.1.3 Réalisation des cartes
5.2 Résultats
6 Cartographie de citations au sein de la zoologie 
6.1 Méthodologie
6.1.1 Choix du corpus et du WoS
6.1.2 Estimation de la couverture taxonomique du WoS
6.1.3 Définition des mots-clés de recherche
6.1.4 Construction du graphe
6.2 Résultats
III Un déclin relatif 
7 Que mesurer ? 
7.1 La notion de déclin
7.2 Définition du corpus
8 Mesures des productions et acteurs 
8.1 Nombre de publications
8.1.1 Compte de présence
8.1.2 Compte fractionné
8.2 Nombre d’espèces et sous-espèces décrites
8.2.1 Méthodologie
8.2.2 Résultats
8.3 Nombre de taxonomistes
8.3.1 Méthodologie
8.3.2 Résultats
8.4 Nombre de revues
8.4.1 Méthodologie
8.4.2 Résultats
9 Discussion 
9.1 Absence de déclin global
9.2 Vers une redistribution des forces ?
IV Le déclin, une inquiétude récurrente 
10 Une inquiétude récurrente dans Nature et Science depuis 1946 
10.1 Méthodologie
10.2 Résultats
10.2.1 L’après-guerre
10.2.2 Émergence de nouvelles techniques en taxonomie
10.2.3 Remise en cause des objectifs
10.2.4 Remise en cause des pratiques
10.2.5 L’ère informatique
10.2.6 L’ère du barcode
10.2.7 Conclusion
11 Des mesures depuis le début du XXe siècle 
11.1 Une préoccupation dès le début du XXe siècle
11.2 Des arguments récurrents
V Faut-il développer la taxonomie ? 
12 Importance de la taxonomie 
12.1 Pourquoi développer la taxonomie ?
12.2 Mesure de l’apport de la taxonomie aux autres disciplines
12.2.1 Méthodologie
12.2.2 Résultats
12.2.3 Conclusion
13 Proposition de mesures de sa santé 
13.1 Quand inertie remplace déclin
13.2 Évaluer la taxonomie à travers ses collections
Conclusion
Annexes
A Article de Frontiers in Zoology
B Détail des champs du ZR
C Exemples de scripts de traitement des données sous R
C.1 Fonction d’import des notices
C.2 Fonction de déduplication des notices .
D Définitions de la taxonomie dans la littérature
D.1 Quelques définitions des termes taxinomie, taxonomie ou taxonomy
D.2 Quelques définitions des termes systématique ou systematics
E Pas à pas de l’historiographe
F Description et période de validité des 43 termes de premier niveau du subject thesaurus du ZR
G Thesaurus correspondant au terme Systematics du ZR
H Stratégie de recherche bibliographique sur le thème de la santé de la taxonomie
Bibliographie
Liste des figures
Liste des tableaux

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *