Création, diffusion et archivage de bases de données des langues rares

De septembre 1999 à juillet 2001, un séjour à Hanoi nous a fourni l’occasion de découvrir la richesse linguistique du Vietnam. Au début de l’année 2000, nous avons pris contact avec des linguistes qui travaillent dans le domaine des langues d’Asie du Sud-Est : Michel Ferlus et Barbara Niederer en France, Trần Trí Dõi et Nguyễn Văn Lợi au Vietnam. La charge de travail qui était la nôtre ne permettait pas d’enquêtes de terrain suivies. En revanche, tous reconnaissant l’indigence des fonds documentaires existant sur les « petites langues » du Vietnam, nous avons souhaité œuvrer à la mise en place d’un fonds documentaire à composante sonore, qui irait de pair avec un programme de collecte des langues rares du pays. (Le projet est reproduit en Annexe.) .

Ce projet, qui s’est élaboré entre mai et novembre 2000, devait être réalisé à l’Université Nationale de Hanoi, en collaboration avec le Musée d’ethnologie du Vietnam, et en partenariat avec deux laboratoires du CNRS : le CRLAO (Centre de Recherches Linguistiques sur l’Asie Orientale) et le LACITO (laboratoire Langues et Civilisations à Tradition Orale). M. Trần Trí Dõi, professeur au Département de linguistique de l’Université Nationale de Hanoi, et Mme Barbara Niederer, chercheur au CRLAO, avaient accepté le principe d’une co-direction du projet, dont le Musée d’ethnologie était également partenaire. Le budget pour la première phase était ciblé par rapport au programme de collecte. Le projet a attiré à l’automne 2000 l’attention de M. le Premier conseiller de l’Ambassade de France, et de M. l’Ambassadeur, qui a sollicité un financement sur « amendements parlementaires » (accordés par le Sénat, avec un délai de mise en paiement rapide). Le projet a été accepté ; un financement à 100% a été accordé en décembre 2000. Mais cette somme a été redirigée vers un autre poste budgétaire par M. le Conseiller Culturel, ce qui a empêché la mise en route du projet.

De retour en France, accueilli à la Sorbonne Nouvelle et au LACITO (programme Archivage), nous souhaitions poursuivre la réflexion sur l’apport que nous pourrions faire dans le domaine de la documentation linguistique, de façon plus modeste et plus suivie.

Le point d’orgue du travail documentaire mené cette année dans le cadre du programme Archivage du LACITO a été la participation à la reconstitution d’un corpus de la langue oubykh (langue caucasienne disparue) qui s’était trouvé dispersé. Mais le présent mémoire décrit également d’autres travaux réalisés et en cours, dont l’un est directement lié au travail de recherche projeté pour une thèse de doctorat. Le souci de la documentation rejoint ainsi un travail personnel de recherche sur une langue rare.

Mais est-ce bien de la phonétique ?
Un mémoire au sujet des corpus, présenté pour solliciter l’attribution d’un Diplôme d’Etudes Approfondies en phonétique ? Le rapport avec la recherche en phonétique paraît bien ténu. N’y a-t-il pas eu erreur d’aiguillage ? Ne s’agit-il pas plutôt d’un travail de bibliothécairedocumentaliste, ou de traitement automatique des langues ?

Le présent mémoire ne prétend pas innover au plan technique : écrit par un débutant à mesure de ses apprentissages (par exemple en ce qui concerne les langages XML et XSL), il reste rudimentaire au plan des techniques informatiques présentées. Le fait d’inscrire ce travail comme mémoire de DEA de phonétique est une façon d’exprimer une conviction concernant la nature du travail de conservation : il est important que des linguistes prennent en charge le travail de description des langues rares, pour produire des documents de grande qualité, qui aient des chances d’être conservés lorsque la majorité des langues existant actuellement seront éteintes.

En d’autres termes, le point de départ du présent travail est l’idée selon laquelle il appartient aux linguistes d’aujourd’hui de consacrer une partie de leurs efforts à la conservation du patrimoine linguistique mondial, la théorie linguistique ayant tout à y gagner, à court terme comme à long terme. La tradition de description de langues et de constitution méticuleuse de corpus par des linguistes existe depuis longtemps ; elle est en fait intimement liée au travail philologique de conservation du patrimoine culturel. A l’ère électronique, il est utile de faire le point des réalisations et des besoins, pour que puisse se poursuivre les recherches de linguistique des langues. L’accent mis sur la pluralité des langues ne doit pas être imputé à une quête d’«exotisme » : la prise en compte de cette pluralité permet seule d’éviter que les théories ne soient « glottocentriques ». Le développement des recherches et les progrès dans la compréhension des phénomènes nécessitent la mise en place d’archives sonores par des linguistes. L’époque actuelle représente un moment charnière, entre la découverte des moyens d’enregistrement modernes (audio et vidéo) et l’uniformisation linguistique (disparition des langues et civilisations à tradition orale, diffusion des langues nationales, influence universelle de la langue anglaise). Le phonéticien, soucieux, comme tous les linguistes, de définir son objet d’étude, ne doit-il pas s’efforcer de matérialiser son objet d’étude sous forme d’enregistrements aisés à partager ? Or cela n’est pas encore réellement entré dans les habitudes : les Actes de la conférence Speech Prosody 2002 (Aix-enProvence, 8 11 avril 2002), publiés sur CD-ROM, ne contiennent presque pas d’illustrations sonores, qui paraîtraient pourtant particulièrement nécessaires dans le domaine de la prosodie. Le CD contient moins de 4 Mo d’illustrations sonores : seuls sept articles sont illustrés, par des fichiers de quelques secondes. Il ne s’agit pas ici de problème de capacités de stockage, puisque le CD contient en tout 38 Mo de données : il aurait donc été possible d’y adjoindre plus de 600 Mo de documents sonores. L’absence d’habitude documentaire chez un certain nombre de chercheurs en linguistique fait qu’ils ne sont guère sensibles aux questions des formats de données: dans les illustrations des Actes de Speech Prosody 2002 dont il vient d’être question, on trouve des documents numérisés à 11.025 Hz. Ces échantillons paraissent bien trop courts pour qu’ils permettent de répondre aux questions nouvelles que l’on veut poser, pour tester des hypothèses nouvelles. Ne serait-ce pas une attitude plus scientifique de transmettre des données plus étendues ? L’expérience du chercheur confirme l’intuition de simple bon sens selon lequel un va et-vient entre données et modélisation est nécessaire. Le développement de publications électroniques qui permettent de fournir des illustrations sonores d’articles marque certes un tournant dans le domaine des publications en phonétique, mais il ne paraît pas réaliste d’espérer que cette pratique apporte une solution au problème de la documentation sonore, puisque les illustrations de ce type sont nécessairement parcellaires au regard du système linguistique dont elles sont extraites.

Pourquoi chercher à conserver les « petites langues » ?
Au seuil de ce travail, il paraît nécessaire de se demander pourquoi les réalisations dans le domaine de la documentation des langues rares restent relativement modestes, surtout au vu de la taille actuelle de la communauté internationale des linguistes. Une raison déterminante paraît être qu’aux yeux de beaucoup de chercheurs, l’enjeu de la recherche n’est pas à l’heure actuelle de collecter des données, mais de procéder à leur analyse. L’entreprise de conservation des langues menacées peut apparaître vaine : qu’espère-t-on au juste en emmagasinant fébrilement des données sur de nombreuses langues en voie de disparition ?

N’est-il pas plus éclairant de tisser des liens entre les connaissances existantes, pour réunir les descriptions fragmentaires et proposer des modèles universels ? Cette attitude sceptique n’est pas nouvelle. On y retrouve la critique formulée jadis par La Bruyère :

Quelques-uns par une intempérance de savoir, et par ne pouvoir se résoudre à renoncer à aucune sorte de connaissance, les embrassent toutes et n’en possèdent aucune : ils aiment mieux savoir beaucoup que de savoir bien, et être faibles et superficiels dans diverses sciences que d’être sûrs et profonds dans une seule. Il trouvent en toutes rencontres celui qui est leur maître et qui les redresse ; ils sont les dupes de leur curiosité, et ne peuvent au plus, par de longs et pénibles efforts, que se tirer d’une ignorance crasse. D’autres ont la clef des sciences, où ils n’entrent jamais : ils passent leur vie à déchiffrer les langues orientales et les langues du nord, celles des deux Indes, celles des deux pôles, et celle qui se parle dans la lune. Les idiomes les plus inutiles, avec les caractères les plus bizarres et les plus magiques, sont précisément ce qui réveille leur passion et qui excite leur travail ; ils plaignent ceux qui se bornent ingénument à savoir leur langue, ou tout au plus la grecque et la latine. Ces gens lisent toutes les histoires et ignorent l’histoire ; ils parcourent tous les livres, et ne profitent d’aucun ; c’est en eux une stérilité de faits et de principes, mais à la vérité la meilleure récolte et la richesse la plus abondante de mots et de paroles qui puisse s’imaginer : ils plient sous le faix ; leur mémoire en est accablée, pendant que leur esprit demeure vide. (Les Caractères ou les Mœurs de ce siècle) .

Le linguiste « de terrain » serait de ces personnes qui « trouvent en toutes rencontres celui qui est leur maître et qui les redresse » : un spécialiste de phonétique trouvera à redire à sa description phonétique (trop peu expérimentale, ou sans statistiques ni même données chiffrées, par exemple), un spécialiste de syntaxe le jugera peu stable sur ses bases théoriques, les psycholinguistes auront également du mal à tirer parti de ses données, et ainsi de suite. Au vu du temps, de l’énergie et de l’investissement financier que demandent les enquêtes de terrain, et au vu des multiples obstacles matériels et psychologiques que rencontre le chercheur, le résultat peut paraître mince. Si l’on croit faire des découvertes, c’est parce qu’égaré par la fascination de l’exotique on « découvre » dans une langue rare ce qui existe aussi bien dans d’autres langues, bien décrites, dont on n’a pas pris le temps de prendre connaissance.

Face à ce raisonnement, il est nécessaire d’affirmer que la linguistique, comme toute discipline scientifique, se nourrit d’observations, et d’ouverture sur les faits de langues. Certes, l’enjeu est la compréhension « du langage » ; régulièrement, le linguiste veut croire à la promesse que contient le titre d’un article, ou d’un nouveau livre, qui promet de tirer au clair la structure de l’information linguistique, ou les «maximes de la conversation », ou promet d’accéder au coeur d’une « grammaire universelle ». Cet espoir est ensuite déçu, avec tous les déchirements d’une rupture, puis relancé par une nouvelle tentative, dans un mouvement sans mémoire des théories linguistiques. Pour prendre du recul face aux entreprises sans lendemain qui promettent l’universel sans passer par les langues, il peut être utile de citer les «pères fondateurs » comme Saussure : « ce qui nous est donné, ce sont les langues. Le linguiste est obligé d’en connaître le plus grand nombre possible, pour tirer de leur observation et de leur comparaison ce qu’il y a d’universel en elles. » Il ne paraît pas nécessaire de multiplier les citations à l’appui de cette idée : il est vain d’opposer la « linguistique de terrain » à la recherche « strictement linguistique ». Le « terrain », c’est les faits de langues dont on veut rendre compte ; en ce sens chaque linguiste choisit son « terrain », mais certains sont plus riches que d’autres, ouverts sur un plus grand nombre de réalités. Il n’est pas fortuit que l’ouverture sur les langues du monde aille volontiers de pair, chez les linguistes, avec le soin dans le choix des données.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction : Enjeu de la documentation des langues rares pour la science
phonétique
1. Mais est-ce bien de la phonétique ?
2. Pourquoi chercher à conserver les « petites langues » ?
3. Urgence du travail de documentation
Première partie : Un état des lieux décevant
1. Des phonothèques peu fréquentées par les phonéticiens
Les collections sonores de la Bibliothèque nationale de France
Le Musée national des Arts et traditions populaires
Autres institutions
Le programme Archivage du LACITO
Les collections de l’Institut de Phonétique à Paris
2. La grande fragilité des fonds individuels
3. Pléthore de formats, peu de données
4. Nécessité d’une collaboration et d’un dialogue lors de la création de corpus : réflexions
au sujet d’un corpus réalisé à l’ILPGA
Bilan : Le rôle des équipes de recherche : Pour une charte de qualité des bases de données
L’indexation et la transcription
La qualité de l’enregistrement audio
Rémunération de l’informateur
Une application flexible
Deuxième partie : guide pratique d’archivage et présentation du programme Archivage du LACITO et de la base de données phonétique de Kiel
1. Premières étapes de la création des documents
a. L’enregistrement
b. La réécoute et la transcription
c. Numérisation et découpage
2. L’analyse documentaire des fonds
Le format de la base de données
Les droits d’auteur
3. Le programme Archivage du LACITO
Les feuilles de style
Comment créer un document XML ?
Ce qu’il faut connaître du langage XSL
Bilan
4. Une base de données pour phonéticiens : la base de données phonétique de Kiel
a. Notation des segments
b. L’annotation prosodique
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *