Méthodologie : constitution du corpus et principes d’annotation

Le corpus d’apprenants et la didactique des langues

Le corpus d’apprenants est caractérisé par sa visée didactique. L’élaboration d’un corpus d’apprenants est un pont qui relie les recherches de la linguistique de corpus avec la didactique des langues. L’utilisation du corpus d’apprenants représente de nombreux avantages pour la pédagogie. Tout d’abord, le corpus d’apprenants est une ressource d’exemples authentiques pour la rédaction des manuels, qui pourraient remplacer les exemples artificiels fabriqués par les éditeurs. Par ailleurs, les enseignants peuvent élaborer leur propre corpus d’apprenants auprès de leurs étudiants et identifier les erreurs dans une approche empirique, afin de mieux comprendre le développement de l’apprentissage de leurs étudiants. Les résultats serviraient à l’élaboration des programmes d’enseignement destinés à répondre aux besoins spécifiques des étudiants. Il est aussi possible de laisser les apprenants explorer le corpus et les corrections proposées. Dans ce processus, les apprenants ne sont plus des acteurs passifs qui reçoivent les informations de l’enseignant, mais des acteurs actifs qui contrôlent leur apprentissage sous la direction de l’enseignant. Ils peuvent ainsi bénéficier non seulement de la correction de leurs propres erreurs mais aussi de celle des erreurs de leurs camarades. De plus, le corpus d’apprenants peut servir à organiser les activités pédagogiques.
Par exemple, dans l’étude de Bloch en 2009, les phrases issues du corpus sont données aux apprenants avec les verbes soulignés, et il est demandé aux apprenants de choisir ou de proposer des verbes plus appropriés que ceux qui sont utilisés (Granger, Gilquin & Meunier, 2015, p.449).

Les corpus d’apprenants dans les différentes langues

Bien que l’histoire du corpus d’apprenants ne soit pas très longue, ce domaine s’est bien développé ces dernières années, surtout les corpus oraux et écrits pour l’anglais langue seconde, comme Louvain International Database of Spoken English Interlanguage (Gilquin et al., 2010), Longman Learner Corpus (LLC, Samuel Johnson, 1755), Cambridge Learner Corpus (CLC) créé par l’université Cambridge. Dans le cadre de notre mémoire, nous ne présenterons que deux corpus emblématiques en anglais langue seconde : International Corpus of Learner English (ICLE) et Written Corpus of Learner English (WriCLE).
Le corpus d’apprenants de l’anglais langue seconde le plus connu est sans doute International Corpus of Learner English (Granger et al., 2009). Ce corpus est constitué des textes argumentatifs rédigés par les apprenants de niveau intermédiaire à niveau avancé de différentes nationalités. L’élaboration de ce corpus a été réalisée grâce à la collaboration internationale de plusieurs universités.
La première version de ICLE a été publiée en 2002, comportant 2.5 millions de mots et concernant des apprenants de 11 langues maternelles différentes (bulgare, tchèque, néerlandais, finnois, français, allemand, italien, polonais, russe, espagnol et suédois.). La deuxième version, ICLEv2, comportant 4.5 millions de mots avec des apprenants de 16 nationalités différentes (bulgare, chinois, tchèque, néerlandais, finnois, français, allemand, italien, japonais, norvégien, polonais, russe, espagnol, suédois, tswana, turc), a été publiée en 2009. La deuxième version se différencie de la première par l’extension du corpus et des nationalités des apprenants, mais aussi par le développement de l’interface du corpus avec l’ajout de deux nouvelles fonctionnalités : le concordancier intégré et la répartition des résultats de recherche en fonction des variables enregistrées par ICLE. Le concordancier intégré permet aux utilisateurs de chercher directement les formes, les lemmes ou les balises de partie de discours, sans avoir à recourir à d’autres outils pour interroger les données. La répartition des résultats d’une requête linguistique en fonction de l’ensemble des variables enregistrées par ICLE (comme la langue maternelle, le sexe, l’âge, le type de tâche) met en évidence la relation entre les résultats de recherche et les variables d’apprenants ou de tâches.
Ce corpus a été élaboré dans le but de fournir une base empirique solide pour la théorie sur l’acquisition de la langue seconde, et d’autre part de contribuer à la conception des matériaux pédagogiques destinés aux apprenants avancés, ou à un groupe d’apprenants partageant la même langue maternelle (Granger et al., 2009).
Le corpus ICLE permet d’observer les différences entre la langue des apprenants avancés et celle des natifs en prenant en compte l’influence de la L1. Il a été très exploité et il fait l’objet d’études de nombreux travaux consacrés aux corpus d’apprenants (Stormbom 2018, Ringbom 1999, Virtanen 1996).
Il existe également des corpus d’anglais langue seconde plus spécifiques et destinés à un groupe d’apprenants partageant une même langue maternelle. Le corpus Written Corpus of Learner English (WriCLE, Mendikoetxea & O’Donnell, 2009) a été créé par l’université Autonome de Madrid. C’est un corpus constitué de 700 textes académiques en anglais rédigés par les apprenants hispanophones. Les apprenants sont de niveaux intermédiaire à avancé. Le corpus WriCLE se différencie du corpus ICLE par ses indications de niveaux des apprenants selon l’évaluation de Common European Framework of Reference for Languages (CEFR), une norme internationale pour évaluer la capacité langagière, de niveaux A1 à C2. Un souscorpus d’écrits non académiques est en cours de constitution, principalement des blogs (WriCLEinf). Cela permet la comparaison entre différents registres, ainsi que l’étude de structures non formelles qui sont normalement absentes dans des rédactions académiques (Lozano & Mendikoetxea, 2013, p.71).
Outre le grand nombre de corpus d’apprenants pour l’anglais, les corpus pour d’autres langues étrangères ont également été développés. Par exemple, le corpus d’apprenants en espagnol Corpus Escrito del Español L2 (CEDEL2) a été constitué par l’université Autonome de Madrid. Ce corpus s’inscrit dans le cadre du projet Word Order in Second Language Acquisition Corpora (WOSLAC) piloté par Cristóbal Lozano en 2009. Il comporte 750000 mots des textes écrits par différents niveaux d’apprenants anglophones de l’espagnol langue seconde : débutants, intermédiaires et avancés, et les textes sont répartis en fonction du niveau de l’apprenant. Ce corpus a été employé dans la recherche sur les collocations en espagnol (Alonso Ramos et al., 2010). Une étude contrastive fondée sur le corpus L1 anglais – L2 espagnol (CEDEL2) et le corpus L1 espagnol – L2 anglais (WriCLE) est envisagée pour mieux identifier l’origine des déficiences d’apprentissage (Lozano & Mendikoetxea, 2013).

Les corpus d’apprenants pour le français

Il existe également plusieurs corpus d’apprenants du français langue étrangère, par exemple les corpus écrits comme The “Dire Autrement” corpus (Hamel et Milicevic, 2010), The Lund CEFLE Corpus (Ågren, 2003), le French Interlanguage Database (Granger, 1998), et les corpus oraux comme The COREIL corpus (Delais-Roussarie et Yoo, 2010), French Learner Language Oral Corpora (Myles et Mitchell, 2001), The InterFra corpus (Bartning, 2016). Comme notre étude porte sur les corpus écrits, nous présenterons ici trois corpus écrits sur le français langue étrangère : The “Dire Autrement” corpus, The Lund CEFLE Corpus et le French Interlanguage Database.
Le corpus Dire Autrement est composé de 200 à 250 textes rédigés par une trentaine d’apprenants universitaires de différentes nationalités du français langue seconde, de niveau intermédiaire à avancé. Les textes se répartissent en quatre situations textuelles : informative, narrative, incitative et persuasive, et portent sur trois thèmes principaux : la santé, la bonne alimentation et le sport. Ce corpus s’inscrit dans le cadre du projet Dire Autrement qui vise à concevoir un dictionnaire électronique de reformulation pour les apprenants du français langue seconde. Le thème du projet porte sur les liens que les unités lexicales entretiennent au sein du lexique, comme le lien de collocation (comme combler une lacune), le lien de dérivation sémantique (synonymie, antonymie, nominalisation, par exemple, la nominalisation essayage du verbe essayer dans essayer une robe), et le lien de paraphrase (comme analyser et effectuer une analyse) (Hamel et Milicevic, 2007). Dans le but de produire un dictionnaire de reformulation pour favoriser l’acquisition de liens lexicaux et la réutilisation des paraphrases ou des dérivations sémantiques dans des situations de communication semblables ou nouvelles, les erreurs ayant comme source une maîtrise insuffisante de liens lexicaux sont mises en avant dans l’analyse du corpus.
Le Corpus Écrit de Français Langue Étrangère (CEFLE) est un corpus d’apprenants suédois du français langue étrangère. Ce corpus est constitué de 400 textes écrits par des suédophones du français L2 au lycée en Suède et 60 textes rédigés par 30 scripteurs francophones en tant que groupe de contrôle. Les francophones natifs ont approximativement le même âge que les apprenants suédois. Les textes sont des rédactions libres de type descriptif et narratif. Le corpus est hautement homogène car les variables sont bien contrôlées.
Les apprenants ont la même langue maternelle et approximativement le même âge. Les textes ont été écrits dans une même salle d’ordinateur, sous la direction d’une même expérimentatrice, dans un même temps limité et dans les mêmes conditions ( les apprenants ont été prévenus que ce n’était pas un examen). Quand les autres variables sont contrôlés, la différence entre les rédactions des apprenants reflète mieux la différence entre leur compétence langagière.
Il est intéressant de noter que le corpus est à la fois longitudinal et transversal. 110 apprenants du français au lycée ont été suivis pendant une année scolaire, entre septembre 2003 et mai 2004. Ces apprenants ont entre 16 et 19 ans et ils suivent différents niveaux de cours de français : 1re, 2e, 4e et 5e année de français. La comparaison entre les rédactions d’un même groupe d’apprenants à différents moments d’apprentissage permet d’observer leur progression dans le temps, et la comparaison entre les rédactions des apprenants à des stades d’apprentissage différents permet de révéler les caractéristiques dans ce stade d’apprentissage.

Les erreurs dans les corpus d’apprenants

Pour construire une grille d’erreurs qui nous permette de mieux comprendre les difficultés des apprenants sinophones sur les verbes, nous avons besoin de connaître l’existant.
Les erreurs ont été très étudiées dans les corpus d’apprenants en anglais (Zheng & Park 2013, Omidipour 2014, Na Phuket 2015), mais moins abordées en français. Dans ce chapitre, nous commencerons par l’explication de la notion d’erreur. Nous montrerons ensuite l’intérêt d’étudier les erreurs avec la présentation du système d’interlangue.
À la fin, nous nous concentrerons sur les caractéristiques des grilles d’erreurs élaborées par des chercheurs en anglais et en français, du point de vue sémantique et syntaxique.

La notion d’« erreur »

Les travaux sur l’analyse des erreurs se réfèrent à la notion d’« erreur » et celle de « norme ». Mais, la notion d’« erreur » apparaît complexe. C’est en effet un concept relatif qui implique un écart par rapport à une norme. Il faut également différencier l’erreur de la « maladresse » et de la « faute », qui sont aussi des déviations par rapport à une norme, mais qui possèdent un niveau d’acceptabilité ou un statut différents dans le processus d’apprentissage que l’erreur.

L’« erreur » et la « norme »

L’erreur est un concept relatif qui implique un écart par rapport à une norme. La définition de la norme est complexe. Nous présenterons trois types de normes dans le cadre de notre mémoire : la norme prescriptive, la norme descriptive et la norme fonctionnelle.
La norme prescriptive privilégie une certaine variation langagière et condamne les autres. C’est un choix souvent soumis à l’autorité politique pour une fonction normative, qui vise à former un système uniforme de la langue en éliminant les variations liées à l’usage.
Ainsi selon la norme prescriptive, une erreur est un écart par rapport à une forme normative et privilégiée. La norme descriptive, quant à elle, se rapporte aux formes courantes utilisées par la majorité d’une communauté. L’usage devient ici le critère essentiel. Selon la norme descriptive, une erreur est donc un écart par rapport à l’usage de la majorité. Enfin, selon norme fonctionnelle, le bon usage doit être adapté aux diverses situations de communication et aux situations de la vie en société. Le contexte de communication et le genre deviennent essentiels, et une erreur apparaît quand la variété ou le registre de langue qu’on utilise ne correspond pas au contexte d’utilisation ou au genre du discours.
Nous allons illustrer les différents types de norme par des exemples concrets. Anctil (2012) adopte la norme prescriptive dans son étude. La définition de l’erreur dans son étude s’articule autour du concept de « locuteur expert » : une erreur correspond à une « forme linguistique ou combinaison de formes linguistiques qui diffère de ce qu’un locuteur expert aurait selon toute probabilité produit dans un même contexte de production. » (Anctil, 2012, p. 8). Selon lui, cette définition n’exclut pas le concept de norme, parce qu’un locuteur expert respecte généralement les prescriptions normatives (Anctil, 2012). Ainsi, cette définition de l’erreur s’inscrit dans une conception prescriptive de la norme. La recherche de Yan (2017), consacrée aux erreurs des constructions verbales scientifiques transdisciplinaires chez les apprenants sinophones dans l’écrit scientifique, adopte plutôt la norme fonctionnelle. Yan (2017) se base en effet sur l’usage dans l’écrit scientifique. Elle utilise des corpus d’experts Scientext-SHS comme corpus de référence pour délimiter les erreurs, corpus composé d’articles scientifiques rédigés par des experts. Plusieurs chercheurs comme Tran les utilisent également pour élaborer des séquences didactiques afin d’aider à la rédaction académique en français des apprenants (Yan, 2017). Ces corpus servent de « source d’exemples de l’usage des locuteurs natifs qui sont experts dans certains domaines, et non pas dans un sens prescriptif » (Chambers, cité par Yan, p. 93). L’usage dans les écrits scientifiques des experts représente donc la norme fontionnelle dans le travail de Yan (2017). Yan (2017) définit l’erreur comme un élément linguistique qui ne respecte pas les règles grammaticales de la langue française ou les usages appropriés au genre de l’écrit scientifique. Il s’agit donc à la fois d’une norme prescriptive et d’une norme fonctionnelle. Pour les aspects morphologiques et grammaticaux, Yan (2017) adopte la norme prescriptive, tandis que pour les aspects sémantiques, elle se base plotôt sur la norme fonctionnelle.
Dans le cadre de notre mémoire, nous adopterons la norme prescriptive pour cerner les erreurs. Notre choix s’appuie sur trois arguments : tout d’abord, le corpus que nous utilisons pour effectuer la recherche est composé de textes rédigés par les apprenants dans le contexte universitaire, qui exige un français standard. De plus, la grille d’erreurs que nous élaborerons s’inscrit dans la didactique du français langue étrangère. La variété du français enseignée à l’université est censée correspondre à l’usage privilégié dans les ouvrages normatifs. Par ailleurs, quand nous délimitons les erreurs, la norme prescriptive nous permet de recourir à des ouvrages de référence comme le dictionnaire Robert . Cela nous aide à éliminer la subjectivité de notre part.

Les grilles d’erreurs des chercheurs

Dans cette partie, nous présenterons des grilles d’erreurs en anglais et en français fondées sur l’analyse des corpus.

La typologie d’erreurs de Dagneaux pour l’anglais

Pour les typologies en anglais, nous allons présenter celle de l’étude de Dagneaux, Denness et Granger en 1998 sur les erreurs commises par les apprenants francophones de l’anglais langue seconde. Cette étude a pour objectif d’observer la progression de la L2 chez les apprenants de niveau intermédiaire à avancé. Le corpus comporte, d’une part, un souscorpus constitué des textes rédigés par des apprenants francophones de niveau avancé dans la base de données International Corpus of Learner English (ICLE), et d’autre part, d’un corpus d’apprenants francophones de niveau intermédiaire, au total 150,000 mots. Une classification descriptive des erreurs a été proposée. Il existe 7 catégories principales : formel, grammatical, lexico-grammatical, lexical, registre, redondance / absence / l’ordre erroné des mots, et style, accompagnées de deux niveaux de sous-catégories. Par exemple, sous les « erreurs grammaticales », il y a les « erreurs grammaticales pour les verbes », « erreurs grammaticales pour les noms » et « erreurs grammaticales pour les adjectifs » ; et la sous-catégorie « erreurs grammaticales pour les verbes » est subdivisée en « erreurs de temps », « erreurs d’auxiliaire », « erreurs de voix », etc. La grille de Dagneaux (1998) comporte tous les types d’erreurs commises par les apprenants, tandis que notre grille qui porte sur les erreurs verbales sera moins étendue, mais plus détaillée.

Les typologies d’erreurs pour le français

Pour le français, nous allons présenter trois grilles d’erreurs où les erreurs sont aussi classées selon les dimensions linguistiques : celle d’Anctil (2010), celle de Ying (2013) et celle de Yan (2017) et nous allons les comparer au niveau sémantique et syntaxique.
La grille d’Anctil (2010) s’intéresse aux erreurs lexicales commises par des francophones québécois natifs. Elle est structurée en trois grandes catégories : la forme, le sens et la combinatoire restreinte au niveau grammatical, lexical et pragmatique. Cette grille se caractérise par une analyse résolument descriptive, une organisation en fonction des dimensions de l’unité lexicale et une analyse fine des classes d’erreurs.
Comme la grille de Dagneaux (1998), la typologie de Ying (2013) s’intéresse à toutes les erreurs commises par les apprenants sinophones, les erreurs lexicales, mais aussi syntagmatiques et syntaxiques. Elle est composée de trois types d’erreurs : le type lexical, le type grammatical, le type sociopragmatique. Ying (2013) précise que sa grille est synthétique et peu détaillée afin de faire ressortir les problèmes principaux, ce qui sert mieux son objectif qui est d’améliorer d’enseignement du FLE en Chine. Nous pouvons constater que les catégories sont moins fines que celles d’Anctil, car il existe moins de sous-catégories.
La grille de Yan (2017) est inspirée de celle d’Anctil (2010) et se concentre sur les erreurs verbales dans l’écrit scientifique des apprenants sinophones. Yan (2017) classe les erreurs en quatre catégories : au niveau morphologique, au niveau sémantique et des cooccurrences lexicales, au niveau de la grammaire et de la syntaxe et au niveau du genre et du contexte. Cette grille ne concerne que les erreurs liées aux verbes, et elle est donc moins étendue que celles d’Anctil (2010) et de Ying (2013). Nous adopterons ses quatre catégories pour construire notre grille d’erreurs.

Les caractéristiques syntaxiques des grilles d’erreurs

Dans son travail, Anctil (2010) prend en compte non seulement la forme et le sens d’une unité lexicale, mais aussi ses propriétés combinatoires. Selon l’article d’Anctil en 2012, « la combinatoire restreinte d’un mot regroupe l’ensemble des propriétés qui régissent son “comportement” lorsqu’il apparaît en contexte de phrase et limitent les situations de parole dans lesquelles ce mot peut être utilisé ; elles (les propriétés) peuvent être d’ordre syntaxique, morphologique, pragmatique et collocationnel. » (Anctil, 2012, p.9) La recherche d’Anctil s’inscrit dans la Théorie Lexicologie Explicative et Combinatoire (LEC), qui est la partie lexicale de la théorie Sens-Texte, née en Russie dans les années 60, surtout développée par Mel’čuk et ses collègues à Montréal et à Paris ( Mel’cuk et al., 1995). Selon la LEC, le signe linguistique comporte trois parties, le signifiant (la forme), le signifié (le sens) et les propriétés combinatoires. Les propriétés combinatoires d’un signe sont des contraintes propres à un signe qui limitent sa capacité à se combiner avec d’autres signes linguistiques.
Elles ont deux aspects : les propriétés grammaticales, y compris les propriétés syntaxiques qui concernent la transitivité du verbe et le régime qui fait référence aux propositions régies par les lexiques ; les propriétés lexicales, soit la cooccurrence lexicale restreinte , comme la collocation (voir la partie 2.3.2.1).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Introduction
Chapitre I. Corpus d’apprenants
1.1 Le corpus d’apprenants et l’acquisition de la langue seconde
1.2 Le corpus d’apprenants et la didactique des langues
1.3 Les corpus d’apprenants dans les différentes langues
1.4 Les corpus d’apprenants pour le français
Chapitre II. Les erreurs dans les corpus d’apprenants
2.1 La notion d’« erreur »
2.2 L’intérêt d’étudier l’« erreur » et le système de l’interlangue
2.3 Les grilles d’erreurs des chercheurs
Chapitre III.Méthodologie : constitution du corpus et principes d’annotation
3.1 La méthodologie de traitement des données
3.2 La constitution d’une grille d’erreurs
3.3 L’annotation systématique dans le corpus en XML
Chapitre IV. L’analyse et l’interprétation des données
4.1 L’analyse quantitative et qualitative des erreurs
4.2 La comparaison entre les textes écrits sur table et à la maison
4.3 L’interprétation des sources d’erreurs
4.4 Conclusion
Conclusion
Bibliographie
Sitographie
Glossaire
Sigles et abréviations utilisés
Table des illustrations
Table des annexes

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.