Constitution des listes de termes monosémiques et polysémiques du sport (mots-cibles)

Comment la déterminologisation peut-elle faire évoluer une entrée de dictionnaire ?

Une fois le dictionnaire créé, il doit rester représentatif de la langue dont il dresse l’inventaire. C’est pourquoi il doit être mis à jour lorsqu’une évolution de la langue est constatée et considérée comme suffisamment nette pour être recensée. La plupart des éléments d’une entrée de dictionnaire peuvent évoluer. Et il peut être nécessaire de rajouter une entrée lorsqu’un nouveau mot apparaît.
Comme décrit dans la partie précédente (cf. partie I. 3. p. 9), la déterminologisation peut avoir plusieurs conséquences sur la langue. Lorsque le sens initial du mot dans la langue de spécialité a subi une évolution une fois le mot employé dans la langue générale, la définition peut devenir obsolète. Cela entraîne la nécessité d’ajouter une définition en précisant le type d’emploi et le contexte dans lequel est utilisé cet emploi. Par exemple, le mot champion, dont la définition du TLFi se trouve p.12, est utilisé en sport depuis 1877, mais fait à présent partie du langage courant et désigne toute personne douée dans une activité quelconque. À ce titre une nouvelle définition a été ajoutée à l’article pour recenser cet emploi. Lorsque la déterminologisation n’entraîne pas un nouveau sens, il peut tout de même être nécessaire de préciser dans le dictionnaire que le mot dont il est question a également un autre type d’emploi. Le texte 4est un extrait de l’article correspondant au mot relais dans le TLFi. Il y est précisé que le mot relais employé en athlétisme est également utilisé au figuré dans le langage courant.

REPÉRER AUTOMATIQUEMENT LA DÉTERMINOLOGISATION

Nous décrivons ici les prérequis à la détection automatique de termes déterminologisés.

Définir des mots-cibles

Chercher à repérer une despécialisation implique en premier lieu de définir des mots-cibles à surveiller en contexte. La despécialisation touche certains mots dont l’emploi est initialement propre à un domaine de spécialité, c’est donc ces mots-là qu’il convient de surveiller. Pour définir les mots à surveiller, nous nous aidons du dictionnaire.
Dans un dictionnaire, pour indiquer qu’un terme a un emploi spécifique ou une particularité quelconque, il existe un élément de la micro-structure appelé marque lexicographique (Atkins et Rundell, 2008 : 226). Une marque lexicographique peut servir à indiquer la fréquence d’usage d’un mot (RARE, TRÈS RARE, COURANT ,…), son origine (FRANCE, ANGLETERRE, AFRIQUE, LORRAINE,…), son niveau discursif (FAMILIER, ARGOT , LITTÉRAIRE,…), etc. Pour repérer les termes employés dans une langue de spécialité bien précise, il faut s’intéresser aux marques de domaine. Le texte 5est un extrait de l’article consacré au mot marathondans le TLFi. Nous y observons qu’il est découpé une première fois en deux catégories : la première est notée « SPORTS, JEUX » tandis que la seconde est notée « au fig. ». Dans la première catégorie, nous lisons également « ATHL » et « NATAT . ». Ces indications en lettres capitales sont des noms de domaine. Ils servent à indiquer à l’utilisateur du dictionnaire que le mot marathon est un terme relevant du sport, et plus précisément aux catégories sportives ATHLÉTISME et NATATION.

Le lien entre contexte et emploi

Dans son ouvrage Trust the Text, language, corpus and discourse, Sinclair (2004) développe l’idée selon laquelle les mots sont des unités lexicales qui entrent en relation avec d’autres mots pour former du sens (Sinclair, 2004 : 25). Cette idée a été initialement développée dans les English Collocation Studies(2004), qu’il mène dans les années 1970 en collaboration avec Susan Jones et Le premier emploi est un emploi relevant du domaine sportif. Nous trouvons dans son contexte des mots qui permettent d’identifier cet emploi (en gras). En revanche, dans le second exemple, marathon n’est pas un emploi relevant du sport. Or, il n’apparaît pas dans un contexte sportif. Outre les idées de Sinclair, nous avons mentionné dans la partie I. 2. b. de ce chapitre (cf. p.8) qu’une langue de spécialité permettait une communication liée à une activité spécialisée, et donc se composait d’un vocabulaire propre à cette langue de spécialité. Cela permet d’expliquer que, dans l’exemple ci-dessus, l’emploi spécialisé se trouve dans un contexte spécialisé. Il s’agit en effet d’un acte de communication s’adressant au amateurs de sport et donc le vocabulaire est adapté aux locuteurs. Si nous nous référons aux idées de Kocourek sur la langues spécialisées ainsi que sur les théories de Sinclair, Jones et Daley, nous pouvons formuler l’hypothèse qu’il est possible de détecter automatiquement un type d’emploi (spécialisé ou non) en analysant le contexte dans lequel il apparaît.

Méthode générale envisagée

Nous décrivons ici comment nous envisageons de détecter les cas de despécialisation des termes sportifs pour un usage lexicographique à partir de l’hypothèse que nous venons d’énoncer.
Cette méthode ne pourra être mise en œuvre que si l’hypothèse est vérifiée, c’est ce que nous nous attachons à faire dans la suite de ce mémoire. La figure 1illustre la méthode que nous nous apprêtons à décrire.
Dans un premier temps, une liste de mots-cibles à surveiller est définie à partir du dictionnaire sur lequel le lexicographe travaille. Le dictionnaire constitue la ressource que nous souhaitons tenir à jour, d’où l’intérêt de surveiller directement les termes qu’il contient. La liste doit être composée de mots qui répondent à des critères objectifs. Il semble plus simple dans un premier temps de ne s’intéresser qu’à des mots monosémiques, dans la mesure où ils sont supposés n’apparaître que dans leur acception sportive, donc dans des contextes liés au sport. De ce fait, un emploi apparaissant dans un contexte non sportif sera automatiquement considéré comme inhabituel, et mis de côté. En revanche, les mots polysémiques peuvent aussi faire l’objet d’une despécialisation, mais comptent déjà différents emplois et sont susceptibles d’apparaître dans des contextes variés. Ces différents emplois doivent être pris en compte lors de l’analyse, il s’agit donc d’un traitement plus élaboré. Un moyen de les intégrer devra être envisagé par la suite.
L’objectif de cette étape est d’automatiser la sélection des termes, pour que le lexicographe n’ait pas à s’en occuper.
Une fois la liste de termes-cibles définie, nous observons les occurrences des mots de cette liste en contexte afin de déterminer si l’occurrence apparaît dans un contexte spécialisé ou non.
Pour cela, nous avons besoin d’un corpus de textes : comme précisé précédemment (voir partie II. de ce chapitre, p. 11), le lexicographe se sert du corpus comme support de réflexion, pour vérifier ses intuitions et justifier les choix qu’il effectue. Il y analyse des extraits de langue qui lui permettent de savoir ce qui se dit ou non. Le rôle du corpus dans cette méthode est de nous fournir un ensemble de contextes concrets et représentatifs de la langue qui serviront de base à l’analyse automatique. Il s’agit en quelque sorte d’effectuer le travail de recherche et de détection à la place du lexicographe pour qu’il n’ait plus qu’à interpréter les résultats. Un programme analyse le corpus et, pour chaque lemme, regarde s’il fait partie de la liste de mots-cible. Si non, il continue, si oui, le contexte de l’occurrence du mot-cible est analysé et chaque mot du contexte est comparé au contenu d’un lexique spécialisé. Ce lexique spécialisé est constitué de termes appartenant au domaine du sport. Il contient des mots du dictionnaire, mais également d’autres mots susceptibles de participer à la création d’un contexte sportif. Il doit être approvisionné automatiquement et régulièrement pour rester représentatif de la langue de spécialité, même si elle évolue.
Une fois l’ensemble du contexte comparé au lexique, la proportion de mots du contexte qui font partie du lexique est calculée et on attribue à l’occurrence un score qui évalue son degré de spécialisation. En fonction de ce score, l’occurrence est considérée comme spécialisée ou non, et si ce n’est pas le cas, elle est consignée dans un fichier de sortie. À partir d’une certaine proportion d’occurrences despécialisées, le lexicographe est alerté et peut vérifier s’il s’agit ou non d’une déterminologisation et si celle-ci est susceptible d’entraîner une modification du dictionnaire.
L’apport de cette méthode réside dans le fait que le lexicographe n’a plus besoin de regarder manuellement tous les mots, pour savoir s’il faut mettre à jour l’article correspondant. Il n’a à se concentrer que sur ceux dont l’emploi est automatiquement considéré comme inhabituel.

PRÉSENTATION DES RESSOURCES

GLAWI

Dans cette partie, nous introduisons le dictionnaire GLAWI, que nous utilisons pour extraire des mots-cibles relevant du domaine du sport que nous souhaitons ensuite observer en contexte. Nous nous servons pour cela des marques de domaine, qui permettent de savoir de quel domaine relève un emploi d’un mot (cf. partie I. 2. de ce chapitre, p.22).

Présentation générale

GLAWI est un grand dictionnaire du Français disponible en téléchargement libre sur le site de CLLE-ERSS. Il a été créé par Franck Sajous en collaboration avec Basilio Calderone et Nabil Hatout (Sajous et Hatout, 2015). Le contenu de cette ressource est issu du Wiktionnaire, la version française du Wiktionary. GLAWI est encodé au format XML. Il est composé de 1 341 410 articles dans lesquels figurent les éléments suivants :
• mots simples, mots composés et locutions ;
• formes fléchies et leur lemme ;
• étymologie des mots ;
• prononciations, au format API ;
• définitions (gloses et exemples) ;
• traductions ;
• relations sémantiques ;
• relations morphologiques ;
• variantes orthographiques.
La structure XML d’un article de GLAWI organise les informations de manière hiérarchisée, ce qui permet d’accéder facilement à celles dont nous avons besoin pour ce travail. Nouscherchons des mots employés dans le domaine sportif et voulons distinguer les mots monosémiques, apparaissant uniquement dans des emplois sportifs, des mots polysémiques, qui ont un sens relevant du domaine sportif et dont une ou plusieurs définitions relèvent aussi du langage général. Nous avons pour cela besoin d’accéder à leur(s) définition(s), mais également aux informations relatives aux usages de cette définition. Dans GLAWI, les sections <definition> se situent dans la balise <POS>. Chaque section <definition>comprend une sous section <gloss>dans laquelle se trouvent les informations que nous recherchons, à savoir les marques lexicographiques et le texte de la définition. Ainsi, chaque définition possède sa balise <definition>et peut se voir attribuer différents types de marques lexicographiques. Nous accédons donc aux informations recherchées en extrayant automatiquement les mots dont la ou l’une des sections <definition> contient une marque de domaine relevant du sport. La figure 2 (voir page suivante) permet de visualiser la structure d’un article de GLAWI. Nous y voyons les principales balises enfants directs de l’élément <article> ainsi que les enfants de l’élément <POS>. Nous expliquons dans la partie suivante comment repérer des marques de domaine et comment nous procédons pour extraire les mots qui nous intéressent.

Les marques de domaine dans GLAWI

GLAWI compte 388 noms de domaines différents, parmi lesquels nous pouvons relever par exemple BIOLOGIE, GÉOGRAPHIE, MUSIQUE, RELIGION, etc. Les marques de domaine ayant trait au sport retiennent notre attention.
La figure 2est un extrait de l’article correspondant au mot moniteur. Ce dernier comprend douze définitions. La ligne en rouge correspond à la manière dont une marque de domaine est déclarée dans GLAWI. La ligne en vert correspond à un autre exemple de marque lexicographique.
Nous avons également inséré une troisième définition pour montrer comment se présente une définition sans marque lexicographique.

Utilité pour le projet

Grâce à GLAWI nous construisons une liste de mots dont la ou l’une des définitions relève d’un domaine du sport. Nous pouvons à présent étudier ces mots en contexte pour voir si ce dernier a un impact sur l’emploi du mot. Nous détaillons dans le chapitre III, partie II. 1. (cf. p. 33) comment nous sélectionnons certains mots de cette liste pour tester notre hypothèse.

LE CORPUS LE MONDE

Présentation générale

Nous disposons par ailleurs d’un corpus d’articles extraits du journal Le Monde. Distribué par ELRA, ce corpus contient des articles publiés entre 1991 et 2000. Dans le cadre de notre projet de recherche, nous nous servons d’un échantillon contenant les articles des années 1999-2000.
Le corpus est disponible dans deux formats différents. Le fichier initial est en texte brut (.txt) (cf. fig. 4 p.26), et une phase d’analyse syntaxique effectué par l’analyseur Talismane (Urieli, 2013) fournit un second fichier au format .tal (cf. fig. 5 p.26). L’avantage de disposer d’une version analysée réside dans la possibilité de travailler avec des lemmes, plutôt que de devoir récupérer systématiquement toutes les formes fléchies d’un mot. Par exemple, si nous souhaitons analyser les occurrences du mot attaquant, avec le texte brut il nous faudrait indiquer dans la liste de termes à analyser attaquant/attaquante/attaquants/attaquantes, pour que toutes les formes fléchies soient détectées. Avec le format .tal, toutes les formes fléchies du mot sont regroupées sous le lemme attaquant. Ainsi, dans la liste de termes à analyser et dans le lexique spécialisé nous n’avons qu’à indiquer le lemme pour que toutes les formes soient détectées. D’autre part, cela nous fournit des indications sur la catégorie grammaticale des mots du corpus.

Utilité pour le projet

Nous avons besoin d’observer des mots dans leur contexte pour voir si celui-ci suffit à repérer automatiquement un emploi spécialisé. Le corpus Le Mondenous fournit des articles de la rubrique sport dans lesquels se trouve une part de vocabulaire propre au sport, mais nous avons également des articles traitant d’autres sujets dans lesquels le vocabulaire est différent. Grâce aux rubriques, nous pouvons établir deux sous corpus qui nous permettent de définir un vocabulaire spécifique au sport pour établir un lexique spécialisé. Les détails de constitution de ce lexique sont décrit dans le chapitre III (cf. partie II. 2. p. 36). Nous nous servons également des sous-corpus pour comparer les résultats obtenus pour les articles de sport et ceux obtenus pour le reste des articles. Sachant que les mots analysés ont plus de chance d’apparaître dans un contexte sportif quand ils sont dans un article de sport, s’il s’avère que les emplois sportifs apparaissent plutôt dans les articles de sport et les emplois non sportifs plutôt dans le reste des articles nous pourrons en déduire que le contexte permet déterminer automatiquement l’emploi d’un mot.

MÉTHODOLOGIE

FONCTIONNEMENT DU PROGRAMME

Principe

Nous expliquons maintenant la procédure que nous suivons pour vérifier la validité de l’hypothèse émise. Partant de là, nous imaginons un programme qui recherche en corpus des occurrences de mots-cibles, puis qui analyse le contexte dans lequel ces occurrences apparaissent pour calculer la proportion de mots du sport qui s’y trouvent. Les mots-cibles, dont nous décrivons les modalités de sélection dans la partie II. 1. de ce chapitre (cf. p. 33), sont issus de GLAWI. Les mots du sport sont contenus dans un lexique qui doit refléter le vocabulaire du domaine de la façon la plus précise possible. Nous expliquons dans la partie II. 2. de ce chapitre comment nous construisons ce lexique à la fois à partir de GLAWI et à partir du sous corpus LMsport (cf. p. 36)

Entrée et sortie

La figure 7 (p. 29) permet de visualiser le principe de fonctionnement du programme à implémenter. Les corpus en entrée sont les corpus LMglob, LMsport ou LMautre étiquetés par Talismane. Le fichier de sortie attendu est un fichier .csv dans lequel apparaissent les occurrences, le nombre de mots du lexique du sport trouvés dans le contexte, le pourcentage que cela représente par rapport au reste de la fenêtre contextuelle et enfin un extrait du contexte pour avoir une idée de la façon dont l’occurrence est employée. Le tableau 4 (p. 31) vient en complément du schéma pour illustrer le type de fichier de sortie attendu. Les paramètres du tableau, à savoir le nombre et le pourcentage de mots du lexique sont expliqués dans la partie I. 3. de ce chapitre (cf. p. 32). Notons que, par souci de place, l’ensemble de la fenêtre contextuelle (qui correspond à l’article en entier) n’apparaît pas dans le tableau, et ce pour tous les tableaux présentant des exemples de fichiers de sortie. Par conséquent, les nombres des colonnes 2 et 3 ne correspondent pas à l’extrait de contexte visible. Dans le contexte, le mot en rouge est le mot-cible et les mots en gras sont les mots appartenant au lexique. Le texte 6 (p. 31) est un exemple de traitement pour un article entier. Il correspond au contexte dans lequel apparaît la cinquième occurrence du tableau (demi-finale).

Calcul du score de spécialisation

Le score de spécialisation permet d’établir automatiquement si l’emploi est spécialisé ou non. L’objectif est de fixer une valeur seuil au dessus de laquelle l’occurrence est considérée comme relevant d’un emploi sportif. Nous avons choisi d’effectuer un calcul de pourcentage : le programme compte dans la fenêtre contextuelle le nombre de mots qui font partie du lexique spécialisé (hors mot-cible) et le nombre total de mots. Pour calculer ce pourcentage, nous avons décidé de ne prendre en compte que les mots lexicaux, c’est-à-dire ceux qui sont susceptibles de participer à créer un contexte sportif. En effet, en observant la classe grammaticale des mots du lexique, nous nous sommes aperçu qu’il s’agissait exclusivement de noms, de verbes ou d’adjectifs.
Cela signifie que si nous comptons les mots grammaticaux dans le nombre total de mots de la fenêtre, nous prenons en compte, dans le calcul, des mots qui, de par leurs propriétés grammaticales, ne participeront jamais à créer un contexte sportif, tout du moins avec le lexique établi. Nous limitons ainsi la possibilité de faire tendre le résultat du score vers 100%. Pour équilibrer le score, lors de l’analyse du corpus, nous nous servons de la quatrième colonne du fichier étiqueté (qui correspond à la nature des lemmes) pour éliminer les mots grammaticaux.
Cela signifie que ces derniers ne sont pas comptabilisés dans le nombre total de mots de la fenêtre contextuelle. Notre calcul du pourcentage de mots du lexique dans une fenêtre contextuelle est le suivant.

CONSTRUCTION DES OBJETS DU PROGRAMME

Nous avons besoin de constituer deux listes de termes issus du domaine du sport (cf. II. 1. de ce chapitre, p. 33). Il s’agit de définir des mots-cibles à rechercher en contexte. Dans un premier temps nous devons nous assurer que les emplois sportifs apparaissent bien dans des contextes sportifs et que les contextes sportifs sont bien détectés par le programme. Nous choisissons pour cela des mots monosémiques, dont les emplois sont censés être uniquement liés au sport. Cette liste de mots-cibles permettra d’observer les résultats obtenus pour des mots supposés sans ambiguïté sémantique, et d’identifier le type de difficultés qui peuvent se manifester même lorsqu’il n’y a pas d’ambiguïté sémantique. Si notre hypothèse se vérifie, les scores de pourcentage doivent révéler un emploi sportif pour chaque occurrence. Nous les extrayons en cherchant dans GLAWI les mots marqués SPORTou autre nom de domaine lié au sport et dont l’article ne contient qu’une balise <definition>.Dans un second temps, nous devons observer le traitement que fait le programme de mots dont la polysémie est avérée. Un mot polysémique est un mot qui a différents sens, spécialisés ou non. Nous les extrayons en cherchant dans GLAWI les mots dont l’article a plusieurs balises <definition> et dont l’une de ces définitions a une marque de domaine liée au sport. Nous nous servons de cette seconde liste pour vérifier que les emplois non sportifs apparaissent bien dans des contextes pauvres en mots spécialisés, et que le pourcentage moyen pour les emplois sportifs se distingue bien du pourcentage moyen pour les emplois non sportifs.
Nous voulons avoir une idée du type de résultats que nous pourrions obtenir face à un vrai cas de despécialisation. Pour cette seconde phase, nous avons besoin d’une liste de mots ayant un emploi dans le sport.
Nous avons également besoin d’identifier automatiquement un contexte sportif. Pour cela, nous choisissons de construire un lexique de mots faisant partie du vocabulaire sportif. Il est construit à partir du corpus LMsport et des mots de GLAWI (cf. II. 2. de ce chapitre, p. 36). Ces mots seront comparés à ceux formant le contexte du terme étudié.

Constitution de la liste polySport

Nous suivons une procédure similaire pour constituer la liste polySport. Les mots polysémiques de GLAWI représentent 1715 entrées du dictionnaire, dont les classes grammaticales se répartissent dans des proportions similaires à celles des mots monosémiques (cf. tableau 5).
Comme pour monoSport, nous cherchons des mots représentés dans le corpus, donc nous regardons la fréquence des mots de GLAWI dans LMglob, puis dans LMsport. Nous effectuonsnotre sélection en nous assurant de leur présence dans LMsport, afin d’augmenter la probabilitéd’avoir des emplois sportifs. En effet, ces termes étant polysémiques, il est possible qu’ils soient fréquents dans le corpus global mais seulement dans un emploi général ou autre que sportif. Afin d’avoir des données similaires, nous souhaitons obtenir un fichier de sortie qui fasse une taille équivalente à celle du fichier obtenu avec les mots de monoSport, donc comprenant environ troiscents occurrences. Nous prévoyons en effet une phase d’annotation manuelle et pour cette raison, nous ne voulons pas de données trop nombreuses. Nous excluons certains noms, comme par(qui, dans le golf, fait référence au nombre conventionnel de coups qui sont nécessaires pour faire le parcours d’un trou- selon GLAWI) ou pas, (qui désigne les pas de danse ou l’allure du cheval en équitation) d’une part parce qu’ils sont trop fréquents et d’autre part parce qu’ils peuvent aisément être mal étiquetés.

ANNOTATION

À ce stade, nous pouvons calculer le nombre et le pourcentage de mots de LexSpo dans le contexte d’une occurrence d’un terme issu de monoSport ou polySport. L’objectif est d’obtenir un format de sortie dans lequel, pour une valeur seuil donnée, si le pourcentage est inférieur à la valeur seuil déterminéé, le résultat est 0 et si le pourcentage est supérieur à la valeur seuil le résultat est 1. 0 et 1 signifient ici « il ne s’agit pas / il s’agit d’un emploi sportif ». Le bon fonctionnement d’un tel programme dépend de l’ajustement de la valeur seuil. Pour faire cet ajustement, nous voulons effectuer plusieurs runsen modifiant le seuil à chaque run, et comparer les résultats obtenus à un fichier gold, annoté manuellement. Cette technique permet de savoir pour quels paramètres les résultats sont le plus proches d’une décision humaine.

VÉRIFICATION DE L’HYPOTHÈSE

Pour savoir si le contexte dans lequel un mot apparaît permet réellement de déduire automatiquement le type d’emploi de ce mot, nous devons ajuster certains paramètres du programme qui doivent nous permettre d’obtenir des résultats plus précis. Mais d’abord, nous cherchons à en savoir plus sur la relation entre contexte et emploi de spécialité en effectuant des analyses statistiques des fichiers annotés.

OBSERVATIONS STATISTIQUES DES FICHIERS DE SORTIE POUR LA LISTE MONOSPORT

Les statistiques effectuées sur l’annotation manuelle des fichiers de sortie obtenus avec la liste monoSport montrent que l’ensemble des 277 occurrences extraites de LMglob correspondent à un emploi sportif du mot projeté. 84,8% de ces occurrences (soit 135) ont un contexte jugé sportif, contre 15,2% (soit 42) pour lesquelles ce n’est pas le cas. Ces statistiques mettent en évidence que les mots monosémiques marqués SPORT et autres domaines sportifs apparaissent majoritairement dans des contextes sportifs. Dans LMsport, les résultats révèlent que 96% des occurrences analysées (soit 145 sur 151) apparaissent dans un contexte sportif et 4% ont un contexte non sportif. Dans LMautre, il y a 126 occurrences et parmi celles-ci, 70,7% (soit 90 sur 126) ont un contexte sportif et 29,3% n’ont pas un contexte sportif. Ces statistiques confirment donc que les articles de sport contiennent des éléments de contexte qui favorisent la détection d’emplois sportifs. Cela signifie qu’en travaillant avec la liste polySport, le programme devrait détecter dans LMsport une plus grande proportion d’emplois sportifs que d’emplois non sportifs.
En revanche, dans LMautre, il devrait y avoir une majorité d’emplois non sportifs. Si c’est le cas, alors il s’agira d’un élément allant dans le sens de l’hypothèse selon laquelle un mot de spécialité apparaît dans son contexte de spécialité.
Le graphique 1présente la répartition de l’ensemble des occurrences extraites de LMGlob en fonction du pourcentage de mots de LexSpo trouvés dans leur contexte. Le graphique 2 présente les mêmes informations mais en dissociant les les contextes sportifs et non sportifs. Nous avons déterminé que 92,9% des 42 emplois annotés comme apparaissant dans un contexte non sportif contiennent entre 0 et 10% de mots appartenant à LexSpo dans leur contexte (soit 39 occurrences). Voici ce que nous pouvons dire de ces emplois pour expliquer que, malgré leur emploi relevant du domaine sportif, ils aient un faible poucentage de mots de LexSpo dans leur contexte.

OBSERVATIONS STATISTIQUES DES FICHIERS DE SORTIE POUR LA LISTE POLYSPORT

Observons à présent les résultats de l’annotation manuelle pour les mots issus de polySport. Nous cherchons à savoir si, pour des mots indiqués polysémiques dans le dictionnaire, il serait possible de savoir automatiquement si nous avons affaire à un emploi spécialisé ou non. Les résultats précédents nous laissent entendre que la majorité des emplois spécialisés ont un contexte composé de mots spécialisés. Il nous reste à savoir si les emplois non spécialisés sont utilisés dans un contexte non spécialisé.
Selon l’annotation, parmi les 285 acceptions extraites de LMglob, 125 (44,2%) ont un emploi non-spécialisé dans le domaine du sport, et 160 (55,8%) ont un emploi spécialisé. Dans le sous-corpus LMsport, toutes les occurrences extraites apparaissent dans un contexte sportif, mais sur les 120, cinq d’entre elles ne relèvent pas d’un emploi sportif, ce qui correspond à 4,2% du sous-corpus. Les 95,8% restants relèvent bien d’un emploi sportif. Dans le sous-corpus LMautre, il y a 165 occurrences. Parmi les emplois non sportifs de LMautre (qui représentent 72,73% du souscorpus), 1,67% ont un contexte sportif et 98,33% ont un contexte non sportif. Parmi les emplois sportifs, 8,89% ont un contexte non sportif et 91,11% ont un contexte sportif. Dans la grande majorité des cas, les emplois sportifs ont un contexte sportif et les emplois non sportifs ont un contexte non sportif. Le graphique 3schématise la répartition des contextes sportifs et non sportifs selon le type d’emploi.

 

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
INTRODUCTION
CHAPITRE I : CONTEXTE D’ÉTUDE
I. LA DÉTERMINOLOGISATION
1. Qu’est-ce que la déterminologisation ?
2. Langue générale et langues de spécialité
a. Langue générale
b. Langues de spécialité
3. Typologie des déterminologisations
a. Lorsque le sens ne change pas
b. Lorsque le sens évolue
II. DÉTERMINOLOGISATION ET LEXICOGRAPHIE
1. La lexicographie informatisée : assister le travail du lexicographe grâce au TAL
a. Le travail lexicographique
b. Les ressources
2. Comment la déterminologisation peut-elle faire évoluer une entrée de dictionnaire ?
III. REPÉRER AUTOMATIQUEMENT LA DÉTERMINOLOGISATION
1. Définir des mots-cibles
2. Le lien entre contexte et emploi
3. Méthode générale envisagée
CHAPITRE II : PRÉSENTATION DES RESSOURCES
I. GLAWI
1. Présentation générale
2. Les marques de domaine dans GLAWI
3. Utilité pour le projet
II. LE CORPUS LE MONDE
1. Présentation générale
2. Description du contenu
3. Utilité pour le projet
CHAPITRE III : MÉTHODOLOGIE
I. FONCTIONNEMENT DU PROGRAMME
1. Principe
2. Entrée et sortie
3. Calcul du score de spécialisation
II. CONSTRUCTION DES OBJETS DU PROGRAMME
1. Constitution des listes de termes monosémiques et polysémiques du sport (mots-cibles)
a. Constitution de la liste monoSport
b. Constitution de la liste polySport
2. Constitution du lexique permettant d’identifier un contexte sportif
III. ANNOTATION
CHAPITRE IV : VÉRIFICATION DE L’HYPOTHÈSEI. OBSERVATIONS STATISTIQUES DES FICHIERS DE SORTIE POUR LA LISTE MONOSPORT
II. OBSERVATIONS STATISTIQUES DES FICHIERS DE SORTIE POUR LA LISTE POLYSPORT
III. AJUSTEMENT DE LA VALEUR SEUIL
1. Objectif et procédure
2. Résultats
3. Analyse des erreurs
IV. VÉRIFICATION AVEC LA LISTE MONOSPORT
V. VÉRIFICATION AVEC UNE LISTE POLYSÉMIQUE DIFFÉRENTE
VI. CONCLUSION DES MANIPULATIONS
CHAPITRE V : PERSPECTIVES
I. AMÉLIORATION DE LA DÉTECTION DE CONTEXTE SPÉCIALISÉ
1. Amélioration du lexique (LexSpo)
a. Ajouter des noms propres
b. Tenir compte de la nature des mots du lexique
2. Travail sur la taille de la fenêtre contextuelle
II. POURSUITE DE LA MÉTHODE
1. Créer un lexique spécialisé
2. Élaboration d’un score de spécialisation
3. Que faire avec les emplois non sportifs ?
CONCLUSION
RÉFÉRENCES

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *