Présentation des outils réalisés en vue du projet

Langage SMS

En fonction des usages et des usagers des SMS, le texte du SMS va varier. S’il correspond à une réponse qui se veut la plus rapidepossible ou s’il permet à l’expéditeur de donner des nouvelles de lui en un minimum de caractères, le texte du SMS va subir des procédés pour réduire le nombre de caractères.
En plus des abréviations connues des sténographes, des abréviations plus spécifiques au SMS vont faire leur apparition, comme « jtd » (je t’adore). Des procédés nouveaux vont aussi faire leur apparition. Se pose alors une question : peut-on parler d’un nouveau langage : le langage « SMS » ou bien s’agit-il uniquement d’une liste de procédés ? Nous essayerons de répondre à cette question dans cette partie. Peut-on parler d’un « langage SMS » ?

De nombreux linguistes étudient cette question

Le « langage SMS » peut être rapproché avec une langue étrangère que nous pouvons apprendre puisqu’il existe des cours de SMS. P. Marso (2005) commence par publier un ouvrage pour apprendre cette nouvelle langue : « CP SMS » puis il propose une classe de PMS (Phonétique Muse Service) dans un collège parisien à des adolescents de 14-15 ans qui refusent l’école ou qui sont en échecscolaire. Le langage « PMS » est un langage dérivé du langage SMS qui vise à rendre l’écriture SMS plus lisible avec notamment l’insertion de l’apostrophe dans un mot tel que « K’ré’C » (caresser) pour permettre une meilleure lisibilité des procédés d’abréviations.
Pour S. Vienney et C. Melian (2004), il existe bien un langage SMS mais les procédés utilisés ne sont pas nouveaux. J. Véronis (2004) indique que, dans un papyrus d’Egerton du IIème siècle des formes simplifiées ont été relevées. Plus tard, des cours de sténographie ont été créés pour permettre aux secrétaires d’abréger au maximum un texte pour pouvoir l’écrire aussi vite que la parole. Lesauteurs citent l’exemple des lycéens qui utilisent fréquemment des abréviations dans leurs notes de cours.
J. Anis (2001) n’apporte pas de réponse définitive sur l’existence ou non d’un langage SMS. Il précise que « le langage a toujours été associé aux progrès des techniques et du savoir ». Etant données les contraintes que posent les nouvelles technologies, le langage doit s’adapter (autant sur le contenu que sur la forme). Ainsi, pour J. Anis, le langage SMS ne serait pas un nouveau langage mais une série de procédés qui viennent s’ajouter à notre langue. Il souligne comme J. Véronis que les procédés d’abréviation ne sont pas nouveaux : par exemple, le mot « Monsieur » qui s’écrit « M. ».
J. Daugmaudytë et D. Këdikaitë (2006) précisent que le langage SMS est très proche de l’oral tout en étant une forme de l’écrit. En effet, deux utilisateurs de SMS qui vont créer une conversation par ce moyen de communication vont partager le même moment d’énonciation, sans pour autant être l’un en face de l’autre. Pour palier les problèmes des mimiques et de la gestualité que l’onretrouve dans une conversation en face à face, le langage SMS propose des émoticônes (ou smileys), des formes d’écriture différentes, ainsi qu’une utilisation différente de la ponctuation. Par exemple, le smiley « 😉 » peut informer que le discours est ironique. Une ponctuation répétée informera de l’intensité de l’émotion, par exemple : « je t’adore !!!!!!! ».
La répétition de lettres dans un mot peut marquer aussi une forme d’insistance : « viens viiiiiiiite ».
Au-delà du langage SMS, certains auteurs tels que R. Panckhurst, J. Véronis ou E.
Guimier De Neef parlent d’un langage lié aux nouvelles technologies.(Véronis, J. ,
Guimier De Neef, E, 2006 et Panckhurst,R., 2006).
A. Dejond utilise les termes de « cyberlangue » et « cyberlangage » et R.
Panckhurst utilise le terme d’ « eSMS » pour parlerde l’écriture SMS » (2009, page 35).
Nous retrouvons des procédés similaires, que la communication se fasse au travers des SMS, des tchats, des blogs, des forums de discussions, etc.
Ces moyens de communication doivent être efficaces,c’est-à-dire que l’utilisateur doit dire un maximum d’informations en tenant compte d’un espace réduit pour les SMS, forums et blogs et la volonté d’une communication rapide pour les tchats et les SMS.

Construction du langage SMS

J. Daugmaudytë et D. Këdikaitë (2006) mentionnent dans leur article l’expression « construction du langage SMS ».
R. Panckhusrt (2009) a répertorié les éléments de construction de ce langage, c’est à-dire les phénomènes de l’écriture SMS et plus généralement, des nouvelles technologies .
Elle les classe ces phénomènes en quatre parties : les substitutions, les réductions, les suppressions et les augmentations et ajouts.

Le langage SMS représente-t-il un danger pour l’orthographe ?

Deux opinions s’opposent : les défenseurs de la langue française pensent que les SMS représentent un danger pour l’orthographe et lagrammaire, déjà malmenées par les jeunes apprenants du français, d’autres pensent queles SMS sont une façon de jouer avec la langue française et reflète l’inventivité de soncréateur.
Heureusement des linguistes adoptent une approche plus scientifique et vont s’attacher à étudier ce nouveau langage plutôt que de le juger.
Les usagers différencient, pour la plupart, le langage SMS et le langage écrit plus formel utilisé par exemple en milieu scolaire.
Mais certains procédés du langage SMS pourraient influencer négativement l’acquisition d’une orthographe correcte (Fairon et al, 2006). Citons par exemple, la disparition des lettres muettes en fin de mots.
De plus, l’acquisition d’un téléphone portable avant l’apprentissage de l’orthographe à l’école pourrait être problématiquepour un jeune enfant puisqu’il aurait du mal à différencier le langage normé appris à l’école et le langage SMS (Fairon et al, 2006).
Les particularités de l’écriture SMS (telles que l’agglutination ou la troncation) sont considérées comme des erreurs, pourtant, l’équipe du CENTAL qui a travaillé sur les SMS (Fairon et Al. [2006]) pense qu’il est inapproprié de parler d’erreur dans ce cas puisque ce sont des mécanismes volontaire. Rappelons que le langage SMS s’est créé petit à petit afin de réduire un message pour qu’il respecte le nombrede caractère imposé par son format d’un SMS. Ce langage sera par la suite utilisé comme « jeu » (Fairon et Al, 2006) entre adolescents, nous parlons alors de SMS « codés » dont le but est de défier le destinataire à déchiffrer le SMS envoyé.
A. Dejond (2010) conforte l’idée que l’usage de procédés de l’écriture SMS ne doit pas être considéré comme une erreur. Elle nous incite à différencier ces procédés et les réelles fautes d’orthographe. Par exemple, écrire «Hier, j’ai manger chez mon père » sera considéré comme une faute d’orthographe et rarementobservé dans les SMS. Mais écrire « G manG » sera apparenté au langage SMS puisqu’il utilise un mécanisme d’écriture particulier : la phonétisation des deux mots « j’ai» et de la syllabe « gé » de manger.
En France, nous remarquons que le sujet fait débat sur des forums mais l’influence des SMS sur l’orthographe des enfants et adolescents n’a pas été observée de manière scientifique jusqu’à présent.
Au Canada, une étude sur l’influence des SMS sur l’orthographe a été menée par Connie Varnhagen (Varnhagen,C., 2009). Pour cette étude, 40 adolescents de 12 à 17 ans ont gardé l’ensemble de leurs SMS envoyés pendant une semaine. A la suite de cette semaine, C. Varnhagen et son équipe ont testé la capacité des adolescents à épeler correctement les mots. Cette étude a montré que lesadolescents ayant une bonne maitrise de l’orthographe conserve cet avantage dans leurs SMS. La même chose se produit pour ceux qui ne maitrisent pas l’orthographe, c’est-à-dire que leurs SMS vont souffrir d’une mauvaise orthographe. Pour l’auteur de l’étude, écrire un SMS (en langage SMS) serait un bon moyen de faire « fonctionner les neurones » desadolescents puisqu’ils vont réfléchir à ce qu’ils veulent dire au destinataire du message et comment le dire avec le moins de caractères possibles.

Correcteur automatique proposé par S. Vienney et C. Melian

Le correcteur automatique appliqué au SMS de S. Vienney et C. Melian (2004) se découpe en cinq étapes : la lecture du texte source, la segmentation du SMS, la transcription en français standard, un module d’analyses morphologiques, syntaxiques et sémantiques et enfin, la proposition d’un texte cible, correction du texte source.
Certains phénomènes de construction du langage SMS ne sont pas simples à prendre en compte pour réaliser une segmentation. Prenons par exemple, l’agglutination et l’utilisation de sigles : comment faire pour découper « jallais » (j’allais) ou « tkt » (t’inquiètes) ?
Le module de transcription en français standard nous apparait très complexe. Il se fonde « sur un ensemble de règles de transcription traitant l’ensemble des phénomènes de néographies […] puis il calcule des hypothèses de transcription avec une analyse lexicale et combinatoire » (Vienney S. et Melian C., (2004) page 193).
Les transcriptions qui résultent de ce module vont être validées ou non par l’analyse morpho-syntaxique et sémantique.
A la suite de ces traitements, le système transmet à l’utilisateur un texte en français standard. Cependant, quelques ambigüités demeurent comme, par exemple, avec des systèmes de traitement automatique de l’oral : les pois sont verts/ les poissons verts.
Les smileys amènent une difficulté supplémentaire. Les auteurs proposent de les remplacer par « une structure sémantique équivalente » ou de les supprimer « s’ils sont utilisés pour « signer » le texte : je viens 2m1 😉 ».Nous trouvons la dernière solution non adéquate puisque même en tant que signature, le smiley transmet une information.
Architecture pour le traitement automatique des SMS proposé par F. Yvon. (Yvon, 2008 et Kobus et Al., 2008)
Après avoir observé une proximité entre les formes d’écriture utilisées dans les SMS et la langue orale, F. Yvon (2008) propose un système de normalisation des SMS inspiré des systèmes de reconnaissance de la parole.
Ce système est optimisé pour un système de vocalisation de SMS puisqu’il passe par une étape de phonétisation.

Constitution de corpus SMS

Nous avons vu précédemment que les SMS connaissent un essor considérable. De plus, l’utilisation du langage créé par ce moyen decommunication s’étend en dehors du téléphone mobile. Il parait intéressant de s’attarder sur ce langage et ses spécificités. Pour cela, il est nécessaire de pouvoir observer des corpus de SMS. Nous verrons dans cette partie, quelques corpus de SMS et comment ces derniers ont été récoltés.

Corpus du DELIC (utilisé pour tester le système TiL T)

Le corpus compte 13 400 SMS pour environ 156 620 mots.
Une partie des SMS ont été récoltés entre 2000 et 2004 par des étudiants de l’université de Provence, dans le cadre de travaux pratiques ou mémoires.
Se sont rajoutés des SMS provenant d’utilisateurs ayant donné leur accord à Orange pour que leurs SMS soient utilisés à des fin de recherche.
Seuls 9 700 SMS ont été utilisés pour l’évaluation du système TiLT, parce qu’ils ont été traduits manuellement (Hocq, 2006). Corpus de l’Université de Singapour : « NUS SMS Cor pus » Yijue How et Mingfeng Lee ont constitué un corpus de 10 117 SMS anglais. Un appel par mail a été lancé aux étudiants de l’Université de Singapour pour récolter ces SMS, par le Département de recherche en Informatique (the Department of Computer Science at the National University of Singapore).
Les participants, de 18 à 22 ans, tapaient leur SMS(en anglais, qu’il soit reçu ou envoyé) et leur numéro de téléphone dans un formulaire présent sur le site Internet dédié à la récolte. Ainsi, 6 167 SMS ont été collectés. Puis 602 SMS ont été récoltés sur un chat SMS sur le site « Yahoo ».

Présentation des outils réalisés en vue du projet « SMS4science » en France

Dans le cadre du projet « SMS4science », nous espérons recevoir entre 20 000 et 35 000 SMS. Ces SMS seront envoyés par des participants volontaires vers un numéro court. Ces participants seront invités à remplir un questionnaire en ligne pour en savoir plus sur leur pratique du SMS.
Mon objectif pour ce mémoire a été de penser et concevoir des scripts pour exploiter et utiliser les SMS reçus.
Dans un premier temps, nous avons pensé à l’exploitation des SMS de leur réception jusqu’à leur transcription.
Puis dans un second temps, nous présenterons les applications conçues pour utiliser les SMS et des applications à venir.

Exploitation des SMS

Nous présenterons, dans cette partie, ce qui a été mis en place afin d’exploiter les SMS qui seront reçus lors du projet « SMS4science »en France.

Anonymisation des SMS bruts

L’anonymisation des données personnelles au sein des SMS est l’élément primordiale à mettre en place parce que nous sommestenus d’assurer la confidentialité des participants au projet.
Nous avons choisi de reprendre le protocole utilisé par l’équipe du CENTAL sur le projet « SMS4science » en Belgique afin de rendre les corpus similaires.

Quelles données à anonymiser ?

Quant à l’anonymisation, nous avons choisi de mettre en place des scripts en PHP pour détecter automatiquement certaines données personnelles pouvant apparaitre dans les SMS. Ces scripts recherchent les numéros de téléphone, les adresses mail, les adresses de site Internet et les coordonnées bancaires dont le format est fixe.
Fairon et al (2008) proposent d’autres éléments à anonymiser dont la détection produirait trop de bruit, comme les numéros de rue,les adresses de blog et numéros divers.
D’autres éléments ne sont pas aisés à détecter comme les noms propres à cause de l’emploi multiples des majuscules dans le langage SMS.

Interface d’anonymisation et outils

Nous avons pensé qu’un contrôle était nécessaire pour vérifier si les éléments détectés devaient vraiment être masqués ou si des éléments n’avaient pas été oubliés par les scripts.
Nous avons donc créé une interface pour l’utilisateur qui va anonymiser les SMS.
Cette interface va lui afficher les SMS avec les informations détectées comme personnelles, qu’il va pouvoir masquer ou garder, ainsi qu’un champ de texte libre, pour modifier des éléments non détectés.
S’il trouve d’autres éléments à anonymiser au sein du SMS, il va pouvoir le spécifier dans le champ de texte libre. Pour cela, il va encadrer la donnée par le symbole « # » puis il va choisir dans la liste déroulante, le type de donnée détectée. Si l’utilisateur ne trouve pas un type de donnée approprié à son élément, il pourra définir un nouveau type en choisissant « Autre type de donnée » dans la liste déroulante.

Transcription des SMS bruts

Choix du terme « transcription » et non « traduction »

Nous parlerons de transcription au lieu de traduction. En effet, la transcription vise à rendre le SMS plus compréhensible pour des utilisateurs connaissant peu ou mal le langage SMS. Elle ne vise pas à traduire le SMS en langage « standard ».

Méthodologie de transcription

Nous avons choisi de faire transcrire les SMS par des individus et non pas par les traducteurs automatiques de SMS qui ont pu être établis. Ce système de traduction va permettre de créer un lexique au fur et à mesure des transcriptions. En effet, nous proposons à l’utilisateur de transcrire le texte duSMS mot par mot. C’est en récupérant l’association de chaque mot à traduire par chaque mot traduit que nous créons ce lexique.

Deux méthodes de découpage du texte du SMS

Nous proposons à l’utilisateur un découpage automatique, fondé sur des séparateurs définis tels que les ponctuations ou espaces. Si cedécoupage ne convient pas à l’utilisateur, nous lui proposons de le modifier. Il va ainsi pouvoir découper de nouveau des mots qui n’auraient pas été séparés automatiquement, en insérant le symbole « # » entre chaque mot.
Cette possibilité sera intéressante lorsqu’on rencontrera des SMS écrit sans espaces et sans ponctuations, comme a pu le voir l’équipe du Cental.

Outils pour la transcription

Une fois le découpage effectué, chaque mot du textesera affiché avec une zone de texte chargée de recueillir la traduction de l’utilisateur. Nous proposons à l’utilisateur quatre autres outils pour la transcription :
a) une case à cocher pour garder l’intégralité du SMS s’il n’a pas besoin d’être modifié.
b) une case à cocher pour garder le mot à transcrire s’il n’a pas besoin d’être modifié.
Ces deux cases à cocher ont été créées après observation d’un extrait du corpus des SMS récoltés en Belgique pour le projet « SMS4science ».
c) une liste déroulante proposant les traductions possibles pour ce mot (elle s’appuie sur le lexique constitué au fil des transcriptions).
d) une case à cocher « Mot inconnu » pour permettre à l’utilisateur de spécifier qu’il n’arrive pas à traduire ce mot. Il parait primordial de donner la possibilité à l’utilisateur de ne pas savoir transcrire certains termes. Lors d’une relecture, un autre utilisateur pourra combler les lacunes.

Applications des SMS souhaitées

Interface de consultation des SMS

Il apparait nécessaire de créer une interface de consultation des SMS. Nous pourrions envisager le choix des SMS à consulter en fonction des informations des expéditeurs grâce au questionnaire remplis sur Internet : sexe, âge, nombre de SMS envoyés par semaine, etc.
Nous pourrions penser à une consultation par thématique des SMS. Il serait intéressant de consulter les SMS selon qu’ils traitent des relations amoureuses, de l’organisation d’une soirée entre amis, etc.

Etiquetage morphosyntaxique

Un étiquetage morphosyntaxique appliqué aux SMS pourrait mettre en avant quelles catégories syntaxiques sont les plus touchées par les procédés d’abréviations du langage SMS. Il pourrait aussi être utile afin de faire une recherche d’informations dans les SMS.

Traduction d’un texte entier (Français-SMS et SMS-Français)

La traduction d’un texte entier s’appuierait sur les contextes gauche et droit des mots de la phrase grâce à l’alignement des SMS originaux et leur transcription, ainsi que sur l’étiquetage morphosyntaxique pour réduire au maximum les ambigüités.

Description technique des outils réalisés en vue du projet « SMS4science » en France

Nous présenterons dans cette partie les points techniques de ce que nous avons développé pour le projet « SMS4science ».

Présentation de la Base De Données (voir schéma page 35)

Notre base de données a été implémentée sous PHP MySQL. Elle comporte quatre tables :
a) La table des données personnelles répertorie les types de données à masquer dans les SMS au moment de l’anonymisation. Nous avons établi une première liste de données grâce aux éléments renseignés par l’équipe du CENTAL dans leur ouvrage sur le projet « sms4science » mené en Belgique (Fairon et al., 2006). Cette table pourra être complétée par la suite si un utilisateur détecte une donnée dont le type n’est pas répertorié.
b) Le lexique contient chaque mot des SMS d’origine associé à leur traduction.
Cette table sera remplie au moment de la transcription des SMS. Si un mot n’a pas pu être traduit, nous noterons « Non traduit » comme traduction.
c) La table des SMScontient pour chaque SMS, son identifiant et l’identifiant de l’expéditeur, le texte original, le texte anonymisé, le texte transcris et le texte aligné ainsi que les commentaires de l’utilisateur sur la transcription.
L’identifiant du SMS est incrémenté à chaque enregistrement d’un nouvel SMS.
L’identifiant de l’expéditeur correspond à un codage du numéro de téléphone de celui-ci.
d) La quatrième table contient les données de chaque expéditeurde SMS qui aura rempli un questionnaire sur le site Internet de l’opération. Relier les SMS et ces données nous permettrons d’étudier les variations du langage SMS selon des critères d’âge, de profession, de sexe, etc.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
CHAPITRE 1 – USAGERS ET USAGES DES SMS
Usagers des SMS
L’utilisation des SMS pour la jeune population (12-24 ans)
Usages du SMS
Les usages ludiques
Les usages pratiques ou fonctionnels
Les usages mettant en jeu l’affect
Les usages de contact
CHAPITRE 2 – LANGAGE SMS
Peut-on parler d’un « langage SMS » ?
Construction du langage SMS
CHAPITRE 3 – LE LANGAGE SMSREPRESENTE-T-IL UN DANGER POUR L’ORTHOGRAPHE?
CHAPITRE 4 – A PPLICATIONS ELABOREES A PARTIR DES SMS
Dictionnaire de SMS
TiLT : transcripteur de SMS (Traitement Linguistiqu e de Textes)
Architecture de TiLT
Le logiciel TiLT est composé de trois modules
Evaluation de TiLT avec le corpus du DELIC
Evaluation avec le corpus du CENTAL
Correcteur automatique proposé par S. Vienney et C. Melian
Architecture pour le traitement automatique des SMSproposé par F. Yvon. (Yvon, 2008 et Kobus et
Al., 2008)
Présentation des modules du système de F. Yvon
Avantages et Inconvénients du système
CHAPITRE 5 – CONSTITUTION DE CORPUS SMS
Corpus du DELIC (utilisé pour tester le système TiL T)
Corpus de l’Université de Singapour : « NUS SMS Corpus »
Corpus SMS de Caroline Tagg
Projet « SMS4science »
Le projet en Belgique
Le projet en France : « smsAlpins »
Le projet à la Réunion : « LaRéunion4science »
Le projet en Suisse : « sms4science »
Le projet au Canada : « Texto4science »
Le projet dans les autres pays partenaires
CHAPITRE 6 – PRESENTATION DES OUTILS REALISES EN VUE DU PROJET « SMS4SCIENCE»EN FRANCE
Exploitation des SMS
Anonymisation des SMS bruts
Transcription des SMS bruts
Applications des SMS mises en place
Lexique SMS-Français et Lexique Français-SMS
Transcripteur de terme
Applications des SMS souhaitées
Interface de consultation des SMS
Etiquetage morphosyntaxique
Traduction d’un texte entier (Français-SMS et SMS-Français)
CHAPITRE 7 – DESCRIPTION TECHNIQUE DES OUTILS REALISES EN VUE DU PROJET « SMS4SCIENCE»EN FRANCE
Présentation de la Base De Données
Extraction des SMS bruts et enregistrement dans la base de données
Anonymisation
Transcription