Twitter comme outil de collecte de données

Méthodologie

Préambule : Résultats d’une étude préliminaire

Lors d’une étude préliminaire réalisée à l’aide d’un corpus de scripts, nous avons pu décrire et analyser quelques cas d’insertion explétive en FQ (Baronian et Tremblay, 2017). Cette étude d’un phénomène d’insertion explétive en FQ semblable à ce qui se produit en anglais nous a permis d’établir la faisabilité de la présente étude.
Pour réaliser notre étude préliminaire, nous avons utilisé un corpus constitué à partir des dialogues de la websérie québécoise Ces gars-là. Cette websérie a été réalisée par Simon- Olivier Fecteau et coécrite par ce dernier en collaboration avec Sugar Sammy et India Desjardins24. La série comporte trois saisons de dix épisodes chacune et a été diffusée au Canada de 2014 à 2016 sur les ondes de V télé. Comme nous l’avons mentionné dans notre étude préliminaire, la série a été acclamée par la critique en plus d’avoir été un succès commercial. Cette série vient aussi briser certains tabous en intégrant des dialogues anglais dans une série dont la langue dominante est le français (Baronian et Tremblay, 2017 : 409).
Le succès de la série prouve, dans une certaine mesure, que les usages attestés concordent avec les productions des locuteurs actuels du FQ. Par ailleurs, cette série offrait l’avantage de fournir rapidement plusieurs occurrences du phénomène à l’étude. Cependant, vu la nature des textes, c’est-à-dire des scripts écrits à l’avance et réfléchis, cette étude n’a pas permis de faire des statistiques de fréquence par rapport aux usages en FQ.
Afin de confirmer nos impressions sur les usages présents dans la websérie, nous avons demandé aux étudiants d’un cours de premier cycle de linguistique d’écouter les épisodes des deux premières saisons et de recenser les faits de fuckin’ présents. Chaque étudiant a écouté un épisode, puis les énoncés répertoriés ont été discutés en classe25. Il était demandé aux étudiants de juger de la grammaticalité des énoncés ; aucun énoncé n’a été jugé agrammatical (ibid.). Après que les étudiants eurent fait cette première écoute des vingt premiers épisodes, nous avons à notre tour écouté les vingt épisodes des deux premières saisons, en plus de ceux de la troisième saison. Nous avons recueilli tous les énoncés contenant des occurrences de fuckin’ présents dans les trente épisodes de la série. Notre corpus nous a permis de recueillir plusieurs occurrences (67 au total) du phénomène que nous souhaitons maintenant observer à plus grande échelle et avec un corpus spontané dans le cadre de la présente étude. Nous avons ensuite effectué une classification des différents usages (exemples tirés de Baronian et Tremblay, 2017).
(54) C’est quoi ton fuckin’ non encore? Adjectif modifiant un nom commun
(55) Des billets pour fuckin’ Broue Adjectif modifiant un nom propre
(56) Je suis fuckin’ sérieux ok? Adverbe modifiant un adjectif
(57) De quoi tu fuckin’ parles? Adverbe modifiant un verbe
(58) C’est un bon fuckin’ burger, ça! Entre un adjectif et un nom
(59) Martin fuckin’ Côté Dans un nom complexe
(60) Des boucles de fuckin’ z-oreilles Dans un nom complexe
(61) Tu me fuckin’ niaises? Entre un clitique et un verbe
Dans la série Ces gars-là, nous n’avons trouvé aucun exemple de dérivé verbal construit avec fuckin’. Ce dernier ne peut pas non plus apparaitre dans une structure de type NP-PP ou prendre le suffixe adverbial -ment. Cependant, tout comme en anglais, fuckin’ peut être adjectif et modifier un nom commun ou être adverbe et modifier un adjectif ou un verbe. Il semble aussi que fuckin’ puisse se retrouver entre un adjectif et un nom alors que les adjectifs prénominaux sont normalement liés de près aux noms en français (Bouchard, 1995). Les cas où fuckin’ apparait dans un nom complexe sont aussi particuliers dans la mesure où aucun explétif traditionnel du FQ ne pourrait apparaitre à cet endroit. L’exemple (60) nous amène à penser que fuckin’ est maintenant impliqué dans la morphologie du français. En effet, une liaison du pluriel [z] apparait même si le nom composé sans fuckin’ n’a jamais eu cette liaison. Lorsque cet énoncé a été proposé à des locuteurs natifs, aucun n’a jugé cette liaison inacceptable. Il a même fallu amener à leur attention le fait que cette liaison n’a jamais fait partie du nom composé original (Baronian et Tremblay, 2017). Les exemples où fuckin’ se retrouve entre un pronom clitique et un verbe sont aussi particuliers puisqu’en français, aucun autre mot, à notre connaissance, ne peut interrompre cette séquence (exemple (61)). En effet, en français, les pronoms objets sont plus près du verbe que n’importe quel autre mot (Auger, 1994).
À la suite de notre étude préliminaire, nous avons pu postuler que le comportement de fuckin’ en FQ était très différent de celui des explétifs traditionnels. Il semble aussi que son comportement à titre de mot indépendant soit calqué sur le comportement du même mot en anglais. Étant donné que notre corpus était relativement restreint en nombre d’occurrences et non spontané, nous n’avons pas pu émettre de statistiques de fréquence ni affirmer avec certitude que les énoncés répertoriés correspondent à la langue en usage au Québec. De ce fait, nous croyons que notre étude actuelle, qui se veut beaucoup plus exhaustive et qui est basée sur un corpus d’un autre type, est des plus pertinentes.

Cadre de recherche

Twitter comme outil de collecte de données

Twitter a été lancé par la compagnie Odeo en 2006 sous le nom Twttr, plus tard élargi à Twitter. Initialement décrit comme « a sort of “group send” SMS application » (Arrington, 2006), Twitter est une plateforme qui permet l’échange d’informations en temps réel et qui combine certaines caractéristiques des réseaux sociaux traditionnels tout en offrant un service de microblogging26. Le service permet de bloguer grâce à de courts messages d’un maximum de 280 caractères27 appelés tweets. L’utilisateur peut donc lire, publier et partager des tweets qui sont ensuite répertoriés sur la page de son profil. Il peut partager des tweets publics ou semi-publics, c’est-à dire visibles par tout le monde ou seulement par ses abonnés28 (Twitter, 2019a). Les utilisateurs sont connectés entre eux sous la simple question : « What’s happening? » (Lomicka et Lord, 2012). Cependant, les interactions sont beaucoup plus vastes que cette simple question. Comme le mentionne Stevens (2008), « if that’s as far as you’ve got with Twitter, you’re a long way from fully appreciating it. » La plateforme fonctionne différemment des autres réseaux sociaux puisqu’elle ne permet que de courts messages spontanés ou « microposts » (Zappavigna, 2012 : 3). Ceux-ci peuvent s’enchainer très rapidement entre les utilisateurs, créant ainsi une discussion en temps réel et sont présentés à l’utilisateur en ordre chronologique inverse. La limite de caractères par tweets, les hashtags et le caractère public des tweets sont rapidement devenus les marques de commerce de la plateforme (Wikström, 2014). Twitter compte 330 millions d’utilisateurs actifs par mois à l’échelle mondiale (Statista, 2018a). Au Canada, Twitter était le troisième réseau social le plus populaire en 2017 (après Facebook et YouTube) avec environ 7,5 millions d’utilisateurs actifs mensuellement (Statista, 2018b).
À ce jour, les recherches sur Twitter sont centrées davantage sur les sciences politiques, l’économie ou le journalisme, pour ne nommer que ces domaines, plutôt que sur le discours en lui-même. Peu de recherches « seem to be “purely” linguistic in nature, in the sense of focusing mostly or exclusively on the linguistic structure of Twitter discourse » (Wikström, 2014 : 127-128). Wikström (ibid.) note aussi que « Twitter has as yet received relatively little attention from linguists, unlike other forms of computer-mediated communication (CMC) such as email, IM (instant messaging), blogging, and SMS text-messaging […] ». Afin de réaliser notre étude de corpus, il était important que le matériel à l’étude représente le discours des utilisateurs, et donc qu’il soit produit par eux pour leurs propres besoins plutôt que sollicité ou inventé29. De ce fait, Twitter représentait un outil propice à la collecte de nos données.

Profil des utilisateurs de Twitter

De manière générale, « according to the website ranking service Alexa (2017), Twitter users are somewhat more likely to be male than female and to be highly educated (college or graduate school) compared to Alexa’s estimated “internet average” » (Wikström, 2017 : 10).
Au Canada, 52 % des utilisateurs de Twitter sont des hommes, soit un peu plus de la moitié des utilisateurs. Cette tendance est plutôt l’inverse de ce qui s’observe avec Facebook et Instagram, dont respectivement 53 % et 56 % des utilisateurs sont des femmes (Statista, 2018c). Par ailleurs, 47 % des Canadiens âgés de 18 à 24 ans utilisent Twitter chaque mois (Gruzd et al., 2018)30, faisant de ce groupe d’âge le groupe le plus représenté sur la plateforme de microblogging. Les jeunes de 15 à 18 ans utilisent aussi Twitter de manière assez représentative : Statista a réalisé un sondage ponctuel en mars 2016 dans lequel 39 % des répondants de ce groupe d’âge ont affirmé avoir utilisé Twitter dans les 24 heures précédant le sondage. Toujours selon Statista (2015), le taux de pénétration de Twitter au Canada est 7 % plus bas chez les francophones que chez les anglophones. La comparaison de ces données avec les données d’utilisation de Facebook montre que les utilisateurs de Twitter au Canada sont en moyenne plus jeunes que les utilisateurs de Facebook, le groupe des 55 ans et plus étant très peu représenté sur Twitter par rapport à sa représentativité sur Facebook.
En effet, seulement 20 % des personnes de 55 ans et plus utilisent Twitter mensuellement alors que 69 % des personnes du même groupe d’âge utilisent Facebook à la même fréquence.
En fait, selon Gruzd et al. (2018), « this [Facebook] is the only platform where the oldest generation crosses the 50 % adoption and monthly usage mark ». Il semble aussi que le niveau d’éducation soit un facteur déterminant dans l’adoption de Twitter comme réseau social : 39 % des Canadiens ayant un diplôme universitaire de deuxième cycle utilisent Twitter mensuellement contre seulement 27 % de ceux ayant un diplôme universitaire de premier cycle ou un diplôme d’études collégiales. Cette tendance est cependant aussi observable pour les autres réseaux sociaux comme Facebook et Instagram (Gruzd et al., 2018).
Au Québec plus spécifiquement, Twitter est moins populaire que dans l’ensemble du Canada, et ce, autant chez la population globale de la province que chez les jeunes. Bien que le nombre d’utilisateurs soit plus faible au Québec (24 %) que pour l’ensemble du pays (35 %) (SOCIALscape, 2018), le groupe d’âge des 18-34 ans est tout de même le plus représenté sur la plateforme, et de loin. Malheureusement, nous n’avons pas été en mesure de trouver le taux de pénétration de Twitter chez les francophones en comparaison avec celui chez les anglophones pour le Québec seulement. Par ailleurs, bien que notre corpus nous ait permis de sélectionner la langue dans laquelle les tweets sont écrits, nous ne pouvons pas savoir avec certitude si l’utilisateur est unilingue francophone, unilingue anglophone ou bilingue.

L’oralité sur Twitter

Dans le cadre de cette recherche, Twitter a été privilégié comme outil de collecte de données entre autres parce que les tweets, bien qu’écrits, se rapprochent de la langue orale. En effet, la rapidité à laquelle les tweets, les réponses et les retweets s’enchainent sur la plateforme de microblogging, combinée à la limite de caractères, fait de la « langue de Twitter » une langue plus spontanée que la langue écrite traditionnelle. Paveau (2012) affirme que le tweet représente un genre discursif en lui-même. Selon elle, le fait qu’on retrouve des tutoriels en ligne dans lesquels on explique comment Twitter fonctionne, que certaines personnes ne « tweet » pas parce qu’elles ne savent pas comment, ou encore qu’on retrouve sur Twitter des usages et des normes sont des indices d’un genre nouveau. Paveau (ibid.) va même jusqu’à parler de « twittétiquette » pour qualifier ces usages et normes propres à Twitter.
Selon elle, les tweets ont des caractéristiques qui leur sont propres, compte tenu, entre autres,de l’environnement numérique de Twitter. Il existe en effet certains traits « technodiscursifs » propres à la « twittécriture » : la contrainte des 280 caractères (l’usage est tout de même de ne pas abréger dans le style des SMS), certaines transgressions grammaticales, des aménagements typographiques (espaces, ponctuation) et la délinéarisation de l’énoncé (insertion de liens, de hashtags, d’énonciateurs – tous en couleur et cliquables) (Paveau, ibid.). Zappavigna (2011 : 790) parle des échanges de tweets en termes de « public conversation ».
Elle fait aussi remarquer que bon nombre de stratégies, comme le caractère @, permettent de s’adresser directement à des utilisateurs ou de les référencer dans un tweet afin que ce dernier apparaisse dans leur fil d’actualité.
There is a social need among users to engage with other voices in public and private feeds. Hence we see creative use of punctuation to reference other users and tag common topics. These expansions in typographic meaning potential are part of a community-driven movement toward Twitter becoming a form of ‘public conversation’. It is conversation, however, that is multiparty, temporarily fluid and highly intertextual.
As Twitter has evolved, so have the resources for attributing and addressing other users. Linguistic markers have begun […] to bring other voices into tweets by addressing other users, republishing other tweets, and flagging topics that may be adopted by multiple users. The first of these conventions is the @ character, used as a deictic marker.
La fonction retweet permet aussi d’inclure des voix externes dans un tweet en republiant ce qu’un autre utilisateur a publié. Zappavigna (2011 : 791) mentionne d’ailleurs que dans la plupart des cas, le retweet est suivi du caractère @ qui permet de mentionner la source du tweet. « In this way the RT [retweet] functions as a form of engagement realized by grammatical projection, in other words, it functions to indicate that the clause following ‘@user-name2’ is a quotation, most often a direct quotation of that user’s talk » (ibid.).
Le hashtag contribue aussi à créer une conversation publique en créant une communauté virtuelle intéressée à un même sujet, qui se retrouve alors référencé dans les tweets par le hashtag (ibid.).
The ‘tag as type’ relationship assumes that other users will also adopt this tag and use it as a keyword for a tweet on this topic. By generating keywords describing their discourse in this way, Twitter users enter into the social realm of collaborative tagging.
Après avoir analysé un corpus de tweets ayant pour sujet les élections présidentielles américaines de 2008, Zappavigna (2011 : 803) conclut que « Twitter seems oriented toward the expression of interpersonal meaning » et que les hashtags jouent un rôle important dans les connexions (ou affiliations) entre les utilisateurs.
Bien que Twitter ne soit pas le réseau social le plus populaire au Québec, il a été privilégié comme plateforme sur laquelle collecter les données de ce projet de recherche puisqu’il présente des caractéristiques distinctes des autres réseaux sociaux qui en font le meilleur choix pour observer l’oralité. En effet, l’oralité y est mieux représentée que sur les autres réseaux sociaux et l’instantanéité (ou recency) joue un rôle plus important dans les échanges que sur d’autres plateformes (Wikström, 2017 : 17). D’ailleurs, jusqu’en 2016, il n’était pas possible de faire des recherches historiques sur Twitter :
Users could jump into ongoing conversations at any point, but only to a limited extent dig back into the past. This focus on the present has been reduced by features such as enhanced access to the historical archive of tweets, relevance algorithms that may present tweets out of chronological order, and “while you were away” summaries of activity for returning users (T. B. Lee, 2016 ; Oremus, 201631). However, Twitter still emphasizes recency.
Puisque fuckin’ fait partie d’un registre de langue populaire et plutôt oral, il est logique de penser que plus un réseau social permet la représentativité de la langue orale, plus les occurrences de fuckin’ seront nombreuses dans les interactions entre les utilisateurs. Avec l’importance que prennent les médias sociaux aujourd’hui et l’avènement de plateformes comme Twitter, Wikström (2017) a repensé l’oralité et la relation entre l’oral et l’écrit en prenant en compte diverses caractéristiques liées à l’énonciation et au contenu, aux conditions matérielles et physiques de l’écrit et de l’oral, à l’interaction et à la situation de communication de même qu’aux implications cognitives et culturelles. Il conclut qu’en mettant en contrastes les caractéristiques de l’oral et de l’écrit, « Twitter could be described as spokenlike in very many ways » (2017 : 28)32. Wikström (2017 : 43), qui cite Maynor (1994), parle de « written speech » pour qualifier la CMC33 et mentionne certaines des caractéristiques qui rapprochent la CMC de l’oralité : synchronicité, informalité stylistique, fonctions phatiques et émotives des messages, représentations possibles de la prononciation, de la prosodie, du non verbal ou de divers aspects paralinguistiques34. À la suite de son étude de cas, Wikström (2017 : 73) conclut que de nombreux tweets ne correspondent pas à la norme écrite et que le style est souvent « spokenlike in terms of being vernacular and colloquial ». Il soulève aussi un point important concernant l’attitude des utilisateurs face à leur propre parler sur Twitter (Wikström, 2017 : 83) :
Anxiety about the accuracy of self-representation on Twitter was one of the topics dealt with in normative orientations to talk-like tweeting. That being said, there were also many instances of users expressing notions that talk-like tweeting really does make the author feel present, really does evoke her voice, really permits authenticity.
Selon Wikström (ibid.), les utilisateurs de Twitter accordent beaucoup d’importance à la correspondance entre les tweets d’une personne et la manière dont cette même personne parle dans la réalité (son « real-world self »). Pour arriver à tweeter comme ils parlent, les utilisateurs reproduisent sur Twitter diverses stratégies de communication en face à face. Ils
emploient aussi différentes stratégies qui s’éloignent des conventions de l’écrit standardisé afin d’accomplir une forme de présence textuelle. Wikström (2017 : 86) parle de « performative writing » pour qualifier l’écrit sur Twitter : selon lui, les utilisateurs performent davantage qu’ils ne décrivent leur point de vue et leurs émotions. Différentes stratégies sont aussi mises en place par les utilisateurs pour représenter le langage non verbal. Par exemple, l’écart entre l’orthographe standard et l’orthographe utilisée sur Twitter, qui semble à première vue présenter des erreurs, est en réalité phonétiquement motivée pour mieux correspondre à la prononciation. Les hashtags, quant à eux, sont souvent performatifs (Wikström, 2017: 87) :
[…] hashtags were used in the context of, and as part of the performance of, typographical playfulness and expressivity. Concretely, an ad hoc respelling in the body of a hashtag itself, such as #Jeeeesus (Wikström, 2014a, p. 142), is a prima facie indicator that the hashtag is not really intended to integrate the tweet into a larger conversation or to serve as a ‘topic tag,’ but that the tagging is rather part of an expressive, emotive strategy.
Outre la réécriture phonétique et les hashtags, d’autres stratégies, comme l’utilisation des émoticônes et des emoji, sont centrales pour représenter l’oralité ou, comme le dit Wikström (2017 : 88), « [to fil] the gap left by the absence of face-to-face nonverbal cues ». L’auteurfait remarquer que l’important avec les émoticônes n’est pas qu’elles ressemblent à une personne, mais plutôt qu’elles réussissent à accomplir certaines émotions qu’un visage humain peut accomplir. Il en va de même pour des éléments semi-lexicaux tels que ugh (qui représente un son) ou des abréviations telles que wtf (pour what the fuck), qui ont une fonction expressive et émotive et qui sont performatifs dès le moment où ils sont utilisés (Wikström, 2017 : 89).
En dernier point, en plus de s’approcher de la langue orale, les tweets ont l’avantage de nous permettre de recenser les formes employées régulièrement par les locuteurs sans leur suggérer une quelconque construction. Nous pouvons ainsi recenser les endroits qui permettent l’insertion explétive en FM et évaluer la fréquence d’utilisation des différentes constructions proposées par les locuteurs eux-mêmes.

Corpus

Méthode de collecte des tweets

Des données peuvent être recueillies sur Twitter en faisant des requêtes de recherche automatisées à l’aide du logiciel R (version 3.4.3, R Core Team, 2017) et de la librairie rtweet (Kearney, 2017). Pour cela, un site Web Twitter doit être créé à partir d’un compte Twitter d’utilisateur. La création de ce site Web donne à l’utilisateur des codes d’accès à l’Application Program Interface (API) de Twitter (Bajorek, 2016). Ces codes permettent ensuite d’extraire des données (dans ce cas-ci, des tweets) automatiquement. L’API comporte des classes, des fonctions et des types de données qui permettent de rechercher des tweets en déterminant préalablement différentes variables. La plateforme API Twitter offre trois niveaux d’abonnement. Celui utilisé dans le cadre de cette étude permet de recueillir les données des sept derniers jours. À l’aide du logiciel R, une requête de recherche automatisée a été effectuée toutes les deux semaines afin de constituer un corpus exhaustif. Le script utilisé créait, lors de chaque recherche automatisée, un fichier text contenant les tweets, leur date de publication ainsi que les pseudonymes des utilisateurs correspondant aux tweets. La recherche de tweets automatisée a été utilisée par plusieurs linguistes dans le cadre de diverses études sur le langage (Lomicka et Lord, 2012; Gonçalves et Sánchez, 2014; Bajorek, 2016; Wikström, 2017 et plusieurs autres).

Variables

Étant donné que Twitter offre l’avantage de la recherche automatisée, les requêtes de recherche peuvent être effectuées selon des critères précis. Dans le cadre de la présente étude, les variables concernées par la recherche de tweets sont l’emplacement géographique de l’utilisateur, la période au cours de laquelle les tweets ont été produits et la langue dans laquelle ils ont été écrits. Ces variables ont été déterminées préalablement à l’exécution des requêtes de recherche automatisées de façon à ce que tout le corpus respecte les mêmes barèmes de recherche.

Zones géographiques

Le choix de la zone géographique a d’abord posé quelques difficultés. Nous devions évidemment choisir une ville québécoise avec un fort pourcentage de locuteurs francophones.
Nous étions cependant limités par la popularité de Twitter et son utilisation. Twitter estpopulaire au Canada, mais principalement dans les grands centres urbains, ce qui éliminait des villes comme Saguenay, où Twitter est peu utilisé. Nous avons envisagé la ville de Québec, mais un test de collecte de tweets nous a permis d’obtenir seulement une quinzaine de tweets contenants fuckin’ pour une période de sept jours. Nous avons donc opté pour Montréal puisque Twitter y est très populaire. Par ailleurs, cette ville nous permettait de collecter des tweets en français et en anglais dans la même zone géographique puisque Montréal abrite une population anglophone importante. Afin d’identifier d’éventuelles spécificités dans l’usage des anglophones de Montréal, nous avons constitué un sous-corpus de tweets en provenance de Boston35. Bien que beaucoup moins substantiel, ce corpus nous a permis de comparer les usages de fuckin’, plus précisément le pourcentage d’infixes véritables, afin d’assurer la fiabilité de notre étude36. La délimitation d’une aire géographique de recherche dans laquelle effectuer la collecte de données a été déterminée à partir de coordonnées de géolocalisation centrales des villes de Montréal et de Boston. Les données ont été recherchées automatiquement dans un rayon de 50 kilomètres autour de ces mêmes coordonnées.

Langues

Dans notre premier chapitre, nous avons centré ce projet de recherche autour du français québécois parlé à Montréal. Nous avons aussi souligné l’importance d’une comparaison entre les faits de cette variété de français et ceux de l’anglais, plus précisément l’anglais parlé à Montréal. Le contact à long terme entre le FM et l’anglais et la forte présence de l’anglais au Québec sont certains des facteurs qui justifient une telle considération (voir la section 1.2.2 pour plus de détails). Pour la ville de Montréal, la collecte des tweets a donc été effectuée en français et en anglais afin de constituer un corpus dans chacune de ces langues. Comme nous le verrons dans la section 2.3.5, les tweets dans lesquels on observe de l’alternance codique ont été exclus de l’analyse. Le sous-corpus anglais de la ville de Boston a été constitué après l’analyse du corpus montréalais.

Période

La période de collecte de données s’est étendue sur huit mois, soit de février à octobre 2018, à raison de deux semaines de collecte par mois. Nous avons ainsi pu constituer un corpus d’environ 1500 tweets en français. Lors de chaque requête de recherche pour la région de Montréal, nous avons effectué une requête pour rechercher les tweets en français et une pour rechercher ceux en anglais. La période est donc exactement la même pour les deux langues.
Considérant que fuckin’ est, en français, un emprunt à l’anglais, il n’est pas surprenant que cette collecte de données effectuée de manière simultanée nous ait permis de récolter environ deux fois plus de tweets en anglais qu’en français. Or, comme notre recherche concerne principalement le FM et qu’un corpus aussi substantiel pour l’anglais n’était pas des plus pertinents, du moins dans le cadre de cette étude, nous avons choisi de retenir aléatoirement 1000 tweets en anglais dans notre corpus initial, et ce, à des fins comparatives.
Le sous-corpus de Boston, quant à lui, a été récupéré à l’aide du même script et du même logiciel que le corpus principal. Cependant, puisqu’il a été décidé d’adopter cette approche comparative entre Montréal et Boston seulement après l’analyse du corpus initial, la collecte des données pour la ville de Boston a été effectuée plus tard, soit en mars 2019. Ce souscorpus avait pour objectif de nous permettre de comparer le nombre d’infixes véritables en anglais à Montréal avec le nombre d’infixes à Boston. Deux facteurs nous ont permis de confirmer que les usages de fuckin’ dans le corpus en anglais de Montréal étaient représentatifs des usages en anglais à plus large échelle (et possiblement représentatifs des usages en anglais de l’Est américain) : la fréquence des tweets qui contiennent un infixe et les divers environnements syntaxiques communs dans lesquels fuckin’ apparait.

Méthode d’analyse du corpus

Les données brutes ont d’abord été dépouillées des informations non pertinentes à notre analyse. Des données extraites, nous avons conservé la date à laquelle le tweet a été publié, le numéro d’identification de l’utilisateur37 et le contenu textuel du tweet. La librairie rtweet (Kearney, 2017) que nous avons utilisée permet de choisir la langue dans laquelle nous souhaitons effectuer la collecte des tweets. Cependant, certains des tweets du corpus étaient en réalité partiellement en français et partiellement en anglais. Dans le corpus en français, nous avons éliminé les cas d’alternance codique lorsque les occurrences de fuckin’ se retrouvaient dans un segment en anglais. Nous avons appliqué le même principe au corpus en anglais, mais pour les cas où les occurrences de fuckin’ se retrouvaient dans un segment en français. Ces cas étaient cependant beaucoup plus rares. Lors de l’étape du dépouillement des données, nous avons conservé les codes des utilisateurs afin de pouvoir éliminer de notre analyse les tweets d’un même utilisateur dans lesquels fuckin’ apparaissait dans un même contexte syntaxique à plusieurs reprises. Par exemple, si un même utilisateur a publié plusieurs tweets contenant tous « tu me fuckin’ niaise », un seul tweet a été comptabilisé lors de l’analyse des données. Nous voulions ainsi éviter qu’un ou quelques utilisateurs biaisent les résultats. Nous avons finalement éliminé 299 tweets du corpus du FM, soit 19,4 % de cas d’alternance codique et 0.5 % de cas de répétition. Quant au corpus de l’anglais, il ne contenait pas de cas de répétition : les 42 tweets éliminés du corpus, soit 4,2 % des tweets, sont tous des cas d’alternance codique.
Nous avons ensuite déterminé, pour chaque tweet, l’environnement syntaxique dans lequel fuckin’ apparait afin de déterminer la fonction syntaxique de fuckin’ dans chaque énoncé.
Pour ce faire, nous avons déterminé la classe grammaticale de chaque mot qui précède et qui suit fuckin’, et ce, pour chaque tweet. Ainsi, nous avons pu déterminer si fuckin’ modifiait un adjectif, un adverbe, un verbe un nom commun un nom propre ou encore l’ensemble d’un énoncé. Cette approche se veut descriptive, et ce, dans le but de présenter de façon détaillée les faits de fuckin’ en FM. Une analyse comparative des données du FM et de l’anglais (Montréal) a par la suite permis de proposer une hypothèse quant à l’influence de l’anglais sur le phénomène de l’infixation en FM. L’analyse comparative nous a aussi permis de proposer certaines hypothèses intéressantes concernant l’accentuation anglaise et les théories de la grammaticalisation.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Chapitre 1 : Problématique
1.1 Présentation du phénomène à l’étude
1.2 État de la question
1.2.1 Jurons traditionnels en français québécois
1.2.2 Le contact de langues au Québec
1.2.3 Fuckin’ en anglais
1.3 Objectifs de l’étude
Chapitre 2 : Méthodologie
2.1 Préambule : Résultats d’une étude préliminaire
2.2 Cadre de recherche
2.2.1 Twitter comme outil de collecte de données
2.2.1.1 Profil des utilisateurs de Twitter
2.2.1.2 L’oralité sur Twitter
2.3 Corpus
2.3.1 Méthode de collecte des tweets
2.3.2 Variables
2.3.2.1 Zones géographiques
2.3.2.2 Langues
2.3.2.3 Période
2.3.3 Considérations éthiques
2.3.4 Méthode d’analyse du corpus
2.4 Synthèse
Chapitre 3 : Résultats et analyse empirique
3.1 Description des faits du FM
3.1.1 Fuckin’ comme mot indépendant
3.1.2 Vers une grammaticalisation de fuckin’
3.1.3 Fuckin’ comme infixe
3.1.4 Résumé et quantification des faits du FM
3.2 Comparaison des faits de l’anglais avec ceux du FM
Chapitre 4 : Vue d’ensemble et discussion
4.1 Statut de fuckin’ en FM
4.2 Implications du phénomène à l’étude
4.2.1 Interactions morphologiques
4.2.2 Grammaticalisation de fuckin’
4.3 Hypothèse de McCarthy
4.4 L’infixation en FM : hypothèses
4.4.1 Rôle de l’accentuation dans l’infixation de fuckin’
4.4.2 Particularités de l’infixation en FM
4.5 Limites générales de l’étude
Conclusion
Bibliographie