Diffusion de l’information dans les médias sociaux

Les médias sociaux

    Dans cette thèse, nous définissons un média social comme un service en ligne qui permet essentiellement deux choses à ses utilisateurs :
— Premièrement, ceux-ci créent une page de profil sur laquelle ils  peuvent publier des messages.
— Deuxièmement, ils se connectent à d’autres utilisateurs afin de suivre leurs publications. Cette définition générale est similaire à celle proposée par Boyd et Ellison (2007) définition, présentent chacun des spécificités. Les différents médias sociaux se distinguent d’une part en fonction de la visibilité et de l’accessibilité des pages de profil de leurs utilisateurs. Par exemple, tous les profils créés sur Twitter sont, par défaut, publics et indexés par les moteurs de recherche traditionnels, ce qui les rend accessibles à tout un chacun sans nécessairement posséder un compte Twitter. Les profils créés sur Facebook sont au contraire privés sauf si son créateur en décide autrement. Les différents médias sociaux se distinguent d’autre part selon la manière dont leurs utilisateurs se connectent entre eux. Par exemple Twitter propose un mode de connexion unilatéral qui permet à tout utilisateur de se connecter à n’importe quel autre utilisateur. Ce lien est appelé sur Twitter un lien d’abonnement (« following » en anglais) et permet à la personne ayant initié la connexion de recevoir automatiquement les messages publiés par l’utilisateur ciblé. D’autres médias sociaux – comme Facebook – se basent sur un mode de connexion bilatéral, ce qui signifie que les deux utilisateurs doivent autoriser la création du lien. L’information circule alors dans les deux sens et ce lien est appelé « lien d’amitié ». Le terme d’amitié est employé par de nombreux médias sociaux pour désigner les connexions entre utilisateurs. Néanmoins, comme l’observe Boyd (2006), cette appellation est trompeuse et les utilisateurs se connectent entre eux pour de nombreuses raisons sans pour autant être amis au sens commun du terme. Formellement, un média social est représenté par un graphe étiqueté, où les nœuds correspondent aux utilisateurs du service et où les liens représentent les connexions entre utilisateurs. Ce graphe peut être orienté ou non, selon les spécificités du média social considéré (i.e. selon que le mode de connexion soit unilatéral ou bilatéral). Les sommets sont étiquetés avec les messages publiés par l’utilisateur correspondant. Un message est décrit par (i) son auteur, (ii) son contenu et (iii) sa date de publication.  Lorsque l’on s’intéresse à la publication de messages non plus au niveau individuel mais au niveau d’un média social dans son ensemble, on observe un flux continu de messages. La figure 2.2 représente le flux de messages généré par les cinq utilisateurs du média social fictif décrit par la figure 2.1. Chaque utilisateur d’un média social est exposé à une part plus ou moins importante du flux total, en fonction des connexions qu’il a établies avec les autres utilisateurs.

Le média social type : Twitter

   Bien que les contributions apportées par ces travaux de thèse – que ce soit sous forme d’algorithme, de modèle ou de logiciel – soient applicables à la plupart des médias sociaux, nous avons choisi de mener nos expérimentations sur un média social en particulier : Twitter.  Deux raisons principales motivent ce choix. Premièrement, l’engouement pour Twitter est un phénomène global qui pousse chaque jour des internautes du monde entier à s’inscrire puis prendre part aux discussions. Par conséquent, Twitter occupe une place sans cesse plus importante dans notre environnement médiatique. Il est de fait devenu un outil de communication prisé de beaucoup de journalistes, acteurs de la vie politique ou encore entreprises. L’étude menée par Hughes et Palen (2009) révèle par exemple le rôle important de Twitter au sein de la stratégie de communication adoptée par Barack Obama durant la campagne présidentielle de 2008 aux États-Unis. L’étude conduite par SimplyMeasured (2014) montre quant à elle que les petites comme les grandes entreprises intègrent Twitter dans leurs plans de communication. Notamment, elle indique que les 100 plus grandes compagnies selon le classement InterBrand 1 ont publié en 2013 en moyenne chacune 12 tweets par jour. Deuxièmement, Twitter – contrairement à la majorité des médias sociaux – permet d’accéder gratuitement à une part importante de ses données, ce qui pousse beaucoup de chercheurs à l’étudier.
Spécificités. Twitter  est l’un des médias sociaux les plus populaires, lancé en juillet 2006 aux États-Unis. Ses créateurs le définissent ainsi : « Twitter offre à chacun l’opportunité de créer et de partager instantanément des idées et des informations, sans aucune barrière ». Les utilisateurs inscrits publient des messages limités à 140 caractères, appelés « tweets », et se connectent entre eux de manière unilatérale selon le principe d’abonnement (i.e. following). Le réseau formé par ces connexions est appelé le graphe des abonnements. Comme l’indique la figure 2.3, Twitter comptait en 2012 environ 500 millions d’utilisateurs à travers le monde, qui ont publié en moyenne 400 millions de tweets chaque jour. Le réseau d’abonnements entre ces utilisateurs était alors formé de plus de 20 milliards de connexions (Myers et al., 2014). Les utilisateurs ont la possibilité de rédiger et de publier des tweets en temps-réel, notamment grâce aux terminaux mobiles. En 2013, 75% des accès à Twitter se sont faits à partir de terminaux mobiles (Techcrunch, 2013). Chaque tweet apparaît sur la page de profil de son auteur et est instantanément transmis à ses abonnés, qui le reçoivent dans leur « timeline ». La timeline consiste en l’empilement en ordre chronologique inverse des tweets publiés par les utilisateurs suivis (i.e. followees). La  figure 2.4.a montre la page de profil d’un utilisateur de Twitter, tandis que la figure 2.4.b montre la timeline de cet utilisateur. Les messages publiés par les utilisateurs de Twitter abordent des thématiques diverses et variées, qu’elles soient d’ordre public – c’est-à-dire en lien avec des éléments d’information susceptibles d’intéresser un large public – ou bien d’ordre personnel. Les tweets appartenant à ce second groupe de thématiques représentent plus de la moitié des tweets publiés (PearAnalytics, 2009; Zheng et Han, 2013).

Vue d’ensemble de la recherche sur la diffusion de l’information dans les médias sociaux

   Après avoir détaillé des notions générales ayant trait aux médias sociaux et à la diffusion de l’information, nous dressons ci-après un bref tour d’horizon de la recherche menée à propos de ce phénomène. Pour structurer et synthétiser les travaux décrits dans la littérature, nous construisons la taxonomie présentée par la figure 2.6 (page 41), dont le second niveau reprend les trois problématiques à la base de cette thèse. Ces travaux couvrent plusieurs champs du domaine de la fouille de données ; par exemple, les méthodes existantes pour la détection d’évènements dans les médias sociaux se concentrent sur la détection de thématiques saillantes à l’aide de techniques de fouille de textes : pondération statistiques des termes (e.g. avec une variante de t f ·id f ), modélisation des thématiques latentes (e.g. avec une variante de l’allocation de Dirichlet latente), ou encore classification non supervisée de termes (e.g. avec une variante de la méthode des k plus proches voisins). Concernant la prévision de la diffusion dans les médias sociaux, nous catégorisons les modèles existants en deux familles, selon que la structure du  réseau social soit prise en compte ou non. Dans les deux cas, les paramètres latents de ces modèles sont estimés en résolvant des problèmes d’optimisation à partir des données (e.g. maximisation de la vraisemblance). En ce qui concerne l’analyse de l’influence dans les médias sociaux, les méthodes existantes exploitent la structure des réseaux sociaux sous-jacents avec des techniques de fouille de graphes (e.g. en développant une variante de la décomposition du réseau en k-enveloppes, ou en modélisant une marche aléatoire sur le réseau), que ce soit pour identifier des utilisateurs ayant une influence positive ou négative sur le phénomène de diffusion de l’information. Dans les trois chapitres suivants, chacun consacré à une problématique, nous développerons un état de l’art décrivant plus en détail ces travaux.

Modélisation n’exploitant pas la structure du réseau

   Modèles classiques. Nous décrivons ici des modèles développés en épidémiologie, dits modèles compartimentaux, conçus pour modéliser la diffusion d’une maladie au sein d’une population constante de N individus. Ils supposent d’une part que les contacts entre les N individus se font aléatoirement, et d’autre part que les membres se trouvent dans des états particuliers (dus à la diffusion), ce qui permet de les « compartimenter ». On parle de modélisation sous forme de « mélange homogène » puisque ces modèles considèrent d’une part que les individus d’un même compartiment sont connectés selon une structure régulière avec les individus des autres compartiments, et d’autre part que les individus changent de compartiments de façon homogène. Les modèles compartimentaux caractérisent le processus de diffusion à travers l’évolution de la taille de chaque compartiment dans le temps, modélisée à l’aide d’équations différentielles. Ils se concentrent donc par  nature sur l’aspect temporel de la diffusion. Kermack et McKendrick (1927) décrivent le modèle le plus simple, SI, qui considère deux états : « Susceptible » (S) et « Infected » (I). Les membres du réseau dans l’état Susceptible peuvent contracter la maladie au contact des membres dans l’état Infected. La seule transition possible, comme l’illustre la figure 4.1.a, se fait donc depuis l’état Susceptible vers l’état Infected. Ce modèle suppose que tout individu dans le compartiment Sa une probabilité constante β d’être infecté par un individu appartenant au compartiment I. Soit S la taille du compartiment contenant les individus dans l’état S et I la taille du compartiment regroupant les individus dans l’état I.

Logiciels pour la fouille et l’analyse de données issues des médias sociaux

   Dans cette sous-section, nous synthétisons l’état de l’art concernant les solutions logicielles, que nous divisons en deux catégories, selon qu’elles soient développées dans l’industrie ou dans le milieu académique.Logiciels développés dans l’industrie. De nombreux logiciels pour l’analyse des médias sociaux sont développés dans l’industrie, dont trois des plus populaires sont : SAP Social Media Analytics , NetBase  et BrandWatch Analytics  . Ces logiciels sont orientés marketing et sont conçus pour permettre aux entreprises, à partir de données qu’elles ont ciblées, de détecter les évènements qui animent les discussions à propos de leur(s) marque(s) et identifier les utilisateurs influents à leur sujet. Ces logiciels souffrent principalement de deux limitations. Premièrement, les trois logiciels mentionnés sont payants et propriétaires, ce qui signifie que le code source n’est pas public. Cela ajouté à l’absence de communication à propos des algorithmes mis en œuvre pour traiter les données leur donne un aspect « boîte noire » qui se révèle problématique lorsqu’il s’agit d’interpréter les résultats qu’ils produisent et d’évaluer leur validité. Deuxièmement, les interfaces qu’ils proposent ne sont pas toujours adaptées aux résultats à visualiser. À titre d’exemple et comme on peut le voir sur la figure 5.3.a, le logiciel SAP Social Media Analytics décrit les thématiques animant les discussions à l’aide d’un nuage de mots, lesquels sont dessinés avec plusieurs couleurs et tailles de police. Cette représentation faisant appel à beaucoup de dimensions ne permet pas d’identifier aisément les différentes thématiques. La figure 5.3.b montre quant à elle l’interface dédiée à l’identification d’utilisateurs influents proposée par le logiciel BrandWatch Analytics, qui consiste en une distribution et ne permet pas de visualiser la structure Un logiciel libre pour la détection d’évènements et l’analyse de l’influence dans les médias sociaux du réseau social. Or, la notion de réseau est essentielle à la notion d’influence, puisque c’est précisément parce que les utilisateurs des médias sociaux font partie d’un réseau qu’ils peuvent subir ou exercer de l’influence. Par conséquent, sa visualisation est un élément essentiel lors de l’analyse de l’influence. Logiciels développés dans le milieu académique. Il n’existe à notre connaissance aucun logiciel développé dans le milieu académique permettant d’étudier à la fois les évènements et l’influence à partir de données collectées sur les médias sociaux. Il existe néanmoins plusieurs prototypes non-libres pour la détection d’évènements – qui implémentent chacun leur propre algorithme et ne sont pas conçus pour en intégrer d’autres – tels que Eddi (Bernstein et al., 2010), TwitInfo (Marcus et al., 2011) ou bien encore KeySEE (Lee et al., 2013). Ces prototypes sont spécifiquement conçus pour Twitter et collectent directement les messages qu’ils analysent. Par ailleurs, les algorithmes que mettent en œuvre ces prototypes pour analyser les données sont peu ou pas décrits. Pour l’analyse de l’influence, il existe plusieurs logiciels libres émanant du milieu académique tels que Gephi écrit en Java (Bastian et al., 2009), dont l’interface utilisateur est illustrée par la figure 5.4, ou encore Tulip (Auber, 2004) et SNAP  milieu académique pour les tâches de détection d’évènements et l’analyse de l’influence.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1.1 Problématiques et contributions
1.1.1 Détecter les évènements
1.1.2 Modéliser et prévoir la diffusion de l’information
1.1.3 Identifier les utilisateurs influents
1.2 Organisation du manuscrit de thèse
2 Médias sociaux et diffusion de l’information 
2.1 Les médias sociaux 
2.1.1 Comparaison avec les médias traditionnels
2.1.2 Le média social type : Twitter
2.2 Diffusion de l’information
2.3 Vue d’ensemble de la recherche sur la diffusion de l’information dans les médias sociaux
3 Détecter les évènements 
3.1 Introduction
3.2 État de l’art
3.2.1 Pondération statistique des termes
3.2.2 Modélisation probabiliste des thématiques latentes
3.2.3 Classification non supervisée de termes
3.2.4 Synthèse de l’état de l’art
3.3 Méthode proposée
3.3.1 Formulation du problème
3.3.2 Vue d’ensemble de la méthode proposée
3.3.3 Détection des évènements à partir de l’anomalie dans la fréquence de création de mentions
3.3.4 Sélection des mots décrivant les évènements
3.3.5 Génération de la liste des évènements
3.3.6 Algorithme général
3.4 Expérimentations 
3.4.1 Protocole expérimental
3.4.2 Évaluation quantitative
3.4.3 Évaluation qualitative
3.5 Implémentation et visualisations 
3.6 Discussion 
3.6.1 Résumé des travaux présentés
3.6.2 Perspectives de travail
4 Modéliser et prévoir la diffusion de l’information 
4.1 Introduction
4.2 État de l’art
4.2.1 Modélisation n’exploitant pas la structure du réseau
4.2.2 Modélisation basée sur la structure du réseau
4.2.3 Synthèse de l’état de l’art
4.3 Méthode proposée
4.3.1 Formulation du problème
4.3.2 Vue d’ensemble de la méthode proposée
4.3.3 Description du modèle
4.3.4 Espace de représentation
4.3.5 Estimation des paramètres du modèle
4.4 Expérimentations 
4.4.1 Protocole expérimental
4.4.2 Évaluation de la procédure d’estimation des probabilités de diffusion
4.4.3 Évaluation du modèle T-BASIC
4.4.4 Analyse des facteurs impactant la diffusion de l’information
4.5 Discussion 
4.5.1 Résumé des travaux présentés
4.5.2 Perspectives de travail
5 Un logiciel libre pour la détection d’évènements et l’analyse de l’influence dans les médias sociaux 
5.1 Introduction 
5.2 État de l’art 
5.2.1 Détection d’évènements et analyse de l’influence dans les médias sociaux
5.2.2 Logiciels pour la fouille et l’analyse de données issues des médias sociaux
5.2.3 Synthèse de l’état de l’art
5.3 Logiciel proposé 
5.3.1 But du logiciel, publics visés et architecture générale
5.3.2 Service de manipulation des données
5.3.3 Service de détection d’évènements
5.3.4 Service d’analyse du réseau social
5.3.5 Service d’import d’algorithmes et API
5.4 Exemples de scénarios d’utilisation
5.4.1 Utilisation par un non-expert
5.4.2 Utilisation par un chercheur du domaine
5.5 Discussion 
6 Conclusion 
6.1 Résumé de la thèse
6.2 Perspectives de travail 
Bibliographie
Annexes
Liste des publications
Revue internationale
Conférence internationale et atelier international
Conférence nationale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *