Construction du Profil utilisateur à partir de son réseau social

Télécharger le fichier pdf d’un mémoire de fin d’études

Mise à jour du profil utilisateur et évolution des intérêts

L’approche par mise à jour du profil utilisateur consiste, à partir d’un profil utilisateur existant, à « ajuster » les intérêts dans le profil utilisateur selon les variations des intérêts réels ou les besoins d’informations de l’utilisateur afin de conserver un profil à jour et pertinent. L’objectif est, sans recalculer l’ensemble du profil, de pouvoir retirer des intérêts du profil, en ajouter de nouveaux ou modifier des pondérations d’intérêts. La mise à jour du profil utilisateur permet également d’extraire de nouvelles informations et ainsi d’extraire et de compléter les intérêts existants dans le profil. Généralement, la mise à jour du profil utilisateur se fait en se basant sur le feedback de l’utilisateur de façon explicite ou implicite. Ces deux approches sont décrites dans les deux sous-sections suivantes.

Mise à jour explicite du profil utilisateur

La mise à jour explicite du profil utilisateur se base sur le feedback explicite de l’utilisateur. Plusieurs travaux (Papadogiorgaki et al., 2008 ; Pon et al., 2011 ; Wang et al., 2013) se basent sur l’algorithme de Rocchio (Rocchio, 1971) qui est utilisé en RI pour adapter la requête de l’utilisateur selon le retour (positif ou négatif) sur le résultat de ses précédentes recherches. Lors de la mise à jour du profil de l’utilisateur, l’ensemble de ses intérêts est actualisé selon ses jugements à propos des derniers contenus proposés. Les intérêts liés aux contenus que l’utilisateur a jugés pertinents seront ajoutés à son profil tandis que les intérêts liés aux contenus jugés non pertinents seront supprimés de son profil. Dans cette méthode, la participation de l’utilisateur est nécessaire.

Mise à jour implicite du profil utilisateur

La mise à jour implicite se fait automatiquement sans avoir besoin de feedback de l’utilisateur. Il s’agit donc de profiler l’utilisateur en prenant en compte l’aspect temporel. Les techniques citées précédemment dans la phase de construction du profil peuvent être appliquées/adaptées dans ce contexte :
L’approche basée sur une fenêtre temporelle peut être utilisée pour sélectionner, à chaque mise à jour, seulement les informations du dernier intervalle de temps Dt, afin de ne conserver que les informations considérées les plus récentes et les plus importantes. Les informations anciennes seront donc exclues à chaque mise à jour du profil.
L’approche pondérée peut être appliquée pour pondérer les informations dans la fenêtre temporelle choisie afin de privilégier les informations les plus récentes.
Nous citons par exemple, le travail de (Mezghani, 2015) dans notre équipe, qui propose une approche d’enrichissement temporel du profil utilisateur à partir de tags. Cette approche s’appuie principalement sur l’analyse du comportement d’annotations des utilisateurs dans une période de temps Dt pour sélectionner les tags les plus significatifs pour l’enrichissement du profil. Dans cette approche, le profil utilisateur est construit de façon implicite, en utilisant la liste des tags assignés par les utilisateurs. Le profil utilisateur est enrichi par des tags à chaque période de temps Dt. La division en période Dt a pour but de pouvoir analyser une partie des informations selon une période prédéfinie afin de réduire le spectre d’analyse et ainsi d’essayer de ne garder que les informations les plus représentatives pour une période donnée. Dans ce contexte, le choix du Dt est important. La taille de chaque Dt doit être cohérente avec la quantité de données.
L’enrichissement du profil est effectué à chaque Dt afin de refléter les intérêts actuels de l’utilisateur. Le processus d’enrichissement comprend trois principales étapes (cf. la Figure 2.10) : Une ressource peut être une image, une URL, du texte. La température d’une ressource reflète sa popularité à un moment donné. Ce calcul permet de refléter l’importance d’une ressource pour un utilisateur donné dans chaque Dt. La température d’une ressource est calculée en combinant les trois paramètres suivants :
La fraîcheur des tags associés à la ressource : plus les tags sont récents plus la ressource est intéressante pour l’utilisateur. La fraîcheur d’une ressource r est calculée avec la fonction suivante : M 1 9*Rî(ℎ+)*(*) = OUV <1(#O) ℎ ( 2.12 )
Où h représente le nombre de tags associés à la ressource r. p1(ti) représente la distance entre l’heure d’annotation du tag ti et l’heure actuelle.
La similarité des utilisateurs (qui ont annoté la ressource) : si deux utilisateurs ont annoté la même ressource avec des tags semblables, cela reflète leur similarité en termes d’intérêts. Ils sont donc considérés comme des personnes proches. La similarité cosinus est exploitée pour calculer la similarité entre deux utilisateurs.
La popularité (de la ressource) qui est le nombre de tags associés à la ressource.
Pour une période ∆# et étant donné une ressource r, les trois paramètres sont combinés pour obtenir la température !∆8 * selon la formule suivante : !∆8 * = ] ∗ 9*Rî(ℎ+)* + ^ ∗ _:`:4R*:#é + b ∗ <‘<)4R*:#é ( 2.13 )
], ^ et b sont des constantes qui reflètent le degré d’influence de chaque paramètre et sont fixées dans l’expérimentation.
Etape 2 : calcul du poids des tags. Après le calcul de la température de chaque ressource, seules les ressources dont les valeurs de température augmentent entre deux périodes successives de temps (Dt-1 et Dt), sont considérées. En fait, l’augmentation de la température reflète l’intérêt de l’utilisateur envers ces ressources. Ainsi, les auteurs proposent de garder les ressources annotées les plus pertinentes, en considérant seulement les métadonnées qui reflètent le contenu de chaque ressource telles que le titre, les mots-clés et la description de la ressource. L’étape suivante consiste à attribuer un poids pour les tags associés aux ressources. Ce poids est calculé selon le degré de correspondance de chaque tag avec les métadonnées de la ressource associée.
Etape 3 : ajout des tags pertinents. Après le calcul du poids des tags associés aux ressources les plus pertinentes, le profil utilisateur est enrichi avec les tags les plus pertinents. Plus le tag a un poids important, plus il reflète le contenu de la ressource et donc les intérêts de l’utilisateur. Un tag est considéré comme un intérêt potentiel s’il a un poids supérieur à un certain seuil fixé lors de l’expérimentation.

Types et caractéristiques des réseaux sociaux numériques

Le travail de (Kaplan et Haenlein, 2010) propose plusieurs catégories de médias sociaux. Nous nous sommes intéressés aux catégories qui possèdent, de manière explicite ou implicite, la caractéristique d’un réseau social dit numérique. La caractéristique « réseau social » sera dite explicite lorsque les liens entre utilisateurs sont construits explicitement par eux. La caractéristique « réseau social » sera dite implicite lorsque les liens entre utilisateurs ne sont pas explicites et peuvent être construits à partir des interactions ou actions des utilisateurs (annotations, réponses, etc.). En s’appuyant sur ce travail, nous listons ci-après les catégories principales de réseau social existantes.
Site de réseautage social (social networking site) : il s’agit d’une application qui permet de créer un profil personnel, d’inviter d’autres utilisateurs qui auront accès à ce profil afin de communiquer, envoyer des messages publics ou privés. Cette application permet également de partager des contenus de ce profil sous la forme de textes, images, vidéos ou bien audio. On distingue différents types de réseaux sociaux en fonction du contexte et de leur utilisation. Les réseaux peuvent être qualifiés de :
généralistes : ces sites permettent de créer et d’agrandir son cercle d’amis, les plus connus étant Facebook7, Google+8, les plus spécifiques étant les sites de rencontre (ex. Meetic9) ;
professionnels : comme LinkedIn10 ou Viadeo11 qui sont devenus des outils indispensables dans la relation entre professionnels en permettant de construire des réseaux professionnels personnalisés (« réseautage » professionnel). Il existe aussi des réseaux sociaux professionnels spécialisés par métiers (avocat12, marketing, finance…) ;
focalisés sur les intérêts : comme la musique (MySpace13, LastFM14, Deezer15, SoundClound16), la littérature (Babelio17, GoodReads18), le cinéma (IMDb19), … ;
centrés sur les services et la vie quotidienne, sur sa vie de quartier (Peuplade20)
Blog : un blog peut être considéré comme une sorte de page web personnelle sur laquelle une ou plusieurs personnes publient périodiquement des contenus. Contrairement au site web personnel, le blog bénéficie d’une structure éditoriale préexistante, sous la forme d’outils de publication plus ou moins formatés. Les utilisateurs peuvent ajouter des commentaires et entrer en conversation sur les billets (post) de leur blog. Les blogs ont un caractère polymorphe puisque toutes les formes d’expression sont utilisées (image, vidéo, texte, audio).
Micro-blog (microblogging service) : il s’agit d’une nouvelle forme de média social, dont la conception dérive de celle du blog, elle permet aux utilisateurs de publier de courts messages (tweet) destinés à leurs abonnées (followers). Le micro-blog a pour objectif de diffuser de l’information en temps réel. Il peut contenir non seulement du texte mais aussi des images, des vidéos embarquées ou bien des liens vers des sites web. Il est donc à mi-chemin entre le blog et la messagerie instantanée. Le micro-blog le plus populaire est Twitter21 mais il existe également d’autres plateformes comme SinaWeibo22, Soup23.
Communauté de partage d’informations : l’objectif de ce type d’application est le partage de contenus multimédias entre utilisateurs. Dans le contexte du web 2.0, les utilisateurs peuvent créer, indexer, commenter et partager des contenus. Ce type d’application permet de partager des images (Flickr24, Instagram25, Pinterest26…), des vidéos (Youtube27, Dailymotion28, …), des présentations (Slideshare29), etc.
Forum de discussion : un forum est un espace de discussion public qui permet aux utilisateurs d’échanger des points de vue sur les sujets qui les intéressent ou de poser des questions. Généralement les discussions dans le forum sont archivées et cela permet des communications asynchrones entre utilisateurs. Les sujets de discussion sont souvent affichés par ordre chronologique. Les discussions peuvent s’effectuer de manière privée ou publique. Il existe plusieurs forums de discussions en ligne orientés sur différents centres d’intérêt de l’utilisateur comme par exemple Reddit30, 4chan31, Usenet32. Nous pouvons également citer les sites de questions/réponses (Q&A) comme Quora33 ou StackExchange34 qui rassemblent plusieurs forums de discussion spécialisés (par exemple, StackOverflow35 qui est orienté sur la programmation, MathOverflow36 qui traite de problèmes en mathématiques).
Les réseaux de projet collaboratif : ce type de média social permet la création de contenus simultanément par plusieurs utilisateurs (multi-utilisateurs). On peut distinguer 2 sous-catégories de projet collaboratif. La première rassemble les sites qui permettent aux utilisateurs d’ajouter, de modifier ou de supprimer du contenu. On appelle ce genre d’application des « wikis ». Un « wiki » très connu est Wikipedia37, une encyclopédie en ligne disponible en plus de 230 langues. La deuxième sous-catégorie représente les sites de marque-pages sociaux (social bookmarking), qui permettent de partager des liens de sites web intéressants. Ceux-ci peuvent être « votés » par les internautes du site s’ils les trouvent également intéressants. Les liens web partagés dans l’application seront classés par rapport au nombre de votes. Ces mécanismes amènent le partage et l’évaluation collaborative de contenus multimédias. Par exemple le site web Delicious38 permet aux utilisateurs de partager et faire connaitre leurs marque-pages qui peuvent par la suite être classés.
Avec ce type de classification, on attribue en général une catégorie d’usage générique à chaque plateforme alors que certains médias sociaux relèvent souvent de plusieurs de ces catégories. La classification des média sociaux est un problème ouvert compte tenu de la diversité des fonctionnalités offertes par chaque média social. Ces fonctionnalités peuvent être jugées plus ou moins importantes et donc mises plus ou moins en avant selon les objectifs et finalités de l’application. Par exemple, l’application YouTube a pour objectif principal de permettre à l’utilisateur de partager des vidéos en intégrant des commentaires ce qui la classe dans la catégorie des communautés de partage d’informations. En même temps, elle permet également
l’utilisateur de construire son profil (chaîne) et d’indiquer ses données personnelles (nom, description, site web personnel). Elle permet aussi de suivre d’autres chaînes YouTube et d’attribuer des mentions (like, dislike) aux vidéos regardées. Ces fonctionnalités relèvent à la catégorie de réseautage social. Quant à l’application Facebook, sa fonctionnalité la plus importante est la communication et les relations entre utilisateurs (réseautage social). Cependant, elle possède également une fonctionnalité pour partager des vidéos et permettre aux utilisateurs d’attribuer la mention (like) dans les « posts » ce qui relève de la catégorie communauté de partage d’informations.

Comparaison des réseaux sociaux numériques avec les réseaux sociaux traditionnels

Les réseaux sociaux numériques, généralement issus des médias sociaux, sont différents des réseaux sociaux traditionnels en de nombreux points (Arnaboldi et al., 2013 ; Guille, 2014) que nous listons ci-après.
Hétérogénéité : nous distinguons deux niveaux d’hétérogénéité :
hétérogénéité inter-réseaux qui désigne l’hétérogénéité entre différents réseaux sociaux. Différents types de réseaux sociaux peuvent posséder différents types de nœuds, nature de relations, nature des interactions (réseau de connaissance, réseau de similarité, réseau de partage d’information…), orientation de relations et interaction (réseau orienté ou réseau non-orienté) et informations partagées (texte, tweet, image, vidéo, tag, …).
hétérogénéité intra-réseau qui désigne l’hétérogénéité dans le même réseau social. Un réseau social peut posséder différents types de nœuds, les nœuds peuvent être connectés par différents types de relations ou interactions, mais également les types d’informations partagées peuvent être différents.
Volume : alors que les réseaux sociaux traditionnels reposent généralement sur un petit nombre d’acteurs, la plupart des réseaux sociaux numériques possède un grand nombre d’utilisateurs, chacun d’entre eux publiant plus ou moins régulièrement des messages. Sur Twitter il y a plus de 500 millions d’utilisateurs inscrits, plus de 400 millions de tweets envoyés par jour, et plus de 300 millions d’utilisateurs actifs chaque mois en 2016 (Statista, 2016)
Rapidité : la grande force des réseaux sociaux numériques est l’immédiateté de l’interaction et de la publication. Les utilisateurs peuvent interagir ou publier les contenus et les partager à n’importe quel moment et instantanément (il n’y a généralement aucun filtrage immédiat sur le contenu publié). En termes de relations, les utilisateurs peuvent se connecter entre eux même s’ils ne se connaissent pas dans la vie réelle.
Après cette typologie des réseaux sociaux, nous étudions, en détail les éléments qui constituent un réseau social dans la section suivante.

Présentation et éléments d’un réseau social

Un réseau social est généralement représenté par un graphe orienté ou non orienté. Nous représenterons un réseau social par un graphe G = (V, E) où V est l’ensemble des nœuds représentant les entités sociales (acteurs sociaux) et E est l’ensemble des associations entre les nœuds dans V tel que E V x V. Soient vi et vj deux nœuds du réseau tels que vi, vj V, si e = (vi , vj ) E, alors il existe une liaison entre le nœud vi et le nœud vj dans G. Les nœuds vi et vj sont dits adjacents, ou encore connectés ou voisins. Dans ce mémoire, pour un nœud vi, nous utilisons le terme « voisin social » pour appeler les nœuds vj V connectés à vi. Le nombre total de nœuds dans le réseau est désigné par le cardinal de l’ensemble V, noté N. Ce dernier est souvent utilisé pour désigner la taille du réseau.
Nous détaillons ci-dessous les éléments fondamentaux caractérisant le graphe d’un réseau social, successivement les nœuds, les liens, les groupes et, enfin, les graphes de contenu social.
Les notations proposées ici sont basées essentiellement sur (Boccaletti et al., 2006 ; Wasserman et Faust, 1994).

Nœuds

Un nœud dans un graphe de réseau social représente une entité sociale, également appelée acteur ». Les acteurs peuvent être des individus (appelés aussi dans ce mémoire utilisateurs) ou des groupes d’individus (organisations). Aux nœuds du graphe du réseau social peuvent être attachées des informations propres à chaque nœud. Certains travaux utilisent le terme libellé (label) pour désigner ces informations (Bhagat, Cormode et Muthukrishnan, 2011 ; Kajdanowicz, Kazienko et Doskocz, 2010). Dans certains travaux, le terme attribut (attribute) a été adopté pour assigner ces mêmes informations (Kim et Leskovec, 2010). C’est ce dernier terme que nous utiliserons dans ce mémoire. Les attributs des nœuds peuvent appartenir à différentes catégories : données démographiques (ex. âge, genre, adresse, emplacement), intérêts, loisirs, affiliation, préférences. On peut trouver aussi l’historique des activités de l’acteur ; les types d’activités que l’on trouvera en historique sont liés au réseau social sous-jacent.
Les attributs des nœuds peuvent être de différents types : simple (énuméré, numérique, textuel, etc.), par exemple genre (masculin ou féminin), âge, poids, taille, description ou structuré comme des vecteurs (ex. intérêts) ou sous forme arborescente. Certains attributs ne possèdent qu’une seule valeur (âge, genre) alors que d’autres peuvent avoir plusieurs valeurs possibles (groupes de musiques préférés, sports préférés, …).
Généralement, un réseau social est constitué d’acteurs homogènes qui ont le même statut ou rôle dans le réseau (one-mode network). Les nœuds peuvent être associés entre eux sans restriction. On peut également trouver des réseaux sociaux composés de différents types d’acteurs (many-mode network). Le type de réseau le plus connu et le plus étudié dans cette catégorie est un réseau composé de deux types de nœuds (two-mode network), également connu sous le terme réseau biparti.
Le réseau biparti est un réseau à partir duquel on peut partitionner les nœuds en deux sous-ensembles V1 et V2 tels que chaque lien du réseau ait une extrémité dans V1 et l’autre dans V2 (Borgatti, 2012). Un réseau biparti est représenté par un graphe G = (V1, V2, E) où V1 et V2 représentent deux ensembles indépendants et E V1x V2. Le graphe biparti peut être transformé en graphe uni-parti G = (V1, E1) ou G = (V2, E2) en se basant sur leurs liens vers les mêmes nœuds en commun pour construire les associations entre nœuds. Cependant, cette approche de transformation peut impliquer une perte importante d’informations comme le montre la Figure 3.2.
Figure 3.2 Transformation d’un réseau biparti (a) vers un réseau uni-parti des nœuds V1 en se basant sur les liens en commun vers le nœud V2 (b)

Liens entre nœuds

Les liens dans un graphe permettent d’associer des nœuds par paires. Dans le contexte d’un réseau social, l’association peut être faite grâce aux relations ou interactions sociales. En effet, les deux termes relations et interactions peuvent avoir un sens plus ou moins similaire. Dans ce mémoire, nous différencions le terme « relation » et le terme « interaction » de la manière suivante :
Relation désigne le fait que deux acteurs sont liés par l’un des liens sociaux suivants :
connaissance : être membre de la famille, amis, collègues du travail etc., proximité géographique : être dans la même zone géographique (ex. quartiers, village, etc.), association, affiliation : être dans la même association (ex. club de sport, club de musique, …) ou le même établissement (ex. école, université, …), similarité sociale : s’intéresser au même sujet, partager les mêmes intérêts. Interaction : l’interaction peut être considérée comme un type de relation entre les acteurs ; l’interaction fait naître une relation. L’interaction sociale est la communication ou l’échange entre deux utilisateurs (ex. discuter, envoyer des messages, …). Les interactions peuvent être exploitées de deux manières différentes. La première génère un lien entre les acteurs qui sont en interaction. La seconde permet de définir des mesures entre des acteurs. Par exemple, dans certains réseaux sociaux, le comportement des interactions (nombre, fréquence) peut être utilisé pour désigner le niveau de confiance entre deux acteurs (Gilbert et Karahalios, 2009 ; Granovetter, 1973).
Les relations dans un réseau social peuvent être caractérisées par différents aspects, que nous classifions comme décrits dans les paragraphes suivants : l’orientation de liens, leur pondération, le caractère explicite ou implicite des relations sociales, plusieurs types de relations (multidimensionnel).

Orientation des liens

Les liens dans les réseaux sociaux peuvent être réciproques ou non. Un exemple de lien réciproque est une relation de connaissance, d’amitié : si Bob et Alice sont amis, alors Alice connaît Bob et Bob connaît Alice. Un exemple de lien non réciproque est une relation comme suivre », « être fan de quelqu’un » : Bob peut être fan de Zidane un joueur de foot alors que ce dernier ne le connait pas forcement.
Partant de cet aspect, on peut distinguer deux grandes familles de réseaux sociaux : les réseaux non-orientés et les réseaux orientés (cf. Figure 3.3).
Un réseau non-orienté est un réseau dont les relations sont bidirectionnelles. Le sens des relations n’est donc pas pris en compte dans ce type de réseau ; les relations sont considérées comme réciproques. Un réseau non orienté se représente sous forme d’un graphe dont l’ensemble des liens E regroupe des couples de nœuds non ordonnés, appelés liens non-orientés. Pour un réseau contenant N nœuds, le nombre de liens maximal est alors de N * (N−1) / 2.
Un réseau orienté est un réseau dont le sens des relations est pris en compte. Il se représente sous forme d’un graphe dont l’ensemble des liens E regroupe des couples de nœuds ordonnés, appelés liens orientés. Dans un graphe orienté, la présence d’un lien e1 = (vi , vj ) entre les nœuds vi et vj n’implique pas nécessairement l’existence d’un lien e2 = (vj, vi). Dans de tels types de réseaux, l’orientation des liens est généralement représentée graphiquement par une flèche indiquant la direction du lien. Pour un réseau contenant N nœuds, le nombre de liens maximal est de N * (N −1).

Pondération de liens

Un lien dans un réseau social peut être pondéré ou non (Newman, 2004b). Un lien pondéré est affecté d’un nombre réel positif appelé poids de ce lien. Ce poids sert à différencier deux liens lors d’une exploitation du graphe et sa signification sera relative au calcul effectué pour déterminer ce poids (par exemple la date de dernière interaction, le nombre d’interactions, etc.). On peut donc distinguer deux grandes familles de réseaux : les réseaux non-pondérés et les réseaux pondérés. La Figure 3.3 ci-dessous illustre la différence entre ces deux types de réseau.
Un réseau non pondéré est un réseau dans lequel chaque lien n’a pas de poids. Lors de l’exploitation du graph, les liens existants ont tous la même importance.
Un réseau pondéré est un réseau dans lequel chaque lien e = (vi,vj) est caractérisé par un poids w(vi,vj) qui correspond à une valeur affectée au lien. Dans un réseau non-orienté si le lien e = (vi,vj) appartient à E, on a w(vi,vj) = w(vi,vj).

Réseau social explicite versus implicite

Nous pouvons distinguer les types de réseaux sociaux selon la manière dont les liens entre les individus sont créés : on parle alors de réseau social explicite ou de réseau social implicite.
Dans un réseau explicite, les relations entre les individus sont créées explicitement par les individus eux-mêmes, sont connues d’eux-mêmes et des autres. Dans le contexte des RSNs, les réseaux explicites sont les réseaux où les utilisateurs déterminent explicitement qui sont les utilisateurs avec lesquels ils veulent se connecter (amis, collègues du travail, famille). Par exemple sur Facebook, Myspace et LinkedIn, la connexion se fait par la demande d’ajout de contact. Sur Google+, un utilisateur peut s’abonner au compte d’autres utilisateurs en les mettant dans des « cercles ». Sur Twitter ou Instagram, un utilisateur peut suivre les autres utilisateurs directement si le compte de ces utilisateurs est public ou via la demande de suivi si le compte de ces utilisateurs est privé. Dans tous les cas, la topologie de ce type de réseau reflète le choix des utilisateurs de se connecter ou non avec d’autres personnes et reflète souvent aussi les liens qui existent dans la vie réelle (Frey, Jégou et Kermarrec, 2011).
Dans un réseau implicite, les relations ne sont pas créées par les utilisateurs mais sont extraites implicitement à partir des interactions des utilisateurs ou des informations données, par exemple, les réseaux collaboratifs de chercheurs (extraits depuis les co-publications entre chercheurs ou laboratoires, ou les participations aux conférences). Dans le contexte des RSNs, on trouve souvent ce type de relations dans les réseaux de partage d’informations dans lesquels on extrait les intérêts des individus à partir des données disponibles (partage, diffusion). Par exemple, sur Delicious, on peut extraire un réseau d’utilisateurs qui annotent les mêmes contenus, sur Twitter on peut extraire le réseau des utilisateurs qui mettent les mêmes
hashtags » sur les informations qu’ils partagent. Sur les forums de discussion, on peut extraire les relations provenant des utilisateurs réagissant sur le même fil de discussion (« thread »). Le réseau social n’est pas connu des utilisateurs mais est construit par analyse de données, à des fins d’analyse du réseau par exemple.
Réseau social multidimensionnel
Un individu peut établir plusieurs types de relations avec plusieurs types de personnes. Par exemple, Bob est ami avec Alice Carol et Eve, il est collègue de travail de Dave dans l’entreprise E-Corp et est abonné au même club de foot qu’Eve. Dans ce cas, on peut définir pour Bob trois types de relations dans son réseau social : ami (Alice, Carol et Eve), collègue de travail (Dave), et abonné au même club (Eve).
A partir de ces caractéristiques du réseau, un réseau multidimensionnel (Multidimensional network), appelé aussi réseau multiplexe, est un réseau qui permet de définir plusieurs types de liens entre deux ou plusieurs individus (Berlingerio et al., 2013 ; Tian Dai, Chong Tat Chua et Lim, 2012). Chaque lien est donc qualifié par le type de relation qu’il définit. Ainsi, deux individus peuvent être reliés par plusieurs liens, chacun qualifié par un type de relation, par exemple, Bob est ami de Eve et Bob est dans le même club que Eve.
Les nœuds et les relations entre nœuds permettent de donner naissance à un niveau d’analyse intéressant dans un réseau social : le groupe, notion abordée ci-après.

Analyse des réseaux sociaux

L’analyse des réseaux sociaux est menée dans le domaine des sciences sociales depuis les années 1930 (Breslin et Decker, 2007). Cette analyse vise à identifier les structures sociales présentes dans les réseaux et à expliquer le comportement des individus au sein de ces structures sociales, en appliquant des modèles mathématiques (théorie des graphes) ou des éléments issus de la sociométrie. L’accessibilité de plus en plus croissante des données sociales des utilisateurs avec l’explosion du Web 2.0 et des RSNs a ouvert la voie à des expérimentations sociales ou automatisées beaucoup plus importantes (Mehra, 2005 ; Wasserman et Faust, 1994). L’aspect numérique et donc la disponibilité des RSNs attirent l’attention du monde de la recherche pour leur aspect « stockable » et « traçable ». Les travaux en analyse des réseaux sociaux exploitent les données des RSNs pour en démontrer de manière empirique les théories ou propriétés.
Dans cette section, nous présentons tout d’abord des éléments de sociologie liés à l’analyse de réseaux sociaux puis nous détaillons les différents aspects des réseaux étudiés qui nous ont servi dans nos travaux.

Eléments de sociologie pour l’analyse des réseaux sociaux

Avant l’avènement des réseaux sociaux numériques, l’essentiel des travaux en analyse des réseaux sociaux a été́mené́en sciences sociales. Les différentes problématiques abordées dans ces études sont très vastes. Nous présentons ici uniquement les éléments que nous jugeons importants pour nos travaux : les analyses socio-centrées ou égocentrées, le capital social, la corrélation sociale et l’influence sociale, et, enfin, la force des liens.

Analyse socio-centrée et analyse égocentrée

L’analyse de réseaux sociaux peut être divisée en deux grandes approches selon le niveau d’analyse : l’analyse socio-centrée et l’analyse égocentrée.

Analyse socio-centrée

L’analyse socio-centrée porte sur le réseau entier. Un point important est ici de clairement marquer la frontière du réseau (la frontière peut être claire dans une entreprise, mais pas dans un groupe) en définissant des critères de sélection des nœuds et des relations. Les éléments mathématiques de la théorie des graphes sont très souvent utilisés dans ce type d’analyse. Elle est utile pour détecter par exemple les structures sociales (groupes, clusters, …) ainsi que leurs relations dans le réseau. Le problème principal de ce type d’analyse est la nécessité, et parfois la difficulté, d’accéder aux données du réseau entier. De plus, elles nécessitent le traitement de très grands volumes de données lorsqu’elles sont appliquées à des réseaux sociaux numériques réels et publics (ex. Facebook, LinkedIn, Twitter…).

Analyse égocentrée

L’analyse égocentrée est centrée sur un individu en particulier et peut être répétée sur plusieurs individus. Elle porte sur le réseau personnel de l’individu, appelé réseau égocentrique (egocentric network ou ego network en anglais). Un réseau égocentrique représente la cartographie de l’ensemble des relations directes d’un individu focal (appelé « égo »). Il s’agit d’un graphe composé des relations entre les individus (appelés « alters ») situés à distance 1 (directement reliés) de l’égo, ce dernier étant bien entendu exclu de ce graphe. Cette notion peut être généralisée pour prendre en compte les utilisateurs situés à distance 1 ∈ ℕ de l’égo dans le réseau social ; on a alors des réseaux k-égocentriques.
Nous pouvons représenter un réseau égocentrique sous la forme d’un graphe : dans un réseau social représenté par le graphe non orienté G = (V, E), pour un individu u, son réseau égocentrique est représenté par un graph G’(u) = (V’, E’) avec V’ V et E’ E où – V’ est l’ensemble de nœuds qui sont directement connectés à u : » v V, e = (u, v) Î E => v Î V’.
E’ est l’ensemble des relations entre les nœuds dans V’ : » vi Î V’ et vj Î V’, e = (vi, vj) Î E => e Î E’ Le réseau égocentrique est donc un sous-graphe du graphe complet comme le montre la Figure 3.6. Notons que la définition peut être adaptée dans le cas des graphes orientés en choisissant pour les définitions de V’ et E’ les orientations d’arcs souhaitées. Le choix des orientations d’arcs retenues dépendra du sens porté par les arcs.
En analyse égocentrée, les difficultés liées au volume pour traiter les données sont bien moindres qu’en analyse socio-centrée car la taille du réseau étudié est réduite drastiquement par construction.
La sous-section suivante aborde la notion de capital social qui permet de donner une valeur à un réseau social.

Capital social

En sociologie des réseaux sociaux, le capital social est une ressource associée à un réseau. La valeur de cette ressource dépend de la taille du réseau personnel d’un individu et du volume et de la richesse en ressources du réseau. Elle mesure le degré de facilité d’accès à des ressources (informations) par les individus en s’appuyant sur leurs relations sociales (Lin, 1995). Les auteurs soulignent que le capital social résulte de l’investissement d’un individu dans ses relations avec d’autres. En d’autres termes, le capital social représente la facilité avec laquelle les individus ont accès aux informations via leurs relations sociales.
Selon (Borgatti, Jones et Everett, 1998) , il existe plusieurs méthodes de calcul du capital social, certaines prennent en compte les facteurs culturels, d’autres le mesurent au niveau des individus (Fukuyama, 1996 ; Putnam, 1995) tandis que certains ne l’interprètent qu’à partir des structures internes (Burt, 1978 ; Lin, 1995) ou externes des groupes d’individus (Everett et Borgatti, 1999).
La sous-section suivante aborde l’étude de la compréhension des relations dans un réseau social.

Corrélation sociale et influence sociale

Comprendre les relations entre les nœuds et les liens dans un réseau social est un des sujets de recherche les plus actifs dans le domaine de la sociologie et de l’analyse des réseaux sociaux. Les principales questions concernant ce sujet sont : pour un couple d’individus connectés, ont-ils des points en commun ? Et est-ce que leur relation affecte leur comportement ? Ceci est un sujet lié à la corrélation sociale et à l’influence sociale entre les deux nœuds connectés.
La corrélation sociale est le fait qu’il puisse y avoir un lien de causalité entre les actions d’un individu et les affiliations qu’il entretient dans le réseau social. Les causes de cette corrélation sont diverses, par exemple l’influence sociale et l’homophilie.
L’influence sociale (social influence) est un phénomène bien connu des réseaux sociaux. Ce phénomène désigne le changement de comportement d’individus affectés par les autres individus du réseau en interaction avec eux (Sun et Tang, 2011).
Un autre phénomène associé à ce sujet de recherche est l’homophilie. Ce phénomène désigne la tendance qu’ont les individus à se connecter avec d’autres individus qui ont des similitudes ou des points communs avec eux (partager les mêmes intérêts, travailler dans le même établissement, …). (Singla et Richardson, 2008) ont étudié les relations entre les utilisateurs de la messagerie électronique Messengers et ont montré que les utilisateurs qui communiquent sur le réseau de cette messagerie électronique ont plus de chance d’être similaires que des paires d’utilisateurs pris aléatoirement. La similarité entre les utilisateurs est mesurée selon l’âge, le genre, le code postal de leur résidence, les requêtes de recherche effectuées sur le web. De plus, ils ont également montré que la similarité augmente avec le temps de discussion dans la messagerie (nombre d’échanges, …).
Les études comme celles de (Crandall et al., 2008) et (Aiello et al., 2013) sur le phénomène d’homophilie dans le contexte des media sociaux ont montré, d’une part, que la similarité entre les utilisateurs qui se connectent entre eux a tendance à augmenter au fil du temps grâce à l’influence sociale et, d’autre part, que les utilisateurs ont tendance à se connecter à d’autres utilisateurs qui leur sont similaires (principe de l’homophilie), ce qui a tendance à amplifier l’effet de l’influence sociale.
Plusieurs études se basent sur ce concept de corrélation sociale et d’influence sociale pour déduire les comportements ou les caractéristiques inconnus des personnes dans un réseau social. Elles tentent de répondre à la question : en ayant des informations sur seulement quelques individus dans un réseau, comment peut-on déduire les comportements des autres individus du réseau que l’on ne connait pas encore ? (Leenders, 2002 ; Singla et Richardson, 2008 ; Wen et Lin, 2010). Ce sont ces études qui sont à l’origine de nos travaux de recherche.
Selon (Aral et Walker, 2013 ; Shi, Adamic et Strauss, 2007)54, la force des liens est un facteur important qui peut impacter l’influence sociale entre les individus. Nous présentons en détail
En fait, (Aral et Walker, 2013) considère deux facteurs différents qui peuvent faire varier le taux d’influence : la force des liens qui représente la signification et l’intensité des relations et le niveau d’ancrage dans le réseau (embeddedness) qui représente la quantité d’amis en commun.Nous considérons ici que la force des liens peut être caractérisée par le niveau d’ancrage. dans la section qui suit, la force des liens ainsi que les mesures qui permettent d’évaluer cette force entre les individus.

La force des liens

La force des liens (tie strength) est un concept introduit dans le travail de (Granovetter, 1973) largement reconnu : « The Strength Of Weak Ties ». Selon Granovetter, « la force des liens entre deux individus est une combinaison entre la quantité de temps passé ensemble, l’intensité émotionnelle, l’intimité (confiance mutuelle) et la réciprocité des services qui caractérisent le lien entre ces deux individus ». Il distingue deux types de liens, les liens forts et les liens faibles. Les liens forts d’un individu sont les personnes proches avec qui il partage beaucoup de confiance et avec qui il entretient des échanges réguliers et qui sont le plus souvent dans les mêmes cercles sociaux que lui. Souvent, ce sont les individus qui sont similaires et qui ont beaucoup de liens entre eux. Les liens faibles sont, à l’opposé, ses connaissances avec qui il n’a juste que de brefs contacts occasionnels. L’auteur démontre que les liens faibles d’un individu sont ceux qui sont les plus susceptibles de lui apporter de nouvelles informations qui sont les plus inédites, les plus difficiles d’accès, les plus originales et sont par conséquent plus utiles que ses liens forts pour accéder à de nouvelles informations. Cela démontre l’utilité des liens faibles dans les relations sociales. L’auteur a aussi montré que les liens faibles offrent beaucoup plus d’opportunités dans la recherche d’emplois par exemple.
Beaucoup de travaux utilisent le concept de la force des liens pour étudier les comportements des individus ou des organisations. L’une des principales questions est de savoir comment évaluer la force d’un lien (fort ou faible). Selon (Gilbert et Karahalios, 2009), il existe 7 dimensions pour mesurer la force des liens. Les quatre premières dimensions ont été évoquées dans (Granovetter, 1973) : la quantité de temps passé ensemble, l’intensité émotionnelle, l’intimité (confiance mutuelle) et la réciprocité des services. Des travaux plus récents étendent cette liste. (Burt, 2004) propose d’utiliser les facteurs structurels comme la topologie du réseau pour calculer la force des liens. (Wellman et Wortley, 1990) supposent que le support émotionnel entre les personnes peut montrer leur lien fort (ex. conseil de famille par rapport à un problème familial). Enfin, (Lin, Ensel et Vaughn, 1981) ont montré que la distance sociale, caractérisée par le statut socio-économique, le niveau d’éducation, l’affiliation politique, la race et le genre, peuvent influencer la force des liens entre les personnes.
Dans la pratique, des indicateurs (informations) relatifs à ces dimensions ont été adoptés comme mesure et modèle pour évaluer la force des liens : la topologie du réseau, la réciprocité de la communication (Friedkin, 1980), le fait de posséder des amis en commun (Shi, Adamic et Strauss, 2007), la date de la dernière communication (Lin, Dayton et Greenwald, 1978), la fréquence de communication (Bond et al., 2012 ; Gilbert, Karahalios et Sandvig, 2008).
(Gilbert et Karahalios, 2009) étudient les mesures de force des liens dans le contexte des média sociaux. En utilisant Facebook comme terrain d’étude, ils ont défini de nouvelles mesures propres aux fonctionnalités de cette application (par exemple le nombre de mots dans les posts échangés sur le mur de l’utilisateur, le nombre d’échanges de messages privés, le nombre de jours depuis la dernière communication, le nombre de groupes en commun, la liste des intérêts en commun, etc). Au total, 74 variables de Facebook ont été étudiées comme mesures de force des liens. L’expérimentation sur 2000 relations sur Facebook a montré que les mesures étudiées ont plus de 85% de pertinence pour prédire la force des liens des participants.
Après avoir introduit quelques éléments de sociologie permettant d’appréhender et de comprendre les réseaux sociaux, nous détaillons ci-après les enjeux de l’analyse des réseaux sociaux.

Différents aspects de l’analyse des réseaux sociaux

L’analyse des réseaux sociaux est l’étude de ces réseaux afin de mettre en exergue des propriétés du réseau social. C’est un vaste domaine et nous nous restreindrons à une partie d’état de l’art en lien direct avec notre étude pour analyser les relations entre individus et informations en prenant en compte la dynamique sous-jacente. Nous allons nous intéresser, dans cette section, aux mesures et propriétés des réseaux sociaux, à l’analyse de la dynamique d’un réseau social, à la prédiction de liens et enfin à la détection de communautés.

Propriétés des réseaux sociaux et mesures associées

Les propriétés des réseaux sociaux peuvent être étudiées au niveau local ou au niveau global. Les mesures locales s’intéressent uniquement aux propriétés des nœuds et des liens, alors que les mesures globales considèrent l’ensemble du réseau à travers des propriétés statistiques calculées sur l’ensemble de la structure (Boccaletti et al., 2006). Ces deux aspects sont étudiés dans les deux sous-sections qui suivent. Les formules présentées dans cette section se basent principalement sur le travail de (Boccaletti et al., 2006) et de (Burt et Minor, 1983).

Propriétés locales

Les propriétés locales peuvent se distinguer selon le niveau des entités sociales qu’elles décrivent (granularité). On peut étudier les propriétés au niveau des nœuds seuls ou bien au niveau des groupes de nœuds (communautés). Ces deux aspects sont étudiés dans les sous-paragraphes suivants.
Propriétés des nœuds
Degré : le degré d’un nœud vi dans un graphe G = (V, E), noté kvi est le nombre de liens dans lesquels intervient le nœud vi. Dans un graphe orienté, on distinguera le degré entrant 1oOOG (nombre de liens entrants) et le degré sortant 1oO?N8 (nombre de liens sortants) (Boccaletti et al., 2006) . On utilise le degré comme mesure pour étudier la connectivité d’un nœud dans le réseau. Il permet par exemple de déterminer le rôle des nœuds dans le réseau (nœud influenceur, nœud populaire, nœud isolé, …).
Distance (taille du plus court chemin) : la distance est une mesure qui fournit une propriété locale entre deux nœuds. La distance entre un nœud vi et un nœud vj, noté dvi, vj, désigne le plus petit nombre de liens qu’il faut parcourir pour joindre ces deux nœuds (c’est la taille du plus court chemin entre ces deux nœuds également appelée distance géodésique) (Boccaletti et al., 2006). Centralité : la centralité désigne la position (plus ou moins centrale) d’un nœud relativement aux autres nœuds dans le graphe. La mesure de centralité est souvent utilisée pour mesurer le capital social des individus (Burt, 1978). Il existe plusieurs mesures de centralité dans la littérature. Nous présentons ici uniquement les trois mesures les plus exploitées (Freeman, 1978) :
La centralité de degré (degree centrality) est une mesure qui reflète l’activité relationnelle directe d’un acteur. Elle mesure le nombre de connexions directes d’un acteur dans un graphe. Avec cette mesure, l’acteur qui occupe la position la plus centrale dans un graphe est celui qui possède le plus grand nombre de connexions directes dans le graphe. Dans un graphe G = (V, E), le degré de centralité d’un nœud vi, noté p%(qO), est le nombre de connexions directes (degré) de vi noté 1oO normalisé par le nombre maximal de connexions directes qu’un nœud peut avoir (formule ( 3.1 )).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction générale
1.1. Contexte
1.2. Problématique
1.3. Contribution
1.4. Organisation du mémoire
2. Profil utilisateur
2.1. Notion de profil utilisateur
2.1.1. Définition du profil utilisateur
2.1.2. Utilisation du profil utilisateur dans le contexte de la personnalisation d’informations
2.1.2.1. Utilisation du profil utilisateur dans un système de recommandation
2.1.2.2. Utilisation du profil utilisateur dans un système de recherche d’information personnalisée
2.2. Méthodologie de construction du profil utilisateur
2.2.1. Acquisition des données
2.2.1.1. Acquisition des données explicites
2.2.1.2. Acquisition des données implicites
2.2.1.3. Prétraitement des données
2.2.2. Construction du profil utilisateur
2.2.2.1. Construction d’un profil utilisateur ensembliste
2.2.2.2. Construction d’un profil utilisateur basé sur les réseaux sémantiques
2.2.2.3. Construction d’un profil utilisateur basé sur une représentation conceptuelle
2.3. Gestion de l’évolution du profil utilisateur
2.3.1. Gestion de l’évolution des intérêts pendant l’étape de construction du profil utilisateur
2.3.1.1. Approche par sélection d’instance
2.3.1.2. Approche pondérée
2.3.2. Mise à jour du profil utilisateur et évolution des intérêts
.2.3.2.1 Mise à jour explicite du profil utilisateur
2.3.2.2. Mise à jour implicite du profil utilisateur
2.4. Bilan
3. Construction du Profil utilisateur à partir de son réseau social
3.1. Réseau social
3.1.1. Définitions
3.1.2. Types et caractéristiques des réseaux sociaux numériques
3.1.3. Comparaison des réseaux sociaux numériques avec les réseaux sociaux traditionnel
3.1.4. Présentation et éléments d’un réseau social
3.1.4.1. Nœuds
3.1.4.2. Liens entre nœuds
3.1.4.3. Groupes
3.1.4.4. Graphe de contenu social
3.2. Analyse des réseaux sociaux
3.2.1. Eléments de sociologie pour l’analyse des réseaux sociaux
3.2.1.1. Analyse socio-centrée et analyse égocentrée
3.2.1.2. Capital social
3.2.1.3. Corrélation sociale et influence sociale
3.2.1.4. La force des liens
3.2.2. Différents aspects de l’analyse des réseaux sociaux
3.2.2.1. Propriétés des réseaux sociaux et mesures associées
3.2.2.2. Analyse de la dynamique d’un réseau social
3.2.2.3. Prédiction de liens
3.2.2.4. Détection de communautés
3.3. Profilage social
3.3.1. Filtrage social d’information
3.3.2. Déduction d’attributs du profil de l’utilisateur
3.3.3. Construction de profil utilisateur générique
3.4. Synthèse
4.1. Positionnement
4.2. Définition générale du profil social
4.2.1. Modèle et représentation du profil social
4.2.2. Approches de construction du profil social
4.2.3. Définition des termes et notations
4.2.3.1. Définition des termes utilisés
4.2.3.2. Définition des formules utilisées
4.2.4. Définition du processus général de construction du profil social
4.3. Construction du profil social en prenant en compte l’évolution du réseau social
4.3.1. Etude de cas : profil social de « Bob »
4.3.2. Synthèse des méthodes/techniques existantes pour la prise en compte de l’évolution du réseau social dans la construction du profil social
4.3.3. Méthode temporelle proposée
4.3.4. Calcul du poids temporel d’un élément
4.3.4.1. Algorithme générique
4.3.4.2. Calcul du poids temporel d’un individu
4.3.4.3. Calcul du poids temporel des informations contenant un élément
4.3.4.4. Calcul du poids temporel final d’un élément
4.3.5. Application de la méthode temporelle aux processus existants de construction du profil social
4.3.5.1. L’approche basée sur les individus
4.3.5.2. L’approche basée sur les communautés
4.4. Etude paramétrique suivant les types et les propriétés des réseaux sociaux
4.4.1. Etude paramétrique
4.4.2. Analyse des résultats de l’étude paramétrique suivant le type et les propriétés du réseau social
4.4.2.1. Etude selon le type de réseau social
4.4.2.2. Etude selon les propriétés du réseau égocentrique de l’utilisateur
4.5. Conclusion
5. Expérimentations
5.1. Synthèse sur les stratégies d’évaluation de la proposition
5.1.1. Evaluation par confrontation à la perception humaine
5.1.2. Evaluation automatisée par filtrage social
5.1.3. Evaluation automatisée et comparative entre profil social et profil utilisateur individuel
5.2. Protocole d’évaluation
5.2.1. Stratégie d’évaluation utilisée
5.2.2. Evaluation
5.2.3. Etudes paramétriques
5.3. Expérimentations
5.3.1. Expérimentations sur DBLP
5.3.1.1. Présentation du réseau social DBLP
5.3.1.2. Accès aux donnés et présentation du dataset
5.3.1.3. Evaluation
5.3.1.4. Résultats
5.3.2. Expérimentation sur Twitter
5.3.2.1. Présentation du réseau social Twitter
5.3.2.2. Accès aux donnés et présentation du dataset
5.3.2.3. Evaluation
5.3.2.4. Résultats
5.4. Bilan des expérimentations des évaluations dans DBLP et Twitter
6. Conclusion et perspectives
6.1. Conclusion
6.2. Perspectives