Web social et recherche d’information sociale

Web social et recherche d’information sociale

Le WWW (World Wide Web), créé au début des années 1990 initialement composé de pages HTML statiques reliées entre elles par des hyperliens, a changé de façon spectaculaire vers un modèle plus collaboratif, dans lequel tous les utilisateurs peuvent être à la fois producteurs et consommateurs de l’information. Le Web social, Web 2.0, a complètement changé la façon dont les personnes communiquent et partagent des informations. Il permet, en effet, aux utilisateurs d’interagir, de produire et de partager des masses importantes de contenus sociaux grâce à une multitude d’outils sociaux (ex. Wikis, réseaux sociaux, blogs, etc).

Ceci a conduit à l’émergence des contenus sociaux générés par les utilisateurs dans les services sociaux sur Internet. Ces contenus sociaux sont généralement éphémères, subjectifs, évolutifs et de nature différente : des annotations sociales, des clics, des tweets, des commentaires, des relations sociales, des actions relevant d’activités sociales telles que le j’aime, le partage, le +1, le rating, etc. En outre, l’information sociale peut être caractérisée par plusieurs propriétés tacites (implicites) quantifiables telles que la popularité (l’intérêt que suscite une ressource), la confiance, la réputation d’une ressource, l’engagement des utilisateurs à travers leurs actions sociales. La gestion et l’exploitation de ces contenus dans le domaine de la RI, a conduit à l’émergence de ce que l’on nomme la recherche d’information sociale (RIS). La RIS se trouve au carrefour de la RI et des réseaux sociaux. Elle est appréhendée selon deux axes :

1. le premier porte sur la définition des approches et de modèles de RI spécifiques pour rechercher de nouveaux types de contenus. De même ces contenus ont conduit à l’émergence de nouveaux besoins. Par exemple, la recherche dans les sites des médias sociaux [67], trouver des informations sociales qui répondent à un besoin spécifique [146], poser des questions à des utilisateurs [59], la recherche d’opinion [154], etc.
2. le second concerne l’exploitation des contenus sociaux pour améliorer la RI. Les réseaux sociaux et les contenus générés par l’utilisateur (UGC) pourraient être intégrés au sein du processus de recherche en tant que source d’information additionnelle pour améliorer la pertinence des résultats. Par exemple, les requêtes des utilisateurs peuvent être étendues en utilisant les Wikis [120], les annotations sociales [86]. De nouvelles pages Web publiés pourraient être détectées instantanément grâce à des blogs et à des flux de microblogging [174, 63]. Les données telles que les clics, les tags, les signaux sociaux peuvent être utilisées pour classer des ressources Web [104, 206, 13, 37, 44].

La motivation derrière l’exploitation de ces contenus, en particulier les signaux (ex. +1, j’aime, etc), sur la performance des systèmes de recherche d’information (SRI) est d’essayer de tirer profit de ces traces provenant des actions collectives des utilisateurs “Wisdom of Crowds” pour améliorer la RI par rapport à un besoin en information. Le concept de “Wisdom of Crowds”, présenté par Surowiecki [190], se réfère à l’intelligence collective élaborée par les utilisateurs d’Internet qui collaborent pour commenter, tagger ou noter des ressources Web (documents) par l’intermédiaire des Wikis, des blogs et des réseaux sociaux. ces interactions sont utiles pour accéder aux ressources Web les plus attractives socialement. Elles peuvent être exploitées à différents niveaux, à savoir au niveau de l’utilisateur (profilage) pour mieux comprendre ses besoins, ou bien du coté de la ressource pour mieux la décrire et mesurer une certaine importance a priori. Nos travaux se situent dans la seconde classe, l’exploitation des signaux sociaux pour améliorer la RI.

Défis et enjeux de la recherche d’information sociale

Ces masses de données générées par les utilisateurs réactualisent les problématiques de la recherche d’information (RI) à tous les niveaux, en particulier, au niveau de la définition des modèles de pertinence pour intégrer ces contenus, et en termes d’approches pour l’exploitation efficace de ces contenus dans des tâches de RI. En effet, les modèles de recherche d’information classiques permettent d’évaluer l’intérêt, vue comme la pertinence, d’une ressource en s’appuyant sur des propriétés généralement extraites de son contenu (mots clés pour les pages Web, ou annotation pour les images). Dans notre cas, la problématique principale porte sur la manière de transformer ces contenus hétérogènes en propriétés permettant de les intégrer dans des modèles d’évaluation de pertinence. Cette problématique s’accentue sur d’autres facteurs tels que :

• Volume : l’émergence du Web social a conduit à la disponibilité d’énorme quantité de données générées par l’utilisateur. De toute évidence, ces données sociales peuvent améliorer l’efficacité des systèmes de recherche d’information. Cependant, cela demande des études rigoureuses. En effet, les systèmes de RI devraient être en mesure de traiter cette quantité de données et de le rendre utilisable et exploitable. Le défi concerne l’aspect technologique de traitement de l’information (indexation et recherche) ainsi que les aspects conceptuels et méthodologiques. La question porte sur le stockage, l’accès et l’analyse à grande échelle de ces quantités massives d’informations sociales (Big Data) [220, 58].
• Structure des réseaux sociaux : chaque réseau social propose une structure propre à son réseau qui le différencie de ses concurrents. Par exemple, les associations d’amitié sur Facebook relient des amis de façon bidirectionnelle. Twitter propose des relations unidirectionnelles appelées Followers. Google+ adopte cependant une autre approche où les liens sociaux sont classés dans des cercles de confiance (ex. famille, collègues, amis et connaissances). En outre, le réseau social peut impliquer différents types d’entités en fonction des activités au sein du réseau social. Dans les réseaux Wiki, deux types d’entités sont impliqués : les auteurs et les articles. Les réseaux de bookmarking social impliquent plusieurs entités, y compris les utilisateurs, les documents et les tags. Cette diversité des structures de réseaux sociaux apporte des difficultés supplémentaires.
• Acteurs sociaux : l’évaluation des acteurs sociaux consiste à identifier les utilisateurs influents dans le réseau social. La pertinence sociale d’un acteur dépend cependant de la structure du réseau social. Par exemple, les acteurs importants dans les Wikis sont définis comme des experts caractérisés par des contributions précieuses sur certains sujets et qui ont reçu moins de critiques. Dans le cas des réseaux de partage de médias, la pertinence sociale est assimilée à la popularité de l’utilisateur. A côté de ces deux propriétés, la pertinence sociale peut être définie par l’autorité, la confiance et l’influence des personnes sur le réseau social.

Les origines de la recherche d’information (RI) peuvent revenir à l’époque de la seconde Guerre mondiale où des quantités massives de la documentation et des rapports sur les armes ont été produites [50]. A cette époque, l’indexation des documents était déjà une tâche lourde. L’ampleur de cette tâche a été décrite dans la célèbre publication de Vannevar Bush au sujet de la memex (memory extender) [39]. Cette réalité n’a pas changé depuis, mais elle est devenue une tâche encore plus complexe. La croissance d’Internet et le WWW (World Wide Web) a généré d’énormes volumes d’informations. Ces informations sont juste à quelques clics de souris, mais l’accès à ces informations constitue une demande croissante pour créer des outils d’aide à la recherche d’information pour satisfaire les besoins des utilisateurs [122]. Le système qui fournit cette aide est généralement connu sous le nom moteur de recherche. Le terme moteur de recherche est considéré comme un synonyme de système de RI, basé sur un algorithme bien défini.

Définition

La recherche d’information (RI), l’un des premiers domaines de recherche en informatique, a proposé les premières solutions automatiques pour le stockage de texte et leur recherche [129, 38]. L’une des premières définition pour les systèmes de RI est proposée par Salton en 1968 :

“Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.” 

En 1980, Rijsbergen donne cette définition :

“Information retrieval systems address the representation, organization of, and access to large amounts of heterogeneous information encoded in digital format.” 

Une définition très générale par Robertson en 1981 considère un système de RI comme un système qui mène

“the user to those documents that will best enable him/her to satisfy his/her need for information.”

En 1983, Salton a proposé une nouvelle définition et a défini le système de RI comme suit :

“An information retrieval system is an information system, that is, a system used to store items of information that need to be processed, searched, retrieved, and disseminated to various user populations.” 

En 1984, Belkin donne une définition similaire avec un cadrage plus spécifique du besoin d’information. Sa définition décrit les systèmes de RI au regard du problème de gestion :

“The goal of an information [retrieval] system is for the user to obtain information from the knowledge resource which helps her/him in problem management.” 

Kowalski propose une définition plus spécifique et plus détaillée, qui définit également les informations qui sont considérées dans les systèmes de RI :

“An Information Retrieval System is a system that is capable of storage, retrieval, and maintenance of information. Information in this context can be composed of text (including numeric and date data), images, audio, video and other multi-media objects.” 

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

i introduction
1 introduction
1.1 Web social et recherche d’information sociale
1.2 Défis et enjeux de la recherche d’information sociale
1.3 Questions de recherche
1.4 Contributions
1.5 Organisation de la thèse
ii synthèse des travaux de l’état de l’art
2 recherche d’information textuelle
2.1 Définition
2.2 Concepts et processus de RI
2.2.1 Indexation
2.2.1.1 Extraction des mots
2.2.1.2 Élimination des mots vides
2.2.1.3 Normalisation
2.2.1.4 Pondération des mots
2.2.2 Requêtage
2.2.3 Appariement
2.3 Modèles de RI
2.3.1 Modèle vectoriel
2.3.2 Modèle de langue
2.4 Évaluation
2.4.1 Collection de test
2.4.2 Mesures d’évaluation
2.4.2.1 Rappel et précision
2.4.2.2 Mesure orientée rang nDCG
2.4.2.3 Test de signification statistique
3 recherche d’information sociale
3.1 Information sociale dans le Web
3.1.1 Réseaux sociaux
3.1.2 Contenus générés par les utilisateurs
3.1.2.1 Définition
3.1.2.2 Signaux sociaux
3.1.2.3 Types des signaux sociaux
3.1.2.4 Signaux sociaux et moteurs de recherche
3.2 Notion de la RI sociale
3.3 RI sociale : une vue d’ensemble
3.3.1 Recherche d’information dans les contenus sociaux
3.3.1.1 Recherche dans les services sociaux
3.3.1.2 Question-Réponse sociale
3.3.1.3 Recherche de conversations
3.3.1.4 Recherche d’opinions
3.3.1.5 Recherche de personnes (experts)
3.3.2 Exploitation des contenus sociaux pour améliorer la RI
3.3.2.1 Indexation sociale
3.3.2.2 Reformulation de la requête
3.3.2.3 Reclassement de résultats
3.4 Signaux sociaux pour améliorer la recherche
3.4.1 Approches basées sur les signaux sociaux indépendants du temps
3.4.2 Approches basées sur la temporalité des signaux sociaux
3.5 Évaluation de la RI Sociale
3.5.1 Les tâches sociales de TREC
3.5.2 La tâche sociale de MediaEval
3.5.3 La tâche de Social Book Search
3.6 Limites et positionnement
iii exploitation des signaux sociaux
4 exploitation individuelle et groupée des signaux
4.1 Hypothèses et questions de recherche
4.2 Approche de RI exploitant les signaux sociaux
4.2.1 Préliminaires et notations
4.2.1.1 Ressources
4.2.1.2 Actions
4.2.1.3 Réseaux sociaux
4.2.2 Modèle de langue et probabilité a priori
4.2.2.1 Propriétés sociales
4.2.2.2 Estimation des probabilités a priori
4.2.2.3 Combinaison des probabilités a priori
4.3 Expérimentations et résultats
4.3.1 Collections de documents
4.3.1.1 INEX Internet Movies Database 2011
4.3.1.2 INEX Social Book Search
4.3.1.3 Quantification des propriétés sociales
4.3.1.4 Métriques d’évaluation
4.3.1.5 Modèles de référence
4.3.2 Étude de corrélation des signaux sociaux
4.3.2.1 Corrélation entre les signaux sociaux et la pertinence
4.3.2.2 Corrélation entre les signaux sociaux deux à deux
4.3.2.3 Corrélation et causalité
4.3.3 Évaluation de notre approche
4.3.3.1 Résultats et discussions
4.3.4 Évaluation et approches basées sur l’apprentissage
4.3.4.1 Étude d’importance des signaux sociaux
4.3.4.2 Résultats et discussions
4.3.4.3 Approches basées sur l’apprentissage
4.3.5 Bilan
iv exploitation de la temporalité et la diversité des signaux sociaux
5 temporalité des signaux sociaux
5.1 Hypothèses et questions de recherche
5.2 Approche basée sur la temporalité des signaux
5.2.1 Préliminaires et notations
5.2.1.1 Temps
5.2.2 Prise en compte de la date du signal social
5.2.3 Prise en compte de la date de publication de document
5.3 Expérimentations et résultats
5.3.1 Cadre expérimental
5.3.1.1 Données expérimentales
5.3.1.2 Métriques d’évaluation
5.3.1.3 Modèles de référence
5.3.2 Résultats et discussions
5.3.2.1 Prise en compte de la date de signal
5.3.2.2 Prise en compte de la date de publication de document
5.3.2.3 Évaluation de l’impact de la temporalité des signaux
5.3.2.4 Corrélation de temporalité des signaux avec la pertinence
5.3.3 Bilan
6 qualité et diversité des signaux sociaux
6.1 Hypothèse et questions de recherche
6.2 Approche basée sur la qualité et la diversité des signaux
6.2.1 Diversité des signaux au sein d’un document
6.2.2 Influence des réseaux sociaux sur la qualité de leurs signaux
6.3 Expérimentations et résultats
6.3.1 Résultats et discussion
6.3.1.1 Diversité des signaux au sein d’un document
6.3.1.2 Distribution du facteur diversité et la pertinence
6.3.1.3 Influence des réseaux sociaux sur la qualité des signaux
6.3.2 Bilan
6.4 Agrégation des résultats
6.4.1 Prise en compte de la diversité et la date de publication du document
6.4.2 Prise en compte de la diversité et la date de l’action
v conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *