Vers une représentation du contexte thématique en Recherche d’Information

La Recherche d’Information

Nous vivons dans une société moderne et ultra-connectée, dans laquelle un an équivaut au développement d’une nouvelle génération de smartphones ou de tablettes tactiles. Plus de 5 milliards de téléphones mobiles sont actuellement en utilisation, pour lesquels plus d’un milliard ½ sont des smartphones. Selon les prédictions, le trafic internet global devrait même provenir à 30% des appareils mobiles d’ici la fin de l’année 2014 . Dans ce contexte où l’accès à internet est quasi-permanent, accéder rapidement et surtout efficacement à l’information est un défi majeur. Chaque jour, plus de 5 milliards de requêtes sont soumises au moteur de recherche de Google , qui totalise environ 67% du trafic global des moteurs de recherche avec Microsoft (Bing) et Yahoo ! comme premiers concurrents. Ces différents acteurs du Web sont à présent entrés dans la culture collective et il est devenu naturel de poser nos questions aux moteurs de recherche sous forme de mots-clés, tout en attendant une liste de documents ordonnés dont une grande partie devraient contenir la ou les réponses.

Nous sommes entourés par des quantités astronomiques d’informations présentes sous la forme de pages web, de documents vidéo, audio, mais également de journaux ou de publicités. Ces connaissances sont majoritairement compilées par les moteurs de recherche commerciaux cités précédemment, qui sont devenus des points d’entrée du Web. Nos appareils électroniques connectés à internet font office de terminaux nous reliant à une «infosphère », abstraite, représentant les informations accumulées, indexées et accessibles. Du point de vue de l’humain, rechercher de l’information revient à formuler son besoin d’information le plus précisément possible sous forme de mots-clés afin que le moteur de recherche puisse « comprendre » ce besoin et proposer à l’utilisateur une liste de documents ou de réponses. Du point de vue du système, le défi de la recherche d’information réside justement dans la compréhension du besoin d’information qui n’est exprimé que sous la forme d’une requête composée d’un nombre réduit de mots. Idéalement, pour proposer une réponse parfaite à l’utilisateur, le système devrait pouvoir connaître ses pensées, son niveau d’éducation par rapport au besoin d’information ou encore ses connaissances dans des thématiques connexes.

Paradigme d’évaluation de Cranfield

Évaluer et comparer les performances de différents systèmes d’indexation automatique et de recherche d’information est une problématique qui a émergé dans les années 1950 (Robertson, 2008), et dont le premier cadre expérimental a été défini dans les années 1960 avec les expériences menées à Cranfield (Cleverdon, 1962; Cleverdon et al., 1962). La collection de documents était alors très réduite, et les requêtes étaient générées directement à partir des documents. Chaque document était alors jugé pertinent ou non par rapport à chaque requête. Avec ces informations à disposition, il était alors possible de comparer les résultats fournis par un système automatique avec la référence complète ainsi annotée.

Ce « paradigme d’évaluation de Cranfield » (Voorhees, 2002) a gagné en popularité principalement pour les possibilités de reproductibilité qu’il offre, et a perduré au sein de la communauté de Recherche d’Information. De nombreuses campagnes d’évaluation telles que TREC , INEX , CLEF , FIRE et NTCIR se sont mises en place à l’initiative de quelques chercheurs telles que Donna Harman et Ellen Voorhees (Harman, 1992a; Harman et Voorhees, 2006), avec pour but de construire des collections comprenant des requêtes, des documents et des jugements de pertinence, pouvant ainsi être réutilisées par d’autres chercheurs. Nous avons vu dans la section précédente que la pertinence d’un document par rapport à une requête pouvait dépendre de plusieurs paramètres, dont l’utilisateur (Kamps et al., 2009). La mise en place d’une méthodologie pour le développement d’environnements d’évaluation initiée à Cranfield permet notamment d’essayer de s’abstraire de ces différences individuelles. Tague-Sutcliffe (1996) définit six éléments qui composent un processus de recherche d’information et qui se retrouvent dans ces campagnes :

– un ensemble de documents à renvoyer (ou plus communément « collection cible », ou encore simplement « collection »),
– un algorithme de recherche documentaire,
– un besoin d’information d’un utilisateur,
– une expression de ce besoin d’information (généralement sous la forme de mots clés, autrement dit la « requête »),
– une liste de documents renvoyés, et
– des jugements de pertinence.

Un système de Recherche d’Information prend donc en compte une représentation d’un besoin d’information en entrée, et produit une liste de documents ordonnée par ordre décroissant en fonction de leur pertinence estimée. L’évaluation d’un tel système reflète dans ce cas à quel point il a la capacité de satisfaire l’utilisateur courant, ainsi que tous les utilisateurs passés et à venir (avec des besoins d’information, et donc des requêtes, variés). Dans la littérature, on nomme généralement « collection de test » l’ensemble formé par la collection de documents, les requêtes et les jugements de pertinence.

Jugements de pertinence et échantillonnage

La création de jugements de pertinence était réalisable pour une collection de documents limitée comme celle employée pour les premières expériences de Cranfield (1 400 documents et 225 requêtes), mais ce n’est clairement pas un scénario réaliste dès que le nombre de documents à juger augmente trop (742 611 documents et 100 requêtes dans la première collection de TREC (Harman, 1992b), ce qui reviendrait à juger plus de 74 millions de paires requête-document). La solution adoptée à l’époque par les organisateurs de TREC, et qui est toujours utilisée de nos jours dans différentes campagnes d’évaluation, a été de sélectionner les N premiers documents renvoyés par les systèmes des participants et de ne construire des jugements de pertinence que pour ces documents-ci (Harman, 1992b). Cette méthode d’échantillonnage (ou pooling) avait été initialement introduite par Jones et al. (1975), et des études ont montré (dans le cadre de TREC) son efficacité à produire des jugements de pertinence statistiquement équivalents à des jugements complets (Zobel, 1998). De plus, les systèmes ne contribuant pas à l’échantillon peuvent eux-aussi être évalués équitablement (Zobel, 1998). L’intervention humaine étant limitée, les coûts de création d’une collection de test sont donc très largement diminués, tout en permettant à d’autres chercheurs de disposer des mêmes données pour évaluer leurs algorithmes et pour vérifier si leur découvertes se généralisent (Jones, 1981).

Par ailleurs, l’avènement de la sous-traitance de masses (ou crowdsourcing) (Howe, 2008), notamment à travers le service Mechanical Turk d’Amazon , donne une alternative pour la collecte de grands nombres de jugements de pertinence à faible coût (Alonso et al., 2008; Alonso et Mizzaro, 2009). Ce service permet aux chercheurs (entre autres) de définir des tâches, idéalement simples et rapides, qui peuvent être exécutées par des internautes (aussi appelés Turkers) en échange de micro-paiements. Kazai et al. (2011) montrent que les jugements de pertinence produits par les Turkers peuvent permettre de reproduire les classements de systèmes de RI obtenus avec des jugements obtenus de manière classique, sous réserve de concevoir des tâches et des interfaces de façon à ne pas biaiser le jugement des Turkers. Bien que cette alternative semble viable, nous utilisons dans cette thèse les méthodes traditionnelles pour des raisons de reproductibilité, de comparaison et également de coût. De plus, à l’heure où nous écrivons cette thèse, l’utilisation de services de crowdsourcing (et plus particulièrement Mechanical Turk) va à l’encontre du droit européen sur la propriété intellectuelle (Sagot et al., 2011).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 La Recherche d’Information
1.2 Problématiques
1.3 Plan de la thèse
2 Méthodologie expérimentale
2.1 Pertinence
2.2 Évaluation
2.2.1 Paradigme d’évaluation de Cranfield
2.2.2 Jugements de pertinence et échantillonnage
2.2.3 Mesures d’évaluation
2.3 Collections de documents
2.3.1 TREC Web 2000-2001
2.3.2 TREC Robust 2004
2.3.3 TREC Terabyte 2004-2006
2.3.4 TREC Web 2010-2011
2.4 Sources d’information
2.4.1 Wikipédia
2.4.2 New York Times
2.4.3 GigaWord
2.4.4 Web
3 Estimation du contexte thématique par de multiples sources d’informations
3.1 Introduction
3.2 Recherche documentaire par modèles de langue
3.2.1 Vraisemblance de la requête
3.2.2 Modèles de pertinence
3.3 Utilisation de sources d’information externes pour la Recherche d’Information
3.4 Divergence à partir de sources d’information
3.4.1 Contribution
3.4.2 Systèmes de base et comparaison
3.5 Expérimentations et résultats
3.5.1 Protocole expérimental
3.5.2 Résultats
3.5.3 Qualité du contexte thématique estimé
3.5.4 Influence du nombre de termes et du nombre de documents
3.5.5 Robustesse du contexte thématique
3.5.6 Discussion
3.6 Conclusions et perspectives
4 Modélisation des concepts implicites d’une requête
4.1 Introduction
4.2 Quantification et identification de concepts implicites
4.2.1 Allocation de Dirichlet latente
4.2.2 Estimer le nombre de concepts
4.2.3 Combien de documents pseudo-pertinents ?
4.2.4 Pondération des concepts
4.3 Expériences et analyses
4.3.1 Analyse des nombres de concepts et de documents pseudo-pertinents
estimés
4.3.2 Corrélation du nombre de concepts estimé avec une modélisation
thématique hiérarchique
4.3.3 Cohérence sémantique des concepts implicites de la requête
4.3.4 Sources d’information pour l’identification de concepts
4.3.5 Temps d’exécution
4.4 Conclusions et perspectives
5 Conclusion