Méthode basée sur la CVV

Définition d’un système de recherche d’information

Plusieurs définitions d’un système de recherche d’information ont vu le jour. Nous citons dans ce contexte les deux définitions suivantes Définition 1 Un système de recherche d’information (SRI) est un ensemble de logiciels assurant l’ensemble des fonctions nécessaires à la recherche d’information. Le moteur de recherche est au coeur d’un tel système mais il n’en est qu’un composant2. Définition 2 Un système de recherche d’information (SRI) intègre un ensemble de modèles et de processus permettant de sélectionner des informations pertinentes en réponse au besoin en information d’un utilisateur représenté à l’aide d’une requête. Dans un contexte documentaire, un SRI permet de gérer une collection de documents stockés sous forme d’une représentation intermédiaire permettant de refléter aussi fidèlement que possible leur contenu sémantique. Un SRI peut être défini comme l’ensemble des procédures et des opérations permettant la gestion, la représentation, l’interrogation, la recherche, le stockage et la sélection des informations répondant aux besoins d’un utilisateur [20]. Le but principal d’un SRI est de retrouver les documents pertinents en réponse à une requête utilisateur. Ainsi, le rôle de SRI est de mettre en correspondance une représentation du besoin de l’utilisateur (requête) avec une représentation du contenu des documents (fiche ou enregistrement) au moyen d’une fonction de comparaison (ou de correspondance). L’essor du web a remis la recherche d’information face à de nouveaux défis d’accès à l’information surtout le problème du web profond (Deep Web) et le problème de la bonne sélection de collections. Il s’agit Donc de retrouver une information pertinente dans un espace diversifié et de taille considérable.

Le processus de Recherche d’Information Le processus de recherche d’information a pour but la mise en relation des informations disponibles, d’une part, et les besoins de l’utilisateur d’autre part. Ces besoins sont traduits de façon structurée par l’utilisateur sous forme de requête. Cette dernière est formulée, par l’utilisateur, dans un langage de requête qui peut être le langage naturel, un langage à base de mots clés ou le langage booléen. La mise en relation des besoins utilisateurs et des informations est effectuée grâce à un système de Recherche d’Information (SRI), dont le but est de retourner à l’utilisateur le maximum de documents pertinents par rapport à son besoin et le minimum de documents non pertinents. Un système de recherche d’information manipule un corpus de documents qu’il transpose à l’aide d’une fonction d’indexation en un corpus indexé (le système crée des représentations internes pour la requête et les documents ce processus de représentation est appelé indexation). Ce corpus permet de résoudre des requêtes traduites à partir de besoins utilisateur. Un tel système repose sur la définition d’un modèle de recherche d’information qui effectue ces deux transpositions et qui fait correspondre les documents aux requêtes. La transposition d’un document en un document indexé repose sur un modèle de documents. De même, la transformation du besoin utilisateur en requête repose sur un modèle de requêtes. En fin, la correspondance entre une requête et des documents s’établit par une relation de pertinence [19][57]. La figure 1.2 suivante représente les différentes étapes d’un processus de recherche d’information.

Les différentes formes d’un index

Les index peuvent prendre différentes formes allant de mots simples à des structures sémantiques plus complexes impliquant plusieurs concepts et relations [74][7][112]. Les descripteurs représentent l’information atomique d’un index. Ils sont censés indiquer de quoi parle le document. On parle aussi d’unités élémentaires (en anglais “Tokens”)[78]. Le but étant de les choisir de manière à ce que l’index (qui réduit la représentation) perd le moins d’informations sémantiques possible. Habituellement les descripteurs sont des mots du document, des N-grammes ou des concepts. Les mots du document toute chaîne de caractères compris entre deux séparateurs (espace, virgule…). Au niveau de l’indexation, on peut extraire les mots tels qu’ils sont présentés dans le document comme on peut effectuer certaines transformations sur ce mot en vue d’une normalisation. On peut ainsi lemmatiser ou raciniser (« Stemming ») les mots, qui sont deux processus linguistiques qui consistent, pour le premier à présenter les mots sous des formes non fléchies, et pour le second à retrouver les éléments de base porteurs du sens du mot, obtenu par l’élimination des affixes et des désinences. Au lieu d’indexer par des mots on indexe alors par le lemme correspondant.

Les concepts termes ou mots-clés il s’agit d’expressions pouvant contenir un ou plusieurs mots. Ces concepts sont le plus souvent entrés manuellement (cas de l’indexation manuelle, ou semi-automatique) et peuvent être écrits de manière libre par un utilisateur, ou, ce qui est souvent le cas, doivent être choisis parmi une liste de concepts (on parle alors de vocabulaire contrôlé). Cette liste de concepts sera le plus souvent décrite dans un thésaurus (dans le cas des termes, on parlera de terminologie).

Les N-grammes Il s’agit d’une représentation originale d’un texte en séquences de N caractères consécutifs. On trouve des utilisations de bi-grammes et trigrammes dans la recherche documentaire. Ils permettent de reconnaître des mots de manière approximative et ainsi de corriger des flexions de mots ou même des fautes de frappe ou d’orthographe. Le tableau ci-dessous représente un exemple de ces différentes formes d’index Tableau 1. 1 Différentes formes d’index

Dans la pratique, la forme la plus utilisée est la représentation par mots-clés. L’extraction automatique des concepts d’une collection de documents est souvent une entreprise très délicate et nécessite l’utilisation des techniques du traitement automatique du langage naturel, vu que ces derniers sont directement liés à la langue utilisée. [40] donne plus de détails sur l’utilisation des syntagmes nominaux en recherche d’information. L’indexation à base de concepts est souvent manuelle ou semi-automatique, donc inadaptée aux larges collections de documents. Les N-grammes, quant à eux, sont indépendants de la langue utilisée. Mais nécessitent, par contre, un espace mémoire assez important et plusieurs traitements doivent être effectués sur la requête dans un processus de recherche d’information. Ils sont plus utilisés pour la classification des documents que pour la recherche d’information [44]. Dans la suite de ce manuscrit, nous considérons uniquement les descripteurs sous forme de termes (mots-clés). Le processus d’indexation effectue le transfert de l’information contenue dans le texte d’un document vers un autre espace de représentation traitable par un système informatique [78]. A partir d’une collection de documents, le processus d’indexation nous renvoie une liste d’index structurée (figure 1.4). On utilise ce résultat, le plus souvent, pour effectuer des recherches d’informations. Mais, il peut également servir à comparer et classifier des documents, proposer des mots-clés, faire une synthèse automatique de documents, calculer les co-occurrences de termes…

En réalité, l’index suscite jusqu’alors des travaux intenses afin d’accéder le plus rapidement et efficacement possible à l’information. [64] est un travail qui a pour but de montrer le caractère crucial pour réaliser un index des collections larges du Web. Cette technique se fait sous forme d’un pipelining entre processeurs pour réduire substantiellement le temps de montage de l’index. [8] présente un nouvel index composé de trois parties. Cette composition permet des mises plus rapides que les index traditionnels. L’objet de [56] est de fournir une manière efficace pour le maintien de l’index inversé. Vu la taille immense que peut avoir [109] présente une méthode statique pour la réduction de cette taille. La méthode proposée retourne le document entièrement selon sa pertinence et son importance. Dans ce même but de réduction de l’éventuelle taille des index, [37] présente une méthode de compression des index en utilisant le code Golomb. Cette méthode étend ce code pour la compression des nombres entiers. Pour des besoins de privacité, [110] présente un schéma pour la sécurisation de l’index inversé. Ce schéma est basé sur la combinaison d’un ensemble de clés publiques et supporte la recherche à base de plusieurs mots clés.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre I La recherche d’information
1. Introduction
2. Définition de la Recherche d’Information
3. Concepts de base de la RI
3.1. Collection de documents
3.2. Document
3.3. Besoin d’information
3.4. Requête
3.5. Modèle de représentation
3.6. Modèle de recherche
3.7. La pertinence
4. Evolution de la recherche d’information
5. Définition d’un système de recherche d’information
6. Le processus de Recherche d’Information
6.1. Le processus d’indexation
6.3. Reformulation de requête
7.2. Classification des modèles de la RI
8. Evaluation des performances des SRI
8.1. Les mesures de Précision/Rappel
8.2. Collections de tests
9. Conclusion
Chapitre II Les systèmes et les modèles de recherche d’information
1. Introduction
2. Types des Systèmes de recherche d’information (SRIs)
2.1 Système de recherche d’information centralisée (SRIC)
2.2 Les Systèmes de recherche d’information distribués (SRID)
2.3 Les SRIDs une solution pour les problèmes des SRICs
2.4 Les principales difficultés dans la RID
2.4.1. La coopération passive des serveurs
2.4.2. La coopération active des serveurs
2.4.3. L’interopérabilité
2.4.4. La volatilité des documents [2]
3. Les modèles de la recherche d’information
3.1. Les modèles ensemblistes
3.1.1. Le modèle booléen strict
3.1.2. Le modèle booléen étendu
3.1.3. Le modèle flou
3.2. Le modèle algébrique et ses dérivés
3.2.1. Le modèle vectoriel basique
3.3. Le modèle probabiliste et ses dérivés
3.3.1. Le modèle probabiliste de base
3.3.2 Le modèle bayésien
4. Conclusion
Chapitre III Contribution à la sélection de collections
1. Introduction
2. Notion de pertinence [65]
3. La Sélection des collections
3.1. Motivations
3.2. Objectifs
4.Méthodes de sélection de collections
4.1. Méthodes basée sur l’approche naïve
4.2. La sélection manuelle
4.3. Méthode basée sur la CVV
4.4. Gloss
4.5. La méthode CORI
4.6. La méthode Classement des Serveurs CS
4.7. Fusion de résultats dans une machine pair-à-pair de recherche dans le Web
5. La méthode Collection Selection-Based Relevance Degree CSRD
5.1. Définition de la pertinence et du degré de la pertinence
5.2. Architecture du système
5.3. La méthode Collection Selection-Based Relevance Degree CSRD [57] [63] [60]
6. Conclusion
Chapitre IV Expérimentations et Evaluation
1. Introduction
2. Environnement de développement
2.1. Description
2.2. Caractéristique
2.3. L’IDE NetBeans
3. Environnement de l’application
3.1. Collection d’expérimentation
3.2. Requêtes
3.3. Les index
3.4. Méthodologie d’évaluation
4. Résultats des expérimentations
4.1. Comparaison sur un exemple
4.2. Comparaison selon la précision
4.3. Comparaison selon la F-mesure
4.4. Comparaison en quantifiant les expérimentations
4.4.1 Comparaison selon la pertinence et la précision
4.4.2 Comparaison selon le rappel
4.4.3. Comparaison selon la F-mesure
5. Conclusion
Conclusion et Perspectives