Contribution à l’analyse et à la recherche d’information en texte intégral

La recherche documentaire

Selon le vocabulaire de la documentation la recherche documentaire est définie ainsi : « Action, méthode et procédures ayant pour objet de retrouver dans des fonds documentaires les références des documents pertinents. »
Cette définition, ainsi que d’autres dérivées, sont bousculées par Internet qui permet à la fois : De rechercher des références de documents, de rechercher des documents entiers, de rechercher des informations (exploitation des documents).
Ce qui explique que l’on parle actuellement surtout de recherche d’information (RI). Elle permet de retrouver dans un fond documentaire, une information répondant à une question précise. Ce qui est donc visé c’est l’information plus que le document et le contenu plus que le contenant.
C’est une branche de l’informatique qui s’intéresse à l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information.

Qu’est-ce que l’information ?

L’information documentaire

L’information documentaire renvoie à la connaissance (knowledge) et présente les caractéristiques suivantes :
Elle apporte du nouveau, elle enrichit les connaissances d’un individu, elle a un sens pour l’utilisateur, elle sert à agir, à prendre des décisions : en général, on cherche de l’information pour éclairer une décision, une action, …
elle répond à des objectifs, à des besoins, plus ou moins bien définis, elle n’existe que si on l’interroge : il n’y a pas d’information « en soi », l’information est toujours relative à un sujet, un contexte, un besoin, …

L’information spécialisée

L’information spécialisée est une des catégories de l’information documentaire, elle comprend notamment:
L’information professionnelle : représentée par l’information financière, économique, sociale, technique, etc. .., destinée à un ou plusieurs secteurs professionnels, l’information juridique : lois, règlements, information administrative,…
l’information scientifique et technique : elle regroupe toute l’information et les documents, produits et diffusés par les chercheurs, dans toutes les disciplines scientifiques. Une thèse, un rapport de recherche, un article dans une revue scientifique, un brevet, un mémoire, des actes de congrès… sont des documents contenant de l’information scientifique, qu’il s’agisse de Littérature, de Sociologie, de Chimie ou de Mathématiques,…

La notion de pertinence

Pour être en mesure d’offrir aux utilisateurs les informations répondant le mieux à leurs besoins, tout système de recherche d’information s’appuie sur un modèle de calcul de pertinence qui, pour chaque requête, calcul le score de pertinence de chaque donnée (document). Celles qui auront le meilleur score de pertinence seront présentées à l’utilisateur.
Cette approche permet d’évaluer ce qu’on nomme la pertinence système, c’est-à-dire la pertinence que les systèmes de recherche d’information calculent. Or, La notion de pertinence est très complexe, elle est évaluée par les systèmes de recherche d’information et également liée au jugement des utilisateurs.
On distingue classiquement deux types de pertinence : la pertinence utilisateur, qui est le jugement apporté par l’utilisateur sur le document, en fonction de son besoin d’information, et la pertinence système, qui correspond à la valeur de correspondance entre le document et la requête, calculée par les systèmes. La satisfaction de l’utilisateur est liée à la correspondance entre ces deux pertinences.
Un étudiant en droit qui doit étudier un cas précis et qui dispose du corpus de toute la jurisprudence du droit français et ne disposant que d’un accès chronologique ou thématique aux documents, va chercher à identifier dans son besoin en information les critères qui peuvent cerner soit la période pendant laquelle des actes de jurisprudences qui lui sont pertinents ont pu être émis, soit la thématique traité dans sa requête. D’autres critères vont certainement intervenir dans l’estimation de la pertinence d’un document. Certains documents ne seront pas utiles, car déjà connus, d’autres peuvent être éliminés puisque ils demanderaient trop de travail pour être utilisés.
Cet exemple donne une idée sur la grande diversité des facteurs qui interviennent lorsqu’un un utilisateur évalue la pertinence d’un document.

Définition de l’indexation

La définition proposée par l’AFNOR en 1993, est la suivante : « l’indexation est le processus destiné à représenter par les éléments d’un langage documentaire ou naturel des données, résultat de l’analyse du contenu d’un document ou d’une question».
L’indexation a un double but de représentation :
D’une part, elle consiste à identifier les informations caractéristiques du contenu d’un ou plusieurs documents, d’autre part, elle consiste à représenter ces informations sous une forme compacte, homogène (le plus souvent par un ensemble de termes empruntés à une langue naturelle ou un langage documentaire) et manipulable, c’est-à-dire utilisable par un Système de Recherche d’Information par exemple.
Le but général de l’indexation est d’identifier l’information contenue dans tout texte et de le représenter au moyen d’ensemble appelé index pour permettre la comparaison entre la représentation d’un document et d’une requête.

Les débuts de l’indexation dans la recherche d’information

La première difficulté rencontrée lors de l’indexation consistait à résoudre les problèmes linguistiques les plus visibles :
L’ambigüité : lorsqu’une phrase ou une expression possède plusieurs interprétations ou significations possibles, on parle d’ambigüité.
Lorsque l’on ne sait pas à quoi rapporter une expression, on parle d’ambiguïté de référence. Par exemple, dans la phrase « je vois un homme avec un télescope », on ne sait si c’est moi qui regarde l’homme à l’aide d’un télescope ou si je regarde un homme qui possède un télescope, lorsqu’une phrase possède plusieurs analyses syntaxiques, on parle d’ambiguïté structurale ou syntaxique. Par exemple, dans la proposition «la bonne cuisine», on ne sait si bonne l’adjectif ou bien c’est le nom.
La synonymie : un même concept peut être exprimé par des mots différents .La polysémie : un même mot peut renvoyer sur différents concepts. C’est une caractéristique très fréquente du langage courant, c’est la mise en discours qui permet parfois de lever l’ambiguïté. Par exemple, le terme « canard » peut signifie un journal, un oiseau,… par contre la phrase « j’ai lu dans le canard…. » lève naturellement l’ambiguïté.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 : Cadre de la recherche d’information
1 Un survol de l’histoire de la Recherche d’Information
Introduction
La naissance de la recherche d’information
Expérimentations
Systèmes de Recherche d’Informations
Améliorations techniques
Ère Internet
La francophonie de la recherche d’informations
2 La recherche documentaire
3 Qu’est-ce que l’information ?
3.1. L’information documentaire
3.2. L’information spécialisée
4 Formes de l’information
5 Propriétés de l’information
5.1. Information structurée
5.2. Information non structurée
5.3. Information semi-structurée
6 Notions et définitions
6.1. La notion de ‘besoin’ dans la recherche d’information
6.2. La notion de pertinence
6.3. Structures de stockage de l’information
6.4. L’utilisation d’une ‘stop list’
7 Différentes approches d’indexation
7.1. Définition de l’indexation
7.2. Les débuts de l’indexation dans la recherche d’information
7.2.1. Indexation manuelle avec vocabulaire contrôlé
7.2.2. Le texte intégral
7.3. Les approches actuelles
8 Processus et architecture d’un SRI
9 Les Modèles de Recherche d’Information
1. Le modèle Booléen ou ensembliste
i. Formulation de la requête
ii. Les limites du modèle booléen
iii. Recherche booléenne pondérée
2. Le modèle vectoriel
i. Vecteurs documents et vecteurs requêtes
ii. Les mesures de similarité
iii. La sélection des termes d’indexation
iv. Les schémas de pondération
v. Prise en compte des dépendances dans modèle vectoriel
3. Le modèle LSI
4. Le modèle DSIR
5. Modèle probabiliste
i. Représentation des documents et des requêtes
ii. Fonction de correspondance
iii. Prise en compte des dépendances dans le modèle probabiliste
6. Le modèle logique
i. Représentation des documents et requêtes
ii. Fonction de correspondance
7. L’évaluation des Systèmes de Recherche d’Information
7.1. Le rappel : calculer l’exhaustivité de la recherche
7.2. La précision : combien de non pertinent ?
7.3. Combiner précision et rappel
CHAPITRE 2 : Modélisation et visualisation des données textuelles
Introduction
1. Modèles de représentation des données textuelles
1.1 Approche ‘sac de mots’ .
1.1.1 Identification des termes d’indexation
1.1.2 Méthodes d’analyse de l’information
1.1.3 Modèles de visualisation : la cartographie des données textuelles
1.2 Approche de document structuré
1.3 Le contexte local d’un mot dans un texte
1.4 Les thèmes dans un document
1.5 Visualisation multidimensionnelle spectrale
CHAPITRE 3 : Les Transformées en ondelettes et leurs utilisation actuelle
1. Pourquoi a-t-on besoin de Transformées?
1.1 Naissance de la Transformée de Fourier
1.1.1 Transformée de Fourier des fonctions périodiques
1.1.2 Transformée de Fourier des fonctions non périodiques
1.2 Signification physique de la Transformée de Fourier
1.3 Quelques applications de la Transformée de Fourier
1. Applications aux signaux monodimensionnels
2. Applications aux signaux bidimensionnels
3. Applications fondées sur la propagation des ondes électromagnétiques
1.4 Limites de la Transformée de Fourier
1.4.1 Analyse temps- fréquence
1.4.2 Principe d’incertitude d’Heisenberg
1.5 Transformée de Fourier Fenêtrée
1.6 La Transformée en Ondelettes
1.6.1 Définition
1.6.2 Les propriétés des Ondelettes
1.6.3 L’Ondelette de Haar
1.6.4 Exemple de calcul
1.6.5 L’utilisation actuelle des Ondelettes
Conclusion
CHAPITRE 4 : Modélisation Spectrale des données textuelles : vers un Système de Recherche d’Information Spectral
Introduction :
Exemple
1. Pourquoi une modélisation spectrale
2. Notions et fonctions
3. La mise en œuvre du Système de Recherche d’Information Spectrale
3.1 Modélisation thématique spectrale des documents
3.1.1. Algorithme de construction des signaux thématiques
3.1.2 Expérimentation : la modélisation spectrale
3.1.3 Résultats de l’analyse multi résolution
3.2 Représentation spectrale des requêtes
3.2.1 Introduction
3.2.2 Modélisation Spectrale des requêtes
3.2.3 Processus de comparaison spectrale document /requête
3.2.4 Expérimentation
3.2.5 Comparaison des résultats
3.2.6 Discussion
CONCLUSION