Recherche d’entités nommées complexes sur le Web

L’entreprise Cogniteev a mis au point des solutions informatiques ayant pour vocation principale d’analyser le contenu du web. De ce fait, Cogniteev a développé un pôle de compétences autour de la thématique du Web mining et du traitement de grands volumes de données. Les approches d’analyse privilégiées par Cogniteev sont celles basées sur l’apprentissage automatique et l’exploitation des ressources du web sémantique. L’équipe T2I du LIUPPA, quant à elle, travaille sur des corpus de documents textuels et s’appuie sur des systèmes d’annotation ouverts et adaptables pour la conception de systèmes d’extraction et de recherche d’information spatiale, temporelle et thématique. L’objectif de cette collaboration est de mettre au point un socle scientifique et technologique robuste, offrant des services dédiés au traitement de corpus textuels hétérogènes non ou peu structurés provenant du web. Il s’agit de proposer des services d’extraction et de recherche d’entités de type entreprise et événement notamment. C’est dans ce cadre que s’inscrit notre projet de thèse, qui a été baptisé « Cognisearch ».

Les récents développements des nouvelles technologies de l’information et de la communication ont fait du web une véritable mine d’information. Ces informations sont alimentées par de plus en plus de contributeurs et sont consultables par un grand nombre d’utilisateurs, grâce au développement et la facilité d’accès à Internet. Cependant, s’il peut sembler simple à un humain d’analyser et de comprendre le contenu du web, cette analyse peut s’avérer très compliquée pour une machine. Ceci s’explique sans doute par l’hétérogénéité de ce contenu. En effet, le contenu du web présente des caractéristiques particulières :
— plusieurs formats et types de données sont utilisés pour publier les informations sur le web. Les pages web sont le plus souvent écrites en HTML , qui est un langage défini par le W3C . D’un point de vue sémantique, les pages web sont très peu structurées dans le sens où, les informations qu’elles contiennent sont rarement mises en évidence par des balisages particuliers. De même, le contenu du web peut être de type divers et varié, nous avons notamment du texte, des images, des vidéos;
— le contenu du web est multilingue. La démocratisation de l’accès à Internet permet à l’utilisateur de publier du contenu dans la langue de son choix. Ainsi, il est donc important de détecter la langue utilisée sur un site web, avant de commencer à l’analyser [68] ;
— le volume d’informations sur le web est gigantesque et connaît une croissance exponentielle. D’après le journal CNRS N°28 de janvier 2013, Twitter générait à cette époque, un flux moyen de 7 téraoctets quotidiennement et Facebook en générait 10. Ces chiffres ont connu depuis lors une forte croissance au regard de la multiplication des datacenters construits par ces entreprises.

Au regard des caractéristiques présentées ci-dessus, il est difficile de traiter automatiquement le contenu du web, en vue d’en extraire des informations pertinentes pour une tâche ciblée. C’est pourquoi les travaux s’inscrivant dans la thématique de l’extraction d’information [28] sur Internet sont en forte croissance. Une fois extraites, ces informations sont structurées et stockées dans des index. Ceux-ci sont ensuite interrogés pour répondre à des besoins d’information. La thématique associée à cette tâche est la recherche d’information (RI) [8]. Notre travail de thèse se situe à la croisée de ces deux thématiques : l’extraction d’information et la recherche d’information.

Les informations contenues sur le web renvoient le plus souvent à des entités du monde réel. Nous avons par exemple les personnes, les lieux, les entreprises ou même les événements. Ces entités sont désignées dans la littérature par l’expression : entités nommées (EN) [69]. Certaines EN comme les entreprises peuvent être représentées par une liste de propriétés, qui elles-même peuvent correspondre à du texte (le nom de l’entreprise), ou à d’autres entités nommées (l’adresse du siège social). Nous appelons ce type d’entités des EN complexes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction Générale
Chapitre 1
Le projet Cognisearch : une architecture de services de recherche d’entités nommées
« entreprise » et « événement »
1.1 Collaboration LIUPPA & COGNITEEV
1.2 Contexte de la thèse
1.3 Problématique
1.4 Contributions
1.5 Organisation du mémoire
II État de l’art : de l’extraction à la recherche d’entités nommées
Chapitre 2
Contexte et problèmes de recherche
Chapitre 3
Entité Nommée : définition et catégories
Chapitre 4
Modèles de représentation d’entités nommées
4.1 Catégories de modèles de représentation d’EN
4.1.1 Les modèles issus des standards du web
4.1.2 Les modèles de type ontologique
4.1.3 Les modèles « ad-hoc »
4.2 Exemples de modèles de représentation d’EN
4.2.1 Modèles de représentation des EN temporelles
4.2.2 Modèles de représentation des EN spatiales
4.2.3 Modèles de représentation des EN sociales
4.2.4 Modèles de représentation d’EN entreprise
4.2.5 Modèles de représentation d’EN événement
4.3 Bilan
III Conclusion Générale