Extraction et annotation sémantique dans les documents semi-structurés

Extraction de termes

Les extracteurs de termes sont des outils qui dépouillent automatiquement un corpus de textes pour extraire des termes. Un terme peut être défini comme la réalisation linguistique d’un concept. Ces extracteurs sont généralement utilisés pour construire une terminologie permettant d’indexer ou d’annoter des documents. Les approches d’extraction de termes appartiennent à trois catégories : les approches linguistiques, les approches statistiques et les approches mixtes. Les approches statistiques sont basées sur la redondance des mots et sur leurs probabilités de co-occurences dans les documents. Elles utilisent des mesures comme le cosinus ou encore l’information mutuelle [DES05]. Ces méthodes ont une bonne couverture et sont indépendantes des langues mais nécessitent un corpus d’une taille minimale et une bonne distribution des termes. Les approches linguistiques se basent sur la catégorie morpho-syntaxique des mots d’un terme. Un terme doit correspondre à une séquence syntaxiquement valide [Bou]. Elles exploitent des patterns syntaxiques de formation de termes de type syntagmes nominaux ou verbaux [Bou92, AH06, Jac94]. Elles sont donc plus précises mais dépendantes de la langue. Ces patterns peuvent être lexico-syntaxiques, dépendant ou indépendants du domaine. Les patterns de Hearst [Hea92] sont un exemple de patterns lexico-syntaxiques qui sont indépendants du domaine qui permettent de délimiter dans le texte des termes (syntagmes nominaux) et leur relation d’hyponymie. Par exemple, works by such authors as Herrick, Goldsmith, and Shakespeare, … temples, treasuries, and other important civic buildings, All common-law countries, including Canada and England … sont des portions de textes répondant aux patterns de Hearst présentés dans la section 3.1.4.

Extraction d’entités nommées

L’expression entité nommée (EN) est apparue lors de la conférence MUC−6 (Message Understanding Conférence) [GS96]. Les catégories d’EN définies sont les personnes, les lieux et les organisations. Cette définition a été élargie aux expressions telles que les noms d’espèces (ex : cèdre du Liban), de maladies, ou de substances chimiques, aux expressions collectives (ex : les Parisiens, les Néendertaliens), aux expressions temporelles telles que les dates et les heures, ou aux numériques (ex : 2000 euros). Des travaux tels que [SC04] ont défini une hiérarchie d’entités nommées qui comporte 150 catégories telles que les aéroports, les musées ou les religions. Ainsi, certaines approches exploitent des taxonomies issues d’encyclopédies telles que Wikipédia [KT07]. D’autres travaux, dits de Reconnaissance d’Entité Nommée (REN), définissent des techniques qui combinent les ressources lexicales et l’analyse d’expressions régulières pour détecter et délimiter les EN dans le texte et leur associer une catégorie [Eva03]. Ces expressions régulières sont des patterns lexico-syntaxiques utilisant souvent la casse des caractères. Comme pour les termes, et en particulier pour les EN, la difficulté réside dans :
• la localisation des limites des expressions désignant l’entité nommée (exemple : l’EN le pic du Canigou ou le Canigou) ;
• la surcomposition dans lesquels une EN peut en contenir une autre (exemple : L’EN Université Gaston Berger contient l’EN Gaston Berger ) ;
• l’ambiguité (exemple : l’EN Roissy qui peut désigner l’aéroport ou la ville de Roissy) ou la coréférence (exemple : l’EN Ford Compagny et l’EN Ford). Pour faire la jonction entre les termes, les entités nommées et les ontologies, il existe des approches qui préconisent de les représenter en utilisant une composante lexicale intégrée dans l’ontologie ([BAGC04, RTAG07], Terminae [BS99]). Ces termes et entités nommées sont alors associés aux concepts et aux relations de cet ontologie. Dans OntoPop [Ama07], l’utilisation de règles d’acquisition de connaissances permettent de passer des résultats d’un extracteur tel que IDE (Insight Discoverer Extractor) de Temis à l’ontologie. De nombreux systèmes ont été créés pour faciliter l’extraction et l’annotation semiautomatique qui impliquent l’utilisateur et qui l’assistent grâce à l’intégration de différentes techniques d’extraction. Nous citons, à titre d’exemple Annotea [KK01], S-CREAM (Semi-automatic CREAtion of Metadata) [HSC02] et Terminae [BS99].

TextRunner

TextRunner [BCS+07] est un système plus récent qui extrait des triplets de relations à partir du texte pour construire une base de connaissances. Cette extraction est automatique et indépendante du domaine, supervisée et la base d’exemples d’apprentissage est construite automatiquement.
• En utilisant un petit ensemble de documents, ce module extrait un ensemble de triplets (ei, rij , ej ) à partir de chaque phrase où ei et ej sont des phrases nominales etrij est le texte entre les deux. La relation est labellisée comme positive ou négative selon que certaines contraintes comme la longueur de la chaîne, l’existence de clauses relatives, le fait que ei ou ej soit un pronom. Pour chaque triplet sont conservées les caractéristiques telles que le nombre de mots d’arrêt, le nombre de mots, si ei ou ej est un pronom, les étiquettes morpho-syntaxiques des mots. L’ensemble des exemples labellisés constitue une base pour le classifieur naïf de Bayes.
• L’extraction génère des triplets candidats à partir de chaque phrase. Chaque mot du triplet est étiqueté mopho-syntaxiquement, les relations sont détectées en examinant le texte entre les phrases nominales et normalisées en éliminant par exemple les phrases prépositionnelles qui sur-spécifient une entité ou les adverbes. Par exemple la phrase ”scientists from many universities are studying…” est réduite à ”scientists are studying…” et la phrase ”…definitely developped…” est réduite à ”…developped…”. Pour chaque phrase nominale, à chaque mot est affectée la probabilité que le mot fasse partie de l’entité, ce qui permet de sélectionner les triplets ayant une confiance suffisante. Le triplet t(ei, rij , ej ) est ensuite traité par le classifieur qui labellise t comme correct ou non. Le système utilise enfin le modèle de redondance basé sur l’information mutuelle pour valider une relation entre deux entités.
• Textrunner permet d’interroger plusieurs millions de triplets. Le triplet est ce qui va permettre de soumettre des requêtes ”intelligentes” en comparaison à celles permises par les moteurs classiques. Par exemple, la requête constituée du triplet ”Who killed Kennedy ?” peut être posée. Les résultats des expériences présentés dans [BCS+07] montrent que la couverture et la qualité des relations entre instances trouvées par TextRunner sont meilleures que celles utilisant des patterns lexico-syntaxiques présentées dans la section suivante 1.1.3. Dans [SM07], les triplets résultant de Textrunner sont enrichis conceptuellement comme suit :
• les arguments sont alignés en utilisant les synonymes de Wordnet ;
• les relations sont alignées avec des (meta) relations prédéfinies et qui sont indépendantes du domaine comme les relations partOf et de causalité. Par exemple, le triplet (orange, is rich in, vitamin C) est aligné à (F ruit, contain, V itamin). Textrunner et LP2 sont toutes les deux des approches supervisées et génèrent des règles contextuelles qui sont spécifiques aux documents. Ces approches supposent donc que les documents présentent des formes grammaticales et lexicales qui se répètent. Notre approche ne génère pas des règles d’extraction spécifiques aux documents car les instances candidates sont extraites en utilisant des patterns syntaxiques indépendants du domaine.

Armadillo

Armadillo [CCDW04] est un système d’annotation non supervisé qui peut aussi bien annoter des documents en utilisant une ontologie de domaine que créer une base de connaissances à partir de différentes entrepôts d’informations. Armadillo utilise des concepts ”ancres”, qui servent d’accroche pour trouver les instances du concept recherché, et des concepts ”annexes”, qui permettent de valider la classification des instances repérées. Prenons l’exemple où des instances du concept Professor sont recherchées. Le concept Person, un super-concept de Professor, peut être un concept ”ancre” qui possède des instances qui sont facilement repérables dans le texte. En revanche, le concept Person est ambigu. Il peut être désambiguïsé en utilisant les relations de ses instances avec des instances de concepts ”annexes”, comme University ou Article, sur lesquelles il y a peu d’ambiguïté. L’idée maîtresse dans Armadillo est d’utiliser tout d’abord des informations certaines obtenues sur des instances, par exemple ici, des listes d’universités. Ces instances sont alors recherchées dans les documents, les instances candidates du concept ”ancre” (ici, des noms de personne) sont extraites (par des techniques de détection d’entités nommées). Ensuite, les relations entre les instances candidates du concept ”ancre” et les instances des concepts ”annexes” sont vérifiées, en utilisant :
• la redondance de l’information sur le web. Plus il y a de documents présentant une co-occurrence des instances des concepts ”ancre” et ”annexes”, plus la relation entre eux est probable ;
• certaines techniques, dépendantes du domaine, permettent de vérifier la nature d’une relation entre une instance du concept ”annexe” et une instance du concept ”ancre”. Par exemple, l’utilisation de DBLP3 permet de trouver des instances d’Article et de Person reliées par la relation auteur. D’autres concepts ”annexes” permettent d’apporter des indices supplémentaires sur la classification d’une instance du superconcept du concept recherché comme étant une instance du concept recherché. Par exemple, la recherche de titres académiques Phd, comme concept ”annexe”, apporte un indice supplémentaire sur la classification d’une personne en tant que professeur. Si les différents indices recueillis sont suffisamment nombreux et/ou sûrs pour reconnaître une instance du concept recherché, cette instance est alors annotée. Armadillo utilise différentes techniques d’extraction basées sur la structure et/ou des patterns syntaxiques (Amilcare [CDWP03]) et intègre d’autres sources comme les résul3. Digital Bibliography Library Project tats de recherche mot-clé sur le web et/ou sites spécialisés. Armadillo suppose que l’on dispose de techniques permettant de reconnaître des relations entre instances. Il suppose également que les instances à extraire sont redondantes sur le web et qu’elles sont référencées par plusieurs sources. Comme dans Armadillo, le point de départ de notre approche est une ontologie lexicale comportant des informations sûres. L’utilisation de la redondance n’est envisageable que pour certains concepts.

KnowItAll

KnowItAll [ECD+05] est un un système automatique et non supervisé d’extraction d’informations à partir du Web. Il permet d’extraire des instances de concepts donnés en entrée en utilisant des patterns lexico-syntaxiques indépendants du domaine introduits par Hearst et décrits en section 3.1.4. Ainsi, en utilisant les patterns et le concept, plusieurs requêtes sont générées et soumises à un moteur comme Google et Yahoo. Cette extraction utilise des expressions régulières basées sur les étiquettes morpho-syntaxiques pour identifier des groupes nominaux, sur la syntaxe (casse des caractères) et lexicale et est focalisée sur les entités nommées. KnowItAll peut également appliquer ces patterns sur une base d’exemples, afin de déterminer la confiance que l’on peut avoir en chacun de ces patterns, et ne retenir une instance que si elle est extraite par plusieurs patterns linguistiques dont la combinaison permet d’avoir une confiance suffisante. Une fois ces instances extraites, la couverture de KnowItAll est améliorée en utilisant diverses techniques : apprentissage de patterns d’extraction spécifiques au domaine, extraction de sous-concepts et extraction de listes :
• L’apprentissage de patterns d’extraction spécifiques au domaine se fait en repérant dans les documents les différentes occurrences des instances extraites dans une fenêtre appelée le contexte d’apparition de l’instance. KnowItAll utilise l’information mutuelle PMI (Pointwise mutual information) entre mots des différents contextes pour trouver des discriminants pour un concept. Par exemple stared in peut être un pattern spécifique pour le concept Film qui permet de rechercher d’autres instances film. Les meilleurs patterns construits de ces contextes d’apparition sont utilisés comme patterns d’extraction de nouvelles instances.
• L’extraction de sous-concepts est aussi réalisée en utilisant les patterns lexicosyntaxiques de Hearst. Par exemple, l’application du pattern such as sur l’expression scientists, such as mathematicians, physicists and chemists permet d’identifier Mathematician, Physicist et Chemist comme des sous-concepts du concept Scientist. Il devient alors possible de trouver que Leibniz et Lambert sont des instances de Scientist grâce à la reconnaissance du sous-concept Mathematician dans la phrase … formal logic in a symbolic or algebraic way were made by some of the more philosophical mathematicians, such as Leibniz and Lambert. La distinction entre sous-concept et instance n’est pas claire et les domaines d’application choisis (Scientist, City et Film) simplifient le problème, les instances sont des noms propres (techniques NER) et les sous-concepts sont des noms communs. Cette extraction peut être améliorée en utilisant des ressources lexicales comme Wordnet pour valider la relation d’hyponymie.
• L’extraction de listes : une fois que les différentes instances d’une classe ont été identifiées, il est possible de rechercher des documents dans lesquels plusieurs de ces instances apparaissent. Si ces différentes instances apparaissent sous forme de listes ou de tableaux, il est alors possible, par induction de découvrir d’autres instances du même concept. De la même manière qu’Armadillo, KnowItAll utilise la redondance de l’information sur le Web. La principale différence est que Knowitall n’utilise pas des concepts ”ancres” pour extraire les instances mais les patterns de Hearst.

Pile du Web sémantique

D’après la vision de Tim Berners-Lee du Web sémantique, l’information pourra être accessible et compréhensible non seulement par les humains mais aussi par les machines. Dans cette vision, le Web sémantique peut être considéré comme une pile de langages représentée dans la figure 1.1. Cette pile distingue principalement des langages dédiés à la structuration des ressources Web (XML, XML Schema) et la représentation de la sémantique qui peut être associée à ces ressources décrites par des ontologies et des règles logiques. La pile est structurée sur trois niveaux principaux [BL98] :
• Niveau d’adressage et de nommage. Ce niveau est représenté par le standard d’adressage des ressources du Web URI (Universal Resource Identifier) et la norme Unicode pour le codage des caractères.
• Niveau syntaxique. Ce niveau syntaxique est représenté par la définition des espaces de noms qui permettent d’identifier les ressources du Web, le langage XML, XML schéma et le langage de requêtes XML Query.
• Niveau Sémantique. Ce niveau est représenté d’une part par les langages de représentation d’ontologies RDF/RDFS et OWL, et d’autre part par les langages de règles, de logique, de preuves et de confiance (trust). Les langages du Web doivent permettre de :
• décrire les données, les schémas et leur sémantique (RDF/S et OWL) ;
• échanger des métadonnées et des schémas (eXtensible Markup Language / Schema ou XML/S) ;
• interroger les documents par les annotations (SPARQL).

Le concept PartOfSpeech

Comme souligné plus haut, les termes et les ENs relatifs aux concepts ontologiques sont souvent noyés dans les parties non structurées et sont ainsi difficiles à repérer. Un nœud de document peut comporter des termes et des ENs de concepts différents. Le concept P artOfSpeech est défini pour annoter un nœud de document dont le texte contient plusieurs termes ou ENs alignés avec des concepts différents. Une instance de type P artOfSpeech est reliée via la propriété isIndexedBy aux concepts des termes ou ENs repérés dans ce nœud. Prenons l’exemple d’un nœud contenant le texte ”ECAI 2008, the 18th conference in this series, is jointly organized by the European coordinating Committee on Artificial Intelligence the university of Patras and the Hellenic Artificial Intelligence Society” où des termes ou EN alignés avec les concepts Date (date), T opic (thème), Event (événement) et Location (lieu) sont localisés. Ce nœud est donc annoté comme instance du concept P artOfSpeech et est reliée via la propriété isIndexedBy aux concepts Date, T opic, Event et Location.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 Contexte
2 Problématique
3 Contributions
4 Plan du manuscrit
Chapitre 1 ÉTAT DE L’ART
1.1 Extraction et annotation sémantique dans les documents semi-structurés
1.1.1 Approches exploitant la structure des documents
1.1.2 Approches exploitant des patterns syntaxiques ou lexico syntaxique dans le texte
1.1.3 Approches exploitant des ressources lexicales et/ou le web
1.2 Langages de représentation et d’interrogation de ressources Web
1.2.1 Pile du Web sémantique
1.2.2 Ressource Description Framework / Schema (RDF/RDFS)
1.2.3 Ontology Web Langage (OWL)
1.2.4 Simple Knowledge Organisation Systems (SKOS)
1.2.5 Langage d’interrogation SPARQL
Chapitre 2 PRÉSENTATION DE L’ARCHITECTURE DE NOTRE SYSTÈME
2.1 Ontologie à composante lexicale
2.1.1 Définitions
2.1.2 Exemple
2.2 Modèle d’annotation
2.2.1 Le concept PartOfSpeech
2.2.2 Le concept SetOfConcept
2.2.3 La propriété neighborOf
2.2.4 Les métadonnées de pré-annotation
2.3 Architecture de notre système
2.3.1 Constitution du corpus
2.3.2 Processus d’extraction SHIRI-Extract
2.3.3 Processus d’annotation SHIRI-Annot
2.4 Scénario d’usage
Chapitre 3 EXTRACTION, ALIGNEMENT DES ENTITÉS NOMMÉES ET DES TERMES
3.1 Présentation de SHIRI-Extract
3.1.1 Objectifs généraux
3.1.2 Extraction des termes candidats
3.1.3 Stratégie de sélection des termes candidats
3.1.4 Alignement local ou via le web
3.1.5 Enrichissement de l’ontologie
3.2 Algorithme d’extraction et d’alignement
3.2.1 Notations et principes algorithmiques
3.2.2 Alignement local d’une entité nommée
3.2.3 Alignement local d’un terme
3.2.4 Alignement via le Web d’un terme candidat
3.2.5 Illustration
Chapitre 4 ANNOTATION DES DOCUMENTS ET INTERROGATION
4.1 Règles d’annotation
4.1.1 Notations
4.1.2 Génération du typage des nœuds
4.1.3 Génération de relations de voisinage entre nœuds
4.1.4 Exemple d’application des règles d’annotations
4.2 Interrogation des annotations
4.2.1 Définitions préliminaires
4.2.2 Types de requête utilisateur
4.2.3 SHIRI-Querying
4.3 Conclusion
Chapitre 5 EXPÉRIMENTATIONS ET ÉVALUATION DES RÉSULTATS
5.1 Entrées des expérimentations
5.1.1 Ontologie du domaine
5.1.2 Constitution du corpus
5.2 Expérimentation et évaluation de l’extraction et de l’alignement
5.2.1 Résultats de l’extraction
5.2.2 Outil de Pierre Senellart
5.2.3 Résultats de l’alignement
5.3 Expérimentation et évaluation de l’annotation
5.3.1 Résultats du typage des nœuds
5.3.2 Évaluation de la relation neighborOf selon la distance
CONCLUSIONS ET PERSPECTIVES
1 Apports de notre approche
2 Perspectives
Table des figures
Liste des tableaux
Bibliographie