Approches de gestion de documents multistructurés

Télécharger le fichier pdf d’un mémoire de fin d’études

Structuration de document

L‘intégration des médias et des annotions, notamment les métadonnées, a rendu le document numérique plus complexe avec un contenu difficilement accessible et manipulable. La structuration de ces documents est une bonne solution pour organiser, agencer et par conséquent faciliter l‘interrogation du contenu documentaire.
Le mot structure vient du latin « struere » qui signifie construire et agencer. Selon le dictionnaire le Larousse, une structure est la « manière dont les parties d’un ensemble concret ou abstrait sont arrangées entre elles ». Une structure documentaire reflète donc l‘idée d‘une entité organisée en éléments. Cette organisation peut être partielle (document semi-structuré) ou complète (document structuré).
Dans ce qui suit, nous décrivons ces différents niveaux de structuration du document. Ensuite, nous détaillons les différentes représentations et les typologies de structures possibles. Enfin, nous présentons les standards documentaires les plus cités dans la littérature.

Du document non structuré au document structuré

Dans la littérature, trois classes de documents peuvent être distinguées. Selon le niveau de structuration de leur contenu, on peut recenser : (1) les documents non structurés, (2) les documents semi-structurés et (3) les documents structurés.
(1) Les documents non structurés, appelés encore documents « plats », sont des documents qui n’intègrent aucune marque explicite d‘élément de structure. Ainsi, dans ces documents, on ne retrouve pas la disposition et l‘emplacement des informations. Le document est présenté comme une suite de caractères (plein texte). Selon (Bringay et al. 2004), un document plat est un document pour lequel ni le lecteur ni le système n‘est capable de décrire ou détecter une structuration de son contenu. (Tannier 2006) considère que tout texte ne comportant pas plus que des marquages de ponctuations (virgules, points de toutes sortes, etc.) et/ou de présentation (passages en lignes, espacements divers, énumérations, etc.) est un document plat.
(2) Les documents semi-structurés sont des documents caractérisés par leur structure implicitement déclarée, irrégulière, non rigide, inconnue a priori. Cette structure peut être éventuellement incluse dans le document, par des attributs implicites, et des éléments ne répondant pas à un typage strict. Selon (Debarbieux 2005), cette structure doit être définie en l‘inférant a posteriori. Les documents dits semi-structurés ne fournissent pas d‘indications concernant la disposition des informations décrites. Dans ce type de document, l‘ordre des informations n‘a généralement pas d’importance. On ne parle alors plus de texte, mais de données. Ces données n’ont habituellement aucune signification intrinsèque, c’est-à-dire qu’il est impossible de les considérer sans examiner la structure dans laquelle elles sont inscrites (Tannier 2006). (Fuhr et Großjohann 2001) évoquent deux approches pour appréhender un document semi-structuré selon le besoin et la manière d‘aborder la recherche d‘information. La première approche, orientée document, considère le document comme un texte dont la principale finalité est la lecture. Dans ce cas, les balises servent à fournir des informations relatives à la structure (paragraphe, section, etc.) et/ou la forme (caractères italiques, gras, etc.). La deuxième approche, orientée donnée, considère le document comme une source de données. Ainsi, le document est utilisé afin de représenter et échanger ces données.
(3) Les documents structurés sont des documents qui possèdent une structure explicitement déclarée et connue a priori. Celle-ci permet d’identifier les différents éléments ainsi que leur rôle. Dans ce type de documents, la structure fournit des informations relatives à l‘emplacement et à l‘organisation des éléments.
En conclusion, un document structuré ou semi-structuré intègre des informations additionnelles, telles que des balises qui renseignent sur les différents éléments de structure qu‘il peut contenir et éventuellement des annotations à caractère sémantique, etc. Un document est vu comme non structuré a priori, mais peut devenir structuré après plusieurs analyses appelées « élicitations » à condition qu‘il contienne tous les éléments nécessaires et que ceux-ci puissent être extraits.

Structures documentaires

Une structure documentaire permet de décomposer le contenu en unités élémentaires appelées éléments. L‘agencement entre ces éléments peut être assuré par plusieurs types de relations (hiérarchiques, temporelles, spatiales, etc.). La diversité des types de relations est à l‘origine de la diversité de nature de structures et des représentations associées.

Typologie des structures

La structuration d‘un document consiste à identifier chacun des éléments qui le constituent. Une structure peut prendre plusieurs formes. Elle peut être considérée comme étant un ensemble d‘éléments organisés hiérarchiquement (selon une organisation logique) et/ou un enchaînement temporel d‘éléments (organisation temporelle) et/ou un agencement d‘un ensemble d‘objets (organisation physique), etc. Toutefois, certains types d‘organisations sont applicables à des médias spécifiques. Par exemple, une organisation temporelle est spécifique aux documents audiovisuels.
Nous présentons dans cette section, les structures les plus citées dans la littérature. Afin d‘illustrer les différences entre ces structures ainsi que leurs spécificités, nous appuierons nos exemples sur un même document de base : « TéléJournal » (cf. Figure I.1). Ce document présente une séquence vidéo d‘un journal télévisé et une description des thèmes abordés. Les exemples des différents types de structure seront représentés sous forme d‘arborescence ou de graphe selon la nécessité.

Structure physique

Le concept de structure physique est lié à la restitution du document sur un support physique (papier, écran, etc.). Cette structure permet un découpage de l‘information suivant sa présentation. Ainsi, une structure physique décrit la mise en page d‘un document et définit les différentes zones de ce document ainsi que leurs caractéristiques. Cette structure est traduite par un ensemble de règles de présentation tel qu‘une succession de lignes, de paragraphes, de colonnes, de pages, de caractéristiques typographiques, etc. Ces règles sont spécifiées par pavés (ou blocs) d‘information. Schématiquement, un bloc est représenté par une zone rectangulaire de taille et de coordonnées précises, destinée à organiser l‘information. A un niveau d‘abstraction plus fin, un bloc peut lui même être découpé en sous-blocs, chaque bloc élémentaire contenant un granule logique d‘information homogène.
Tout comme la structure logique, la structure physique est présentée sous forme d‘une arborescence de blocs. Sur un support papier, le découpage s‘effectuera par exemple page par page, colonne par colonne, paragraphe par paragraphe, etc. (Cf. Figure I.3). Afin d‘expliciter l‘exemple, nous avons opté pour une représentation sous forme d‘emboitement de bloc.

Structure hypermédia

La structure hypermédia (Auffret et al. 1999) correspond à l‘organisation inter et intra média dans un ou plusieurs documents. Cette organisation est traduite par un ensemble de liens qui permettent la navigation inter ou intra média en spécifiant de façon classique une ancre de départ, une ancre d‘arrivée et le type du lien. Différents types de liens sont possibles : renvoi, référence, annotation, synchronisation, etc.
Dans ce contexte, la structure la plus utilisée est la structure hypertexte (Julien 1988) (Aguiar et Beigbeder 2004). Cette structure, comme son nom l‘indique, est relative au média texte. Elle représente les différents liens dans un document textuel. Les pages web sont des exemples typiques des documents incluant une structure hypertexte.
Dans la Figure I.5, nous nous limitons à la présentation de l‘organisation intra document. Nous décrivons ainsi les relations de synchronisation entre les médias incorporés dans le document « TéléJounal ». A titre d‘exemple, ces synchronisations peuvent concerner les éléments textuels « info » avec la bande audio ou les métadonnées « région » de chaque frame avec la bande audio. De telles synchronisations permettent de déterminer, par exemple, les segments qui correspondent à chaque fragment textuel de l‘élément « info » dans la bande audio.

Document structuré et standards

Indépendamment du niveau et de la nature de leur structuration, les documents numériques doivent être décrits et représentés via des standards essentiels à leur exploitation et à leur échange. En effet, un standard est un ensemble de règles qui sont reconnues par tous les types de matériel, de systèmes d’exploitation et les applications associées (traitement de texte, tableur, visualiseur HTML). Ces règles vont assurer le codage des informations.
Les standards assurent trois fonctions :
– la première concerne l‘intégrité : les standards permettent de respecter les pensées de l‘auteur au travers de la matérialisation ;
– la deuxième est la pérennité : c’est-à-dire la préservation des informations produites par l‘auteur pour des usages ultérieurs ;
– la troisième est relative à l‘interopérabilité : en effet, un standard doit assurer l‘accessibilité à l‘information par tous et partout quel que soit l‘environnement physique (matériel) ou logique (logiciel) utilisé.
La diversité des contenus documentaires a favorisé l‘avènement de plusieurs standards : des standards de présentation et des standards de descriptions des données. Dans ce qui suit, nous présentons les standards les plus cités dans la littérature et les plus utilisés en pratique.

Standards de présentation de données

Les standards de présentation contribuent à la mise en place d‘une gestion des structures documentaires afin d’homogénéiser la présentation du contenu et d’améliorer sa lisibilité. Ainsi, ces standards ont pour objet de faciliter la consultation et l‘échange des informations via leur structuration. Dans cette section, nous décrivons les principaux standards (SGML, HYTIME, HTML et XML, XHTML, SMIL) qui ont marqué et marquent toujours l‘histoire du document électronique.

Le standard SGML

SGML1 (Standard Generalized Markup Language) permet une structuration de l‘information à l‘aide de balises. Une balise désigne une marque particulière ajoutée à un texte afin d‘en déduire sa structure ou le format dans lequel il sera édité (Goldfarb 1981). En octobre 1986, SGML a été adopté officiellement comme standard international (ISO-8879 1986).
 Principe de SGML.
Le standard SGML permet de définir des classes de documents, c‘est à dire des documents ayant la même structure logique, et ce, indépendamment de leurs formats d‘édition. Cette structure logique est définie dans la DTD. Cette définition, sous la forme d‘une arborescence, indique tous les éléments que peut contenir une classe de documents SGML et les contraintes d‘organisation. De ce fait, un document SGML comprend :
(1) un ensemble de déclarations où sont précisées les caractéristiques SGML utilisées telles que la version, le jeu de caractères utilisé, etc. (Cf. Figure I.9) Cette partie assure l‘adaptation des documents SGML à leurs domaines d‘application en choisissant une syntaxe concrète et en activant les fonctionnalités optionnelles. Une déclaration est une partie optionnelle dans un document SGML. En son absence, SGML applique une déclaration par défaut.

Le standard HTML

HTML (HyperText Markup Language) est le langage le plus connu, car il est largement utilisé pour décrire l‘information mise à disposition des utilisateurs du Web. Ce langage, issu de la famille SGML est un langage balisé. Les balises utilisées à ce niveau sont des balises de présentation et de mise en forme. En fait, tous les documents HTML sont conformes à une seule DTD : la DTD HTML (Raggett et al. 1999) consultable sur le site du W3C.
HTML est un langage qui comporte trois avantages principaux : il est facile à apprendre et à comprendre ; les liens hypertextes sont très faciles à mettre en place entre la source et la cible (balise <A …>) et enfin, la faible quantité de balises facilite l‘intégration de la DTD HTML dans des logiciels de navigation. Cependant, l‘absence de structure logique explicite cause d‘énormes problèmes pour le traitement automatique et la recherche d‘informations (taux de rappels inacceptables). De plus, le mélange de balises contrôlant l‘apparence à celles décrivant la structure du document rend la réutilisation du texte très difficile. A tout ceci, il faut ajouter l‘inexistence de contrôle de cohérence vis-à-vis de l‘utilisation des balises HTML induisant ainsi une utilisation anarchique des balises.
En conclusion, nous pouvons affirmer que la DTD HTML n‘est pas utilisée avec la rigueur qui serait nécessaire à une extraction simple de la structure logique des documents Web. Dans ce contexte, le langage XHTML (eXtended HTML) (Pemberton et al. 2000) permet d‘éviter les problèmes que posent HTML. C‘est la dernière version de HTML 4.0 qui se rapproche du langage XML (décrit dans la section suivante). En effet, cette recommandation du W3C utilise les mêmes balises que HTML avec une syntaxe qui a subi certaines modifications dans le but de faciliter la transition vers XML. XHTML présente l‘avantage d‘accroître la pérennité des documents, d‘utiliser des outils développés pour XML et de diffuser des documents vers des applications clientes supportées par des matériels de types nouveaux (téléphone WAP, terminaux mobiles, etc.).

Le standard SMIL

SMIL (Synchronized Multimedia Integration Language) (Bulterman et al. 2008) assure la description des présentations multimédias synchronisées ou des scénarios multimédias mettant en oeuvre les médias de base (audio, vidéo, image et texte) afin de les consulter en temps réel et de façon interactive. SMIL est considéré comme un format d‘intégration, c’est-à-dire qu‘il ne décrit pas le contenu des objets médias faisant partie d‘une présentation multimédia, mais plutôt leur composition temporelle et spatiale ainsi que les hyperliens entre ces objets ce qui correspond à ce qu‘on a défini comme structure temporelle (Cf. Section III.2.2.6), spatiale (Cf. Section III.2.2.5) et hypermédia (Cf. Section III.2.2.4). Son principe consiste à construire des compositions séquentielles ou parallèles de média de base. SMIL est basé sur XML. Les auteurs peuvent ainsi créer et éditer facilement des présentations multimédias. Un auteur d‘un document SMIL peut :
– décrire le comportement temporel d‘une présentation. SMIL utilise les balises <seq> et <par> pour spécifier qu‘un ensemble d‘objets est joué respectivement en séquence ou en parallèle. La durée d‘un objet peut être spécifiée par un délai par rapport à la date de début ou de fin d‘un autre objet ;
– construire des médias complexes par des combinaisons de compositions séquentielles et/ou parallèles (respectivement des combinaisons de <seq> et/ou <par>). Les contraintes de temps sont soit implicites, c’est-à-dire calculées à partir de celles des composants, soit spécifiées dans les balises ;
– décrire le placement des objets média sur l‘écran pendant la présentation. Sur la fenêtre principale de présentation, SMIL spécifie des régions dont la position et la taille sont exprimées soit en valeur absolue, soit en pourcentage de la taille de la fenêtre principale ;
– associer des hyperliens aux objets média. La désignation de la destination d‘un lien est effectuée en terme d‘adresse URI (Uniform Resource Identifier).

Bilan sur les standards de présentation

SGML fut le premier vrai standard de création de documents électroniques réellement exploitable. Le principe de SGML est celui d‘un langage balisé avec une distinction entre la structure logique et la structure physique du document. La définition de la structure logique des documents permet alors la réutilisation des contenus ou la conception de documents volumineux créés par exemple au sein de différents départements d‘une organisation ou d‘une entreprise. SGML est donc un langage extrêmement puissant, mais en contrepartie très complexe. En effet, la structure d‘une classe de documents est décrite dans une DTD qui doit être respectée rigoureusement par les auteurs de documents, ce qui peut éventuellement être un inconvénient pour des non-informaticiens. Il est également difficile de construire un navigateur capable d’afficher des documents SGML. De plus, SGML n‘offre pas, en lui-même, des mécanismes de liens bien adaptés à la création d‘un hypertexte associant de nombreux documents. Ces liens existent dans le standard complémentaire HyTime, mais celui-ci est beaucoup trop complexe. Ainsi, sa manipulation s’est trouvée restreinte aux spécialistes, et sa complexité a empêché son développement sur le Web.
Le standard HTML, application SGML dédiée au web, pallie ces lacunes, au détriment de la rigueur de la structuration. Un document HTML est caractérisé par le mélange de balises à caractère sémantique et d‘un grand nombre de balises et d‘attributs ne servant qu‘à décrire les caractéristiques visuelles du document. La force de HTML réside dans la simplicité de l‘apprentissage du langage, et dans un accès facile aux données sur le Web : la navigation est très facile, la publication rapide. Cependant, les balises sont utilisées de façon orientée présentation, ce qui empêche de connaître ou d‘extraire automatiquement la structure logique des documents. Les contraintes inhérentes à HTML freinent le développement à grande échelle des applications d’échange à travers Internet. Ainsi, HTML continue d‘être utile pour des documents, échangés sur Internet, qui n‘ont pas un cycle de vie très long.
Les concepteurs de XML ont pris les meilleures parties de SGML, profité de l‘expérience de HTML pour produire un langage facile d‘utilisation, tout en offrant la richesse sémantique de SGML. Ainsi, XML est un sous-ensemble des règles les plus utiles de SGML, en conservant totalement l’esprit. En évitant la lourdeur de SGML, XML est utilisable sans difficulté sur Internet et il supporte une grande variété d’applications. Enfin, il est facile de créer des documents XML, que l‘auteur soit confirmé ou non, grâce à la forme « valide » ou « bien formé » des documents. Cependant, même si un document XML peut être directement transcrit en un document HTML à l‘aide du langage XSL, ce langage est encore peu utilisé pour la création de documents sur le Web.

Le standard RDF

Le W3C travaille également sur la normalisation d‘applications génériques permettant de décrire des graphes de documents en explicitant des relations sémantiques. C‘est le cas de RDF6 (Resource Description Framework) qui constitue un outil très puissant pour l‘indexation et la recherche de documents.
En annotant des documents non structurés et en servant d’interface pour des applications et des documents structurés, RDF permet une certaine interopérabilité entre des applications échangeant de l’information non formalisée et non structurée sur le Web. Il est une des bases du succès du Web sémantique.
Un document traduit en RDF est un ensemble de triplets. Un triplet RDF est une association {sujet, objet, prédicat}. Par exemple, le sujet peut être un document à commenter, l’objet une propriété de ce document (comme son titre) et le prédicat est la valeur de cette propriété. RDF est une structure de données constituée de noeuds et organisée en graphe. Chaque sujet est un URI (Uniform Resource Identifier) ou un noeud anonyme. Chaque prédicat est un URI. Chaque objet est un URI, un littéral ou un noeud anonyme. Un document RDF ainsi formé correspond à un multigraphe orienté étiqueté. Chaque triplet correspond alors à un arc orienté dont le label est le prédicat, le noeud source est le sujet et le noeud cible est l’objet.

Le standard Dublin Core

Le Dublin Core, schéma descriptif normalisé né à l‘issue d‘un meeting sur les métadonnées, entre parmi les standards destinés à améliorer la RI sur Internet et le Web. Il s‘agit d‘une initiative visant à la consolidation de la normalisation des métadonnées. Nous rappelons à ce niveau que les métadonnées sont un ensemble de rubriques, contenues dans ou associées à un document, donnant des informations sur son contenu. Ce sont ces informations qui sont destinées à être traitées par les moteurs de recherche.
Le Dublin Core a pour objectif d‘être assez simple, mais est encore assez peu utilisé sur le Web, alors même qu‘il peut parfaitement être exploité avec des technologies existantes, notamment les éléments <META> d‘HTML exploitables par les moteurs de recherches comme AltaVista, Excite, Google, etc. En effet, dans les documents HTML, des balises META (META signifie METADATA) permettent de définir un certain nombre d‘informations sur le contenu d‘une page Web. Leur utilisation faciliterait l‘échange d‘informations, comme l‘ont permis les codes ISBN que l‘on emploie pour les livres.
Le Dublin Core propose quinze propriétés descriptives de base (métadonnées). Certaines de ces propriétés sont relatives au contenu de la ressource décrite, et les autres à la propriété intellectuelle de ce contenu et aux caractéristiques physiques de la ressource : « title », « creator », « subject », « description », « publisher », « contributor », « date », « type », « format », « identifier », « source », « language », « relation », « coverage », « rights ». Certaines de ces métadonnées ont été étendues par raffinement des métadonnées de base existantes. A titre d‘exemple, la métadonnée date peut être raffinée par les métadonnées : « dateSubmitted » pour préciser la date de soumission d‘un document, « dateCopyrighted » pour préciser la date de prise en compte du copyright, etc. D‘autres métadonnées ont également été ajoutées aux métadonnées de base du Dublin Core7 : « abstract », « available », « audience », etc. Ces métadonnées sont compatibles avec plusieurs langages tels que RDF.

MPEG-7

Pour décrire des métadonnées dans des documents multimédias, le standard le plus utilisé actuellement est le standard MPEG-7 du groupe MPEG (Moving Picture Experts Group ou MPEG). MPEG-7 (Manjunath et al. 2002) est un standard ISO/IEC développé par le comité MPEG pour la description de contenu de données multimédias supportant un certain degré d‘interprétation du sens des informations. Les principaux éléments de MPEG-7 (Martinez 2002) sont :
– les descripteurs (D) qui définissent la syntaxe et la sémantique de chaque caractéristique ou métadonnée d‘un document multimédia (par exemple : Video Segment, Ball, Player, GoalKeeper, etc.) ;
– les schémas de description (DS) qui spécifient la structure et la sémantique des relations (par exemple : IsCloseTo, RightOf, SameAs, etc.) qui existent entre composants MPEG-7 i.e entre des descripteurs et/ou des schémas de description ;
– un langage de définition de description (DDL), décrit avec XML schéma, qui définit la syntaxe des outils de description de MPEG-7. Il permet la création de nouveaux schémas de description et de nouveaux descripteurs, mais également autorise l‘extension et la modification des schémas de description existants ;
– un système d‘outils qui supporte la représentation binaire pour : le stockage, les mécanismes de transmission, la synchronisation des descriptions avec le contenu, la gestion et la protection de la propriété intellectuelle, etc.
La Figure I.13 contient un exemple indicatif de décomposition d‘un schéma de description d‘une vidéo. Ce schéma décrit l‘ensemble des composants d‘une vidéo retenus par MPEG-7. La Figure I.13 montre également un ensemble de descripteurs associés au schéma de description présenté. Par exemple, une vidéo est composée d‘un ensemble de séquences et une bande sonore. Chaque séquence est, d‘une part, composée d‘un ensemble de scènes, et d‘autre part, décrite par un type, un identifiant, un sujet, etc.

MECS/TexMecs

MECS (Multi-Element Code System) est un langage développé par Wittgenstein Archive à l‘université de Bergen afin d‘encoder les structures non hiérarchiques des livres (Huitfeldt 1993). Ce langage partage plusieurs aspects avec le langage SGML. La principale différence entre ces deux langages réside dans leur modèle de données. SGML exige une représentation arborescente des structures alors que MECS ne l‘impose pas.
Dans MECS, un élément est représenté par une étiquette de début (start-tags) ayant la forme « <tag/ » et une étiquette de fin (end-tags) ayant la forme « /tag> » (Cf. Figure II.10). Afin de résoudre le problème de chevauchement des éléments, MECS préconise l‘usage du principe de la technique milestones : usage d‘éléments vides. Ces éléments seront représentés de la façon suivante : « <tag> ». A titre d‘exemple, dans la Figure II.10, nous avons utilisé « <phrase/ » pour marquer le début de l‘élément « phrase », « /phrase> » pour marquer la fin de ce même élément et nous avons ajouté un élément vide « <ligne> » afin de résoudre le chevauchement qui existe entre les éléments « ligne » et « phrase ». MECS admet d‘autres caractéristiques d‘encodage de document que nous ne décrivons pas dans ce manuscrit.

Synthèse des langages

La caractéristique principale des approches basées sur des langages est de représenter l‘ensemble des structures dans un même fichier. Ainsi, les structures sont fusionnées les unes avec les autres et par conséquent elles partagent un contenu commun. Le chevauchement d‘éléments est géré par fragmentation du contenu relatif à ces éléments. Si des mécanismes spécifiques ont été utilisés dans CONCUR et LMNL, les autres langages ont opté à la fragmentation des éléments eux-mêmes. Afin d‘assurer cette fragmentation, trois méthodes se présentent : l‘usage des éléments vides (milestones de TEI et MECS), des éléments virtuels (TEI et TexMECS) ou des mécanismes spécifiques de jointure (Standoff Markup de TEI, RDFs). La restitution des documents à partir de chacune de ces structures indépendamment des autres est fortement liée à la méthode utilisée pour la gestion de chevauchements d‘éléments. Les méthodes de restitution proposées se basent soit sur des mécanismes à base des espaces de noms soit sur des mécanismes à base de jointures.
D‘une façon générale, les approches basées sur des langages sont caractérisées par leur une syntaxe qui sert à structurer les documents de manière précise, concise et sans ambiguïté. En contrepartie, ces approches présentent une double difficulté : d‘une part un problème de lisibilité des documents multistructurés pour les utilisateurs et d‘autre part un problème de développement de compilateur pour le traitement automatique de ces documents.

Solutions basées sur des modèles

Une deuxième catégorie de solutions pour gérer les documents multistructurés consiste à les représenter selon des modèles. Les modèles offrent une représentation indépendante d‘un langage donné ce qui favorise l‘adaptation du document à toutes les plateformes dans tous les contextes. De tels modèles doivent d‘une part décrire les différentes structures du document et d‘autre part gérer le chevauchement d‘éléments entre ces structures. De plus, un modèle de documents multistructurés doit résoudre les problèmes de cohérence et de restitution. Dans cette section, nous détaillons donc les différents modèles de gestion de la multistructuralité présentés dans la littérature.

Le modèle MSDM

Le modèle MSDM « MultiStructured Document Model » (Chatti et al. 2004) est proposé dans l‘objectif d‘intégrer un ensemble de structures au sein d‘un même document toute en assurant l‘exploitation de ces structures conjointement. Ce modèle s‘appuie sur celui de l’ISDN « Institut des Sciences du Document Numérique » (Abascal et al. 2003). Les deux modèles sont basés sur trois notions :
– une structure de base (SB) est définie afin d’organiser le contenu partagé par plusieurs structures en fragments élémentaires disjoints. Ces fragments servent à reconstituer le contenu original du document .
– un ensemble de structures documentaires (SD). Chaque SD est une description particulière du contenu .
– un ensemble de relations de correspondance entre les deux structures : un élément de la première structure (SD) est relié à celui de la deuxième structure (SD ou SB).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
I. Contexte et problématique
II. Propositions et contributions
III. Organisation du mémoire
PREMIERE PARTIE : DOCUMENT A STRUCTURES MULTIPLES : PRESENTATION ET ETAT DE L’ART
Chapitre I – Document et structure : concepts de base
I. Introduction
II. Document, annotation et métadonnée
II.1. Document
II.1.1. Définitions
II.1.2. Evolution du concept de document
II.2. Annotation et métadonnée
III. Structuration de document
III.1. Du document non structuré au document structuré
III.2. Structures documentaires
III.2.1. Les différentes représentations de structures
III.2.2. Typologie des structures
III.3. Document structuré et standards
III.3.1. Standards de présentation de données
III.3.2. Standards de description de données
IV. Multistructuralité des documents : problématique et applications
IV.1. Définitions
IV.2. Problématique
IV.3. Applications de la multistructuralité
V. Conclusion
VI. Bibliographie
Chapitre II – Approches de gestion de documents multistructurés
I. Introduction
II. Solutions basées sur des langages
II.1. Extension de SGML/XML
II.1.1. CONCUR/XCONCUR
II.1.2. TEI
II.2. Autres langages
II.2.1. LMNL
II.2.2. MECS/TexMecs
II.2.3. RDF/RDFs
II.3. Synthèse des langages
III. Solutions basées sur des modèles
III.1. Le modèle MSDM
III.2. Le modèle Proximal Node
III.3. Le modèle MSXD
III.4. Le modèle MCT
III.5. Le modèle GODDAG
III.6. Le modèle EMIR²
III.7. Le modèle de Fourel
III.8. Le modèle de Mbarki
III.9. Graphe d‘annotation
III.10. Synthèse des modèles
IV. Synthèse
V. Conclusion
VI. Bibliographie
DEUXIEME PARTIE : NOTRE PROPOSITION : MODELISATION, INTEGRATION ET EXPLOITATION DE DOCUMENTS A STRUCTURES MULTIPLES
Chapitre III – Modélisation de documents à structures multiples
I. Introduction
II. Modélisation spécifique d‘un document à structures multiples
II.1. Objectif
II.2. Modèle spécifique et description des différentes métaclasses
II.3. Exemples
II.4. Représentation de structures à différents niveaux du document
II.4.1. Représentation des structures multiples au niveau global du document
II.4.2. Représentation des structures multiples associées à un noeud d‘un document
II.5. Du partage du contenu au partage des noeuds
II.5.1. Partage de contenu entre noeuds de structures différentes
II.5.2. Partage de noeuds entre structures
III. Modélisation d‘une collection de documents multistructurés
III.1. Objectif et intérêt
III.2. Modèle générique et description des métaclasses associées
III.3. Exemple de représentation d‘une collection de documents
IV. Modèle de représentation de documents multistructurés
IV.1. Modélisation UML
IV.2. Modélisation formelle de documents multistructurés
IV.2.1. Ensembles d‘objets
IV.2.2. Ensembles de règles
IV.3. Synthèse
V. Conclusion
VI. Bibliographie
Chapitre IV – Document multistructuré : de l’intégration à la restitution
I. Introduction
II. Démarche d‘intégration de documents multistructurés
II.1. Dématérialisation des documents et instanciation du niveau spécifique du modèle
II.2. Classification de vues et instanciation du niveau générique du modèle
II.2.1. Démarche d‘instanciation du niveau générique du modèle
II.2.2. Comparaison de vues : calcul d‘une distance structurelle
II.2.3. Démarche globale de classification
II.2.4. Agrégation d‘individus : affectation des vues aux classes
II.2.5. Conservation de la représentativité des classes
III. Recherche et restitution de documents
III.1. Recherche de documents multistructurés
III.1.1. Démarche de recherche de documents multistructurés
III.1.2. Exemple
III.2. Restitution multidimensionnelle
III.2.1. Démarche de construction des schémas des magasins
III.2.2. Démarche de génération des magasins de documents
III.2.3. Démarche de visualisation des tables multidimensionnelles
III.2.4. Exemple
IV. Conclusion
V. Bibliographie
Chapitre V – Implantation et expérimentation
I. Introduction
II. Architecture de MDOCREP
II.1. Serveur de données
II.2. Intégration de documents
II.3. Restitution de documents
II.4. Communication
III. Classification des vues
III.1. Description du corpus
III.2. Description des expériences
III.3. Résultats et Analyses
III.4. Bilan et synthèse
IV. Restitution des documents multistructurés : Cas d‘une analyse multidimensionnelle
IV.1. Description du corpus
IV.2. Démarche
IV.2.1. Choix du type d‘analyse approprié
IV.2.2. Sélections des composants
IV.2.3. Filtrage
IV.2.4. Résultat
V. Conclusion
VI. Bibliographie
Conclusion générale
I. Bilan et synthèse de nos propositions
II. Perspectives de recherche
Bibliographie générale