Systèmes d’Information Géographique et Spatial OLAP

Modélisation des systèmes OLAP : Etat de l’art

Les recherches dans le domaine de la modélisation des EDs sont nombreuses. Leur but est principalement de pouvoir fournir des modèles claires et indépendants de l’implémentation (Torlone, 2003). En ce qui concerne la modélisation conceptuelle, les études dans ce domaine se basent généralement sur l’extension des standards tels qu’UML et Entité-Relation, ou bien des modèles ad hoc. Toutefois, dans la plupart des travaux récents, l’UML est le langage le plus utilisé pour la modélisation conceptuelle des aspects statiques et dynamiques de systèmes d’ED. Nous soulignons aussi l’importance des mécanismes d’extension qu’il offre à travers les profils-UML. Nous notons, aussi, son interopérabilité avec tous les langages de programmation orienté-objets, ainsi que le langage d’expression des contraintes d’intégrité OCL. Aussi, les règles de passage des outils AGL (Atelier de Génie Logiciel) vers les différents systèmes de gestion de bases de données (SGBD), sont claires. Dans la littérature, nous constatons les contributions remarquables de quelques travaux tels que (Abelló et al., 2006) où les auteurs ont définit un modèle multidimensionnel contenant les différents concepts permettant la conception des cubes de données de type constellation, en se basant sur les packages UML pour organiser les niveaux de détail. Les auteurs dans (Lujan-Mora et al., 2006) ont proposé une amélioration de la solution précédente par l’extension de l’UML en utilisant les profils qui définissent une spécialisation d’UML pour la modélisation multidimensionnelle. Pour éviter une mauvaise conception, un ensemble de contraintes d’intégrité sont définis dans le profil. Afin d’ implémenter cette modélisation, les auteurs ont utilisé l’AGL Rational Rose 1 .

Dans (Pinet et Schneider, 2009), les auteurs définissent une modélisation UML avec quelques spécialisations telles que : Classe identifiée destinée à la modélisation des faits et les niveaux d’agrégation. Pour la modélisation des relations d’agrégation ils définissent le concept Association d’agrégation. Ils ont aussi, utilisé OCL pour exprimer les contraintes d’intégrité. Les auteurs dans (Prat et al., 2010), ont défini une organisations entre les concepts de l’entrepôt (la table de faits et les tables de dimension) d’une part, et ceux du cube de données (hypercube, hiérarchie, etc.). Pour l’expression des contraintes d’agrégation, les auteurs utilisent PPR (Production Rule Representation language). En outre, en se basant sur le standard ER, les auteurs dans (Malinowski et Zimányi, 2008) ont défini un modèle conceptuel multidimensionnel pour les EDs . Pour la représentation des hiérarchies les auteurs classifient ces hiérarchies et leurs attribuent des notations graphiques. Dans (Tryfona et al., 1999) et (Sapia et al., 1998), les auteurs ont également proposé des extensions du modèle ER pour la modélisation conceptuelle des concepts multidimensionnels de l’ED. Pour les modèles ad hoc, nous pouvons citer les études effectuées par les auteurs dans (Torlone, 2003) et (Husemann et al., 2000). En effet, pour la modélisation de différents concepts multidimensionnels, ils ont défini une notation graphique. Ce type de modèle est caractérisé par sa difficulté de développement.

En ce qui concerne la modélisation logique relative à l’implémentation ROLAP de l’entrepôt de données, les auteurs dans (Malinowski et Zimányi, 2008) ont proposé un schéma en étoile qui ne contient aucune normalisation. En effet, pour chaque dimension, il regroupe tous ses niveaux d’agrégation dans une seule table. Ceci a pour but d’optimiser le temps de recherche de données en réponse de requêtes analytiques. Ce modèle présente l’inconvénient de produire des tables de dimension très volumineuses contenant des valeurs vides. D’autres travaux ont proposé des normalisations maximales. Cette solution présente aussi des inconvénients en générant des modèles très compliqués ce qui alourdi la qualité de temps de réponse au requêtes.

Une solution hybride est proposée par la plupart des concepteurs, appelé starflake, tente de combiner les deux types de schémas précédents c’est-à-dire uniquement certains tables représentant des niveaux d’agrégation sont normalisées. Ici, c’est l’expérience du concepteur qui défini les choix entre le coût de stockage et le temps de réponse aux requêtes. La modélisation physique correspond à trouver les meilleures solutions techniques pour optimiser le stockage et le temps de réponse aux requêtes analytiques. Les auteurs dans (Bellatreche et al., 2004) proposent des indexes de jointure qui permettent d’accélérer l’exécution des requêtes. Dans (Bellatreche, 2000), l’auteur a proposé la technique de fragmentation qui consiste à diviser les tables volumineuses en plusieurs fragments. Néanmoins, cette technique nécessite de choisir des méthodes pour la réécriture et l’exécution de requêtes. Les auteurs dans (Barr et Bellatreche, 2012), ont proposé une technique basée sur les colonies de fourmis pour obtenir le schéma de fragmentation horizontale qui minimise le coût global de la charge des requêtes. Dans (Ziyati, 2010), l’auteur a proposé une technique d’optimisation inspirée des algorithmes génétiques pour trouver des solutions à des problèmes d’optimisation globale des requêtes OLAP en Entrepôts de Données.

Limite des systèmes OLAP

Les systèmes OLAP ont montré leur efficacité notamment pour assurer l’analyse multidimensionnelle des données entreposées, non volatiles et à différents niveaux de granularité. Ils sont considérés comme des outils d’aide à la décision. Néanmoins, comme nous l’avons indiqué dans la section précédente, ils présentent aussi des difficultés remarquables aux différents stades de modélisation notamment conceptuelle, logique et physique. En effet, les systèmes OLAP ne font pas la mise à jour des données, mais seulement l’archivage des versions. Nous nous retrouvons parfois devant des situations de gestion de Big Data. Ceci est relatif à la périodicité de l’application du processus ETL. Les techniques et méthodes proposées pour résoudre ces problèmes sont efficaces dans quelques cas. Dans les autres cas, ces propositions font complexifier encore ces outils destinés au départ pour l’analyse rapide et facile des données. En plus, d’autres problèmes se posent relatives à la qualité des analyses effectuées par les utilisateurs. Cette qualité dépend de plusieurs facteurs notamment la consistance des données entreposées, la consistance des agrégations et la consistance de l’exploitation c’està- dire la formulation des requêtes. Ces problèmes sont traités en détail dans le chapitre 4 notamment avec les systèmes spatial OLAP.

En outre, les EDs traditionnels ne permettent pas la gestion des données géographiques. Or, la grande partie des données sont géo-référencées portant des attributs géométriques, en particulier dans les problématiques d’aide à la décision territoriales et la gestion des ressources naturelles notamment l’agroforesterie. A cet effet, le recours aux outils permettant la manipulation de ce type de données est incontournable pour la mise en place de systèmes d’information décisionnels spatiaux. Dans cette situation, nous parlons des systèmes d’information géographiques et le spatial OLAP qui feront l’objet du chapitre suivant. A ces limites, s’ajoutent aussi le fait que les systèmes OLAP ne peuvent pas résoudre les problématiques avec des exigences conflictuelles. A cet effet, ils peuvent être couplés à des outils d’analyse multicritères.

Conclusion

Dans ce chapitre, nous avons décrit les notions concernant les SID, les ED et l’OLAP. Puis, nous avons présenté les niveaux de l’architecture d’un système d’information décisionnel basé sur les ED. A ce titre, l’importance de la phase d’intégration de données ainsi que les règles et opérateurs du serveur OLAP sont soulignés. Nous avons ensuite présenté le modèle multidimensionnel sur lequel se base ces systèmes et les différentes modélisations le concernant à savoir : la modélisation conceptuelle, la modélisation logique et la modélisation physique. En effet, les structures de données (dimension, mesure, hiérarchie, etc.) ainsi que les techniques d’agrégation et types d’additivité des mesures sont présentées. Nous avons, ensuite, présenté les différents schémas pour les cubes de données à savoir les modèles en étoile, en flocon de neige, en constellation et mixte. Enfin, nous avons présenté les différentes architectures logicielles avec les trois types d’implémentations possibles de cette architecture (ROLAP, MOLAP et HOLAP).

Les techniques d’optimisation des performances de modélisation physiques sont aussi présentées. Par la suite, nous avons présenté un état de l’art relatif aux travaux effectués pour la modélisation conceptuelle, logique et physique des EDs. Enfin, nous avons exploré quelques limites des systèmes OLAP relatives en particulier aux problèmes d’optimisation de stockage et du temps de réponse au requêtes en présence des entrepôts de données très volumineuses d’une part, et aux ses limites de gérer les données géographiques d’une autre part. Dans le chapitre suivant, nous allons présenter les Systèmes d’Information Géographique (SIG), les entrepôts de données spatiales et SOLAP. Ces systèmes, sur lesquels portent nos travaux de thèse, représentent des extensions des systèmes OLAP pour la prise en compte de l’information spatiale dans l’analyse multidimensionnelle.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Liste des figures
Liste des tableaux
Liste des abréviations
Introduction Générale
I Synthèse de l’état de l’art
1 Entrepôts de Données et OLAP
1.1 Introduction
1.2 Systèmes d’information (SI)
1.3 Architecture d’un système d’information décisionnel
1.3.1 Sources de données
1.3.2 Entrepôts et magasins de données
1.3.3 Serveurs OLAP
1.3.4 Les outils d’analyse
1.4 Modélisation multidimensionnelle
1.4.1 Modélisation conceptuelle
1.4.2 Modélisation logique
1.4.3 Modélisation physique
1.5 Modélisation des systèmes OLAP : Etat de l’art
1.6 Limite des systèmes OLAP
1.7 Conclusion
2 Systèmes d’Information Géographique et Spatial OLAP
2.1 Introduction
2.2 L’aide à la décision spatiale
2.2.1 Types de décisions spatiales
2.2.2 Processus de prise de décision spatiale
2.3 L’Information Géographique : Concepts de base .
2.3.1 Composantes de l’information géographique
2.3.2 L’objet géographique
2.3.3 Systèmes de coordonnées
2.3.4 Notion de l’échelle
2.4 Systèmes d’Information Géographique (SIG)
2.4.1 Définition
2.4.2 Structure de données dans un SIG
2.4.3 Les principales fonctions d’un SIG
2.4.4 Logiciels SIG
2.5 Limite des systèmes d’information géographique
2.6 Travaux utilisant les SIG dans la foresterie
2.7 ED Spatial et SOLAP
2.7.1 Modèle spatio-multidimensionnel
2.7.2 Opérateurs de navigation SOLAP
2.7.3 Fonctions d’Agrégation dans le SOLAP
2.7.4 Architecture d’un système décisionnel basée sur SOLAP
2.7.5 Modes d’intégration SIG-OLAP
2.7.6 Modélisation spatio-multidimensionnelle : Etat de l’art
2.8 Limite des systèmes SOLAP
2.9 Conclusion
3 Méthodologie Multicritères d’Aide à la Décision
3.1 Introduction
3.2 L’aide à la décision
3.2.1 Typologie des décisions
3.2.2 Acteurs de la décision
3.2.3 Systèmes Interactifs d’Aide à la Décision (SIAD)
3.3 Notions relatives à l’Analyse MultiCritères (AMC) .
3.3.1 Définition de L’AMC
3.3.2 Le concept d’action
3.3.3 Critère et famille de critères
3.3.4 Matrice des performances
3.3.5 Les paramètres subjectifs
3.3.6 Relation de surclassement
3.3.7 Typologie des problèmes décisionnels
3.4 Agrégation multicritères
3.4.1 Définition de l’agrégation
3.4.2 Type d’agrégation
3.5 Méthodes d’AMC par agrégation partielle
3.5.1 La famille des méthodes ELECTRE
3.5.2 La famille de méthodes PROMETHEE
3.6 Synthèse des méthodes d’analyse multicritères
3.7 Travaux connexes
3.8 Conclusion
4 Qualité de l’analyse SOLAP
4.1 Introduction
4.2 Qualité des données géographiques
4.2.1 Critères quantitatifs
4.2.2 Critères qualitatifs
4.3 Contraintes d’intégrité dans les bases de données spatio-temporelles
4.4 Qualité d’analyse spatio-multidimensionnelle (SOLAP)
4.4.1 Selon la qualité de données
4.4.2 Selon la façon d’agrégation des mesures
4.4.3 Selon l’exploration des données
4.5 Contraintes d’intégrité dans les cubes de données spatiales
4.6 Classification des langages de spécification des CI
4.6.1 Langages naturels
4.6.2 Langages visuels
4.6.3 Langages logiques
4.6.4 Langages hybrides
4.7 OCL et Spatial OCL
4.8 Travaux effectués sur la qualité d’analyse dans les structures MD
4.8.1 Travaux sur la qualité d’agrégation
4.8.2 Travaux sur la qualité d’exploration
4.9 Conclusion
II Contributions
5 Approche intégrée (SOLAP-AMC) pour l’aide à la décision. Application dans la gestion agroforestière
5.1 Introduction
5.2 Description du système d’aide à la décision spatiale proposé « Silvicultura »
5.2.1 Sous-système de < base de données >
5.2.2 Sous-système de < surveillance >
5.2.3 Sous-système de < traitement des problèmes >
5.2.4 Sous-système < Interface utilisateur >
5.3 Le modèle décisionnel adopté
5.3.1 Structuration du Modèle
5.4 Exploitation du modèle
5.4.1 Proposition de critères de gestion
5.4.2 Les méthodes d’analyse multicritères utilisées
5.4.3 Déduction des indicateurs et des vérificateurs
5.4.4 Analyse spatio-multidimensionnelle (SOLAP)
5.4.5 Proposition d’actions candidates
5.5 La démarche décisionnelle adoptée par « silvicultura »
5.6 Modelisation UML pour « Silvicultura »
5.6.1 Diagramme d’activité de « Silvicultura »
5.6.2 Diagramme des cas d’utilisation de « Silvicultura »
5.6.3 Diagramme de séquence de « Silvicultura »
5.7 Modélisation MD de l’Entrepôt de Données Spatiales pour l’Agroforesterie
5.7.1 Profil UML pour les cubes de données spatiales
5.7.2 Schéma en constellation pour l’EDS de l’agroforesterie
5.8 Etude de Cas : Résultats et Discussion
5.8.1 Données utilisées
5.8.2 < ELECTRE I > pour le choix des critères de gestion
5.8.3 Traitement analytique en ligne spatial
5.8.4 Analyse Multicritères (ELECTRE III) pour classer les actions àexécuter
5.8.5 Agrégation
5.8.6 Exploitation
5.9 Conclusion
6 Un système « UIC-SOLAP » pour le contrôle d’utilisation dans SOLAP 108
6.1 Introduction
6.2 Nouvelle CI pour les faits dans le schéma en constellation
6.3 Contraintes d’intégrité pour les utilisateurs d’un SOLAP
6.3.1 CI-Utilisateurs liés aux données spatiales .
6.3.2 CI-Utilisateurs liées à la politique d’exploitation du SOLAP
6.3.3 CI-Utilisateurs liées aux requêtes SOLAP
6.3.4 CI-Utilisateurs liées aux agrégations
6.4 Le système « UIC-SOLAP » pour les contraintes d’intégrité utilisateur dans SOLAP
6.5 Le processus adopté par « UIC-SOLAP »
6.6 Etude de Cas
6.7 Discussion des Résultats
6.8 Conclusion
Conclusion Générale et Perspectives
Publications issues de la présente thèse
Bibliographie