Histoire de l’utilisation du terme Big Data

Histoire de l’utilisation du terme Big Data

Contexte

Le Big Data représente un défi non seulement pour le monde socioéconomique mais aussi pour la recherche scientifique [1]. En effet, comme il a été souligné dans plusieurs articles scientifiques [2] et rapports stratégiques [3], les applications informatiques modernes sont confrontées à de nouveaux problèmes qui sont liés essentiellement au stockage et à l’exploitation de données générées par les instruments d’observation et de simulation. La gestion de telles données représente un véritable goulot d’étranglement qui a pour effet de ralentir la valorisation des différentes données collectées non seulement dans le cadre de programmes scientifiques internationaux mais aussi par des entreprises, ces dernières s’appuyant de plus en plus sur l’analyse de données massives. La recherche scientifique, à l’ère des Big Data, est devenue multidisciplinaire. En effet, il est nécessaire de combiner des techniques issues de plusieurs disciplines (informatique, physique, mathématique, …) afin de faire avancer la science.

D’ailleurs, à titre d’exemple, le projet LSST 1 ambitionne la construction du plus grand télescope au monde. Le défi ultime de LSST est de mettre à disposition des scientifiques une base de données commune à partir de laquelle seront conduites des recherches scientifiques qui s’intéressent, entre autres, à la recherche de petits objets dans le système solaire, à l’astrométrie de précision des régions extérieures à la Voie Lactée, à la surveillance des effets transitoires dans le ciel optique et à l’étude de l’univers lointain. La communauté française utilisera ces données pour mener des études sur l’énergie noire responsable de l’accélération de l’expansion de l’univers, incomprise à ce jour. Le goulot d’étranglement lié à ces analyses repose en grande partie sur la méthodologie d’accès et de traitement des données retenues. LSST produira des images CDD de 3,2 Giga pixel toutes les 17 secondes (la nuit), pendant 10 ans. Il permettra à terme de générer 15 à 30 Téraoctets de données par nuit pour arriver à un volume d’environ 140 Péta octets d’images en fin de programme. Le catalogue de données est constitué de tables relationnelles ayant des tailles allant jusqu’à 5 Péta octets [4]. Par conséquent, de telles applications sont orientées par des questions telles que : comment stocker, organiser, indexer et distribuer des milliers de Péta Octets de données? Comment combiner l’indexation et la gestion de mémoire pour des bases de données extrêmement volumineuses, distribuées et multidimensionnelles ? Comment évaluer des jointures entres des objets ayant plus de 100 milliards d’éléments, ce qui induit un problème de passage à l’échelle.

Afin de répondre à ces questions, le CNRS a décidé de financer le projet Petasky dans le cadre du défi MASTODONS. Ce dernier vise à répondre à plusieurs défis liés à l’analyse et la gestion des données scientifiques dans le domaine de la cosmologie. Par conséquent, le projet réside clairement dans la perspective de l’e-science. Petasky repose sur le projet LSST comme contexte d’application. Le groupe gestion de données de Petasky se concentre sur la conception et la mise en oeuvre de techniques d’évaluation et d’optimisation de requête garantissant le passage à l’échelle. En effet, les techniques permettant une utilisation efficace de nouvelles plateformes matérielles et logicielles représentent une étape importante pour le développement du “Big Data” dont les challenges scientifiques sont reconnus. Pour cela, trois principaux défis ont été identifiés : (i) la conception de nouvelles abstractions et des modèles pour capturer les propriétés des plateformes technologiques modernes, (ii) la conception de systèmes qui supportent la parallélisation massive des traitements sur des grandes masses de données, et (iii) la définition formelle des modèles de coûts pour évaluer l’efficacité des algorithmes utilisés dans les plateformes technologiques modernes. Les contributions scientifiques attendues sont liées principalement à 1) l’identification des bonnes abstractions pour capturer les nouveaux environnements d’exécution, 2) le développement de structures appropriées au stockage et 3) le développement des modèles de coût et des algorithmes d’optimisation qui permettent d’exécuter les requêtes parallèles et distribuées sur de très grandes masses de données.

Les responsables de LSST ont déjà identifié quelques contraintes liées au futur système permettant de stocker et requêter les données de LSST. En effet, ils recommandent l’utilisation d’un système open source, basé sur l’architecture “Shared-Nothing”. Deux facteurs principaux motivent une telle recommandation : (i) faciliter l’intégration et l’optimisation des fonctions ad hoc (c-à-d., des fonctions propres au calcul astronomique) et (ii) supporter des requêtes déclaratives. Tenant compte de ces recommandations, et après analyse approfondie des capacités de certains systèmes existants pour gérer les données LSST, les membres de Petasky ont proposé un nouveau système permettant de gérer d’une manière efficace et transparente les données de LSST. Ce système, baptisé QDAG (Querying Data As Graphs), a pour objectif de garantir à la fois le passage à l’échelle et les performances lors du traitement des Big Data. Il est d’ailleurs modulaire et permet d’injecter de nouveaux composants selon le besoin métier.

Histoire de l’utilisation du terme Big Data

Dans un article scientifique, le terme Big Data a été utilisé pour la première fois pour désigner les données collectées pour une étude météorologique sur l’île de la Barbade. L’étude en question date du milieu des années 60. Le volume de ces données ne dépassait pas les quelques méga-octet. Malgré cela, traiter ces données représentait un vrai défi à cause de la technologie qui n’était pas au point. Entre temps, et avec le développement des bases de données relationnelles[ 6] [7] début des années 70, la gestion de données est devenue plus facile et efficace. En effet, les bases de données relationnelles sont devenues l’outil numéro 1 pour gérer les données transactionnelles. Les SGBDR sont utilisés jusqu’à maintenant pour différents types de données, e.g., assurances, banques, etc.

Le besoin en terme de nouvelles techniques d’exploitation de données s’est évolué fin des années 80. En effet, Avec l’augmentation des volumes de données et la complexité des taches d’analyse dont ces données font partie, les SGBDR sont devenus incapable de satisfaire le besoin des utilisateurs en termes de performances. On a réutilisé le terme Big Data afin de désigner ce genre de données et de tâches d’exploitation. Heureusement, les acteurs des bases de données ont su s’adapter à ce besoin grandissant en offrant de nouvelles technologies basées sur l’indexation et la matérialisation des informations. OLAP est en effet la principale technologie développée pendant cette époque. Avec le développement duWeb fin des années 90 et par conséquence les données semi-structurées, les SGBDR sont devenus encore une fois dans l’incapacité de fonctionner correctement. On a en effet réutilisé le terme Big Data pour désigner ce besoin émergeant. Jusqu’à maintenant, on s’est basé sur des architectures standards de systèmes.

Le NoSQL a été donc la solution à ce nouveau besoin. Ce genre de système permet de gérer les données d’une manière personnalisée. A l’heure actuelle, le terme Big data est utilisé pour désigner les données massives collectés par les instruments de simulation et d’observation modernes. Ces données concernent des domaines différents et variés. Dans le domaine de l’aéronautique par exemple, un avion Airbus génère 20 To par heure de vol. Dans le domaine de la physique des particules, l’accélérateur du CERN génère 500 To par jour. Facebook d’un autre côté avec son réseau social génère plus de 300 Po par an. Avec ce genre de données, il était nécessaire de penser à de nouvelles solutions. côté matériel, le cluster computing est devenu une solution incontournable à cause de la facilité de mise en place et le passage à l’échelle. côté logiciel, de nouveau framework (e.g., Hadoop, Spark et Flink, …) ont vu le jour.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 INTRODUCTION
1.1 Contexte
1.2 Travail de stage
1.3 Le stage
1.4 Le laboratoire LIAS
1.5 Organisation du manuscrit
2 ÉTAT DE L’ART
2.1 Introduction
2.2 Histoire de l’utilisation du terme Big Data
2.2.1 Caractéristique du big data
2.3 Histoire de la gestion de données
2.4 Hadoop
2.4.1 HDFS
2.4.2 MapReduce
2.5 Apache Spark
2.5.1 Caractéristiques de spark
2.5.2 Architecture de spark
2.6 Apache Spark vs Hadoop .
2.7 QDAG
2.8 Conclusion
3 CONCEPTION ET RÉALISATION
3.1 Introduction
3.2 Orchestra
3.2.1 Broadcast
3.2.2 Cornet VS bittorrent
3.2.3 Shuffle
3.2.4 la gestion des transferts de données
3.3 Présentation de la solution
3.4 Mécanismes de Transferts de données
3.4.1 Chain Broadcast
3.4.2 TreeBroadcast
3.4.3 Broadcast selon le bit Torrent
3.4.4 Évaluation des différentes stratégies de broadcast
3.4.5 Shuffle
3.5 Mécanismes de vérification du réseau
3.5.1 Mécanisme de battement du coeur
3.5.2 Accusé de réception (Acknowlegement)
3.6 Scénario d’utilisation du framework
3.7 Outils et technologies utilisés
3.7.1 java
3.7.2 L’environnement de test
3.7.3 PuTTY
3.7.4 SuperPuTTY
3.7.5 FileZilla
3.7.6 Parallel-scp
3.7.7 Git
3.7.8 Git LIAS
3.7.9 Gestion de projet avec Trello
3.8 Les étapes à suivre pour effectuer les tests
3.8.1 Conclusion
4 CONCLUSION GÉNÉRALE
4.1 Conclusion
4.2 Perspectives
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *