Taxonomie des méthodes de classification de trafic

Techniques de visualisation

Les progrès effectués par la théorie de la visualisation, en informatique graphique et ses algorithmes ont donné naissance à de nouvelles techniques de visualisation plus performantes capables de faire ressortir les tendances dans des données multivariées et les représenter corrélations entre les variables. Malgré ces avancées, la visualisation des données multidirectionnelles se heurte à plusieurs contraintes dont les plus importantes sont la représentation tridimensionnelle de l’espace de représentation ainsi que l’utilisation efficace du système de perception visuel humain, qui ne peut concevoir facilement un espace de plus de trois dimensions. Pour ces raisons, la représentation graphique des données de quatre dimensions et plus nécessite l’introduction de métaphores, à savoir des couleurs, des formes, et bien d’autres. Beaucoup de travaux ont mis l’accent sur l’intérêt et l’utilité des techniques de visualisation dans l’exploration des données, mais rares sont les auteurs qui se sont intéressés à les classer et en dresser un bilan. Néanmoins, une taxonomie de ces techniques représente une bonne méthode pour d’identifier ce qui se fait couramment et par conséquent un point de départ intéressant pour la mise au point d’un nouveau système de visualisation. Dans la littérature, il existe deux travaux principaux de taxonomie concernant les techniques de visualisation : le travaux de (Chi, 2000) et de Keim (Keim, 1997). Dans ce qui suit, l’accent est mis sur la classification de Keim. La première classification des techniques de visualisation des données multidimensionnelles a été proposée par Keim (Keim, 1997, 2002). Elle distingue six catégories de techniques de visualisation:

Techniques géométriques

Les techniques géométriques visent à trouver des transformations intéressantes des données multidimensionnelles (Keim, 2002). En effet, elles permettent de projeter les données multidimensionnelles dans un nouvel espace de représentation, généralement de deux dimensions. Elles sont utilisées pour traiter des jeux de données de grande taille, principalement pour détecter les données aberrantes et les corrélations entre les attributs, notamment avec l’introduction des techniques d’interactions. Une multitude de possibilités de projection dans les espaces de deux dimensions peuvent être imaginées, mais il est important que les nouvelles représentations doivent restituer fidèlement l’information pertinente contenue dans les données explorées. En plus, des techniques issues du champ des statistiques exploratoires, typiquement la matrice de dispersion (scatter matrix), l’analyse en composantes principales et l’analyse factorielle, cette catégorie comprend d’autres techniques permettant de représenter des données multidimensionnelles entre autres les coordonnées parallèles (Inselberg, 2009).

Techniques iconiques Les techniques iconiques se basent sur les formes géométriques et les icônes pour représenter les données multidimensionnelles dans un espace de deux dimensions. Elles mappent chaque observation à une forme géométrique (glyphe) dont les caractéristiques visuelles (les arrêts, les angles, etc.) varient en fonction des valeurs des attributs des données (Keim, 2002). Cette approche rend possible la représentation des données multidimensionnelles dans l’espace traditionnel. Bien que le nombre de dimensions qui peut être visualisé reste limité, ces techniques sont très utiles dans ce contexte. Quand les attributs des données sont relativement nombreux, par rapport aux dimensions de la représentation (deux dimensions de l’espace de représentation plus le nombre de caractéristiques visuelles du glyphe), la visualisation résultante présente des motifs visuels qui varient en fonction des caractéristiques des données et qui peuvent être détectés par la perception préattentive (Keim, 2002). Cette catégorie inclut plusieurs techniques, entre autres, Chernof (Glazar, Marunic, Percic, et Butkovic, 2016), stick figure (Peter J. Sackett, M. F. Al-Gaylani, Ashutosh Tiwari, et Williams, 2016), et bien d’autres.

Techniques orientées pixel Les techniques orientées pixel ne permettent pas de visualiser seulement les données multidimensionnelles, mais aussi celles qui sont en grande en quantité. Elles consistent à représenter chaque valeur de données par un pixel coloré. Pour un jeu de données de dimension n*n, les pixels sont utilisés pour représenter une seule observation où les valeurs de chaque attribut sont arrangées dans une fenêtre séparée. Cette classe de technique se décline en deux approches principales ; «querry-dependant» et «querry-independant techniques» (Keim, 1996).

Systèmes de visualisation

La littérature relative à ce sujet liste un nombre important de travaux proposant des systèmes de visualisation pour la gestion des réseaux. En effet, la visualisation de l’information a été utilisée dans ce contexte depuis les années 80 et 90, mais elle n’a pas évolué au même rythme que celle des réseaux de communication (Gilbert et Kleinöoder, 1985). Cette évolution des technologies de réseaux a rendu nécessaire la surveillance et la gestion de l’infrastructure. Depuis, le nombre de publications portant sur la visualisation du trafic pour la gestion des réseaux a augmenté considérablement. Toutefois, une étude (Guimarães et al., 2015) démontre que 78,28 % des travaux effectués entre 2004 et 2013 traitent de problèmes de sécurité voir Figure 2.6. Dans ce qui suit l’accent est mis sur un ensemble de travaux de recherche effectués dans le contexte de la visualisation du trafic pour la surveillance et le contrôle des réseaux. Les sections qui suivent présentent plusieurs exemples d’outils existants. L’outil Visual (Ball, Fink, et North, 2004) est un système permettant de visualiser les communications et les flux entre un réseau local et un réseau externe afin de détecter rapidement le trafic malicieux, par l’analyse de l’intensité des activités des hôtes.

Dans ce système, le réseau local est représenté par une matrice où chaque cellule représente un hôte interne et les hôtes distants sont représentés par des carrés dont les tailles reflètent le niveau d’activités. La connexion entre un hôte interne et un autre distant est représentée par une simple ligne. Ce système offre des fonctionnalités de filtrage pour afficher les activités d’une machine particulière et ainsi éviter de surcharger les graphes, ce qui les rend difficile à analyser. L’outil TNV (Goodall, Lutters, Rheingans, et Komlodi, 2005) a été conçu pour éviter la perte de la vue d’ensemble du réseau lorsque l’utilisateur analyse en détail le trafic malicieux au niveau des paquets. La composante principale de cet outil est une matrice visualisant les communications de réseau en fonction du temps. Le temps (timestamp) est représenté par l’axe des abscisses et les adresses IP sont listées tout au long de l’axe des ordonnées. Chaque colonne de la matrice représente un intervalle de temps et chaque ligne désigne un hôte. Les paquets visualisés dans une cellule (i, j) correspondent à ceux émis/reçus dans l’intervalle j de l’hôte i. Les flux entre deux hôtes, dans chaque période, sont représentés par des lignes (voir Figure 2.7). Une analyse de ports est développée également afin de détecter plus facilement une activité de balayage de ports. D’autres métaphores sont aussi utilisées, notamment la couleur pour mettre en évidence des informations supplémentaires telles que la densité des paquets et le type de protocole. Cet outil permet aussi de supporter la gestion de la sécurité du réseau. Néanmoins il n’est pas conçu pour une visualisation en temps réel car l’analyse des données ne s’effectue pas au cours de la capture du trafic, mais, en lot, à partir des traces préalablement collectées.

L’outil NVisionIP (Lakkaraju, Yurcik, et Lee, 2004) permet de visualiser le trafic dans un réseau de classe B (ref) pour des finalités de sécurité. Il offre la possibilité d’analyser l’état du réseau de trois manières différentes à travers son cadre principal de visualisation nommé vue Galaxy ou Galaxy View. Dans la première configuration de visualisation, les hôtes de tous les sous-réseaux sont représentés dans une grille ou une matrice. Les sous-réseaux sont listés au long de l’axe des abscisses tandis que les hôtes sont représentés sur l’axe des ordonnées. Chaque hôte est coloré en fonction de caractéristiques telles que le volume de trafic. La deuxième possibilité de visualisation consiste à regrouper les machines ayant les mêmes services dans des regroupements (Web, DNS, etc.). La troisième configuration visuelle permet de représenter les machines par des rectangles dont les tailles indiquent l’importance des caractéristiques d’intérêt. Ce cadre de visualisation est supporté par deux fenêtres de visualisation ; 1) SMV ; pour (Small Machine View) qui visualise les caractéristiques de plusieurs machines d’une région particulière de (Galaxy view), 2) MV (pour machine View) qui permet de représenter les détails d’une machine spécifique. L’outil VizFlowConnect (Yin, Yurcik, Treaster, Li, et Lakkaraju, 2004) et VizFlowConnect_IP (Yurcik, 2006) utilisent la technique de coordonnées parallèles afin de visualiser les communications entre les hôtes internes et externes.

Il consiste en trois axes parallèles dont l’axe central correspond aux adresses IP des hôtes internes, le premier axe représente les hôtes externes source du trafic envoyé aux hôtes internes, le troisième axe correspond aux hôtes externes destination du trafic provenant du réseau interne. Bien que cette solution soit simple et permette d’obtenir une vue d’ensemble sur l’état des activités du réseau, en particulier la détection du trafic malicieux, elle ignore l’analyse du trafic interne qui peut être aussi malicieux. L’outil RTA (Keim, Mansmann, Schneidewind, et Schreck, 2006) est un système de visualisation orientée hôte. Il vise à visualiser la distribution des paquets au niveau d’une machine particulière. Pour parvenir à cet objectif, RTA utilise une approche de visualisation radiale. Ainsi, dans la configuration par défaut, il utilise quatre cercles concentriques pour représenter les attributs d’un paquet (IP_src, IP_dst, Port_src, Port_dst). Le cercle interne représente les adresses IP sources, le deuxième correspond aux adresses IP destination, les deux derniers cercles correspondent respectivement aux ports sources et ports destination. Dépendamment du but de l’analyse, le nombre de cercles composant ce cadre peut être réduit à trois ou deux. Bien que; RTA constitue un système efficace qui permet de surveiller les activités des hôtes et de détecter le trafic malicieux, il se base sur le nombre de ports pour identifier le type d’application (HTTP – >80) ce qui peut entraîner de mauvaises conclusions, notamment avec l’émergence des applications non standards.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

CHAPITRE 1 INTRODUCTION GÉNÉRALE
1.1 Contexte
1.2 Problématique
1.3 Les objectifs de la recherche
1.4 Plan du mémoire
CHAPITRE 2 REVUE DE LA LITTÉRATURE
2.1 Introduction
2.2 Visualisation du trafic
2.2.1 Définitions
2.2.2 Processus de visualisation
2.2.3 Techniques de visualisation
2.2.4 Systèmes de visualisation
2.3 Classification du trafic
2.3.1 Taxonomie des méthodes de classification de trafic
2.3.1.1 Classification basée sur les ports
2.3.1.2 Classification par l’inspection de charge
2.3.1.3 Approche comportementale
2.3.1.4 Approche statistique
2.3.2 Classification du trafic et méthodes d’apprentissage machine
2.3.2.1 Arbre de décision
2.3.2.2 Forêts d’arbres décisionnels (RandomForest Classifier)
2.3.2.3 Machine à vecteurs de support (SVM)
2.3.3 Travaux connexes
2.4 Échantillonnage de trafic
2.4.1 Techniques d’échantillonnage de trafic
2.4.1.1 Échantillonnage systématique
2.4.1.2 Échantillonnage Aléatoire
2.4.1.3 Échantillonnage aléatoire adaptatif
2.4.2 Standard sFlow
2.4.3 Netfow
2.5 Conclusion
CHAPITRE 3 MÉTHODOLOGIE DE RECHERCHE
3.1 Introduction
3.2 Description générale de la plateforme de visualisation de trafic
3.2.1 Modules de la plateforme de visualisation de trafic
3.2.2 Niveaux d’analyse
3.2.2.1 Métriques générales
3.2.2.2 Caractéristiques de la couche transport
3.2.2.3 Caractéristiques de la couche application
3.3 Modèle d’échantillonnage adaptif
3.4 Classification des données massives en temps réel
3.4.1 Approche de classification
3.4.2 Génération des caractéristiques de flux
3.4.3 Sélection de caractéristiques
3.5 La visualisation des données multidimensionnelles
3.6 La visualisation de trafic en temps réel
3.7 Conclusion
CHAPITRE 4 EXPÉRIMENTATION ET RÉSULTATS
4.1 Introduction
4.2 Protocole d’expérimentation et banc d’essai
4.2.1 Environnements de tests
4.2.2 Scénarios de tests
4.2.2.1 Scénario 1 : Test de l’analyse de base des réseaux
4.2.2.2 Scénario 2 : Test de l’analyse de flux
4.2.2.3 Scénario 3 : Test de l’analyse d’application
4.2.3 Outils et bibliothèques
4.3 Résultats
4.3.1 Fonctionnalités du premier niveau
4.3.2 Fonctionnalités au niveau transport
4.3.3 Fonctionnalités au niveau application
4.4 Analyse de performances et évaluation
4.4.1 Analyse de CPU et mémoire
4.4.2 Comparaison de fonctionnalités
4.5 Conclusion
CONCLUSION
ANNEXE I CARACTÉRISTIQUES DE FLUX
LISTE DE RÉFÉRENCES BIBLIOGRAPHIQUES