TECHNIQUES DE FOUILLE DE DONNÉES

INTRODUCTION

Avec l’évolution actuelle de la technologie, nous devenons de plus en plus submergés par de grandes quantités de données quel que soit le domaine impliqué : scientifique, médical, financier….Ces données contiennent une grande quantité d’informations cachées et potentiellement importantes. La fouille de données (ou data mining en anglais) est une branche de l’intelligence artificielle qui regroupe l’ensemble des techniques permettant l’extraction d’informations [1][2]. Ces techniques reposent essentiellement sur l’utilisation de plusieurs algorithmes qui effectuent un apprentissage automatique ou semi automatique sur la base d’un ensemble de données. L’utilisation opérationnelle de ces informations permet de faciliter la résolution de problèmes divers. En effet, les domaines d’application de la fouille de données sont nombreux, surtout dans les pays développés. Mais ses nombreuses possibilités restent encore sous-exploitées à Madagascar, à cause, notamment du manque de moyens convenables (numérisation des données, utilisation de matériels informatiques etc.…). Citons quand même quelques applications potentielles de fouille de données à Madagascar :
– EDM ou Educational Data Mining [3]: C’est une branche de la fouille de données consacrée uniquement à l’éducation. Avec l’adoption du système LMD à Madagascar et la numérisation des données éducationnelles, les possibilités de la fouille de données permettent d’appréhender quelques applications spécifiques comme la prédiction des performances académiques des étudiants [4], ou la détection de fraudes et des anomalies [5].
– Medical data mining[5] : Depuis le tout début, les techniques de fouille de données ont surtout été utilisées dans le domaine médical. Le cas le plus fréquent d’utilisation de la fouille de données en médecine est l’automatisation du processus de diagnostic [6]. Les connaissances extraites sont utilisées pour assister le médecin dans le diagnostic de nouveaux patients dans le but d’améliorer la rapidité, la précision et la fiabilité de ses diagnostics. Avec les nombreuses épidémies qui frappent la population malgache, un diagnostic précis, rapide et fiable peut s’avérer indispensable pour y faire face.
– La fouille de données est aussi utilisée en télédétection, en reconnaissance des formes ou encore en analyse d’images satellites [5]… Cependant, l’utilisation de la fouille de données dans le domaine de l’hydraulique, plus précisément dans le domaine de l’adduction d’eau potable, est encore assez rare. Pourtant, le suivi et l’évaluation des travaux de forages d’eau génèrent un nombre conséquent de données qui peuvent receler des informations très utiles.

La méthodologie standard

Pour éviter une approche hasardeuse ou par tâtonnement du processus de fouille de données, un processus standard est nécessaire, et se doit d’être neutre vis-à-vis du métier, des outils utilisés et du domaine d’application considéré [2]. C’est dans cette optique que le CRISPDM (Cross-industry standard process for data mining) fut créé. Le CRISP-DM est une méthodologie standard et libre, utilisée pour adapter la fouille de données à la stratégie de résolution du problème étudié [2]. Les étapes de cette étude sont inspirées de cette méthodologie. Selon le CRISP-DM [7], un projet de fouille de données a un cycle de vie constitué de 6 étapes. La séquence est adaptative, chaque étape dépend des résultats de l’étape précédente. Une dépendance significative entre les étapes est représentée par une flèche, tandis que la flèche circulaire externe représente la nature itérative du processus. Les différentes étapes du CRISP-DM sont les suivantes [7]:
 Compréhension de la problématique : les objectifs et les critères de réussite sont définis dans cette phase. On y dresse aussi l’inventaire des principales ressources et matériels utilisés dans les phases suivantes.
 Compréhension des données : Cette étape débute par la collecte des données initiales et comprend plusieurs phases exploratoires (analyse statistique, graphes…) pour se familiariser avec les données et évaluer la qualité des données collectées (présence d’erreurs, bruits…).
 Préparation des données : cette étape couvre toutes les activités liées à l’obtention des données finales (qui seront utilisées dans les étapes suivantes) à partir des données collectées. Elle comprend le nettoyage des données, le filtrage des variables, la transformation des données etc.
 Modélisation : elle consiste en l’élaboration des modèles, le choix des algorithmes à utiliser et le réglage des différents paramètres du modèle pour optimiser les résultats.
 Évaluation : cette étape permet de valider ou non les modèles obtenus précédemment et d’évaluer la fiabilité des connaissances extraites ainsi que les performances des algorithmes utilisés.
 Déploiement: cette dernière étape permet de représenter les informations extraites sous une forme plus lisible. Les modèles construits seront rendus opérationnels pour de futures utilisations. La phase la plus importante du processus est la phase de préparation des données. En effet, la qualité des résultats obtenus dépendra essentiellement des données à l’entrée, c’est pourquoi presque la moitié du temps alloué au traitement sera consacrée à cette phase.

LES K PLUS PROCHES VOISINS

L’algorithme des k plus proches voisins (k-ppv) est une méthode de déduction simple utilisée dans diverses applications comme l’apprentissage automatique ou le data mining. Il est robuste et particulièrement efficace pour des ensembles de données assez vastes. L’algorithme des k-ppv est une méthode à base d’exemples qui déduit un nouvel élément à partir des éléments de l’ensemble d’apprentissage. C’est une méthode d’apprentissage, dite apprentissage « paresseux », car la généralisation à partir de l’ensemble d’apprentissage se fait par l’introduction d’un nouvel élément. Avant d’appliquer l’algorithme, le nombre de proches voisins est déterminé à l’avance. La performance de l’algorithme de k-ppv est fortement dépendante de la valeur de k [13]. Une valeur faible de k est facile à implémenter et réduit le temps de calcul tandis qu’une valeur élevée de k amoindrit l’impact des données aberrantes ou bruits présents dans l’ensemble initial. Les k-ppv peuvent être utilisés aussi bien pour la classification que pour la régression. Différentes valeurs de k peuvent entraîner différents résultats.Les coordonnées d’un triangle ou d’un carré représentent les données contenues dans la base. La forme (triangle ou carré) représente la classe de l’élément.

Le traitement des valeurs manquantes

Les valeurs manquantes constituent un problème majeur en fouille de données. De nombreux algorithmes ignorent les observations contenant des données manquantes. Et les modèles créés peuvent être incomplets et/ou imprécis. C’est pourquoi il est nécessaire d’adopter une bonne stratégie pour compléter ces valeurs. Dans notre cas, nous allons adopter 3 attitudes vis-à-vis des valeurs manquantes :
– soit en remplaçant par la moyenne,
– soit en remplaçant par une valeur fixe,
– soit en utilisant l’interpolation par la méthode des K plus proches voisins. La méthode des k plus proches voisins est la suivante : les k observations les plus similaires à l’observation contenant la valeur manquante seront utilisés comme prédicateurs pour estimer la valeur manquante. La démarche que nous avons prise pour le traitement des valeurs manquantes est la suivante : en premier lieu, on vérifie s’il existe des relations (corrélation, dépendance…) entre la variable contenant la valeur manquante et les autres variables. Si oui, on utilise la méthode des kppv en utilisant ces autres variables comme prédicateurs. Dans le cas contraire, soit on utilise une constante fixe, soit on utilise la moyenne.
 Variables continues :
Venue_1 : Le tableau 4 montre qu’il existe une certaine corrélation entre la 1ère venue d’eau et les variables prof et MFT. La méthode des k-ppv a été utilisée pour interpoler les valeurs manquantes, en prenant k=9 et comme prédicateurs les variables prof et MFT.
Venue_2 : on est parti de l’hypothèse que l’absence de valeur signifie l’absence d’une deuxième venue d’eau. Le plus adéquat serait donc de remplacer les valeurs manquantes par 0, après avoir fait préalablement quelques transformations sur la variable. En effet, la variable venue_2 a comme origine la surface terrestre, or pour pouvoir appliquer la stratégie mentionnée, il faut prendre comme origine la profondeur maximale des trous forés, soit 60m. Cette condition est obtenue en soustrayant les valeurs de venue_2 par 60 puis en prenant la valeur absolue. On remplace ensuite les valeurs manquantes par 0. Long,lat : pour les variables longitudes et latitudes, la moyenne est utilisée comme valeur de remplacement.
 Variables discrètes
Morphologie : la morphologie du terrain est une variable discrète, prenant comme valeurs, de la plus faible pente à la plus forte : bas fond (A), dépression (B), talweg (C), plateau (D), plaine (E) et pente (F). La corrélation de Spearman est utilisée pour trouver les corrélations entre une variable discrète et une variable continue. Le tableau 5.1 montre la valeur des coefficients de corrélation de rang de Spearman de la variable morphologie pour chaque variable. Les corrélations significatives au seuil de 0.05 ont été marquées en rouge.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
PARTIE A : RAPPEL THÉORIQUE
CHAPITRE 1 : GENERALITES
1.1 La méthodologie standard
1.2 Les types de fouille de données
1.2.1 Classification
1.2.2 Partitionnement ou clustering
CHAPITRE 2 : ALGORITHMES UTILISÉS
2.1 ARBRE DE DECISION
2.1.1 Définition
2.1.2 Construction de l’arbre
2.1.3 L’algorithme C4.5
a) Limites de ID3
b) Élagage de l’arbre
2.2 CLASSIFICATEUR DE BAYES
2.2.1 Définition
2.2.2 Classification par bayesien naïf
2.3 LES K PLUS PROCHES VOISINS
2.3.1 Introduction
2.3.2 La classification par les k plus proches voisins
2.4 PARTITIONNEMENT OU CLUSTERING
2.4.1 Rappel sur les structures de données utilisées
2.4.2 Partitionnement par les K moyennes
PARTIE B : APPLICATION
CHAPITRE 3 : COMPREHENSION DE LA PROBLEMATIQUE
3.1 Contexte de l’étude
3.2 Objectifs
3.3 Terminologie
3.4 Logiciels utilisés
3.4.1 STATISTICA
3.4.2 WEKA
CHAPITRE 4 : COMPRÉHENSION DES DONNÉES
4.1 Description des données
4.2 Exploration des données
CHAPITRE 5 : PRÉPARATION DES DONNÉES
5.1 Transformation des variables
5.2 Filtrage des données
5.3 Le traitement des valeurs manquantes
5.4 Le filtrage des attributs
5.4.1 Les variables redondantes
5.4.2 La sélection des variables
5.5 Le traitement des données atypiques
CHAPITRE 6 : MODÉLISATION.
6.1 Test et évaluation
6.1.1 Ensemble test
6.1.2 La validation croisée
6.1.3 La Courbe ROC
6.2 Modèle par arbre de décision
6.3 Bayesien naif
6.4 K plus proches voisins
6.5 K moyennes
6.5.1 La méthode du coude
6.5.2 Utilisation des k-moyennes
CHAPITRE 7 : ÉVALUATION
7.1 Évaluation des résultats
7.2 Évaluation des modèles
CHAPITRE 8 : DÉPLOIEMENT
8.1 Déploiement des résultats
8.2 Validité des modèles
CONCLUSION
REFERENCES BIBLIOGRAPHIQUES