Définition de l’Extraction de Connaissances

L’extraction de connaissances et data mining consiste à donner un sens aux grandes quantités de données, d’un certain domaine, capturées et stockées massivement par les entreprises d’aujourd’hui. En effet, la vraie valeur n’est pas dans l’acquisition et le stockage des données, mais plutôt dans notre capacité d’en extraire des rapports utiles et de trouver des tendances et des corrélations intéressantes pour appuyer les décisions faites par les décideurs d’entreprises et par les scientifiques. Cette extraction fait appel à une panoplie de techniques, méthodes, algorithmes et outils d’origines statistiques, intelligence artificielle, bases de données, etc. Cependant, l’activité de l’extraction de connaissances et data mining a été rapidement organisée sous forme d’un processus appelé processus d’ECD (Extraction de Connaissances à partir de Données). Ce chapitre consiste à l’explication de l’extraction de connaissances et de data mining. Pour ce faire, on va suivre le plan suivant : premièrement, on va définir l’ECD, expliquer les étapes du processus et ses tâches. Puis on va présenter le format des données d’entrées dans ce processus ainsi que l’entrepôt où l’on stocke ces données avant de lancer le processus. Après on parlera du data mining qui est l’étape le plus importante dans le processus d’extraction de connaissances dans la base de données.

Définition de l’Extraction de Connaissances

L’ECD (Extraction de Connaissances à partir de Données) est un processus pour la découverte de nouvelles connaissances sur un domaine d’application donné. L’ECD est également défini comme étant un processus non trivial qui permet d’identifier, dans des données, des patterns ultimement compréhensibles, valides, nouveaux et potentiellement utiles. [1]

Le processus d’extraction de connaissances

Le processus d’ECD vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Ces connaissances peuvent s’exprimer sous forme de concepts généraux qui enrichissent le champ sémantique de l’usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d’un rapport ou d’un graphique. Elles peuvent s’exprimer comme un modèle mathématique ou logique pour la prise de décision. Les connaissances extraites doivent être les plus intelligibles possibles pour l’utilisateur. Elles doivent être validées, mises en forme et agencées. [1] [2]

Le processus d’ECD s’effectue sur plusieurs étapes interrompues continuellement par des prises de décision par l’utilisateur expert. Il nécessite sommairement la préparation des données, la recherche de patterns et l’évaluation des connaissances extraites et leur raffinement, toutes répétées dans plusieurs itérations. [1]

Compréhension du domaine d’application
Ceci consiste à développer une compréhension du domaine d’application et des connaissances pertinentes préalables. Cette étape prépare l’analyste pour comprendre et définir les objectifs opérationnels du processus d’ECD du point de vue des utilisateurs immédiats de ses résultats.

Création d’un jeu de données cibles
L’analyste doit sélectionner les données à utiliser et les attributs pertinents pour la tâche de fouille de données.

Nettoyage des données et prétraitement
Cette étape vise la préparation d’un jeu de données « propre » et bien structuré. Elle comprend des opérations de base telles que : l’élimination des données bruyantes, recueil des informations nécessaires pour modéliser et tenir compte du bruit, choix des stratégies de traitement des valeurs manquantes, ainsi que de décider des questions sur la base de données à utiliser.

Réduction et projection des données
Il s’agit de trouver des attributs utiles pour représenter les données en fonction de l’objectif de la tâche d’extraction, et d’utiliser des méthodes de réduction de dimensionnalité ou de transformation afin de réduire le nombre effectif de variables d’étude et dégager de nouvelles variables plus pertinentes. Cette étape est très importante pour la réussite du projet d’ECD et doit être adaptée en fonction de la base de données et des objectifs opérationnels du projet.

Choix de la tâche de fouille
Cette étape consiste à faire correspondre les objectifs opérationnels du processus d’ECD à une tâche particulière de fouille de données, comme la classification, la régression, le clustering, ou la description et synthèse de données.

Choix des algorithmes de fouille de données appropriés
Il consiste à sélectionner les méthodes à utiliser pour la cherche de patterns dans les données, décider quels sont les modèles et paramètres appropriés, et conclure par le choix d’une méthode particulière de fouille de données en accord avec le critère global du processus d’ECD.

Fouille de données ou data mining
Il s’agit d’exécuter la ou les méthodes choisies avec leurs paramètres afin d’extraire des patterns d’intérêt sous une forme de représentation particulière. Par exemple des règles ou arbres de classification, des modèles de régression, des clusters, et autres. Parfois, il sera nécessaire d’appliquer la méthode de fouille plusieurs fois pour obtenir le résultat escompté.

Interprétation des patterns extraits
Cette étape comprend l’évaluation et l’interprétation des modèles découverts dans les données. Il peut être nécessaire de retourner à l’une des étapes 1 à 7 pour des itérations éventuelles. Cette étape donne l’occasion de revenir sur les étapes précédentes, mais aussi d’avoir une représentation visuelle des patterns, de supprimer les patterns redondants ou non représentatifs et de transformer le résultat en informations compréhensibles par l’utilisateur final.

Consolidation des connaissances extraites
C’est l’étape de consolidation des connaissances extraites en utilisant directement ces connaissances, en les incorporant dans d’autres systèmes pour des actions ultérieures, ou simplement en les documentant et les rapportant aux utilisateurs concernés. Ceci inclue également la détection et la résolution de tout conflit potentiel avec d’autres connaissances déjà confirmées ou extraites.

Les différentes tâches de l’Extraction de Connaissances

La tâche représente le but, ou l’objectif, d’un processus d’ECD. On distingue dans la pratique deux tâches primaires de haut niveau : la prédiction et la description. La prédiction consiste à utiliser des variables ou des champs dans la base de données pour prédire des valeurs futures ou inconnues d’autres variables d’intérêt. Alors que la description se concentre sur la recherche de patterns (modèles, schémas ou règles) décrivant les données et interprétables par l’utilisateur. Bien que les limites entre la prédiction et la description ne soient pas nettes, la distinction entre ces deux tâches est utile pour la compréhension de l’objectif global du processus d’ECD. [3] Les tâches de prédiction et de description peuvent être réalisées en utilisant une grande variété de méthodes de fouille de données à savoir :
• la segmentation ou clustering,
• la classification,
• la régression,
• analyse de dépendances,
• etc.

Les données d’entrées

Les données qui font l’objet de tâches de fouilles se présentent suivant différents formats. Nous en distinguerons trois principaux : les tableaux utilisés en fouille de données, les textes bruts et les documents semi-structurés. [2]

Les tableaux
Commençons donc par les tableaux exploités en fouille de données. Cette discipline est née notamment dans les milieux des banques, des assurances et de la médecine, domaines qui ont intégré depuis longtemps l’usage des bases de données informatiques. Dans un tableau de données, chaque instance est décrite par un certain nombre d’attributs typés (ou de champs). Les différents types possibles des attributs sont les types élémentaires traditionnels de l’informatique : booléen, caractère, nombre, chaîne de caractères, valeur prise dans une liste finie… La valeur prise par un attribut peut être obligatoire ou facultative. Notons dès à présent qu’il existe différentes terminologies pour décrire les éléments de telles bases de données tabulaires. Le plus souvent, les lignes du tableau sont appelées les exemples, et les colonnes les attributs. On peut également considérer qu’il s’agit d’objets décrits par des valeurs sur plusieurs dimensions, ou bien de points décrits par leur cordonnées.

Textes bruts
Les textes, même numérisés, ne présentent pas du tout les mêmes propriétés que les tableaux de données. En termes de structures, ils semblent même situés à l’opposé du « spectre » : autant les tableaux ont un haut degré d’organisation, autant les textes sont apparemment faiblement structurés. Et ceci d’autant plus qu’en fouille de textes, on ne s’intéressera principalement qu’à des textes bruts, c’est-à-dire de simples séquences de caractères d’où toute mise en forme est absente. Tout ce qui ne vise qu’à la visualisation (police et taille des caractères, mises en gras ou en italique, alignement de la page, sauts de lignes, etc.) ou à la structuration d’un document (en parties, sous-parties et paragraphes, en listes et énumérations etc.) et constitue la raison d’être des traitements de textes est en effet dans ce cas complétement ignoré. Un texte brut est un simple fichier au format « .txt », uniquement constitué de caractères pris parmi un ensemble fini, codés suivant une certaine norme. Les caractères sont les atomes indivisibles du fichier ; ils sont dits alphanumériques car ils intègrent aussi bien les lettres de l’alphabet et les symboles numériques et mathématiques que tous ceux pouvant être tapés sur un clavier d’ordinateur : ponctuations, symboles monétaires, etc… Toutes les unités d’écriture des langues non alphabétiques (idéogrammes) sont aussi considérées comme des caractères indivisibles, si le codage adopté les accepte comme tels. Ainsi, dans un texte brut, la seule structure présente est l’ordre linéaire dans lequel les caractères apparaissent.

Documents semi-structurés
Le troisième format possible pour les données d’entrée d’un programme de fouille de données est intermédiaire entre les précédents : il est plus structuré qu’un texte brut, mais moins qu’un tableau, et on l’appelle parfois pour cela « semi-structuré » : c’est celui des documents XML (Extensible Markup Language). En fait, rien n’empêche de traiter un document en XML exactement de la même façon qu’un texte brut : il suffit pour cela d’admettre que les éléments propres au langage utilisé (principalement les balises ouvrantes et fermantes) soient considérés comme des caractères indivisibles supplémentaires, qui s’ajoutent aux autres.

Entrepôt de données

Plus précisément, le contexte informationnel du Data Mining est celui des Data Warehouses. Un entrepôt de données, dont la mise en place est assurée par un gestionnaire de données, est un ensemble de bases relationnelles ou cubes multidimensionnels alimenté par des données brutes et relatif à une problématique :
✦ gestion des stocks, prévision des ventes afin d’anticiper au mieux les tendances du marché ;
✦ suivi des fichiers clients d’une banque, d’une assurance, associés à des données socioéconomiques, à l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des opérations de marketing ou des attributions de crédit. La gestion de la relation client vise à une individualisation ou personnalisation de la production et de la communication afin d’évacuer la notion de client moyen jugée trop globalisante ;
✦ recherche, spécification, puis ciblage des niches de marché les plus profitables ou au contraire les plus risquées (assurance) ;
✦ suivi en ligne des paramètres de production en contrôle de qualité pour détecter au plus vite l’origine d’une défaillance ;
✦ prospection textuelle (Text Mining) ;
✦ Web Mining ;
✦ décryptage d’une image astrophysique, du génome ;
✦ etc…

Un entrepôt de données se caractérise par un environnement informatique hétérogène pouvant faire intervenir des sites distants à travers le réseau de l’entreprise (intranet) ou même des accès extérieurs (internet). En effet, des contraintes d’efficacité (suivi en temps réel), de fiabilité ou de sécurité conduisent à répartir et stocker l’information à la source plutôt qu’à la dupliquer systématiquement ou à la centraliser. [4]

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION GENERALE
CHAPITRE 1 EXTRACTION DE CONNAISSANCES
1.1 Introduction
1.2 Définition de l’Extraction de Connaissances
1.3 Le processus d’extraction de connaissances
1.3.1 Compréhension du domaine d’application
1.3.2 Création d’un jeu de données cibles
1.3.3 Nettoyage des données et prétraitement
1.3.4 Réduction et projection des données
1.3.5 Choix de la tâche de fouille
1.3.6 Choix des algorithmes de fouille de données appropriés
1.3.7 Fouille de données ou data mining
1.3.8 Interprétation des patterns extraits
1.3.9 Consolidation des connaissances extraites
1.4 Les différentes tâches de l’Extraction de Connaissances
1.5 Les données d’entrées
1.5.1 Les tableaux
1.5.2 Textes bruts
1.5.3 Documents semi-structurés
1.6 Entrepôt de données
1.7 Data Mining
1.7.1 Définition 1
1.7.2 Définition 2
1.7.2.1 Les techniques descriptives
1.7.2.2 Les techniques prédictives
1.8 Les objectifs des méthodes de Data Mining
1.8.1 Classifier
1.8.2 Estimer
1.8.3 Segmenter
1.8.4 Prédire
1.9 Architecture d’un système type de Data Mining
1.10 Les tâches de Data Mining
1.10.1 La description
1.10.1.1 Principe
1.10.1.2 Intérêt
1.10.1.3 Méthode
1.10.2 La classification
1.10.2.1 Principe
1.10.2.2 Intérêt
1.10.2.3 Méthodes
1.10.3 L’association
1.10.3.1 Principe
1.10.3.2 Intérêt
1.10.3.3 Méthode
1.10.4 L’estimation
1.10.4.1 Principe
1.10.4.2 Intérêt
1.10.4.3 Méthodes
1.10.5 La segmentation
1.10.5.1 Principe
1.10.5.2 Intérêt
1.10.5.3 Méthode
1.10.6 La prévision ou prédiction
1.10.6.1 Principe
1.10.6.2 Intérêt
1.10.6.3 Méthode
1.11 Processus de Data Mining
1.12 Typologie des méthodes de fouilles de données
1.12.1 Apprentissage supervisé
1.12.2 Apprentissage non supervisé
1.13 Utilisations de data mining
1.14 Conclusion
CHAPITRE 2 APPRENTISSAGE AUTOMATIQUE
2.1 Introduction
2.2 Définition de l’apprentissage automatique
2.3 Principe
2.4 Types d’apprentissage
2.4.1 L’apprentissage supervisé
2.4.2 L’apprentissage non-supervisé
2.4.3 L’apprentissage par renforcement
2.5 Applications
2.6 Facteurs de pertinence et d’efficacité
2.7 Les algorithmes utilisés
2.7.1 Les machines à vecteur de support
Présentation
Fonctionnement
Les Régressions à vecteur de supports
2.7.2 Le boosting
Définition
Fonctionnement
2.7.3 Les k plus proches voisins
Algorithme
Distance
Propriétés de la distance
2.7.4 Les réseaux de neurones
Définition
Le Neurone Formel
Interprétation mathématique
2.7.5 Les arbres de décision
Présentation
Construction des arbres de décision
Avantages
Inconvénients
2.7.6 Le Bagging
Présentation
Algorithme de Bagging
2.8 Conclusion
CHAPITRE 3 MODELISATION DES REGLES ET PATTERNS DANS UN SYSTEME D’APPRENTISSAGE SUPERVISEE POUR LA PREDICTION
3.1 Introduction
3.2 Principe de l’apprentissage supervisé
3.3 Objectif de l’apprentissage
3.4 Jeu de données
3.4.1 Choix des jeux de données de test et d’apprentissage
3.4.2 Validation simple
3.4.3 Validation croisée
3.5 Évaluation de l’apprentissage
3.5.1 Matrice de confusion
3.5.2 Receiver Operating Characteristic
Principe
Exploitation de la courbe
Construction de la courbe ROC
3.5.3 Quelques indicateurs
3.6 Classification supervisée
3.6.1 Classification
3.6.2 Principe de la classification supervisée
3.6.3 Condition de la classification et prédiction
3.6.4 L’erreur apparente
3.6.5 Les méthodes de classification supervisée
Le classifeur naïf de Bayes
Méthodes paramétriques et non paramétriques
Minimiser l’erreur apparente
Choix de l’espace des hypothèses
Estimer l’erreur réelle
Utilisation d’un ensemble Test
Re-échantillonage
3.7 Régression
3.7.1 Le modèle linéaire gaussien
3.7.2 Régression linéaire simple
3.7.3 Régression linéaire multiple
Objectif
Modélisation
Ecriture matricielle
CONCLUSION GENERALE