Étude comparative des méthodes ensemblistes de classification des données médicales

Une décision précise et robuste est prise en générale d’une manière consensuelle par un ensemble de décideurs plutôt que de la laisser à une seule personne. Le fait de charger un groupe de décideur plutôt que dans un décideur unique se justifie de deux manières différentes. Une mauvaise décision individuelle se traduit en général par de lourdes conséquences, on cherche donc à obtenir la décision la plus objective possible en ayant recours à des groupes de décideurs pour avoir plusieurs points de vue. La seconde raison pour laquelle on a également recours à un comité de décideurs est que les différents intervenants peuvent n’avoir qu’une vision partielle du problème posé. C’est le cas par exemple d’un groupe de médecins, où les différents membres présents ne sont concernés par q’une ou deux spécialistes. L’accord sur le diagnostic est alors décidé à la majorité parmi les différents intervenants.

Actuellement, l’Apprentissage Automatique tend à s’inspirer de cette approche pour rechercher des algorithmes permettant de construire des ensembles de classifieurs (Ensemble Learning, Commitee Learning). L’objectif est d’obtenir un nouveau classifieur, constitué d’un ensemble de prédicteurs de base, de manière à diminuer le nombre d’exemples mal classés tout en conservant un temps de calcul raisonnable.

La littérature est très riche et diverse. L’idée de combiner les sorties des classifieurs pour créer un système avec une fiabilité élevée n est pas nouvelle ; les chercheurs attribuent la première application de combinaison des réseaux de neurones à Nilsson. Le véritable intérêt pour la combinaison de classifieurs date en fait des années 80, avec en particulier les travaux de [55] qui ont montré l’ importance d’avoir des solutions robustes pour les problèmes de reconnaissance de l écriture manuscrite en particulier En 1989, Clemen citait déjà plus de 200 travaux reliés à la combinaison de classifieurs [54]. Cependant, ce n est qu’à partir des années 90 que les systèmes de combinaison de classifieurs ont été concrètement mis en œuvre. L’étude de ces techniques est d’un grand intérêt pour obtenir des performances supérieures à celles d’un seul classifieur.

Taxonomies des méthodes de combinaison

a. Différentes taxonomies des méthodes de combinaison ont été proposées dans la littérature [18] et [19]. Suivant les auteurs, les taxonomies mettent en avant le type de sorties des classifieurs combines, la capacité d’apprentissage des méthodes de combinaison ou les stratégies de combinaison choisies.

b. Dans [20], les méthodes qui fusionnent des classifieurs de type mesure sont divisées en deux groupes selon la quantité d’information à exploiter pour produire la réponse finale. Les méthodes appelées class conscious comme la règle du produit ou la moyenne. Les méthodes appelées class-indifférent utilisent toutes les informations des classifieurs dans la prise de décision finale.

c. Dans [21], les méthodes de type rang ont été divisées en deux groupes. Le premier groupe de méthodes est base sur la réduction de l’ensemble des classes. Son objectif est de réduire l’ensemble de classes de départ mais en s’assurant que la vraie classe existe toujours dans le sous-ensemble final réduit. Le deuxième groupe de méthodes consiste à réordonner les classes de telle façon que la vraie classe soit rangée dans les premières propositions de la liste de solutions. Les méthodes de type rang sont divisées selon la taxonomie de Ho [21] ; deux approches sont possibles: celles permettant de réduire l’ensemble des classes et les méthodes permettant de réordonner les classes.

d. Dans [22], une autre taxonomie des methodes de combinaison de classifieurs est proposée. Cette taxonomie est divisée en deux niveaux. Dans le premier niveau on trouve les méthodes de sélection dont le rôle est de choisir les classifieurs en fonction de certains critères (le taux de reconnaissance de l’ensemble, la corrélation entre les sorties des classifieurs,…). Les sorties de ces classifieurs sont fusionnées par l’une des méthodes du deuxième niveau. Ces méthodes de fusion sont classées en fonction du type des sorties de classifieurs.

e. Moobed [23] distingue plutôt les méthodes de combinaison de type rang par le type de résultats qu’elles fournissent (type ensemble, type rang ou type mesure). Alors que les taxonomies se distinguent généralement par le type des sorties des classifieurs à combiner (propriété de classification) .

f. Xu [24] distingue les méthodes de combinaison uniquement par le type de sorties des classifieurs (classe, rang, mesure) présentées en entrée de la combinaison. Le type de sorties des classifieurs est un critère qui apparait pratiquement dans toutes les taxonomies présentées dans la littérature. La prise en compte de ces niveaux différents d’information influence directement la complexité des méthodes de combinaison développées.

g. Jain [19] construit une taxonomie suivant trois critères d’égale importance : le type de sorties des classifieurs, l’adaptabilité des méthodes de combinaison (capacité à exploiter l’expertise des classifieurs) et leur capacité d’apprentissage. Ce dernier critère est aussi utilise par d’autres chercheurs [25] pour séparer les méthodes de fusion.

h. Duin [18] distingue, quant à lui, dans les méthodes de fusion, les méthodes de combinaison de classifieurs hétérogènes (différents) des méthodes de combinaison de classifieurs faibles (homogènes). l’intérêt des méthodes de combinaison de classifieurs faibles réside dans la combinaison de classifieurs ayant la même structure mais entrainés sur des données différentes ou initialises de manière différente.

i. D’autres critères comme la nature des classifieurs sont aussi utilises [26]. Selon [26], les informations utilisées par les méthodes de combinaison parallèle sont liées au type de classifieurs à combiner et à leur réponse individuelle. Cette réponse peut être une classe, une probabilité, une confiance, une connaissance ou une information floue.

j. Dans les méthodes de fusion, on distingue les méthodes dites figées ou nonparamétriques (les sorties des classifieurs sont combinées dans un schéma dont les paramètres sont invariables) des méthodes avec apprentissage qui cherchent à apprendre, sur les données disponibles, les paramètres nécessaires a la combinaison. Enfin, la complexité de ces méthodes peut varier en fonction du niveau d’information associe aux réponses fournies par les classifieurs à combiner (sortie de types classe, rang ou mesure).

L’apprentissage automatique

L’apprentissage Automatique Parmi les nombreuses disciplines représentées en informatique, l’Apprentissage Automatique, ou Machine Learning en anglais, désigne la recherche et l’étude d’algorithmes permettant à une machine de réaliser l’induction automatique de règles à partir d’un ensemble d’exemples. Ce domaine de l’intelligence artificielle est proche des statistiques, de la fouille de données et de la reconnaissance de formes. Pour résoudre des problèmes issus du monde réel, la machine doit apprendre à produire la sortie désirée lorsqu’on lui présente un vecteur d’entrées particulier. On distingue en général les problèmes de régression et les problèmes de classification. Pour les problèmes de régression, la sortie à calculer a une valeur continue. Réaliser une estimation du chiffre d’affaire d’une entreprise à partir d’un ensemble de variables concernant ses activités est une illustration possible de ce type de problèmes. Les problèmes de classification, quant à eux, cherchent à exprimer une sortie correspondant à une étiquette ou à un groupe, à valeur dans un ensemble fini. La reconnaissance de caractères manuscrits, où l’étiquette correspond alors à l’une des vingt-six lettres de l’alphabet, est l’une des nombreuses applications usuelles de ce type de problème.

Principe de la classification

La classification est une discipline qui consiste à regrouper divers objets (les individus) d’une série de caractéristiques prédéfinies par apprentissage en sous ensembles d’objets (les classes).

Principe de la classification binaire

Chaque point de formation appartient à l’un des 2 différentes classes. L’objectif est de construire une fonction qui, compte tenu d’un nouveau Point de données, prédit correctement la classe à laquelle le Un nouveau point appartient.

Principe de la classification Multi-class

Il existe de nombreux scénarios dans lesquels il existe plusieurs classes aux quels les points appartiennent, ce problème se décompose trivialement en un ensemble de problèmes binaires non liés, qui peut être résolu naturellement en utilisant nos techniques de classification binaire.

Classification binaire vs Multi class

Dans la plupart des cours d’initiation à l’apprentissage automatique, les classificateurs binaires sont souvent le foyer en raison de leur présentation plus simple. Cependant, de nombreux problèmes ont en soi plus de deux résultats possibles. Par exemple, on veut peut-être former un système de vérification du visage qui peut détecter l’identité d’une photo d’un groupe de personnes. Ce type de problème est connu comme un problème de classification «multi-class».

La plupart des définitions mathématiques des classiffieurs sont initialement posées comme classificateurs binaires, y compris le SVM. Ainsi, il existe deux approches principales du problème multiclass: Ajoutez directement une extension multiclass à un classiffieur binaire.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
CHAPITRE I : Etude des méthodes ensemblistes
I.1. Introduction
I.2. Les travaux dans le domaine
I.2.1 Taxonomies des méthodes de combinaison
I.2.2 L’apprentissage automatique
I.2.2.1 Principe de la classification
I.2.2.2 Principe de la classification binaire
I.2.2.3 principe de la classification multi-class
I.2.2.4 Classification binaire vs Multi-class
I.3. Présentation des méthodes ensemblistes
I.3.1 Définition du Classifieur
I.3.2 Les sorties d’un classifieur
I.3.3 Mesures de performances d’un classifieur
I.4 L’intérêt de la combinaison des classifieurs
I.4.1 Définition de combinaison
I.4.2 Les types de combinaison des classifieurs
I.5 Amélioration de la précision
I.5.1 Le compromis entre le biais et la variance
I.6 La manière de combiner les classifieurs
I.6.1 Solution
I.7 Optimisation d’ensembles de classifieurs
I.8 Méthodes ensemblistes
I.8.1 Les types
I.8.1.1 Ensemble de classifieurs homogènes
I.8.1.2 Ensemble de classifieurs hétérogènes
I.9 Conclusion
CHAPITRE II : Principe des méthodes utilisées
II.1 Introduction
II.2 Approche ensembliste médicale
II.3 Ensemble de classifieurs homogènes
II.3.1 Bagging
II.3.2 Boosting
II.3.3 Les forêts aléatoires
II.3.3.1 Les arbres de décision
II.3.3.2 Principe des forêts aléatoires
II.4 La différence entre les trois classifieurs
II.4.1 Étude comparative entre Bagging et Boosting
II.4.2 Avantages et inconvénients
II.5 Ensemble de classifieurs hétérogènes
II.5.1 Vote majoritaire
II.5.2 Vote pondéré
II.5.3 Majorité pondérée
II.6 Conclusion
CHAPITRE III : Expérimentations et Résultats
III.1Introduction
III.2 Bases de données
III.2.1 Colon
III.2.2 breast cancer-wisconsin
III.2.3 Pendigits
III.2.4 Heart
III.2.5 Hepatite
III.3 Matériels et méthodes
III.4 Mesures de performance
III.5 Expérimentation 1
III.5.1. Les résultats de bagging au niveau des bases de données
III.5.1.2 Interprétation des résultats concernant le bagging
III.5.2 Les résultats de boosting « AdaBoostM1 » au niveau des bases de données
III.5.2.1 Interprétation des résultats concernant le boosting « AdaBoostM1 »
III.5.3 Les résultats de random forest au niveau des bases de données
III. 5.3.1 Interprétation des résultats
III.6. Comparaison des résultats
III.6.1. Interprétation général des résultats
III.7. L’exécution des trois méthodes d’ensembles sur les 5 bases de données dans le même temps
III.7.1 L’expérimentation 02
III.8. Interprétation des résultats
III.9 Conclusion
Conclusion générale