Système d’aide au diagnostic

Taux de classification et taux d’erreurs [Chikh, 2005]

Les taux de classification et d’erreurs permettent d’évaluer la qualité du classifieur C par rapport au problème pour lequel il a été conçu. Ces taux sont évalués grâce à une base de test qui contient des formes décrites dans le même espace de représentation E que celles utilisées pour l’apprentissage. Elles sont aussi étiquetées par leur classe réelle d’appartenance afin de pouvoir vérifier les réponses du classifieur. Pour que l’estimation du taux de reconnaissance soit la plus fiable possible, il est important que le classifieur n’ait jamais utilisé les échantillons de cette base pour faire son apprentissage (la base de test ne doit avoir aucun objet en commun avec la base d’apprentissage et les éventuelles bases de validation).

De plus, cette base de test doit être suffisamment représentative du problème de classification [Guyon 19981. En général, quand les échantillons étiquetés à disposition sont suffisamment nombreux, ils sont séparés en deux parties disjointes et en respectant les proportions par classes de la base initiale. Une partie sert pour former la base d’apprentissage et l’autre pour former la base de test. Le découpage le plus courant est de 2/3 pour l’apprentissage et le 1/3 restant pour la base de test. Les performances en terme de taux de classification sont alors déterminées en présentant au classifieur chacun des exemples ej de la base de test et en comparant la classe donnée en résultat C (ej) = s à la vraie classe de ej. En considérant que la base de test contient N objets et que sur ceux-ci N corrects sont biens classés par le système, le taux de classification class est simplement défini par :

Réseaux de neurones et apprentissage

Un RNA est un ensemble de neurones formels (voir annexe c) (d’unités de calcul simples, de noeuds processeurs) associés en couches (ou sous-groupes) et fonctionnant en parallèle. Les réseaux de neurone sont des modèles mathématiques et informatiques, des assemblages d’unités de calculs appelés neurone formels (voir annexe c), et dont l’inspiration originale était un modèle de la cellule nerveuse humain (voir annexe a) Dans un réseau, chaque sous-groupe fait un traitement indépendant des autres et transmet le résultat de son analyse au sous-groupe suivant. L’information donnée au réseau va donc se propager couche par couche, de la couche d’entrée à la couche de sortie, en passant soit par aucune, une ou plusieurs couches intermédiaires (dites couches cachées). Il est à noter qu’en fonction de l’algorithme d’apprentissage, il est aussi possible d’avoir une propagation de l’information en sens inverse (« back propagation »).

Habituellement (excepté pour les couches d’entrée et de sortie), chaque neurone dans une couche est connecté à tous les neurones de la couche précédente et de la couche suivante. Les RNA ont la capacité de stocker de la connaissance empirique et de la rendre disponible à l’usage. La connaissance du réseau va être stockée dans les poids synaptiques, obtenus par des processus d’adaptation ou d’apprentissage. En ce sens, les RNA ressemblent donc au cerveau car non seulement, la connaissance est acquise au travers d’un apprentissage mais de plus, cette connaissance est stockée dans les connexions entre les entités soit, dans les poids synaptiques. Ce chapitre présente les différentes structures des RNA, ainsi ses différents types d’apprentissage et ses problèmes.

Critère d’arrêt de la descente de gradient

Ce dernier critère peut présenter le défaut d’arrêter l’algorithme trop tôt si la fonction présente des plateaux. Le choix du meilleur critère ainsi que le seuil à fixer est généralement trouvé de manière empirique. Il est également possible de prendre une combinaison de ces différents critères. Le choix du coefficient peut être délicat dans certains cas. Par exemple si possède par endroits de grands plateaux, il faudrait avoir un coefficient grand pour pouvoir s’en affranchir avec peu d’itérations. Si en d’autres endroits évolue au contraire très rapidement, il faut qu’il soit faible pour que l’algorithme soit stable. Une variante peut être utile dans ce cas, la descente de gradient adaptative. Dans une descente de gradient adaptative, le coefficient est également ajusté à chaque itération, suivant l’évolution de la valeur de . Si diminue, il est probable que l’on pourrait aller plus vite en augmentant légèrement , et au contraire si augmente, cela veut dire que le coefficient est trop grand et qu’il faut le diminuer. Donc on décide d’augmenter (de 10% par exemple) si diminue, et de le réduire (en le divisant par 2 par exemple) si augmente.

Cette approche permet généralement de réduire le nombre d’itérations requis, et s’est révélée efficace avec tous les réseaux de neurones que nous avons testés. La descente de gradient peut être appliquée de deux manières lorsque l’on évalue la fonction à l’aide d’une base d’exemples. La méthode que nous avons employé, et décrite cidessus, est celle du gradient total. Le vecteur est calculé avec tous les exemples de la base d’apprentissage à chaque itération, et le nouveau vecteur de paramètres est déterminé après avoir parcouru toute la base. Dans une autre méthode, dite du gradient stochastique, le vecteur est calculé avec chaque exemple, et le vecteur de paramètres est recalculé entre chaque exemple. Cette dernière méthode est particulièrement adaptée aux systèmes dits online, pour lesquels les exemples sont communiqués l’un après l’autre pendant l’optimisation, alors que pour la méthode du gradient total il est nécessaire d’avoir la base complète avant de commencer la première itération.

Apprentissage « en ligne » et apprentissage « hors-ligne »

Il existe deux modes principaux d’apprentissage, selon la façon dont les vecteurs de poids synaptiques sont adaptés. Le premier, dit apprentissage « en-ligne », consiste à modifier les valeurs des poids synaptiques immédiatement après la présentation d’un objet ou exemple. Dans ce cas, seul le gradient instantané de la fonction de coût est utilisé pour l’adaptation des paramètres du système. C’est généralement le cas pour l’apprentissage par renforcement qui nécessite une réponse de l’environnement. Dans Le second mode principal d’apprentissage : « hors-ligne » ou « off-line », Le réseau est entraîné à partir d’une base d’apprentissage (généralement une base d’exemples). Ce type d’apprentissage consiste à accumuler les gradients instantanés consécutifs, et à n’effectuer l’adaptation des poids synaptiques que lorsque l’ensemble des objets d’apprentissage ont été présentés au réseau de neurones. On parle alors d’apprentissage « hors-ligne ». Cette dernière méthode permet de mieux estimer le gradient de la fonction de coût, puisqu’il est à présent calculé à partir d’un ensemble d’objets, plutôt qu’à partir d’un seul. Dans l’apprentissage enligne chacune des formes est représenté une seule fois ce qui peut sembler donner un apprentissage plus rapide mais nécessite plus de données d’apprentissage .

Les algorithmes génétiques

La résolution du problème de minimisation de la fonction de cout dans les réseaux de neurones, n‟est pas aisée. Nous avons vu précédemment que les algorithmes utilisés sont plus ou moins robuste face `à la convergence vers une solution globale. Dans la famille des algorithmes stochastiques, beaucoup plus robustes que les algorithmes déterministes, les algorithmes génétiques sont de plus en plus utilises. Ils sont bases sur un phénomène naturel qui a fait ses preuves : l’´evolution. Plus précisément, ils s‟inspirent de l‟évolution d‟une population d‟individus dans un milieu donne. Les AG tirent leur nom de l‟évolution biologique des êtres vivants dans le monde réel. Ces algorithmes cherchent à simuler le processus de la sélection naturelle dans un environnement défavorable en s‟inspirant de la théorie de l‟évolution proposée par C. Darwin.

Dans un environnement, « les individus » les mieux adaptés tendent à vivre assez longtemps pour se reproduire alors que les plus faibles ont tendance à disparaître Par analogie avec l‟évolution naturelle, les AG font évoluer un ensemble de solutions candidates, appelé une « population d‟individus ». Un « individu » n‟est autre qu‟une solution possible du problème à résoudre. Chaque individu de cette population se voit attribuer une fonction appelée fonction d‟adaptation (fitness) qui permet de mesurer sa qualité ou son poids; cette fonction d‟adaptation peut représenter la fonction objectif à optimiser. Ensuite, les meilleurs individus de cette population sont sélectionnés, subissent des croisements et des mutations et une nouvelle population de solutions est produite pour la génération suivante. Ce processus se poursuit, génération après génération, jusqu‟à ce que le critère d‟arrêt soit atteint, comme par exemple le nombre maximal de générations. Ce chapitre est organisé en trois sections. Dans la section 1, le principe du fonctionnement d‟un AG, ainsi que les principaux éléments qui caractérisent un AG standard, dans section2 on va présenter les systèmes hybrides et comment hybridé les AG avec les réseaux de neurones.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Table des matières
Table des figures
Résumé
Abstract
Introduction
1 système d’aide au diagnostic
1.1 Introduction
1.2 Les systèmes d’aide au diagnostic
1.2.1 Définition
1.2.2 L’intérêt d’automatisation d’un diagnostic
1.2.3 Caractéristiques des systèmes d’aide à la décision
1.2.3.1 Nature de l’aide à la décision
1.2.3.2 Mode d’intervention
1.2.4 Bases méthodologiques des systèmes d’aide à la décision
1.2.4.1 différents types de raisonnement
1.2.4.2 différents approches utilisés
1.2.5 Les problèmes des systèmes d’aide à la décision
1.2.6 Exemples de système d’aide à la décision
1.2.3 La classification dans les systèmes ADM
1.3.1 chaine de classification d’objets
1.3.1.1 Les principaux modules de classification d’objets
1.3.1.2 L’extraction des descripteurs
1.3.1.3 Procédure de résolution par apprentissage
1.4 Conclusion
2 réseaux de neurones et apprentissage
2.1 Introduction
2.2 Structure d’interconnexion
2.2.1 Réseaux bouclés
2.2.1.1 Le perceptron monocouche
2.2.1.2 Les perceptrons multicouches
2.2.1.3 Le réseau à fonction radiale
2.2.2 Les réseaux non bouclés
2.2.2.1 les réseaux à couche
2.2.2.2 Les réseaux à compétition
2.2.2.3 Réseau de Hopfield
2.2.3 Choix d’architecture
2.3 Apprentissage des réseaux de neurones
2.3.1 apprentissage supervisé
2.3.1.1 Minimisation itérative d’un critère de l’erreur en sortie
a- Règle de Hebb
b- La règle delta
c- Algorithme d’apprentissage par correction d’erreur ou règle du perceptron
d-règle de la rétro propagation
2.3.2 Apprentissage non supervisé (ou réseaux non bouclés
2.3.2 Apprentissage par renforcement
2.3.4 Apprentissage « en ligne » et apprentissage « hors-ligne
2.3.5 Problèmes d’apprentissage
2.3.5.1minima locaux
2.3.5.2choix d’architecture
2.3.5.3surapprentissage
2.4 Les étapes de conception d’un réseau
2.4.1 Choix d’échantillon
2.4.2 Élaboration de la structure de réseaux
2.4.3 Apprentissage
2.4.4 Validation et test
2.5 Conclusion
3 les algorithmes génétiques
3.1 Introduction
3.2 Les algorithmes génétiques
3.2.1 De la génétique à l’algorithmique
3.2.2 Définition
3.2.3 Les éléments d’un algorithme génétique
3.2.4 Fonctionnement des AGs
3.2.5 Codage et opérateur d’un algorithme génétiques
3.2.5.1 codages
3.2.5.2 initialisation de la population
3.2.5.3 principe de sélection
a-roulette
b-stochastique remaider
c-sélection par tournoi
d-sélection uniforme
e- sélection stochastique uniforme
3.2.5.4 opérateurs de croisement
a-croisement à un point
b-croisement multiple
c-croisement uniforme
d-croisement arithmétique
e croisement discret
f-croisement étendu
g-croisement linéaire
Croisement heuristique
Quel technique choisi
3.2.5.5 opérateurs de mutation
a-mutation uniforme
b-mutation non uniforme
c-mutation gaussien
d-mutation auto-adaptative
3.2.6 amélioration classique
3.2.6.1 introduction
3.2.6.2 Scaling
a-scaling rang
b-scaling linaire
c-scaling exponentielle
d-scaling proportionnel
e-scaling TOP
3.2.6.3 Introduction
3.2.6.4 Principe
3.2.7 choix des paramètres d’un algorithme génétique
3.2.7.1 choix de la taille de population
3.2.7.2 chois des probabilités des opérateurs génétiques
3.2.8 avantage des AGS
3.2.9 inconvenants des AGS
3.3 hybridation des AGs avec RNA
3.3.1 système neuro-genetique
3.3.2 apprentissage paramétrique
3.3.3 apprentissage structurel
3.4 conclusion
4-résultats et interprétation
4.1Introduction
4.2 Électrocardiographie
4.2.1 Caractéristique d’un signal ECG normal.
4.2.3 Anomalies d’un signal ECG
4.2.3.1. Extrasystole ventriculaire
4.2.3.2. Bloc de branches droites
4.2.3.3. Bloc de branches gouches
4.3 Classification des arythmies cardiaques
4.4 Réalisation des classifieurs pour les arythmies cardiaque pour 2 classes
4.4.1 Sélection de la base d’exemples
4.4.2 Sélection des descripteurs d’un cycle cardiaque
4.4.3. Architecture du classifieur neuronal
4.4.3.1 algorithmes d’apprentissage
4.4.3.2 dimensions des réseaux
4.4.4 Apprentissage neuronal
4.4.5 Apprentissage neuro-génétique
4.4.5.1. Choix de paramètres
4.4.5.2. Réalisations des classifieurs neuro-génétique en minimisant l’ERQ
4.4.5.3 .réalisations des classifieurs neuro-génétique en minimisant TCNC
4.4.5.4. Comparaison entre deux méthodes (TCNC te erq
4.4.5.5. Comparaisons entre apprentissage classique et génétique
4.5 Réalisation des classifieurs d’arythmies cardiaques pour 4 classes
4.5.1 Présentation de différentes descripteurs
4.5.2 Sélection de la base d’exemple
4.5.3 Architecture des classifieurs neuronaux
4.5.4 Apprentissage neuronal
4.5.5 Apprentissage génétique
4.5.6 comparaison entre génétique et neuronal
4.5.7 Conclusion
4.6 Apprentissage structurel
4.6.1 Expérimentation
4.6.2 Conclusion
4.7 Conclusion de chapitre
Conclusion
Annexes
Bibliographie