Descripteurs de Fourier inspirés de la structure du cortex visuel primaire humain

Descripteur de point d’intérêt

Une fois les points détectés et qu’on leur ait associé des facteurs d’échelle et des orientations, et assuré leur invariance aux changements d’échelles et aux rotations, on calcule un descripteur pour chaque point. À cette occasion, Lowe propose des traitements supplémentaires permettant de rendre également les descripteurs invariants à d’autres transformations telles que les changements affines de l’éclairage et de point de vue 3D, etc.Cette étape est réalisée sur l’image lissée avec le paramètre de facteur d’échelle le plus proche de celui du point considéré. Afin de garantir l’invariance à la rotation, on modifie le système de coordonnée local autour du point d’intérêt considéré, en utilisant une rotation d’angle égal à l’orientation du point,mais de sens opposé. À partir d’une fenêtre , toujours autour de ce point, on calcule l’histogramme des orientations par sous-fenêtres de taille , orientés selon l’orientation principale du point calculée dans l’étape antérieure. En chaque point de ces sous-fenêtres, l’orientation et la norme du gradient sont calculés comme précédemment. L’orientation détermine l’intervalle à incrémenter dans l’histogramme, ce qui nécessite, d’une part, une pondération par la norme du gradient, et d’autre part, par un noyau gaussien centré au point d’intérêt et d’écart type fois la taille de la fenêtre de calcul du descripteur.

Evaluation des descripteurs de Fourier

Pour évaluer les descripteurs de Fourier que nous avons définis dans la partie théorique (chapitre 3), nous mettons en place différentes expérimentations sur des bases d’images standards. Nous commencerons par étudier la capacité de discrimination chez ces descripteurs en les évaluant sur une base d’images synthétiques, ensuite nous comparerons leurs performances avec celles des descripteurs locaux et globaux en les testant sur des bases de visages comme RL7, CVL [75], ORL [64], Shieffeld et Extended Yale b[31], et sur une base d’images d’objets variés larges comme COIL-100 [51]. Enfin, nous évaluerons ces descripteurs de Fourier pour une problématique de reconnaissance de navires dans un contexte de surveillance maritime.
Les bases d’images utilisées
a. Base d’images synthétiques :La première base d’images de test est composée des images de quelques formes géométriques simples (triangles, rectangles, étoiles, ellipses ….) .
b. Base de visages RL :La base de visages RL a été construite par le laboratoire RL (Robotics Laboratory,Department of Computer Science and Information Engineering), basé à l’université nationale de Cheng Kung, Taiwan. Elle contient 6660 images de 90 sujets. Chaque sujet a 74 images, où 37 images ont été prises tous les 5 degrés du profil droit (défini par +90°) au profil gauche (défini par -90°) dans le plateau de rotation (Figure 47). Les 37 images restantes sont générées (synthétisées) par les 37 images existantes à l’aide d’un logiciel commercial de traitement d’images afin d’obtenir les images symétriques. Les images suivantes constituent un exemple de cette base de données, avec des rotations de 0° (frontal) -> -90° (profil de gauche) .
c. Base de visages CVL :La base CVL a été collectée par le chercheur Peter Peer, membre du Computer Vision Laboratory (CVL) à l’université de Ljubljana, Slovénie. Elle contient 114 personnes dont 90% sont de sexe masculin et avec un âge moyen de 18 ans, chacune étant enregistrée sous 7 vues différentes avec des expressions faciales différentes (Figure 48 et Figure 49). Les images sont en couleur de taille pixels. Pour tous les sujets, les images ont été collectées dans des conditions d’éclairage uniformes avec des variations de poses et d’expressions faciales. Parmi ces vues, trois seulement sont de face.
d. Base de visages ORL :Cette base de données de visage a été créée au laboratoire AT&T, basé à Cambridge (Figure 50). Elle contient 40 personnes de sexe différent. Les images sont de taille pixels. 10 vues différentes de chaque sujet ont été collectées (Figure 51). Ces vues présentent différentes poses et expressions faciales (expression neutre, sourire et yeux fermés) et des occlusions partielles par des lunettes, sous des conditions de luminosité variables.
e. Base de visages Sheffield :La base de visages Sheffield (auparavant UMIST) est composée de 564 images de 20 individus (race/genre/apparence mixtes), chacun représenté dans un intervalle de poses,allant des vues de profil aux vues frontales (Figure 52). Les images des visages sont sous le format PGM et sont de taille pixels.
f. Base de visages Extended Yale B :La base extended Yale B est une verison étendue de la base de visages Yale B construite par l’université de Yale. Cette base est considérée comme la base standard pour l’évaluation de la robustesse des systèmes de biométrie faciale en cas de conditions d’illumination variables (Figure 53). Elle est composée de 16128 images faciales de 10 personnes, chacune enregistrées sous 9 poses et 64 conditions différentes d’éclairages (en total 576 images par individu). Le format des images de cette base est le même que celui des images de la base d’origine Yale B : format GIF en niveaux de gris.
g. Base d’images COIL-100 :Coil-100 (Columbia Object Image Library) est composée de 7200 images couleur de taille de 100 objets différents (Figure 54). Chaque image est composée d’un fond noir et chaque objet est pris sous 72 angles de vue différents (Figure 55). Cette base, utilisée dans des travaux similaires [74], peut être qualifiée de « facile » car le seul contenu fréquentiel est celui de l’objet d’intérêt. De plus, les objets ont souvent un contenu très géométrique.
Extraction des descripteurs Comme démontré dans le théorème 5.1, l’égalité des descripteurs de Fourier que nous avons introduite, ne dépend pas du choix de l’ondelette mère . Par conséquent, dans notre implémentation, nous avons calculé uniquement les quantités introduites dans le théorème 5.1, dont la complexité est réduite au calcul efficace du vecteur , pour donnée. Nous rappelons que ce vecteur est obtenu par l’évaluation de la transformée de Fourier de sur l’orbite de sous l’action des rotations discrètes pour . D’un point de vue théorique, l’utilisation d’une ondelette mère spécifique permet d’améliorer les performances en termes de discrimination du descripteur. Les tests préliminaires que nous avons réalisés en utilisant une ondelette de Gabor, ont effectivement montré une amélioration sensible mais pour des coûts de calcul plus importants. Pour l’implémentation, nous choisissons de considérer et de travailler avec des images composées de pixels hexagonaux. Il y a deux raisons pour ce choix :
– Il est bien connu que les cellules rétiniennes sont réparties sur une grille hexagonale, et il est donc raisonnable de supposer que les activations corticales reflètent ce fait.
– Les grilles hexagonales sont invariantes sous l’action de et les translations discrétisées. En effet, à part le réseau hexagonal, les seules autres grilles sur qui sont invariantes par certaines et par des translations discrètes appropriées, sont obtenues avec . sont décrites dans la Figure 56 et données de la façon suivante :
1. L’image d’entrée est convertie en mode niveau de gris, la transformée de Fourier est calculée, et la composante de fréquence zéro est décalée au centre du spectre. (Figure 56 S1).
2. Pour des raisons de coût de calcul et puisque nous traitons des images naturelles,dont les fréquences concernées sont les basses, nous extrayons une grille de pixels autour de l’origine (Figure 56 S2).
3. Les invariants du théorème 5.1 sont calculés à partir des valeurs de la transformée de Fourier décalée (FFTSHIFT), sur toutes les fréquences dans un maillage hexagonal à l’intérieur de cette grille de taille pixels. Une interpolation bilinéaire est appliquée pour obtenir les valeurs correctes de (Figure 56 S3, S4, S5, S6). La dimension finale du vecteur descripteur est donnée dans le Tableau 1.
Expérimentations
-Protocole de test :Nous utilisons nos descripteurs de Fourier pour alimenter un classifieur de type SVM, en l’appliquant sur les différentes bases d’images. Finalement, nous comparons les résultats obtenus avec ceux obtenus via des descripteurs traditionnels. Le résultat de l’étape d’apprentissage consiste en l’ensemble des vecteurs supports SVM. Durant l’étape de décision, le classifieur calcule les descripteurs de Fourier et le modèle déterminé durant l’étape d’apprentissage est utilisé pour réaliser la décision du SVM. La sortie est la classe image. Nous évaluons séparément le taux de reconnaissance obtenu en utilisant les quatre descripteurs cités précédemment et la combinaison des deux invariants RPS et BS afin de tester leur complémentarité. Ensuite, nous comparons leur performance avec les moments de Hu (HM), les moments de Zernike (ZM), les descripteurs de Fourier-Mellin (FM), décrits dans l’état de l’art, nous avons comparé aussi avec des descripteurs locaux comme SIFT et HOG. Le classifieur SVM que nous avons utilisé est basé sur un noyau Gaussien dont la taille est fixée empiriquement afin de maximiser le taux de reconnaissance. Les performances des différents descripteurs invariants sont analysées en fonction du taux de reconnaissance. Par conséquent, pour un ratio donné, les ensembles d’apprentissage et de test ont été construits en divisant aléatoirement tous les exemples. Puis, en raison du caractère aléatoire de cette procédure, de multiples essais ont été effectués avec différents tirages au hasard de l’ensemble d’apprentissage et de test. Dans le cas ou un bruit est ajouté, puisque comme mentionné précédemment l’ensemble d’apprentissage comprend toutes les images, cette procédure est appliquée uniquement à l’ensemble de test. Les paramètres fixés pour nos expérimentions sont les suivant :
*L’ensemble d’apprentissage correspondant aux valeurs d’un descripteur invariant calculé sur une image de la base de données.
*Les classes correspondant à la classe d’objet (100 classes pour le cas de la base COIL-100).
*Nombre d’essais aléatoires : fixé à 5.
*Noyau : un noyau gaussien de bande passante est choisi et correspondent aux vecteurs descripteurs des objets.
-Tests sur la base des images synthétiques :Les tests sur la base d’images synthétiques ont été réalisés dans le but de valider la propriété de faible-complétude (i.e. capacité de discrimination) des descripteurs de Fourier définis dans le chapitre précédent {PS, BS, RPS, RBS, BS+RPS}. Tout d’abord, nous commençons par calculer ces différents descripteurs pour chaque image synthétique de la base, ainsi pour d’autres images réelles. Dans le but de comparer ces descripteurs, nous avons eu recours à la norme euclidienne classique qui calcule la distance entre deux vecteurs descripteurs.
-Tests sur la base des visages RL :Pour la base de visages RL, les tests ont été réalisés en utilisant 75% d’images de visages pour l’apprentissage (environ 55 images par visage) et 25% pour le test (environ 19 images par visage). Nous effectuons des expérimentations sur la base de données RL en utilisant l’ensemble des descripteurs globaux RBS, BS, PS, RPS, ZM, HU, FM, la combinaison du RPS & BS, et les deux fameux descripteurs locaux SIFT et HOG.
-Tests sur la base des visages CVL :La base de visages CVL a été utilisée dans plusieurs travaux, sous des conditions d’apprentissage et de test différents. Elle est notamment utilisée par Albiol et al. dans [1] qui présentent un nouvel algorithme de reconnaissance de visages basé sur une combinaison des EBGM (Elastic Bunch Graph Matchnig) et des descripteurs HOG (Histogram of Oriented Gradients), et par Goal et al. dans [34], où les auteurs ont mené une étude de la faisabilité des RP (Random Projection) pour la reconnaissance de visages. Les tests ont été réalisés en utilisant les mêmes descripteurs d’images exploités dans la base de visages RL.
-Tests sur la base des visages ORL :Dans la littérature, le protocole utilisé pour l’apprentissage et le test est différent d’un papier à l’autre. Dans [64], une approche basée sur le modèle de Markov caché (HMM) est utilisée, et le meilleur modèle a abouti à un taux de reconnaissance de 95%, avec un coût de calcul élevé. Dans [38], Hjelmas a atteint un taux de reconnaissance de 85% en utilisant la base de visages ORL et des vecteurs descripteurs constitués de coefficients de Gabor.
-Tests sur la base de visages Sheffield :Dans le cas de la base de visages Sheffield, les expérimentations ont été réalisées en respectant le même protocole de test (c.à.d. 75% d’images pour l’apprentissage et 25% pour le test) et en utilisant les mêmes descripteurs testés dans le cas de la base de visages RL.
-Tests sur la base de visages Extended Yale B :Pour la base de visages Extended Yale B, nous refaisons les mêmes tests et nous réutilisons l’ensemble de descripteurs exploité dans les cas des bases de visages RL et Sheffield.
-Tests sur la base des images COIL-100 :Pour la base d’images COIL-100, deux cas ont été étudiés : un cas avec bruit et un autre sans bruit. Dans le premier cas, les tests ont été réalisés en utilisant 75% de la base d’images pour l’apprentissage (54 images par objet) et 25% pour le test (18 images par objet). Dans le second cas, nous avons utilisé un ensemble de données d’apprentissage composé de 6700 images (100 objets avec 67 vues pour chacun) non bruitées, et un ensemble de données de test composé de 15 vues par objet sélectionnées aléatoirement pour lesquelles un bruit gaussien avec est ajouté
a. Cas simple :Le Tableau 7 présente les résultats obtenus en testant notre méthode de reconnaissance d’objets avec la base d’images COIL-100. Les meilleurs résultats ont été obtenus en utilisant le descripteur RBS. Le descripteur local SIFT vient en deuxième place et le HOG troisième. Alors qu’il a été démontré dans la littérature, que les méthodes locales donnent actuellement les meilleurs résultats [15]. De plus, si le bruit est ajouté sur l’image,l’utilisation d’une approche globale semble plus efficace que l’approche locale. La raison principale est que le détecteur de points-clés utilisé dans les méthodes locales produit dans ce cas de nombreux points-clés qui ne sont pas pertinents pour la reconnaissance d’objets. Cela sera montré dans la sous-section suivante.
b. Cas bruité Les résultats présentés dans le Tableau 8 montrent que le bruit a peu d’influence sur la performance de classification quand on utilise un descripteur global tel que le RBS, BS, la combinaison du BS & RPS, ZM, HM et FM. Il a cependant une grande influence sur les descripteurs locaux SIFT et HOG.

Conclusion

Les travaux décrits dans cette thèse portent sur la définition et la mise en œuvre de nouveaux descripteurs de Fourier sur le groupe de roto-translations semi-discrètes . Nous avons commencé par présenter un état de l’art des différentes approches de description d’images. Les propriétés de chaque méthode ont été étudiées pour montrer leurs invariances aux différentes transformations géométriques et leurs robustesses aux altérations. Nous avons également présenté les avantages et inconvénients de ces différentes approches. La deuxième partie concerne plus précisément notre contribution. Celle-ci débute par des rappels sur l’analyse harmonique dans les groupes abéliens et non-abéliens localement compacts. Ensuite, nous avons démontré que les invariants spectraux (PS) et bi-spectraux (BS) généralisés, et leurs homologues rotationnels (RBS) et (RPS), sont faiblement complets, c’est-à-dire qu’ils permettent de discriminer deux fonctions définies sur un ensemble ouvert et dense de fonctions à support compact à une action d’un élément de près. Cela généralise un résultat de [74]. Par la suite, nous avons utilisé ces descripteurs dans le cadre de la reconnaissance d’objets invariante aux roto-translations,inspiré par certaines propriétés neurophysiologiques du cortex visuel humain primaire V1.Dans ce cadre, nous avons montré que les invariants bi-spectraux rotationnels sont en effet des invariants aux roto-translations faiblement complets pour les images planaires. De plus, bien que les descripteurs de Fourier proposés soient définis en termes d’objets mathématiques complexes, nous avons montré qu’ils peuvent être implémentés de façon linéaire en tant que combinaisons linéaires des valeurs de la transformée de Fourier 2D de l’image.Dans la deuxième partie de cette thèse, nous avons proposé une évaluation des performances de ces descripteurs de Fourier dans un contexte de reconnaissance d’objets et nous avons présenté les résultats obtenus sur différents base de données : les bases de visages RL, CVL, ORL, Sheffield et Extended Yale B, sur lesquelles différents visages sont soumis à plusieurs types de variations ; la base d’images COIL-100, composées de plusieurs objets soumis à des changements de rotations 3D et d’échelles. Pour toutes ces bases de données, les descripteurs de Fourier globaux introduits dans cette thèse sont, en moyenne,les descripteurs testés les plus efficaces. Bien que pour les images non altérées, les descripteurs de Fourier rotationnels approchent souvent les performances des descripteurs locaux SIFT et HOG et parfois donnent un meilleur taux de reconnaissance, l’addition de bruit et de différentes altérations donne toujours l’avantage aux descripteurs globaux.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Abstract
Résumé
Remerciements
Liste des figures
Liste des Tableaux
Chapitre 1 : Introduction générale
1. Contexte
2. Contributions
3. Organisation du manuscrit
Chapitre 2 : Descripteurs d’images
1. Introduction
2. Descripteurs locaux
2.1. Haar
2.2. SIFT
2.3. RIFT
2.4. DSIFT (SIFT denses)
2.5. SURF
2.6. GLOH
2.7. DAISY
2.8. MOPS
2.9. Shape Context
2.10. Histogrammes de gradients orientés
2.11. Descripteurs binaires
3. Descripteurs globaux
3.1. Filtres de Gabor
3.2. GIST
3.3. Les moments géométriques
3.4. Les moments orthogonaux
3.5. Les descripteurs de Fourier
4. Conclusion
Chapitre 3 : Descripteurs de Fourier généralisés et rotationnels
1. Introduction
2. Préliminaires
2.1. Analyse harmonique sur les groupes abéliens localement compacts
2.2. La transformée de Fourier sur les groupes non-commutatifs localement compacts
2.3. Contexte de notre travail
2.4. Fonctions faiblement cycliques
3. Descripteurs de Fourier dans les groupes
3.1. Invariants spectraux et bi-spectraux
3.2. Invariants spectraux et bi-spectraux sur les groupes abéliens localement compacts
3.3. Invariants spectraux et bi-spectraux sur
4. Descripteurs de Fourier basés sur la structure du cortex visuel primaire humain V1
4.1. Présentation du pipeline naturel pour la reconnaissance d’objets
4.2. Présentation du modèle mathématique du cortex visuel primaire V1
4.3. La non-applicabilité du théorème de la complétude dans
4.4. Les invariants spectraux et bi-spectraux rota
5. Le calcul pratique des descripteurs de Fourier
6. Conclusion
Chapitre 4 : Résultats et expérimentations
1. Introduction
2. Evaluation des descripteurs de Fourier
2.1. Les bases d’images utilisées
2.2. Extraction des descripteurs
2.3. Expérimentations
3. Application à la surveillance maritime
3.1. Navires subissant des rotations 2D
3.2. Navires sous différents angles de vue
4. Conclusion
Chapitre 5 : Conclusion et perspectives
1. Conclusion
2. Perspectives
Annexes
A. Décomposition du produit tensoriel des représentations
B. Lemmes auxiliaires pour la démonstration du théorème 3.3.1
C. Machines à vecteurs de support (SVM)
Bibliographie
Publications dans le cadre de la thèse