Méthodes d’apprentissage pour l’estimation de la pose de la tête dans des images monoculaires

L’interprétation rapide et sans effort des mouvements de la tête est une faculté que l’homme a développé et qui constitue un pilier de la communication interpersonnelle. Par exemple, un individu engagé dans une discussion aura naturellement tendance à orienter son visage vers son interlocuteur. Certains mouvements traduisent également l’état émotionnel d’une personne : la peur peut induire un mouvement brusque de la tête en direction du danger potentiel, une personne honteuse ou mal à l’aise aura tendance à détourner son visage pour masquer ses émotions.

Les mouvements de tête jouent aussi un rôle conscient dans le processus de communication. Un hochement de tête signifiera, suivant sa direction, le consentement ou au contraire la désapprobation. La tête peut également se substituer au doigt pour désigner une zone d’intérêt.

L’analyse des mouvements de tête, aussi aisée soit-elle pour un humain, constitue encore un défi pour les systèmes de vision, comme en témoigne le récent état de l’art de MurphyChutorian et Trivedi [2009]. Ce domaine de recherche est d’autant plus actif qu’il constitue un maillon essentiel dans la chaîne de traitement de nombreuses applications. Les interfaces de communication entre l’homme et la machine s’orientent vers de nouveaux paradigmes. Les traditionnels claviers et souris font progressivement place à des interfaces plus intuitives et dématérialisées qui s’appuient sur le mouvement humain. Dans le domaine du jeu vidéo, l’entreprise Microsoft développe une interface de capture du mouvement entièrement orientée vision . Dans les technologies d’assistance, des solutions permettent de commander le curseur d’un ordinateur par des mouvements de tête. En robotique, la connaissance de l’orientation des visages offre aux machines de nouvelles capacités d’analyse et d’interaction. Et la liste des domaines d’application est encore longue (cf. figure 1) : biométrie, réalité augmentée, vidéo-surveillance, sécurité routière, analyse comportementale pour le marketing, photo numérique. . .

Pour qu’un système d’estimation de pose soit performant, il devra être robuste aux nombreuses sources de variations qui peuvent affecter l’image d’un visage :

– Déformations géométriques : on identifie deux sources principales de déformations géométriques, les variations liées aux expressions faciales (variations intra-personnelles) et celles liées à la morphologie (variations interpersonnelles).
– Variations radiométriques : elles dépendent par exemple des propriétés de la peau (couleur, rides…), de la présence d’une barbe ou encore de la couleur des yeux. Si l’on fait une analogie avec la synthèse d’image, les variations radiométriques correspondent aux changements de texture.
– Occultations : certaines parties du visage sont cachées par des éléments extérieurs tels que des lunettes, un chapeau, ou une main. Il peut s’agir aussi d’auto-occultations liées à des rotations hors-plan de la tête.
– Changement d’illumination : les variations du type, de la position et de l’orientation des sources lumineuses ainsi que les propriétés de réflectance du visage agissent directement sur l’apparence du visage dans l’image.
– Variations liées au périphérique d’acquisition : la longueur focale, les distorsions optiques, la résolution et la compression de l’image sont autant de sources de variations qui auront un impact sur le rendu final de l’image.

Les principales contributions apportées par ce travail de thèse sont de deux types. D’un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression qui se caractérise par :
– le critère fonctionnel flou (FFC, Fuzzy Functional Criterion), nouvelle mesure pour sélectionner des descripteurs images pertinents et
– une nouvelle stratégie pour sélectionner itérativement des entrées complémentaires d’un réseau de neurones. D’un point de vue applicatif, cet algorithme a été validé au travers de deux méthodes d’estimation de la pose de la tête.
– Une approche globale : notre algorithme BISAR est utilisé pour apprendre directement la relation entre l’apparence d’un visage (ensemble des niveaux de gris qui correspondent au visage dans l’image) et sa pose.
– Une approche orientée modèle : on ajuste un modèle déformable sur une image pour localiser un ensemble de points caractéristiques qui seront ensuite utilisés pour calculer la pose.

Estimation de la pose de la tête par une méthode globale

Etat de l’art

Extraction de caractéristiques

L’objectif de cette étape est d’utiliser un ou plusieurs descripteurs pour représenter au mieux l’image en fonction de la tâche à réaliser. On cherchera généralement des descripteurs qui présentent des propriétés d’invariance par rapport aux caractéristiques non pertinentes. Pour un détecteur de véhicule par exemple, on s’intéressera à des descripteurs invariants aux variations colorimétriques puisque une voiture peut être de n’importe quelle couleur. Il existe de très nombreux descripteurs dans la littérature et l’objectif de cette section n’est pas de tous les énumérer. Nous présenterons les grandes catégories ainsi que les descripteurs les plus souvent utilisés.

Descripteurs globaux

Ils permettent d’extraire un ensemble d’attributs calculés sur toute l’image.

Filtrage de l’image Son but est d’extraire des informations pertinentes dans l’image. Les filtres de Sobel ou Canny, par exemple, sont utilisés pour extraire les contours qui présentent l’avantage d’être plus robustes vis-à-vis des changements d’illumination que les niveaux de gris. Les filtres de Gabor sont très largement utilisés en analyse d’image en général [Daugman, 1988] et en estimation de la pose de la tête en particulier [Wei et al., 2002; Wu et Trivedi, 2008; Sherrah et al., 2001]. Des opérateurs non linéaires tels que les Local Binary Patterns (LBP, Ojala et al. 1996) ont également donné de bons résultats en analyse de visages [Zhang et al., 2007; Tan et Triggs, 2007]. Ma et al. [2006a] combinent les ondelettes de Gabor et les LBP pour estimer la pose de la tête.

Représentation par silhouette Elle consiste à binariser l’image de manière à séparer l’arrière-plan de la forme à analyser. La silhouette est ensuite caractérisée par un ensemble de descripteurs de forme tels que les descripteurs de Fourier ou les moments géométriques [Mokhber et al., 2008]. Zhang [2002] propose un panorama détaillé des descripteurs de forme. Les silhouettes issues de vues de différentes caméras peuvent également servir à reconstruire l’enveloppe visuelle de l’objet considéré. On ne cherche alors plus à caractériser les silhouettes directement mais l’objet 3D qui en résulte [Gond et al., 2008].

Représentation par histogramme La représentation par histogramme est un outil simple et puissant qui a été utilisé dans de nombreux domaines. Les histogrammes de couleur sont invariants en translation et en rotation dans le plan image et varient lentement lors des rotations hors-plan, des changements d’échelles et des occultations. Les histogrammes donnent une signature compacte, stable et discriminante bien adaptée pour l’indexation de grandes bases de données [Swain et Ballard, 1991]. Les histogrammes de couleur sont sensibles à l’intensité et à la couleur de la source lumineuse ainsi qu’à la couleur de l’objet à détecter. Pour parer ce problème, Schiele et Crowley [2000] proposent par exemple de construire des histogrammes à champs récepteurs gaussiens multidimensionnels. L’histogramme de l’orientation des gradients pondérés par leur module (HoG de l’anglais Histograms of Oriented Gradient) est aussi très utilisé [Dalal et Triggs, 2005]. Pour conserver en partie l’information spatiale, on peut concaténer les histogrammes calculés dans des fenêtres glissantes ou disjointes de l’image [Lowe, 2004; Murphy Chutorian et al., 2007].

Descripteurs locaux

Par opposition aux descripteurs globaux, les descripteurs locaux ne caractérisent qu’une zone restreinte de l’image. Chaque descripteur extrait une information partielle et doit, par conséquent, être combiné à d’autres descripteurs pour fournir une représentation complète de l’image à analyser. Tuytelaars et Mikolajczyk [2008] proposent un tour d’horizon des descripteurs locaux tandis que Mikolajczyk et Schmid [2005] évaluent les performances de différents descripteurs tels que les Shape Context [Belongie et al., 2001], les filtres orientables [Freeman et Adelson, 1991] ou SIFT [Lowe, 2004]. On peut distinguer deux manières de les utiliser :
1. On définit un ensemble de descripteurs locaux calculables en tout point de l’image avec différents paramètres. Cet ensemble dense et redondant doit être couplé avec une méthode de sélection de descripteurs. Viola et Jones [2004] combinent par exemple les descripteurs de Papageorgiou et Poggio [2000] inspirés des ondelettes de Haar (plus de 45´000 descripteurs au total) avec l’algorithme AdaBoost [Freund et Schapire, 1997] qui sélectionne itérativement les meilleurs descripteurs.
2. On identifie des points d’intérêt dans l’image à l’aide de détecteurs spécifiques tels que [Harris et Stepheds, 1988] ou [Achard et al., 2000], puis on utilise des descripteurs locaux (SIFT, Lowe 2004 ou SURF Bay et al. 2008, par exemple) pour caractériser le voisinage de ces points. Cette méthode offre une représentation compacte de l’image à analyser et ne nécessite pas d’étape de sélection des descripteurs. Il faut toutefois que la détection des points d’intérêt soit répétable, c’est-à-dire que les mêmes points soient détectés au même endroit quelles que soient les conditions de prise de vue.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Contexte
Problématique
Contributions
Organisation du document
Etat de l’art
1 Etat de l’art
1.1 Extraction de caractéristiques
1.1.1 Descripteurs globaux
1.1.2 Descripteurs locaux
1.2 Réduction de dimension
1.2.1 Méthodes non supervisées
1.2.2 Méthodes supervisées
1.2.3 Synthèse
1.3 Estimation de la pose
1.3.1 Méthodes par comparaison avec des prototypes
1.3.2 Méthodes par classification
1.3.3 Méthodes par régression
1.4 Jeux de données
1.4.1 Pointing 04
1.4.2 FacePix
1.5 Méthodes de comparaison
1.5.1 Réseau de Neurones à Convolution
1.5.2 Méthodes de l’évaluation CLEAR 2007
1.5.3 Conclusion
2 Estimation de la pose par comparaison avec des images de synthèse
2.1 Approche proposée
2.2 Constitution de la base de données
2.2.1 Modèles paramétrés
2.2.2 Estimation récursive de la pose et de la forme du modèle 3D
2.2.3 Conclusion
2.3 Comparaison des images
2.3.1 Extraction des caractéristiques
2.3.2 Mesure de ressemblance
2.4 Résultats
2.4.1 Protocole expérimental
2.4.2 Résultats
2.5 Limites et perspectives
2.6 Conclusion
3 Estimation de la pose par régression non linéaire
3.1 Processus de sélection des descripteurs
3.1.1 Recherche d’un sous-ensemble de descripteurs
3.1.2 Evaluation du sous-ensemble
3.1.3 Critère d’arrêt
3.1.4 Boucle de rétrocontrôle
3.2 Méthodes de Boosting pour la régression
3.3 Algorithme BISAR
3.4 Descripteurs d’image et prétraitements
3.4.1 Critère de sélection
3.4.2 Entropie et information mutuelle
3.4.3 Critère Fonctionnel Flou
3.4.4 Paramètres et normalisation du FFC
3.5 Régresseur
3.5.1 Réseaux de neurones à fonctions radiales
3.5.2 Apprentissage
3.5.3 Réseaux de neurones de régression généralisée
3.6 Stratégie de boosting
3.6.1 Fonction de repondération
3.6.2 Critère d’arrêt
3.7 Résultats
3.7.1 Evaluation des critères de sélection de caractéristiques
3.7.2 Evaluation des stratégies de boosting
3.7.3 Evaluation de l’architecture
3.7.4 Apprentissage des poses séparées vs groupées
3.8 Comparaisons avec des méthodes existantes
3.8.1 Réseau de neurones à convolution
3.8.2 Méthode de l’évaluation CLEAR 2007
3.9 Conclusion
Conclusion