Importance de l’étude des différentes méthodes de correspondance de blocs

Techniques d’estimation de la profondeur automatiques

Les méthodes fonctionnant sans l’intervention d’un utilisateur sont dites des méthodes automatiques. Elles se basent entièrement sur l’information extraite des images et sur des heuristiques pour estimer la profondeur dans une image. Pour arriver à estimer la profondeur des pixels dans une séquence d’images, certaines méthodes existent qui utilisent les mêmes indices visuels que l’humain. C’est-à-dire qu’elles vont détecter certaines particularités de l’image et les interpréter comme le ferait un humain pour percevoir la profondeur. Ces méthodes sont géné- ralement utilisées pour obtenir un résultat adéquat rapidement puisqu’aucune intervention d’un utilisateur n’est requise. Souvent, les limitations de ces méthodes sont reliées à la complexité de calcul qui a un impact important sur le temps de calcul. Pour conserver une rapidité de calcul assez élevée, il faut parfois utiliser des heuristiques qui permettent de sauver une partie des calculs. Pour qu’un humain perçoive de la profondeur d’une scène, une combinaison des indices visuels présentés plus haut est utilisée, mais pour un programme la tâche est plus complexe. Arriver à utiliser l’information de profondeur d’un seul indice visuel implique des calculs devenant rapidement très complexes et cela peut prendre un temps important à calculer. Cela force généralement les algorithmes à choisir un nombre limité d’indices visuels pour trouver la profondeur, ce qui limite souvent leur capacité à s’adapter à tous les cas possibles. Étant donné que tous les indices visuels ne se prêtent pas à toutes les situations, il est possible, par exemple de catégoriser le contenu d’une scène avant de décider quelle méthode utiliser. Certaines mé- thodes vont effectuer une analyse préalable de la scène, tandis que d’autres vont se limiter à fonctionner seulement dans un ou plusieurs cas précis. Les sections suivantes présentent des publications de ces méthodes qui ont été étudiées pour analyser l’état courant des solutions existantes à l’estimation de profondeur dans une scène, séparées selon l’indice visuel utilisé.

Profondeur par le mouvement

Un des indices visuels utilisés par l’humain pour percevoir de la profondeur vient du déplacement des objets dans la scène ou, plus simplement, du mouvement. Les techniques d’extraction de la profondeur utilisant le mouvement se basent généralement sur la prémisse que les objets qui se déplacent le plus rapidement sont en avant plan dans la scène par opposition aux objets plus éloignés qui auront peu ou pas de mouvement à travers la séquence d’images. Par exemple, dans le cas où une caméra serait en mouvement devant une scène fixe, ce qui est le plus loin en arrière plan bougera lentement par rapport à ce qui se trouve en premier plan dans l’image. Il est important de noter que des objets pouvant en occlure d’autres dans une image fournissent aussi de l’information de profondeur, car si un objet en déplacement passe devant un autre objet, on peut en conclure que le premier objet est en avant du second (Liu And Christopher (2012)). Une famille de techniques regroupant plusieurs méthodes pour arriver à extraire la profondeur d’une scène à partir du mouvement se nomme Structure from Motion (SfM) (Ward et al. (2011)) (Cheng et al. (2010)).

L’idée générale derrière SfM est de tenter de calculer les paramètres de caméra (la translation, la rotation et la matrice intrinsèque) à partir du déplacement des objets dans une scène sur plusieurs images consécutives. Cette façon de procéder permet, une fois les paramètres de caméra établis, de calculer avec beaucoup de précision la profondeur réelle de chaque pixel dans l’image. Il est important de noter que l’on parle bien ici de la profondeur réelle par opposition à la profondeur relative qui est calculée par les autres techniques. Il est possible d’inverser le calcul de la projection d’un point dans l’espace sur le plan de la caméra en connaissant ses paramètres et donc de calculer la profondeur réelle de chaque pixel au lieu d’une estimation. Il est aussi nécessaire de posséder l’information sur la caméra utilisée ainsi que sur la lentille pour pouvoir appliquer toute transformation oculaire dans les calculs de profondeur. Certains travaux utilisent la géométrie épipolaire pour établir les paramètres de caméra et reconstruire des matrices de projection qui font la correspondance entre la projection des points affichée dans l’image et la position des points dans un espace en trois dimensions (Knorr And Sikora (2006)). Ces méthodes utilisent des contraintes calculées à l’aide de la géométrie épipolaire et de la SfM pour trouver le même pixel d’une image à l’autre et pour détecter des pixels qui seraient en occlusion (Zhang et al. (2009)). SfM permet d’obtenir une grande précision lors du calcul de la profondeur de pixel dans une image. Cependant, ces techniques imposent certaines contraintes. Le calcul des paramètres de caméra doit généralement provenir d’une scène fixe où il y a, au moins sur quelques images rapprochées dans la séquence, un mouvement de caméra continu. En d’autres mots, pour effectuer un calcul précis des paramètres de caméra, on assume que la caméra doit bouger par rapport à une scène fixe. Il est donc préférable de vérifier au préalable si la scène se prête bien au SfM ou sinon d’utiliser une autre méthode.

Profondeur par le focus/defocus

Selon le fonctionnement d’une caméra, on sait que plus un objet est éloigné du plan focus de la lentille, plus cet objet apparaîtra comme flou à l’observateur. Ce phénomène peut être utilisé pour estimer la profondeur des objets dans la scène. L’idée générale est d’arriver à déterminer le degré de flou pour chaque pixel et par la suite d’attribuer une valeur de profondeur en fonction du degré de ce flou. Les techniques utilisant le flou comme source d’information nécessitent généralement plusieurs images prises de la même scène avec des distances focales différentes. En trouvant l’image où un pixel est le plus au focus, il est possible d’extrapoler sa distance par rapport à la caméra (Malik et al. (2007)) (Rajan And Chaudhuri (2003)) (Lee et al. (2013)). Le problème principal de ces méthodes est qu’un objet se trouvant à une certaine distance en avant du plan focal et un autre se trouvant en arrière du plan focal à la même distance aura un degré de flou similaire. Il est difficile de savoir si un objet est en avant ou en arrière d’un autre en constatant seulement qu’il est flou dans une image. Seuls les objets qui sont au focus peuvent se voir attribuer une profondeur avec confiance lorsqu’on connait la distance focale.

La famille de méthodes utilisant le focus d’une caméra se nomme Shape from Focus (SfF) dans la littérature. Comme pour les techniques de SfM, de l’information sur les paramètres de caméra (dans ce cas, les particularités de la lentille) est nécessaire pour l’application de la méthode et permet une reconstruction beaucoup plus fidèle de la profondeur dans une image. En mettant en relation les informations de la lentille et l’image au focus de chaque pixel, il est possible de recréer un nuage de points qui représentent la scène. À partir de ce nuage de points, il est possible de reconstruire la profondeur dans une scène. Pour attribuer une valeur de focus aux pixels d’une image, il est nécessaire d’utiliser un opérateur pour mesurer le focus et plusieurs opérateurs différents sont proposés dans la littérature comme l’opérateur SUSAN (Mendapara et al. (2009)), comme une estimation basée sur les ondelettes (Mendapara (2010)) et/ou une analyse du domaine fréquentiel de l’image (Lin et al. (2010)).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 ÉTAT DE L’ART
1.1 Génération d’une carte de profondeur
1.1.1 Système visuel humain
1.1.2 Techniques d’estimation de la profondeur automatiques
1.1.2.1 Profondeur par le mouvement
1.1.2.2 Profondeur par le focus/defocus
1.1.2.3 Profondeur par la géométrie de la scène
1.1.2.4 Profondeur par la couleur ou la réflexion
1.1.2.5 Profondeur par apprentissage (reconnaissance d’objets et de scène)
1.1.3 Techniques d’estimation de la profondeur semi-automatiques
1.2 Estimation du mouvement
1.2.1 Calcul de la correspondance de blocs (block matching (BM))
1.2.1.1 Importance de l’étude des différentes méthodes de correspondance de blocs
1.2.1.2 Réduire la comparaison de blocs
1.2.1.3 Réduire la complexité de la comparaison
1.2.2 Calcul de champ dense de mouvement (flux optique)
1.2.2.1 Visualisation et comparaison du flux optique
1.2.2.2 Techniques d’amélioration du flux optique
1.2.3 SIFT
CHAPITRE 2 MÉTHODE SEMI-AUTOMATIQUE DE GÉNÉRATION DE CARTES DE PROFONDEUR
2.1 Méthode semi-automatique versus automatique
2.2 Méthode proposée
2.2.1 Processus d’annotations
2.2.2 Modèle proposé
2.2.3 Modèle d’optimisation
2.2.4 Calcul des classes de profondeur
2.2.4.1 Première étape : Résolution de la profondeur des pixels
2.2.4.2 Deuxième étape : Résolution des déplacements de pixels
2.2.5 Algorithme global
CHAPITRE 3 ESTIMATION DE MOUVEMENT
3.1 Random Walker
3.2 Méthode proposée
3.2.1 Calcul de la similarité intra-image
3.2.2 Calcul de la similarité inter-images
3.2.2.1 Scale-Invariant Feature Transform
3.2.3 Calcul de la probabilité des déplacements
3.3 Superpixels
CHAPITRE 4 RÉSULTATS OBTENUS – GÉNÉRATION DE CARTES DE PROFONDEUR
4.1 Images générées
4.2 Améliorations possibles
4.2.1 Méthode d’annotation
4.2.2 Classes de profondeur multiples
4.3 Problèmes envisagés
4.3.1 Problème des occlusions
4.3.2 Problème de l’estimation de mouvement
4.3.3 Mouvement hors du plan de la caméra
4.3.4 Régions non texturées
CHAPITRE 5 RÉSULTATS OBTENUS – ESTIMATION DE MOUVEMENT
5.1 Représentation par flèches / Comparaison visuelle
5.2 Représentation par couleurs
5.3 Différence de position finale endpoint error
5.4 Différence d’angle de mouvement Angular Error
5.5 Images artificielles
5.6 Effets de la variation des différents paramètres
5.6.1 Paramètre contrôlant la diffusion
5.6.2 SIFT
5.6.3 Taille du noyau
5.6.4 Superpixels
5.7 Comparatif avec d’autres méthodes
5.7.1 Autres résultats
CHAPITRE 6 DISCUSSION SUR LA MÉTHODE – GÉNÉRATION DE CARTES DE PROFONDEUR
6.1 Méthodes semi-automatiques
6.2 Déplacement des pixels et propagation inter images
CHAPITRE 7 DISCUSSION SUR LA MÉTHODE – ESTIMATION DE MOUVEMENT
7.1 Améliorations et pistes de solutions aux problèmes rencontrés
7.1.1 Importance du descripteur
7.1.2 Apprentissage des paramètres de la méthode
7.1.3 Considération des occlusions
CHAPITRE 8 CONCLUSION
BIBLIOGRAPHIE