Acquisition 3D des gestes par vision artificielle et restitution virtuelle

Amélioration de la perception des utilisateurs dans les environnements virtuels collaboratifs

Un environnement virtuel collaboratif (EVC) est utilisé pour l’interaction et la collaboration entre des utilisateurs distants. Un avatar est une représentation d’un utilisateur dans un environnement virtuel. Il est animé par celui-ci et permet de communiquer avec les autres utilisateurs pour donner un sentiment de présence à distance (téléprésence). Toutefois, la sélection d’animations prédéfinies à partir de menus ou d’icones est fastidieuse.
Nous proposons d’améliorer la perception mutuelle des utilisateurs par l’acquisition 3D et la restitution virtuelle des gestes par vision monoscopique. Les gestes humains sont capturés à partir d’une webcam en utilisant des algorithmes de vision par ordinateur et reproduits en temps réel par un avatar. Ce type d’immersion permet d’établir un canal de communication gestuelle et d’améliorer le sens de téléprésence dans un monde virtuel 3D (Horain, et al., 2005). L’acquisition des gestes par vision monoculaire ne nécessite qu’un ordinateur personnel avec une webcam.

Acquisition de mouvement humain par la vision par ordinateur

L’acquisition des mouvements du corps humain par des techniques de vision par ordinateur ne nécessite ni matériel coûteux ou encombrant ni marqueurs (uniquement des caméras).
Toutefois, les algorithmes proposés pour l’acquisition de mouvement humain à cadences vidéo quasi temps réel reposent principalement sur des systèmes de caméras multi-vues dans des conditions contrôlées qui limitent leur applicabilité.
L’estimation de l’attitude du corps humain par vision artificielle est un défi scientifique et informatique (Sminchisescu, 2007). Nous présentons une analyse détaillée des techniques existantes, en temps réel ou non, ainsi que des systèmes mono et multi-caméras (Poppe, 2007), (Moeslund, et al.).

Primitives d’images pour l’acquisition des gestes

Pour estimer l‟attitude du corps, des primitives d‟images sont utilisées comme des indices pour trouver la position de chaque partie du corps et par la suite, l‟estimation de la pose 3D complète. Des primitives d‟images couramment utilisés dans la littérature sont notamment la couleur (Broekhuijsen, et al., 2006), les silhouettes (Agarwal, et al., 2006), les contours (Chen, et al., 2005) et le mouvement (Sminchisescu, et al., 2001).

Approches génératives

Ces approches estiment l’attitude du corps humain en recalant sur les images un modèle 3D de ce corps, qui intègre la chaîne cinématique des articulations et les dimensions des parties du corps. Trouver l’attitude qui correspond le mieux aux primitives de l’image peut être très difficile en raison des éventuelles auto-occultations entre parties du corps et des ambiguïtés entre des attitudes 3D correspondant en projection aux mêmes primitives dans l’image.
Plusieurs travaux proposent différents modèles de corps humain et des méthodes pour estimer et suivre la pose humaine sur séquence vidéo. Certaines méthodes d’apprentissage sont également utilisées pour améliorer les résultats d’acquisition de mouvement.

Suivi de la pose

Le suivi de la pose est un processus pour estimer la pose humaine entre les trames successifs de la séquence vidéo. Généralement, il existe deux approches pour le suivi de la pose humaine : d’une part, ceux qui utilisent ou prédire une seule hypothèse (pose de configuration) à chaque image (suivi avec une seule hypothèse) et d’autre part, ceux qui propagent plusieurs hypothèses (suivi avec plusieurs hypothèses) ou des solutions par trame.
Un suivi simple d’une seule hypothèse consiste à la mise à jour de la configuration de la pose à chaque image. Certains auteurs utilisent des techniques plus complexes, tels que des filtres récursifs linéaires (par exemple le filtre de Kalman (Kalman, 1960)) afin de prédire la pose humaine dans l’image suivante. Malheureusement, le suivi avec une seule hypothèse ne peut pas traiter la pose avec les ambiguïtés des observations à partir d’images monoculaires. Afin de surmonter le problème des ambiguïtés dans les observations d’image, plusieurs hypothèses peuvent être reproduites dans chaque trame. Ceci est fait en adoptant des approches d’échantillonnage à base de particules, comme la filtration ou l’algorithme CONDENSATION (Gordon, et al., 1993), (Isard, et al., 1998). La grande dimensionnalité de l’espace des poses nécessite l’utilisation d’un grand nombre de particules. Toutes les particules doivent être propagées et évalués (pondéré) selon une fonction de coût correspondant. Par conséquent, l’augmentation du coût de calcul. Récemment, de nombreux travaux (Deutscher, et al., 2000), (Saboune, et al., 2005), (Fontmarty, et al., 2007) ont proposé de modifications sur l’algorithme de filtrage particulaire afin de guider les échantillons (particules) de manière efficace dans l’espace des poses et donc de réduire le nombre de particules nécessaires.

Expériences de performance pour le processus de recalage

L’optimisation itérative dans un espace de grande dimension nécessite habituellement un grand nombre d’itérations pour converger. Parce que nous sommes intéressés par l’acquisition des gestes en temps réel, nous devons limiter le temps de calcul, par conséquence, le nombre d’itérations par image. Pour cette raison, nous avons analysé la performance (robustesse et précision) de notre approche en fonction du nombre d’itérations effectuées à chaque étape du recalage (recalage sur les régions et les contours), afin de trouver un équilibre optimal entre la performance et le temps de calcul dans les deux étapes de recalage.

Evaluation de la robustesse pour l’acquisition des gestes en temps-réel

Afin de mesurer la robustesse de notre approche, une analyse expérimentale a été effectuée avec des séquences vidéo réelles. Nous avons utilisé 6 séquences vidéo présentant des gestes avec occultations, des mouvements rapides, ainsi que des mouvements dans la direction de la profondeur et une personne légèrement de coté.
Nous avons calculé, pour chaque séquence vidéo, l’erreur moyenne résiduelle de chaque fonction d’évaluation et le nombre de décrochages en fonction du nombre d’itérations effectuées. À partir de ces expériences, nous constatons que le recalage sur les régions converge plus rapidement que le recalage sur les contours. Les résultats montrent que le recalage sur les contours est moins stable (grand nombre de pics) que le recalage sur les régions.
Pour avoir la meilleure performance, nous donnons la priorité à la stabilité du recalage lorsque le nombre d’itérations est inferieur à 200 (valeur choisie expérimentalement) en consacrant toutes les itérations au recalage sur les régions. Au-delà, le nombre de décrochage du recalage sur les régions devient relativement petit, ce qui permet d’améliorer la précision du recalage par des itérations supplémentaires de minimisation de la distance entre les contours.

Evaluation de la précision pour l’acquisition des gestes en temps-réel

Dans cette section, nous analysons la performance de notre approche à l’égard de la précision de l’estimation de la pose 3D en temps réel. L’évaluation quantitative de la précision de l’acquisition 3D des gestes nécessite des séquences vidéo avec la vérité-terrain. Nous avons utilisé un ensemble de gestes communicative synthétique (Li, et al., 2009). Dans ces séquences vidéo, différents types de gestes sont inclus: de mouvement dans la direction de la profondeur, gestes avec occultations et des mouvements rapides. Encore une fois, nous avons fait varier le nombre d’itérations (de 1 à 500 itérations) pour chaque étape de recalage (recalage sur les régions et les contours) et nous avons calculé, pour chaque séquence vidéo, la moyenne de l’erreur résiduelle de la pose 3D. L’erreur résiduelle est calculée à partir de la distance 2D entre les joints dans le plan de l’image afin d’évaluer la précision indépendamment des ambiguïtés des images monoculaires.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 : Introduction
1.1 Amélioration de la perception des utilisateurs dans les environnements virtuels collaboratifs
1.2 Principaux défis
1.3 Contribution de la thèse
Chapitre 2 : Etat de l’art
2.1 Introduction
2.2 Technologies d’acquisition du mouvement
2.3 Acquisition de mouvement humain par la vision par ordinateur
2.3.1 Primitives d’images pour l’acquisition des gestes.
2.3.2 Approches génératives
2.3.2.1 Modèles du corps humain
2.3.2.2 Estimation de la pose humaine
2.3.3 Approches discriminatives
2.3.4 Suivi de la pose
2.3.5 Modèles dynamiques
2.4 Notre approche de base pour l’acquisition 3D des gestes
2.4.1 Notre modèle 3D de la moitié supérieur du corps humain
2.4.2 Recalage sur les régions
2.4 Conclusions et travaux futurs
Chapitre 3 : Recalage sur les régions et recalage sur les contours pour l’acquisition 3D des gestes par vision monoscopique
3.1 Introduction
3.2 Mise en œuvre de notre approche
3.3 Etalonnage automatique du modèle et initialisation de la pose
3.4 Soustraction de l’arrière-plan pour l’extraction de la silhouette humaine
3.5 Recalage sur les contours
3.6 Expériences de performance pour le processus de recalage
3.6.1 Evaluation de la robustesse pour l’acquisition des gestes en temps-réel
3.6.2 Evaluation de la précision pour l’acquisition des gestes en temps-réel
3.7 Conclusions et travaux futurs.
Chapitre 4 : Filtrage particulaire en temps réel avec heuristiques pour l’acquisition 3D des gestes par vision monoscopique
4.1 Introduction
4.2 Approche de filtrage particulaire
4.3 Filtrage particulaire pour l’acquisition 3D des gestes
4.4 Notre approche de filtrage particulaire pour l’acquisition 3D des gestes par vision monoscopique
4.4.1 Mis en œuvre du filtrage particulaire
4.4.2 Heuristiques proposés et analyse expérimentale
4.4.2.1 Ré-échantillonnage déterministe par poids
4.4.2.2 Échantillonnage partitionné basée mouvement
4.4.2.3 Prédiction avec l’optimisation locale
4.4.2.4 Echantillonnage par sauts-cinématiques
4.4.2.5 Changement de paramétrage (suivi avec le bout de la chaine cinématique)
4.4.3 Accélération par GPU
4.4.4 Mise en œuvre du filtrage particulaire en temps réel avec heuristiques
4.5 Conclusions
Chapitre 5 : Conclusions et perspectives
5.1 Contributions
5.2 Perspectives futures