Ré-identification de personnes à partir des séquences vidéo

Etapes d’un système de ré-identification

   Dans cette thèse, nous nous intéressons à la ré-identification des personnes dans un réseau de deux caméras à champs de vue disjoints où le temps entre les enregistrements des deux caméras est court (environ quelques minutes). Un système générique de réidentification est composé de quatre étapes principales (figure 1.2) : détection des personnes à ré-identifier, extraction des primitives, appariement des primitives et ré-identification des personnes. Nous décrivons dans la suite le principe de chaque étape.
a) Détection des personnes à ré-identifier : cette étape dépend énormément de la complexité de la scène. Dans une scène simple (essentiellement une seule personne passe), la personne peut être détectée par une méthode de faible complexité telle que la suppression du fond, la détection du mouvement, etc. Quand la scène devient complexe (essentiellement plusieurs personnes passent), cette étape devient plus difficile et une méthode de suivi des personnes peut être utilisée. Dans cette thèse, nous ne considérons pas ce cas complexe, nous utilisons plutôt des images résultant d’un algorithme de détection des personnes. Dans le scénario complexe, cet algorithme n’est pas parfait et une mauvaise detection des personnes peut se produire. En effet, les images peuvent contenir par exemple plusieurs personnes, seulement une partie du corps, etc.
b) Extraction des primitives : cette étape consiste à décrire la personne par un ensemble de primitives approprié au type de la scène. Dans la littérature, ces primitives sont extraites des images et décrivent pour la plupart l’apparence de la personne par une description de couleur, de texture et/ou de forme.
c) Appariement des primitives : une fois les primitives extraites des données enregistrées, elles sont appariées en définissant un score de correspondance. L’appariement des primitives peut être fondé sur une méthode supervisée ou non-supervisée.
d) Ré-identification des personnes : en utilisant le score de correspondance, le système de ré-identification doit affecter une identité référence à chaque personne test dont l’identité est au départ inconnue.

Différents scenarios de la ré-identification

   Selon les conditions d’acquisition des données, la ré-identification peut correspondre à plusieurs scénarios de degrés de complexité différents. On en cite deux : simple et complexe (figure 1.3).
• Dans le scénario simple, des contraintes sont fixées sur le passage de la personne dans le champ de vue de la caméra. De plus, les conditions du milieu d’enregistrement sont contrôlées. En effet, la personne doit marcher seule dans une direction bien définie sans porter aucun objet. La base de données est composée d’un nombre réduit de personnes filmées, à deux instants différents, par une seule caméra fixe dans des conditions d’éclairage stables (la même caméra est utilisée en référence et en test).
• Dans le scénario complexe, on n’a aucune contrainte sur le passage de la personne dans le champ de vue de la caméra. De plus, les conditions du milieu d’enregistrement ne sont pas contrôlées. En effet, plusieurs personnes peuvent passer simultanément en portant ou non des objets de petites dimensions (sac, téléphone, etc.) ou de grandes dimensions (poussette, matériel acheté, etc.). En outre, la base de données est composée d’un nombre de personnes largement plus important que dans le scénario simple ; elles sont filmées par deux caméras installées dans deux endroits différents et dans des conditions d’éclairage non contrôlées.

Ré-identification fondée sur des primitives biométriques

   La biométrie est la science qui consiste à identifier les êtres humains par leurs caractéristiques physiques ou comportementales. Généralement, la biométrie est appliquée dans des domaines de sécurité de données, de contrôle d’accès, d’authentification, etc. Parmi ces caractéristiques, on peut citer l’iris, le visage, la démarche, etc. L’identification des personnes par ces caractéristiques biométriques est bien avancée dans la littérature. Par contre, ce type d’approches impose des contraintes pratiques et techniques. Pratiquement, les systèmes d’identification par l’iris et par le visage nécessitent la coopération de la personne à identifier. Celle ci doit regarder la caméra tout en étant suffisamment proche d’elle. Techniquement, ces systèmes nécessitent des images de haute résolution dans le cas de visage ou des capteurs spécifiques dans le cas de l’iris. Quant à un système d’identification par la démarche, bien qu’il ne nécessite aucune coopération de la part des personnes à identifier ; il impose des contraintes sur le mouvement de la personne dans le champ de vue de la caméra (par exemple des contraintes sur la direction de la marche). Donc, il est difficile de l’appliquer dans un contexte de ré-identification. En effet, dans un scénario de ré-identification, durant son passage par le champ de vue de la caméra, la personne peut s’arrêter, changer la vitesse de marche, passer avec des objets, ramasser un objet, marcher dans des directions différentes, faire un demi tour, etc. Autrement dit, dans un scénario de ré-identification, on n’a aucune contrainte sur le comportement de la personne durant son passage par le champ de vue de la caméra. A notre connaissance, la démarche est le seul comportement biométrique qui a été utilisé explicitement pour la ré-identification (Skog, 2010). Dans ce dernier travail, plusieurs méthodes d’extraction des primitives exploitant la démarche ont été examinées. Ces méthodes ont été testées sur deux bases de données. La première est filmée par des caméras de surveillance placées à l’extérieur, dans une scène urbaine (figure 2.1). La deuxième est filmée par une seule caméra de résolution supérieure à celle de la première (figure 2.2). Le système conçu pour la ré-identification est fondé sur trois étapes : 1) suppression du fond, 2) extraction des primitives où chaque séquence de silhouettes est transformée en une représentation de marche et 3) comparaison des primitives par une méthode simple de classification. Les méthodes testées dans ce travail sont : l’image énergie de la démarche («Gait Energy Image» (Han et Bhanu, 2006)), l’image énergie active («Active Energy Image» (Zhang et al., 2010)), la transformée de Fourrier pour un volume de silhouette (Yu Ohara et Yagi, 2004) et l’image énergie de différence des images («Frame Difference Energy Image» (Chen et al., 2009)). Les résultats montrent que les performances des méthodes diffèrent beaucoup entre les deux bases de données, et sont toutes plus élevées sur la deuxième base de données filmée par une seule caméra que sur la première. En effet, la deuxième base de données est filmée par une seule caméra et dans des conditions contrôlées, et donc la ré identification est réalisée dans un scénario simple. Quant à la première base de données, les personnes sont filmées par différentes caméras plus éloignées des personnes que dans le cas précédent, et donc la ré-identification est réalisée dans un scénario plus complexe.

Etat de l’art des points d’intérêt 2D

   De nombreuses méthodes de détection et description de points d’intérêt 2D sont utilisées dans la littérature. Ces méthodes sont généralement appliquées sur l’image intensité (image en niveau de gris). Dans cette section, nous présentons les détecteurs et les descripteurs les plus populaires.
Détecteurs Deux types de détecteurs de PIs ont été présentés dans la littérature : détecteurs de coins et détecteurs de blobs. La première catégorie considère des coins comme PIs. Les coins d’une image correspondent aux pixels ayant des changements d’intensité dans toutes les directions. Cependant, les coins de l’image sont parfois épais et donc difficilement détectables par ce type de détecteurs. La deuxième catégorie surmonte ce problème en détectant des petites zones d’intérêt (blobs) plutôt que des pixels. Dans les deux catégories, les travaux initiaux furent fondés sur des détecteurs à échelle fixe. Ils supposent qu’il n’y a aucun changement d’échelle prévu sur la caméra. Plus tard, (Lindeberg, 1998) a introduit la notion d’analyse multi-échelle de l’image, qui permet d’apparier deux images de différentes échelles. Rapidement les détecteurs à échelle fixe ont évolué vers une version multi-échelle. Détecteur de coins Parmi ces détecteurs, on cite le détecteur de Harris (Harris et Stephens, 1988) et le détecteur SUSAN (pour « Smallest Univalue Segment Assimilating Nucleus») (Smith et Brady, 1997). Le détecteur de Harris est fondé sur le calcul des gradients locaux pour chercher les coins. Un pixel est considéré comme un PI si ses valeurs de gradients dans toutes les directions sont grandes. Quant au détecteur de SUSAN, il est fondé sur des statistiques de la similarité des intensités des pixels au voisinage d’un pixel noyau. Selon le pourcentage des pixels ayant une intensité similaire au pixel noyau, ce dernier est considéré soit comme un pixel de contour, soit comme un pixel appartenant à une région homogène soit comme un PI. Ces deux détecteurs ne tiennent pas compte du changement d’échelle entre les images. Plus tard, après la proposition de l’analyse multi-échelle des images dans (Lindeberg, 1998), le détecteur de Harris a été adapté dans (Mikolajczyk et Schmid, 2004) pour être invariant à l’échelle en définissant le détecteur Harris-Laplace. Ce dernier détecte des PIs invariants aux transformations euclidiennes (rotation, translation) et à l’échelle. Son idée principale consiste à appliquer le détecteur de Harris à plusieurs échelles (construction d’une pyramide d’images). Les PIs sélectionnés correspondent aux maximums locaux d’une fonction qui fait intervenir le déterminant et la trace d’une matrice à base de gradients. Détecteur de blobs Ce type de détecteurs permet de rechercher des petites zones homogènes en intensité plutôt que de se limiter à des coins. Ces détecteurs comblent les lacunes des détecteurs de coins au niveau des zones lisses sans transition apparente. Le premier détecteur de blobs utilisé dans la littérature est fondé sur la matrice Hessienne. C’est un détecteur à échelle fixe. Son critère de sélection des PIs est fondé sur le déterminant de la Hessienne. En effet, les PIs retenus correspondent aux maximums locaux du déterminant de la Hessienne calculé pour chaque pixel. Par analogie au Harris-Laplace, Hessienne-Laplace intègre la notion d’échelle en appliquant la Hessienne sur plusieurs échelles et garde les maximums locaux d’une fonction espace-échelle. D’autre part, des travaux ont été proposés pour approximer le Laplacien de Gaussienne (LoG pour «Laplacian of Gaussian») qui intervient dans le calcul du déterminant de la Hessienne. Dans (Lowe, 2001), le LoG est approximé par la différence des Gaussiennes (DoG pour «Difference of Gaussians»). Ce détecteur multi-échelle fondé sur le DoG est connu dans la littérature par SIFT. L’utilisation de DoG pour le calcul du déterminant de la Hessienne rend la détection des PIs plus rapide car elle évite le calcul des dérivées secondes de l’image. SIFT est connu par son invariance aux transformations euclidiennes (rotation, translation) et à l’échelle. (Bay et al., 2006) proposent le détecteur SURF. Ce détecteur propose une méthode rapide pour approximer le LoG par le calcul des produits de convolution en utilisant un ensemble de filtres de type «box» (figure 3.7-a). L’utilisation de l’image intégrale proposée dans (Bay et al., 2006) rend le calcul des produits de convolution
Descripteurs Différents descripteurs ont été utilisés dans la littérature pour décrire les PIs. Certains descripteurs exploitent directement les intensités des pixels au voisinage du PI en les concaténant dans un seul vecteur ou en construisant un histogramme de distribution de ces intensités. Schmid et al. (Schmid et Mohr, 1997) ont proposé une description pour le détecteur de Harris. À partir d’une région au voisinage du PI, un ensemble d’opérateurs différentiels est appliqué pour extraire une description invariante à la rotation (Florack et al., 1996). D’autres descriptions, comme le descripteur SIFT (figure 3.3), sont fondés sur le calcul de gradients des pixels de la région entourant le PI. La taille de la région considérée est un multiple de l’échelle du PI et son orientation est celle de l’orientation dominante des gradients des pixels de cette région. Ensuite, cette région est divisée en 4 ou 16 zones. Pour chaque zone, les orientations des gradients sont quantifiées sur 8 valeurs et ensuite un histogramme de 8 composantes est calculé où chaque composante représente la somme des amplitudes des gradients des pixels associés à une orientation donnée.

Principe de construction de l’arbre-KD

   L’arbre-KD est une structure de données qui permet de stocker des vecteurs de dimension D (Bentley, 1975). L’arbre-KD est construit d’une manière récursive : à chaque nœud, on partitionne les données en deux sous-ensembles selon la valeur de l’une de ses composantes jusqu’à atteindre un critère d’arrêt (un exemple est présenté dans la figure 5.2). Algorithmiquement, le principe de construction d’un arbre-KD est résumé par les points suivants :
• Recherche de la dimension qui servira à séparer les données : il s’agit de la dimension où les données sont les plus éparpillées.
• Recherche du pivot : il s’agit du vecteur dont la valeur associée à la dimension sélectionnée permet de séparer les données en deux. Ce pivot sélectionné serait un nœud de l’arbre.
• Construction récursive de l’arbre :
➢ Un sous-arbre est créé à gauche du nœud avec les données inférieures ou égales au pivot.
➢ Un sous-arbre est créé à droite du nœud avec les données supérieures au pivot.
➝ Dans cette construction, la comparaison des vecteurs avec le pivot consiste à comparer leurs valeurs associées à la dimension de séparation.
• Critère d’arrêt : dès qu’un sous-arbre contient un nombre d’éléments inférieur à un seuil, une feuille contenant ces éléments est créée.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Résumé
Abstract
Remerciements
Dédicaces
Table des figures
Liste des tableaux
Acronymes
1 Introduction 
1.1 Contexte 
1.1.1 Etapes d’un système de ré-identification
1.1.2 Comparaison entre l’identification et la ré-identification
1.1.3 Différents scenarios de la ré-identification
1.1.4 Problématique du système de ré-identification
1.2 Facteurs de complexité de la ré-identification 
1.3 Contributions
1.4 Plan de thèse
2 Etat de l’art 
2.1 Introduction
2.2 Ré-identification fondée sur des primitives biométriques 
2.3 Vue générale sur les approches de ré-identification fondées sur l’apparence 
2.3.1 Problématique de changement des conditions d’éclairage dans un réseau de caméra
2.3.2 Représentations des personnes
2.3.3 Appariement des représentations de personnes
2.4 Classification des approches de ré-identification
2.4.1 Approches mono-échantillon vs approches multi-échantillons
2.4.2 Approches globales vs approches locales
2.4.3 Approches supervisées vs approches non supervisées
2.4.3.1 Approches de ré-identification non-supervisées
2.4.3.2 Approches de ré-identification supervisées
2.5 Base de données en ré-identification
2.5.1 Base de données multi-échantillons
2.5.2 Base de données mono-échantillon
2.6 Choix de notre méthode par rapport à l’état de l’art
3 Extraction des primitives 
3.1 Introduction
3.2 Critères d’extraction des PIs vis-à-vis la division de l’image en des régions
3.3 Description de l’apparence à partir de l’image 
3.3.1 Description locale par points d’intérêt 2D
3.3.2 Description globale
3.4 Description de mouvement à partir de la vidéo
3.4.1 Description implicite à partir d’un modèle
3.4.2 Description à partir des primitives
3.5 Conclusion
4 Ré-identification des personnes dans un scénario simple 
4.1 Introduction 
4.2 Ré-identification par la démarche 
4.2.1 Détection de la ROI
4.2.2 Division en périodes
4.2.3 Extraction des primitives
4.2.4 Introduction au HMM
4.2.5 Principe de ré-identification par HMM
4.2.5.1 Apprentissage des paramètres des HMMs
4.2.5.2 Classification avec HMM
4.2.6 Expériences et résultats
4.2.7 Faisabilité d’un système biométrique
4.3 Ré-identification par l’apparence
4.3.1 Description locale
4.3.1.1 Description du système d’apparence
4.3.1.2 Expériences et résultats
4.3.2 Description globale
4.3.2.1 Description par l’histogramme BoF de PIs
4.3.2.2 Description par histogramme de couleurs
4.4 Conclusion
5 Ré-identification des personnes dans un scénario complexe 
5.1 Introduction 
5.2 Ré-identification par l’apparence
5.2.1 Représentation parcimonieuse
5.2.1.1 Principe de la représentation parcimonieuse
5.2.1.2 Algorithmes de représentation parcimonieuse
5.2.1.3 Représentation parcimonieuse dans un contexte de PIs
5.2.2 Description du système proposé
5.2.2.1 Extraction des primitives
5.2.2.2 Classification d’un SURF par la RP
5.2.2.3 Vote Majoritaire
5.2.3 Expériences et résultats
5.2.3.1 Résultats obtenus sur CAVIAR4REID
5.2.3.2 Résultats obtenus sur PRID-2011
5.2.3.3 Analyse des résultats : apport de la RP
5.2.3.4 Influence des paramètres de la RP
5.2.4 Etudes des mécanismes de filtrage des correspondances
5.2.5 Etudes d’autres descriptions d’apparence
5.3 Ré-identification par le mouvement 
5.3.1 Extraction des primitives
5.3.2 Expériences et résultats
5.3.2.1 Résultats des STIPs
5.3.2.2 Résultats des Cuboïdes
5.3.2.3 Analyse des résultats
5.3.2.4 Comparaison des performances des PIs
5.4 Fusion d’apparence-mouvement
5.4.1 Schéma de la fusion
5.4.2 Résultats de la fusion
5.5 Analyse des erreurs 
5.5.1 Région descriptive
5.5.2 Luminosité
5.5.3 Direction de la marche
5.5.4 Détection de la personne
5.5.5 Apparences semblables
5.6 Conclusion
6 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.