Indexation de vidéos et de maillages 3D dans le contexte MPEG-7

Introduction à la normalisation de l’image

   Le terme normalisation de l’image, consacré par l’AFNOR (Association Française de NORmalisation), est une formulation compacte qui veut dire que l’on s’attaque à la représentation des données de type image. Le schéma synoptique de l’organisation de la normalisation de l’image, présenté Figure 1.1, se décline à différents niveaux internationaux d’instances représentatives. Les sigles utilisés, de façon standard, sont les suivants :
• ISO : International Standardization Organization,
• IEC : International Electrotechnical Commission,
• TC : Technical Committee,
• JTC1 : Joint Technical Committee N°1,
• SC : Sub-Committee,
• WG : Working Group.
Précisons que les SC sont structurés en un certain nombre de WG. En ce qui concerne le SC29, il regroupe les activités de 3 WG :
1. WG1 : JPEG (Joint Picture Expert Group),
2. WG11 : MPEG ( Moving Picture Expert Group),
3. WG12 : MHEG (Multimedia and Hypermedia information coding Expert Group – dissout à Singapour, Mars 2001).
L’ensemble de ces instances a pour objectif de produire des normes, i.e. des documents papier comportant :
– une référence,
– une date d’édition,
– un titre,
– une marque d’appartenance.
Ces mêmes caractéristiques se retrouvent sur les CD actuellement associés à une norme (Figure 1.2). Une norme, plate-forme d’interopérabilité au service d’applications, est le résultat d’un travail collaboratif impliquant industriels, représentants académiques, consommateurs ou prescripteurs et les pouvoirs publics. Elle représente le consensus des personnes impliquées sur un ensemble de technologies. Une norme sert à la mise en fabrication de produits industriels et à la vérification de leur conformité. C’est également, en un certain sens, un bon modèle de l’état de l’art dans le domaine concerné. Toutefois, des procédures de maintenance sont prévues de manière à faire évoluer le standard en lui permettant d’intégrer de nouvelles technologies plus performantes, faisant ainsi bénéficier la norme des progrès scientifiques réalisés dans des communautés aussi bien industrielles qu’académiques. C’est ainsi que MPEG-4 vient d’avoir la possibilité, suite à différents Call for Proposals (CfP) [MPEG-4-VideoCfP, MPEG-4-VideoCfP] d’intégrer des technologies plus performantes de codage audio et vidéo et d’étendre les technologies SNHC aux objets 3D déformables. Dans le même esprit de progrès technologique, MPEG-4 vient récemment de décider une nouvelle activité de compression [MPEG-Press07.01] conjointement avec le comité ITU-T SG16 (International Telecommunication Union – Telecommunication Standardization Sector, Study Group 16), qui se concrétisera dans une nouvelle version du standard MPEG-4, dont la sortie est prévue au printemps 2003. Les différentes étapes du processus de normalisation s’organisent sous forme d’un triptyque : confrontation (stade actuel de MPEG-7 version 2), convergence (stade actuel de MPEG-4) et évolution/maintenance (stade actuel de MPEG-1 et MPEG-2). Ces trois volets se déclinent au sein de réunions internationales (environ 4 à 5 par an) au niveau des WG. Comment participer à ces réunions ? La procédure à suivre est simple et est précisée par la résolution 30 du SC29 du 22-24 Mars 1999 rappelée dans l’Annexe 1.1. Comment se déroulent les réunions ? Suivant des principes quasi-immuables au sein du WG11. Avant la réunion, les contributions des différents acteurs sont enregistrées électroniquement (procédure technique spécifique par numéro d’enregistrement ISO). Pendant la réunion (du lundi au vendredi), elles sont examinées, discutées, soit au sein de petits groupes spécifiques (Ad Hoc Group), soit au sein des groupes pléniers qui structurent les activités MPEG (ceux-ci peuvent différer selon qu’il s’agit de MPEG-4 ou de MPEG-7). Une décision consensuelle est alors adoptée par le groupe concerné (Figure 1.3) : rejet, demande de modification, recommandation d’association avec des propositions similaires ou complémentaires, intégration au sein d’un CE1 (Core Experiment) pour évaluation technique ou création d’un CE spécifique, intégration dans le XM2 (eXperimentation Model) ou le VM3 (Validation Model). En fin de semaine, des documents de sortie, référencés ISO, dressent le bilan cumulé des activités en termes de résolutions, décisions, recommandations, mandatements, spécifications, évaluation de technologies… Certains de ces documents sont publics, d’autres restent internes au WG11.

MPEG-4 : principes et applications

MPEG-4 est dédié aux champs d’application suivants :
• télévision numérique,
• graphiques interactifs (contenus synthétiques),
• multimédia interactif (Internet, Intranet).
MPEG-4 contient toutes les technologies qui permettent l’intégration de la production, de la distribution et du paradigme d’accès aux contenus de ces trois domaines. Le paradigme d’interaction et accès au contenu s’exprime à l’aide de nouveaux outils permettant la manipulation d’objets vidéos de forme arbitraire, l’édition de flux binaires et la scalabilité par objet vidéo. Chaque objet vidéo est codé sur plusieurs niveaux (layers) : un niveau de base (base layer), suivi de plusieurs enhancement layers, correspondant à des degrés de qualité et complexité croissants. MPEG 4 intègre dans un schéma de codage générique, trois types différents de scalabilité : temporelle (contrôle du frame rate), spatiale (contrôle de la résolution spatiale) et en qualité (rapport signal / bruit). Ainsi, un seul flux binaire MPEG-4 peut-il être réutilisé sous diverses contraintes de largeur de bande et de complexité. Enfin, MPEG-4 offre les outils spécifiques au paradigme d’accès universel, en conjuguant le principe de scalabilité par objet vidéo à des techniques permettant la transmission sur des canaux de communication bruités (cf. réseaux mobiles), et en offrant des outils tels que l’insertion de marqueurs de resynchronisation, partitionnement des données, codes réversibles ou rafraîchissement intra. Grâce à MPEG-4, les auteurs peuvent créer des contenus réutilisables de façon plus souple qu’avec les formats non intégrés existants. MPEG-4 permet également une gestion des droits d’accès et une protection contre la copie. MPEG-4 offre aux fournisseurs de services réseaux et aux distributeurs un cadre garantissant une quasi décorrélation des contenus vis-à-vis des technologies de distribution (réseaux et diffusion). Par exemple, MPEG-4 rend possible l’optimisation de la qualité de service tout au long de la distribution sur un réseau hétérogène. MPEG-4 propose aux utilisateurs l’intégration de nombreuses techniques avancées : consultation de contenus sur des terminaux variés du téléphone portable amélioré au PC générique en passant par la télévision avec un décodeur, accès interactif à des applications (par opposition à la consultation d’émissions linéaires)… MPEG-4 réalise ces performances en fournissant des méthodes standardisées pour :
1. représenter de manière compacte des “atomes” de contenus audios, vidéos ou audiovisuels appelés “objets”. Ces objets peuvent être d’origine naturelle (un son ou une vidéo enregistrée) ou synthétique (voix synthétique, musique MIDI, scène 3D VRML) ;
2. composer ces objets afin de créer des objets audiovisuels composites appelés “scènes” ;
3. multiplexer et synchroniser les données associées aux objets, pour leur transport sur un réseau avec une qualité de service adaptée à la nature de chacun d’eux ;
4. interagir avec la scène reconstituée au niveau du récepteur.

Contexte et objectifs de MPEG-7

   L’accroissement du volume des données numériques aujourd’hui accessibles sur l’Internet, via des bases de données ou la diffusion par les bouquets numériques, requiert de disposer de modalités d’accès intelligent à ces contenus multimédias qui sont composés d’images fixes, de vidéo, d’audio et de texte. Cette nécessité fait écho à des enjeux socio-économiques importants, s’affirmant dans des contextes d’applications professionnels ou grand public aussi divers que les télécommunications (codage, téléports, réseaux…), les services en ligne (commerce électronique, informations personnalisées, …) et la production audiovisuelle (télévision, industrie cinématographique, vidéo, post-production, archivage, accès public aux fonds collectifs…). Le futur standard MPEG-7 a pour objectif [MPEG-7] de fournir des descriptions standardisées des contenus multimédias et de supporter un large éventail d’applications potentielles. MPEG-7 standardisera donc (Figure 1.6) :
1. Un ensemble de descripteurs : Un Descripteur (Descriptor – D) est une représentation d’une primitive (feature) d’image. Un descripteur définit la syntaxe et la sémantique de la représentation de la primitive.
2. Un ensemble de schémas de description : Un Schéma de Description (Description Scheme – DS) spécifie la structure et la sémantique des relations entre ses composantes, qui peuvent être aussi bien des Descripteurs que d’autres Schémas de Description.
3. Un langage de définition de description : Ce langage (Description Definition Language – DDL), fondé sur XML Schema [XML], doit permettre de créer de nouveaux schémas de description, de nouveaux descripteurs et également d’étendre et de modifier des schémas de description existants. Mentionnons que la question d’adoption d’un langage de description a été précédemment considérée par MPEG, au niveau du standard MPEG-4. Il s’agit du format XMT (Extensible MPEG-4 Textual Format) [Kim00] qui définit un format textuel de représentation de scène, fondé sur XML et intégrant aussi bien des éléments de X3D (qui est la transcription en XML de VRML97, réalisée par le Consortium Web 3D) [X3D] que de SMIL (Synchronized Multimedia Integration Language) [SMIL], le langage de description que le Consortium W3C a développé spécifiquement pour la création des présentations multimédia synchronisées. XMT correspond en effet à une “xml-isation” des BIFS, assurant une relation biunivoque entre représentations binaires et textuelles. Par ailleurs, L’intégration du DDL MPEG-7 dans le cadre XMT a été également envisagée, pour des raisons d’interopérabilité augmentée. Dépassant largement le cadre de ce travail, cette problématique ne sera pas détaillée plus avant dans ce mémoire.
4. Les schémas de codage (Coding Schemes) : Disposer de descripteurs et de schémas de description pose en pratique des problèmes de taille de représentations, de stockage et de transmission. Il est alors nécessaire de disposer de mécanismes adéquats de codage des divers descripteurs et schémas de description satisfaisant aux requêtes de type efficacité de la compression, résistance aux erreurs dans le cas des transmissions sur des canaux bruités, accès aléatoire, etc. MPEG-7 a actuellement retenu un mécanisme générique de codage, appelé BiM (Binary format for Metadata), qui associe de manière biunivoque à chaque description exprimée en langage de description MPEG-7 une représentation binaire compacte.   Soulignons que les méthodes d’extraction des descripteurs et les mesures de similarité associées restent en dehors du standard, qui se borne à quelques recommandations non normatives, incluses au niveau du logiciel de référence. Cette stratégie laisse la porte ouverte à de futures avancées méthodologiques dans ces domaines, sans pour autant remettre en question les technologies standardisées. Toutefois, dans le cas spécifique de MPEG-7, pour des raisons d’interopérabilité, une partie importante de l’extraction est définie par la sémantique de différentes composantes des descripteurs. Citons dès à présent comme exemples typiques, le descripteur de texture homogène (où les coefficients des filtres de Gabor, le nombre de sousbandes spectrales et les mesures énergétiques associées sont figés, cf. Paragraphe 1.3.5.1) et le descripteur de reconnaissance de visage (où les 49 vecteurs propres sont fixés, cf. Paragraphe 1.3.5.6).

Représentations du mouvement global de la caméra

   Elles reposent le plus souvent sur des modélisations paramétriques 2D ou 3D des mouvements de la caméra. Ces modèles ont le mérite de prendre en compte de manière fiable, compacte et précise une large classe de mouvements rencontrés dans les vidéos naturelles. En outre, cette modélisation paramétrique permet de créer des mosaïques, i.e. des images panoramiques obtenues après avoir aligné, par juxtaposition et composition, plusieurs images du même plan. Elles synthétisent le contenu de ce plan. Les modèles paramétriques 2D et les méthodes de création de mosaïques ont été largement exploités et retenus au niveau des instances internationales de normalisation, aussi bien dans le cadre du standard MPEG-4, pour des applications de codage vidéo, que dans le cadre du futur standard MPEG-7, où un schéma de description mosaïque a été spécifiquement adopté. Au-delà d’objectifs de visualisation, l’image mosaïque peut être enrichie de descripteurs spécifiques aux images fixes. Cela conduit alors à l’extension naturelle et intuitive des descripteurs d’image aux plans vidéos. Dans [Smolic99], des modèles paramétriques 2D sont proposés pour estimer le mouvement global de la caméra, créer des mosaïques, segmenter et indexer des séquences vidéos. D’autres approches exclusivement dédiées à la création de mosaïques, aussi bien 2D que 3D, sont décrites dans [Davis98, Pope97, Kumar95]. Dans [Sudhir97], les auteurs proposent une modélisation complète de la caméra dans l’espace 3D et réalisent une décomposition des mouvements apparents induits dans les images 2D en deux composantes distinctes : une singulière (si le mouvement de la caméra induit un point de vitesse nulle dans le flot optique 2D) et l’autre non-singulière (si le flot optique associé n’a pas de point critique). Chaque type de mouvement est déterminé à partir du flot optique extrait des images et catégorisé en pan, tilt et translation verticale et horizontale (pour les mouvements non-singuliers) et translation / rotation autour de l’axe z (cf. Chapitre 1, Figure 1.19) et zoom-avant ou arrière (pour les mouvements singuliers). Une approche similaire est présentée dans [Corridoni98], où les auteurs proposent une modélisation initiale affine du mouvement de la caméra, suivie d’une classification du mouvement global en pan, tilt, zoom et dolly, effectuée par la technique décrite dans [Adiv85]. Dans [Jeannin00], une modélisation complète des actions de la caméra dans l’espace 3D est également proposée. Sous l’hypothèse d’un modèle de projection perspective, les contributions moyennes de chaque mouvement individuel sur l’ensemble des trames de chaque plan sont ensuite estimées (cf. Chapitre 1), à partir des champs de vecteurs extraits par un algorithme de flot optique. Rappelons que cette technique a été adoptée dans le standard MPEG-7. Dans [Bouthemy00, Gelgon98], une modélisation affine du mouvement dominant permet également de classifier le mouvement en pan/tilt, zoom avant/arrière, rotation gauche/droite. La classification est fondée sur une décision Bayesienne et exploite la décomposition du mouvement affine en termes de translation, divergence, rotationnel et composante hyperbolique. Les mêmes auteurs considèrent également une modélisation affine du mouvement pour extraire des mosaïques, segmenter et suivre des objets vidéos. Pour des objectifs de visualisation rapide du contenu vidéo, ils proposent ensuite de construire une “trame synoptique”, i.e. l’image mosaïque avec les contours et les trajectoires des objets individuels superposés. Une approche similaire et ayant les mêmes objectifs de visualisation synoptique des scènes vidéos est décrite dans [Irani97, Pope98]. Le problème des requêtes par similarité de mouvement n’est en revanche pas abordé. Dans [Bouthemy00, Bouthemy99], les mêmes modèles de mouvement affine sont utilisés dans le cadre d’un algorithme de détection de changement de plans. La méthode s’appuie sur des mesures associées aux régions support du mouvement dominant, déterminé en appliquant l’algorithme d’estimation robuste du mouvement affine proposé dans [Odobez95]. Enfin, une approche moins conventionnelle est proposée dans [Bruno00]. S’appuyant sur une décomposition en série de Fourier des composantes du flot optique, les auteurs utilisent ces coefficients pour indexer les séquences vidéos. A partir d’une mesure de similarité fondée sur une distance dans l’espace des coefficients de Fourier, une reconnaissance des activités humaines simples, comme mouvements vers la gauche, la droite, le haut, le bas, avancer, reculer, est mise en oeuvre. Ces représentations globales sont bien utiles pour caractériser ou catégoriser le mouvement d’une caméra et ont l’avantage, dans le cas des plans exhibant un mouvement panoramique, d’aboutir à la création de mosaïques, exploitables pour des objectifs de visualisation ou d’extraction d’autres descripteurs spécifiques aux images fixes. En outre, les mécanismes d’extraction de paramètres sous-jacents permettent de créer des outils pour des objectifs complémentaires de segmentation temporelle ou de détection et segmentation d’objets mobiles. Cependant leur utilisation directe pour des applications de requête par similarité reste peu exploitée, principalement en raison de l’absence de mesures de similarité appropriées. Nous verrons dans les paragraphes suivants, que la définition de telles mesures entre les modèles paramétriques, comme celles que nous avons introduites au cours des développements du futur standard MPEG-7 [Prêteux-Iso99.07m, Zaharia01], rend opérationnelles aussi bien la mise en œuvre des applications de requête que la gestion du contenu dynamique des séquences vidéos. Poursuivons avec les approches dédiées à la représentation des mouvements d’objets vidéos individuels de forme quelconque. Ces objets sont spécifiés par leurs supports spatio-temporels préalablement déterminés par des algorithmes dédiés de segmentation ou de suivi d’objet, comme ceux cités au début de ce paragraphe.

Maillages 3D

   Un maillage 3D (Figure 3.1) est défini par un ensemble de sommets et un ensemble de facettes polygonales. Les positions des sommets des polygones dans l’espace 3D sont exprimées par leurs coordonnées dans un repère cartésien. Cette information spécifie la géométrie du maillage, i.e. les propriétés métriques de la surface maillée. Les facettes sont définies comme des séquences ordonnées d’indices de sommets et précisent la connexité du maillage, i.e. les propriétés topologiques de la surface. Les facettes peuvent être des polygones quelconques, avec un nombre arbitraire de sommets. Dans le cas spécifique où toutes les facettes d’un maillage sont des triangles, le maillage est dit triangulaire. Tout maillage polygonal peut facilement être transformé en un maillage triangulaire par triangulation [Frey99, DeBerg97] de chacune de ses facettes. Ajoutons que des attributs photométriques, comme la couleur, la texture et le vecteur normal, peuvent également être associés à un maillage. Traitant ici exclusivement du concept de forme, seules les informations de géométrie et de connexité sont considérées. Parmi les différents standards de représentation et stockage des modèles maillés (LWO, COB, DFX, 3DS, 3DStudioMax), le Virtual Reality Modelling Language (VRML) [VRML97] est devenu l’un des formats les plus populaires. Dans VRML, les différents éléments géométriques, topologiques et photométriques sont listés successivement selon un format textuel : liste des coordonnées des sommets, liste des sommets indexés définissant les facettes… Remarquons que ces représentations textuelles conduisent en général à des fichiers de très grande taille pouvant atteindre des dizaines de MegaOctets pour des modèles un peu élaborés, d’où la nécessité d’introduire des méthodes spécifiques de compression de maillages 3D [Taubin98, Curila99, Alliez01]. Cet enjeu en terme de compression des données maillées est d’ailleurs pris en compte dans le contexte de la normalisation internationale ISO et plus précisément dans le cadre du standard MPEG-4 SNHC (Synthetic and Natural Hybrid Coding) [MPEG-4], mais ne révèle pas de ce travail, même si nous avons contribué à l’évalution des solutions techniques apportées [Prêteux-Iso98.10, Prêteux-Iso98.12, Prêteux-Iso99.03, Prêteux-Iso99.07]. Les représentations maillées relèvent d’une approche purement surfacique des données 3D. Bien que naturel et commode, lorsqu’il s’agit d’application graphiques comme la visualisation et le rendu des surfaces, le caractère intrinsèquement surfacique des données maillées conditionne drastiquement les méthodes d’analyse de forme que l’on peut envisager pour des applications d’indexation et de reconnaissance. C’est l’une des causes des nombreuses difficultés liées à la problématique de représentation automatique par le contenu des maillages 3D. En effet, dans le cas d’objets 2D, les approches “surfaciques” d’analyse de forme se traduisent aisément par des représentations à base de contours 2D, pour lesquels il existe des paramétrisations naturelles, comme par longueur d’arc. De telles paramétrisations s’appliquent aux images 3D de profondeur définies sur des treillis rectangulaires, ce qui en simplifient grandement l’analyse. En revanche, rien de tout cela ne demeure valide dans le cas des maillages 3D. En outre, notons que même en nous limitant au cadre plus restreint des surfaces fermées, auxquelles il est possible d’associer un volume dual exploitable par les algorithmes d’analyse volumique de forme, un certain nombre de questions persiste en raison de la discrétisation (voxelisation) des données. En effet, pour “voxeliser” de tels maillages, il est nécesssaire de définir la résolution de la grille 3D d’échantillonnage. Cela requiert implicitement de disposer d’une mesure de l’échelle des objets, qu’il n’est pas évident de définir de manière cohérente pour tous les modèles d’une base. Les représentations volumiques associées aux maillages sont donc dépendantes de celle-ci. Il ressort de ces observations que les descripteurs de forme pour les maillages 3D doivent prendre en compte la nature surfacique des données maillées. Ces descripteurs ont à satisfaire à d’autres contraintes liées au facteur humain de l’utilisateur final et au contexte applicatif de l’indexation et de la reconnaissance. Il est en effet nécessaire que ces représentations puissent engendrer des requêtes ou des mécanismes de reconnaissance dont les résultats soient cohérents avec ceux de la perception humaine. Efin, un descripteur doit à l’évidence vérifier des propriétés géométriques et topologiques plus ou moins intuitives.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Normalisation de l’image : de la compression vidéo aux représentations par le contenu 
1.1 Introduction à la normalisation de l’image
1.2 Le standard MPEG-4
1.2.1 MPEG-4 : principes et applications
1.2.2 Structuration de MPEG-4
1.3 Panorama sur MPEG-7
1.3.1 Contexte et objectifs de MPEG-7
1.3.2 Domaines d’application de MPEG-7
1.3.3 Structuration de MPEG-7
1.3.4 MPEG-7 MDS
1.3.5 Descripteurs visuels MPEG-7
1.3.5.1 Descripteurs de couleur
1.3.5.2 Descripteurs de texture
1.3.5.3 Descripteurs de forme
1.3.5.4 Descripteurs de mouvement
1.3.5.5 Descripteurs de localisation
1.3.5.6 Descripteur de reconnaissance de visage
1.4 Conclusion
2 Indexation par le mouvement des séquences vidéos 
2.1 Introduction
2.1.1 Descriptions statistiques globales
2.1.2 Représentations du mouvement global de la caméra
2.1.3 Représentations à base de trajectoires
2.1.4 Représentations par modélisation paramétrique 2D
2.2 Le descripteur de mouvement paramétrique d’objet
2.2.1 Principe et définitions
2.2.2 Contexte normatif MPEG-7
2.3 Estimation des paramètres de mouvement
2.3.1 Fonctionnelles d’énergie et M-estimateurs robustes
2.3.2 Solution optimale
2.3.3 Estimation incrémentale
2.3.4 Estimation multirésolution avec projection des paramètres
2.3.5 Exemples d’estimation
2.4 Segmentation temporelle en régions de mouvement cohérent
2.5 Mesures de similarité 
2.5.1 Distances dans l’espace des paramètres
2.5.2 Distances entre champs de vitesse
2.5.3 MSCV et optimisation de la complexité
2.5.4 Alignement, pondération et profil utilisateur
2.5.5 Création des bases de test
2.5.6 Résultats expérimentaux
2.6 Conclusion 
3 Indexation de maillages 3D par descripteur de forme
3.1 Contexte et état de l’art
3.1.1 Maillages 3D
3.1.2 Forme et critères d’invariance
3.1.3 Synthèse bibliographique
3.1.3.1 Les approches statistiques
3.1.3.2 Les approches structurales
3.1.3.3 Les approches par transformée
3.1.3.4 Les approches variationnelles
3.1.4 Les approches proposées
3.2 Le spectre de forme 3D
3.2.1 Eléments de géométrie différentielle
3.2.1.1 Surface régulière et paramétrisation
3.2.1.2 Formes fondamentales et courbures
3.2.2 L’index de forme
3.2.3 Le calcul des courbures principales sur un maillage discret
3.2.3.1 Approches non-paramétriques
3.2.3.2 Approches paramétriques
3.2.3.3 Estimation des courbures par approximation quadratique
3.2.3.4 Orientation et régularité des maillages 3D
3.2.4 Le descripteur MPEG-7 par spectre de forme 3D
3.2.4.1 Définition et interprétation
3.2.4.2 Contexte normatif MPEG-7
3.2.5 De l’invariance topologique du SF3D
3.3 Description de forme par transformée de Hough 3D
3.3.1 La transformée de Hough 3D
3.3.1.1 Définition et construction algorithmique
3.3.1.2 Pondération par critère d’orientation
3.3.1.3 Granularité et remaillage adaptatif
3.3.2 Le descripteur de Hough 3D optimisé
3.3.2.1 Alignement spatial : les configurations génératrices
3.3.2.2 Partition polyédrique régulière de la sphère : le DH3D optimisé
3.3.2.3 Mesures de similarité
3.4 Evaluation expérimentale des descripteurs de forme
3.4.1 Les corpus d’étude
3.4.2 Résultats et analyse comparée
3.5 Conclusion
4 Plate-forme AMIS d’indexation vidéo compatible MPEG-7 et applications 
4.1 Synthèse bibliographique
4.2 L’approche adoptée dans le contexte MPEG-7
4.2.1 Le cœur de la plate-forme AMIS
4.2.2 Les outils de développement
4.3 Les applications MPEG-7 développées
4.3.1 Indexation d’archives vidéos et vidéo cliquable
4.3.2 Indexation en langue des signes française
4.3.2.1 Corpus de test et création des prototypes “gestuels” naturels et synthétiques
4.3.2.2 Segmentation et suivi de la main
4.3.2.3 Descripteurs de configuration de la main
4.3.2.3.1 La Transformée de Hough 2D
4.3.2.3.2 La transformée de Hough 2D invariante aux similarités
4.3.2.3.3 Descripteur de configuration à base de transformée de Fourier
4.3.2.4 Résultats expérimentaux
4.3.2.5 Reconnaissance de la langue des signes dans le contexte MPEG-7
4.4 Conclusion
5 Conclusion et perspectives

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.