Représentation d’un environnement par un système multi-capteurs : fusion et interprétation de scène

Dans le domaine de la vision par ordinateur et de l’intelligence artificielle, la construction d’un système d’interprétation de scènes constitue actuellement un champ très important et très prometteur de recherche. L’objectif visé par un tel système est d’apporter aux experts des outils d’aide à la décision leur facilitant l’exploitation conjointe de plusieurs sources de connaissances se rapportant à la scène observée et de pouvoir améliorer ainsi leur compréhension de cette même scène. Dans ce contexte, l’utilisation d’un système d’imagerie permet la projection de la scène, sous la forme d’images. On parle dans ce cas précis de systèmes d’interprétation d’image.

Problématiques de l’interprétation de scène

Un processus d’interprétation de scène rassemble les approches et les outils permettant l’identification du contenu sémantique des données collectées, données qui peuvent être issues d’une ou de plusieurs sources de connaissances. Ce processus a clairement besoin de la capacité d’extraire de nouvelles connaissances en s’appuyant sur les données collectées, tout comme le fait l’être humain, afin d’assurer l’interprétation de la scène observée. A ce titre, le contenu sémantique des données collectées à partir de la scène est donc fortement lié aux systèmes d’acquisition de l’information mais aussi aux connaissances a priori de l’expert qui donnent une sémantique aux observations. Ainsi, l’identification du contenu sémantique d’une scène est réalisée par la coopération entre les données collectées et les différents types de connaissances disponibles (connaissances a priori de l’expert, connaissances acquises au cours du processus d’interprétation, connaissances sur les processus physiques d’acquisition de l’information, etc.).

Cette coopération peut être réalisée sur chacun des cinq niveaux d’abstraction communément définis : le niveau sous-pixelique, le niveau pixelique, le niveau région, le niveau objet et le niveau scène globale. Ces cinq niveaux d’interprétation, basés essentiellement sur les méthodes de reconnaissance de formes, sont appelés niveaux sémantiques d’interprétation.

La description par l’expert (en se basant sur ses connaissances a priori) des informations et données collectées constitue un problème récurrent lors de la conception d’un système d’interprétation de scène. Ce problème devient plus complexe dans le contexte où les données sont très difficiles à discriminer (données bruitées ou fortement texturées, par exemple) ou lorsque le niveau sémantique d’interprétation s’élève (par exemple, le niveau sémantique « scène »). En effet, le processus d’interprétation de scène doit alors prendre en compte et intégrer dans ses mécanismes une richesse de connaissances a priori de plus en plus importante, car dans la majorité des systèmes d’interprétation de scène, les connaissances a priori de l’expert sont considérées comme représentatives du contenu sémantique à identifier. Néanmoins, ces connaissances a priori fournies par l’expert ne représentent généralement qu’un sousensemble des connaissances caractérisant complètement les contenus sémantiques de la scène. Ainsi, la capacité d’extraire de nouvelles connaissances à partir des données collectées et d’en qualifier leur certitude (essentielle lors du processus d’interprétation), constitue l’un des problèmes majeurs rencontrés pour la conception des systèmes d’interprétation de scène.

En général, les données collectées ainsi que les connaissances extraites au cours de ce processus souffrent d’un ou de plusieurs types d’imperfections telle que l’incertitude et l’imprécision. De plus, les connaissances a priori de l’expert sont généralement exprimées d’une manière vague. Ceci rend le processus d’interprétation de scène encore plus complexe. Pour ces raisons, une représentation adéquate des connaissances mises en jeu et des imperfections devient indispensable. Une telle représentation doit aussi permettre, d’un côté d’intégrer et d’exploiter conjointement les connaissances disponibles issues des différents types de sources de connaissance dans le processus d’interprétation et d’un autre côté, de manipuler explicitement les différentes formes d’imperfections entachant les données collectées. De plus, le processus d’interprétation de scène est en général conditionné par l’objectif visé par l’expert. En effet, cet objectif permet de préciser le niveau sémantique d’interprétation de scène et de guider ainsi le processus d’interprétation afin d’extraire essentiellement la partie des connaissances intéressantes qui sont associées au niveau sémantique visé par l’objectif. De l’autre côté, la majorité des systèmes d’interprétation de scène (concernant les trois niveaux sémantiques d’interprétation de scène : le niveau sous pixelique, le niveau pixelique et le niveau région) opèrent sur le niveau pixelique pour aboutir au niveau sous pixelique ou pour aboutir au niveau région, sans formaliser les liens entre ces trois niveaux. Pourtant, un tel lien ne peut qu’améliorer les résultats globaux de l’interprétation.

Approche générique proposée

Dans ce travail de recherche, nous proposons un système de segmentation/interprétation d’image basé sur la théorie des possibilités dans un environnement multi-sources de connaissances pour les trois niveaux sémantiques d’interprétation suivants : sous-pixelique, pixelique, région. En effet, cette théorie offre plusieurs avantages au sein d’un processus d’interprétation de scène parmi lesquels l’efficacité et la simplicité en termes de représentation et d’intégration des connaissances a priori de l’expert, à des fins de traitement et de fusion au sein d’un même cadre, d’informations imparfaites issues de différentes sources de connaissances. Par ailleurs, ce système d’interprétation de scène repose sur une analyse hiérarchique qui opère sur trois niveaux d’interprétation voisins (ici pixelique, région et sous-pixelique) au travers de deux phases de traitement : une phase ascendante et une phase descendante (Figure 0.1).

La phase ascendante a pour objectif de réaliser l’analyse et la segmentation d’image représentant une scène observée. En effet, cette phase, initialisée par les connaissances a priori de l’expert liées au contenu sémantique, comporte deux étapes consécutives : le raffinement-estimation des distributions de possibilités et la diffusion des connaissances possibilistes. L’étape du raffinement-estimation des distributions de possibilités permet la production de nouvelles connaissances à partir des connaissances disponibles en vue d’une représentation plus riche du contenu sémantique à identifier. En se basant sur l’ensemble des connaissances issues de la première étape, une étape de diffusion des connaissances possibilistes est menée afin d’accumuler les évidences sur les régions et ainsi, de finaliser le processus de segmentation de l’image. Les résultats ainsi obtenus se trouvent donc clairement au niveau sémantique « région » de par le fait des connaissances initiales apportées par l’expert et décrivant des régions de la scène. La phase descendante a pour objectif d’améliorer l’interprétation des différentes régions homogènes identifiées dans la phase ascendante et donc de permettre de raffiner le contenu thématique de ces régions. Nous proposons dans cette phase, une approche de démixage pixelique basée sur la notion de la similarité possibiliste. Cette approche permet d’analyser l’ensemble des pixels composant chaque région identifiée afin de fournir une représentation plus riche du contenu thématique de ces régions (raffinage quantitatif permettant d’avoir le contenu thématique global dans la région considérée et/ou raffinage spatial permettant d’avoir la distribution spatial de ce contenu thématique). Cette représentation permet aussi de réaliser, dans une étape ultérieure, une phase d’analyse de la similarité entre les différentes régions en fonction de leurs contenus thématiques dans l’objectif de fusionner les régions ayant des caractéristiques similaires et donc compléter l’analyse de la scène observée.

Cadre général d’interprétation de scène

Dans le domaine de la vision par ordinateur et de l’intelligence artificielle, la question d’interprétation de scène est fortement liée à la perception visuelle, c’est-à-dire à la perception du monde réel par des systèmes d’imagerie (système visuel humain, caméra CCD, …etc.). La notion de perception visuelle désigne l’ensemble des actes de détection d’une scène (les objets visibles, les structures et les événements), de reconnaissance et de description avec des symboles [1]. Bien que les humains arrivent facilement et de manière robuste à réaliser une telle perception visuelle, cette tâche reste toujours un défi pour les systèmes de vision par ordinateur ainsi que pour les approches d’intelligence artificielle. La vision par ordinateur vise à imiter la vision humaine en utilisant ses propres mécanismes d’observation, d’analyse et d’interprétation de scène. Ainsi, son objectif est de doter les ordinateurs d’un système de vision permettant de comprendre leur environnement à partir des données issues de systèmes d’imagerie. Cette manière de procéder s’effectue par une série de procédures de traitement de données et d’extraction d’informations basées sur la géométrie, la physique, les statistiques et les théories d’apprentissage [2]. Chaque étape d’un tel système de traitement est conditionnée par des connaissances a priori spécifiques au domaine considéré [3]. Selon le paradigme de Marr [4], un système de vision est une succession de procédures qui permettent de transformer l’information d’un niveau d’abstraction vers un niveau d’abstraction plus élevé. Marr a ainsi organisé cette succession en trois niveaux de représentation : le bas niveau qui vise à détecter les changements d’intensité significatifs dans une image et à en extraire des caractéristiques de base (régions, contours,…etc.), le niveau intermédiaire qui décrit les liens entre les deux espaces 2D (image) et 3D (monde réel), et le haut niveau qui traite de la description complète d’une scène. Dans ce paradigme, Marr ne tient pas compte du rôle des connaissances a priori ou des connaissances d’expert pour la coopération entre ces trois niveaux [1]. Ainsi, l’extraction du contenu sémantique de la scène devient très difficile [6] .

Aujourd’hui, et malgré le fait que les ordinateurs possèdent une puissance de calcul supérieure à l’être humain, on n’arrive pas à produire des systèmes de vision robustes. Cela est dû principalement aux deux fossés entre la réalité et ce qui est perçu (Figure 1.1) :
• Le fossé sensoriel qui est défini comme « le fossé dû à l’enregistrement, ou la projection, de la scène 3D sur une ou plusieurs images 2D » [5] [6].
• Le fossé sémantique qui est plus délicat à traiter. Il est défini comme « l’insuffisance des informations extraites à partir des pixels, pour interpréter la scène » [5] [6]. Il s’agit du manque de connaissances a priori nécessaires pour extraire la sémantique contenue dans l’image.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION GENERALE
1. INTERPRETATION DE SCENE
1.1 Introduction
1.2 Cadre général d’interprétation de scène
1.3 Processus d’interprétation de scène
1.4 Méthodes de reconnaissance de formes
1.4.1 Les méthodes bayésiennes
1.4.2 Les méthodes markoviennes
1.4.3 Les modèles de mélanges
1.4.4 Les méthodes basées sur la théorie des ensembles flous
1.4.4.1 L’algorithme Fuzzy C-Means (FCM)
1.4.4.2 Les systèmes à base de règles floues
1.4.5 Les méthodes de fusion d’information multi-sources
1.5 Niveaux d’interprétation d’une scène
1.5.1 Le niveau sous-pixelique
1.5.2 Le niveau pixelique
1.5.3 Le niveau région
1.5.4 Le niveau objet
1.5.5 Le niveau scène
1.6 Conclusions
2. IMPERFECTION DE L’INFORMATION – CADRES MATHEMATIQUES
2.1 Introduction
2.2 Caractérisation d’information (imperfection et hétérogénéité)
2.2.1 Définition d’une information
2.2.2 Caractérisation d’une information
2.2.3 Notion d’information imparfaite
2.2.3.1 L’incertitude
2.2.3.2 L’ambiguïté
2.3 Approches de modélisation d’informations imparfaites
2.3.1 Théorie des probabilités
2.3.2 Théorie des fonctions de croyance
2.3.3 Théorie des ensembles flous
2.3.3.1 Définitions
2.3.3.2 Opérations sur les ensembles flous
2.3.4 Théorie des possibilités
2.3.4.1 Distribution de possibilités
2.3.4.2 Mesure de possibilité et mesure de nécessité
2.3.5 Règles de décision possibiliste
2.3.5.1 Règle de décision basée sur la possibilité maximale
2.3.5.2 Règle de décision basée sur la mesure de nécessité maximale
2.3.5.3 Règle de décision basée sur la maximisation de l’indice de confiance
2.4 Fusion d’information dans un cadre possibiliste
2.4.1 Opérateurs de fusion conjonctive
2.4.2 Opérateurs de fusion disjonctive
2.4.3 Opérateurs de fusion adaptative
2.5 Théorie des possibilités en interprétation de scène
2.6 Conclusion
3. ESTIMATION DES DISTRIBUTIONS DE POSSIBILITES DANS LES SYSTEMES DE CLASSIFICATION PIXELIQUE
3.1 Introduction
3.2 Etat de l’art des méthodes d’estimation des distributions de possibilité
3.2.1 Méthodes d’estimation guidées par l’expert
3.2.1.1 Méthodes heuristiques
3.2.1.2 Méthodes hybrides
3.2.2 Méthodes de transformation d’une distribution de probabilités en une distribution de possibilités
3.2.2.1 Principe de cohérence probabilités-possibilités de Zadeh
3.2.2.2 Transformation de Dubois et Prade
3.2.3 Méthodes à base d’apprentissage
3.2.3.1 L’algorithme Fuzzy C-Means (FCM)
3.2.3.2 Méthode basée sur l’algorithme des k plus proches voisins
3.3 Approche proposée pour le raffinement des distributions de possibilités
3.3.1 Estimation des distributions de possibilités
3.3.2 Projection des connaissances possibilistes
3.3.3 Sélection des germes possibilistes
3.4 Expérimentations et résultats
3.4.1 Présentation des données expérimentales
3.4.2 Evaluation de la méthode de sélection des germes possibilistes
3.4.3 Effet de la largeur L du noyau de la méthode KDE
3.4.4 Comportement de l’approche proposée
3.4.5 Résultats expérimentaux sur des images médicales
3.5 Conclusions
4. SIMILARITE POSSIBILISTE
4.1 Introduction
4.2 Mesures de similarité
4.2.1 Mesures de similarité métriques
4.2.2 Mesures de similarité ensemblistes
4.2.3 Mesures de similarité floues
4.3 Similarité et interprétation de scène
4.4 Similarité inter-classes
4.4.1 Exemple d’évaluation de la similarité entre deux classes
4.5 Similarité possibiliste et classification pixelique
4.5.1 Démarche de classification pixelique
4.5.2 Résultats de classification pixelique
4.5.2.1 Images simulées
4.5.2.2 Images réelles
4.6 Similarité possibiliste et démixage pixelique
4.6.1 Démixage possibiliste d’images simulées
4.6.2 Démixage possibiliste d’images réelles
4.7 Conclusions
CONCLUSION GENERALE