Contexte général : Projet Romeo/Audition des robots

Contexte général : Projet Romeo/Audition des robots

M. Robert, un retraité de 70 ans, est assis sur son fauteuil dans son appartement parisien en écoutant la radio. Par cette chaude matinée du mois de juillet, M. Robert a soif. Mais depuis qu’il est en perte d’autonomie, de simples tâches comme aller chercher un verre d’eau sont de véritables défis pour lui. Mais plus maintenant. “Romeo ! Apporte-moi un verre d’eau”. Un robot humanoïde, Romeo, se déplace du séjour vers la cuisine et lui apporte un verre d’eau. Ceci est un des scénarios du projet Romeo [7] qui constitue le cadre général de cette thèse. Le projet Romeo vise à développer un robot humanoïde destiné à l’aide aux personnes âgées, malvoyantes ou en perte d’autonomie dans leur vie quotidienne. Le projet Romeo est labellisé par le pôle de compétitivité Cap Digital et financé par la région Ile-de-France, la Direction Générale de la Compétitivité, de l’Industrie et des Services (DGCIS) et de la ville de Paris.

Le robot du nom de Romeo doit aider son “maître” au quotidien tout au long de la journée dans différentes tâches comme ouvrir la porte d’entrée, lui apporter des objets ou encore le secourir en cas de chute. L’interaction entre Romeo et l’Homme se fait via la voix qui représente une interface facile et accessible au plus grand nombre d’utilisateurs. L’exécution de l’ordre du maître par le robot se base essentiellement sur l’écoute et la compréhension de cet ordre qui traduisent un comportement proche de celui de l’être humain.

Analyse de scènes auditives

Un humain avec une audition saine est capable de différencier les sons qui arrivent mélangés à ses oreilles et peut se concentrer sur un son en particulier dans un environnement bruyant, l’identifier et le comprendre : c’est l’effet cocktail party. Pour reconnaître les composantes du son qui forment le mélange audio arrivant à nos oreilles, le système auditif doit en quelque sorte créer des descriptions basées seulement sur ces composantes qui ont pour origine le même évènement sonore. Le processus qui permet de réaliser cette tâche s’appelle analyse de scène auditive. Le terme “analyse de scènes” a été utilisé pour la première fois par des chercheurs en vision par ordinateur. Il fait référence à la stratégie avec laquelle un ordinateur tente de mettre ensemble toutes les propriétés visibles (contours, textures des surfaces, couleurs, etc…) qui appartiennent au même objet, dans une photographie d’une scène où les parties visibles de cet objet sont discontinues (à cause d’un obstacle se trouvant entre la caméra et l’objet en question). Et ce n’est qu’après ce rassemblement que la forme et les propriétés globales de cet objet sont déterminées. Par analogie selon Bregman [17], l’analyse de scènes auditives est le processus par lequel le système auditif d’un être humain organise le son en des éléments perceptuels significatifs, puis les fusionne ou les sépare afin de distinguer entre les sources présentes dans son environnement. Le concept d’analyse de scènes auditives a été introduit pour la première fois par Bregman en 1990 [17].

Analyse computationnelle de scènes auditives

Dans le scénario présenté au début de cette section, l’humanoïde Romeo est équipé de microphones par analogie aux oreilles humaines. Les microphones de Romeo reçoivent deux signaux audio se trouvant dans l’environnement du robot : la voix du maître et le signal de la radio arrivent aux capteurs mélangés. Un être humain se serait naturellement concentré sur la voix du maître, grâce aux mécanismes de psychoacoustique que nous venons de citer [17]. Pour qu’il puisse agir en conséquence des évènements qui se produisent, le robot doit comprendre son environnement sonore, séparer et localiser les sources, identifier le locuteur, comprendre ce qu’il lui dit et détecter ses émotions : c’est la définition de l’audition des robots. L’audition des robots se base sur la modélisation informatique de l’analyse de scènes auditives connue sous le nom d’analyse computationnelle de scènes auditives (CASA : Computational Auditory Scene Analysis). L’analyse computationnelle de scènes auditives représente un cadre général du traitement des signaux audio qui vise à comprendre un mélange arbitraire de sons contenant différents types de signaux (de la parole, des signaux autres que de la parole, des signaux musicaux, etc.) dans des environnements acoustiques différents. Un algorithme de CASA analyse les mélanges audio et doit être capable de dire quelle partie de ce mélange est pertinente pour des problèmes comme la segmentation de flux, l’identification et la localisation des sources mais aussi, et c’est la partie qui nous intéresse dans cette thèse, la séparation des sources.

Problématique : Séparation aveugle de sources audio

Dans le scénario pilote présenté dans la section précédente, M. Robert donne un ordre à Romeo tout en écoutant la radio. La tâche effectuée par l’humanoïde Romeo peut être décomposée en sous-tâches :
1. Romeo écoute la phrase prononcée par M. Robert.
2. Romeo comprend l’ordre de son maître.
3. Romeo exécute l’ordre de son maître.
La voix de M. Robert arrive au robot mélangée avec le signal émis par la radio : pour que Romeo puisse comprendre et exécuter l’ordre donné par son maître, il faut procéder à une séparation de ces signaux. Notre tâche dans ce projet se focalise sur la séparation aveugle de sources audio par un réseau de microphones (cf. figure 1.1). La séparation de sources consiste à estimer les signaux sources à partir de leurs mélanges reçus aux capteurs. Dans le scénario pilote, les conditions dans lesquelles évolue le robot ne sont pas connues : on ne connaît pas le nombre et les positions des sources, le bruit ambiant, le taux de réverbération de la pièce et encore moins les caractéristiques acoustiques des différents chemins sources-microphones. Le système de mélange n’est donc pas connu a priori, dans ce cas la séparation est dite aveugle. L’application fixée par le projet Romeo, l’audition des robots, ainsi que les différents scénarios du projet considèrent l’évolution du robot dans un milieu réel : un appartement ou une maison. Le robot évoluera donc dans un environnement réverbérant. Les mélanges à la sortie des capteurs sont par conséquent des mélanges convolutifs, par opposition aux mélanges instantanés observés dans des environnements dit anéchoïques, sans réverbération, comme les chambres anéchoïques (les chambres sourdes).

Nous nous plaçons dans un cadre de séparation de sources par un réseau de microphones, avec plus de deux capteurs. En comparant le nombre de sources au nombre de capteurs, la séparation de sources peut être classée en trois cas :
– cas sous-déterminé : nombre de sources supérieur au nombre de capteurs,
– cas déterminé : nombre de sources égale au nombre de capteurs,
– cas sur-déterminé : nombre de sources inférieur au nombre de capteurs.

Dans cette thèse, nous nous intéressons à la séparation de sources sur-déterminée : nous utilisons 16 capteurs et nous supposons que le nombre de sources maximal dans l’environnement du robot est inférieur ou égal à 16.

Contributions

Bases de données pour la séparation de sources

Au cours de cette thèse, nous avons développé deux bases de données pour deux applications différentes que nous détaillerons dans les paragraphes suivants. Chacune de ces bases de données a été acquise par 16 capteurs placés autour de la tête d’un mannequin de vitrine de taille enfant mesurant 1m20. Le prototype de la tête et torse de Romeo prévu pour nos mesures n’a été prêt qu’au mois de novembre 2011 et les premiers tests ne se sont pas révélés concluant pour effectuer l’acquisition des bases de données avec ce réseau de capteurs, ce mannequin de vitrine a été nécessaire pour évaluer les algorithmes de séparation de sources sur une base de données mesurée avec un réseau de capteurs qui modélise celui du robot.

Base de données de fonctions de transfert de têtes (HRTF) 

La fonction de transfert de tête (HRTF : Head Related Transfer Function) est une réponse qui caractérise comment un signal source émis d’une direction spécifique est reçu à une oreille. La HRTF de chaque oreille capture l’information de localisation d’une source et la modification introduite par la tête et le pavillon auriculaire sur le chemin de propagation de celle-ci. Les HRTF sont des indices importants pour la perception des sons environnant et la localisation des sources, ils forment le cœur des techniques de spatialisation binaurale. Nous avons généralisé le concept des HRTF au cas d’un robot humanoïde avec plus que deux “oreilles” (plus que deux microphones fixés dans sa tête) et nous proposons Theo-HRTF une base de données de 504 × 16 HRTF enregistrée avec 16 microphones depuis 72 angles d’azimut et 7 angles d’élévation. Cette base de données des HRTF est disponible en ligne (http:// www.tsi.telecom-paristech.fr/aao/?p=347), plus de détails sur son acquisition sont donnés dans le chapitre 7. Ces mesures de fonctions de transfert de tête ont été effectuées pour être exploitées dans une formation de voies fixe, une étape de prétraitement proposée avant le module de séparation de sources (cf. chapitre 5).

Base de données de réponses impulsionnelles 

Pour évaluer les algorithmes de séparation de sources proposés et les comparer aux algorithmes de l’état de l’art les plus pertinents, nous avons développé deux bases de données de signaux enregistrés par le réseau de microphones de Theo dans deux milieux différents. Dans un premier temps, nous avons mesuré les réponses impulsionnelles entre différents points d’émission dans la salle et les microphones du réseau de capteurs, ensuite nous considérons une base de données de signaux bruts de parole : c’est de la parole enregistrée dans une condition anéchoïque sans aucune influence du milieu d’enregistrement. Pour un nombre de sources et des points d’émission donnés, le mélange à une sortie d’un capteur est obtenu en faisant la somme des convolutions des signaux bruts avec les réponses impulsionnelles entre les positions des points d’émission et le capteur considéré. L’avantage de cette méthode est que nous pouvons varier autant que l’on veut les mélanges en variant seulement les signaux bruts et sans refaire à chaque fois les mesures. Les mesures des réponses impulsionnelles sont faites une seule fois. Pour un point d’émission donné, nous pouvons obtenir plusieurs observations différentes. Ces mesures ont été faites dans les milieux suivants :

– le studio d’enregistrement de Télécom ParisTech, nous appelons la base de données enregistrée dans ce milieu Theo-RI-Studio ;
– l’appartement témoin du projet Romeo à l’Institut de la Vision (IDV), nous appelons la base de données enregistrée dans ce milieu Theo-RI-IDV.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction et préalable
1 Introduction générale
1.1 Contexte général : Projet Romeo/Audition des robots
1.1.1 Analyse de scènes auditives
1.1.2 Analyse computationnelle de scènes auditives
1.2 Problématique : Séparation aveugle de sources audio
1.3 Objectifs
1.3.1 Objectif du projet Romeo
1.3.2 Objectif de cette thèse
1.4 Contributions
1.4.1 Bases de données pour la séparation de sources
1.4.2 Algorithmes de séparation de sources
1.5 Organisation du document
2 Etat de l’art de la séparation aveugle de sources audio
2.1 Formulation du problème
2.1.1 Modèle des signaux
2.1.2 Les problèmes relatifs à la séparation de sources dans le domaine fréquentiel
2.2 Séparation aveugle de sources audio
2.2.1 Algorithmes basés sur l’indépendance des sources
2.2.2 Algorithmes basés sur la non-corrélation des sources
2.2.3 Algorithmes basés sur la parcimonie dans le domaine tempsfréquence
2.2.4 Algorithmes basés sur l’analyse de scènes sonores et la psychoacoustique
2.3 Séparation de sources pour l’audition des robots
2.3.1 Les premiers essais
2.3.2 Utilisation des différences intéraurales d’intensité et de phase
2.3.3 Séparation de sources à deux étapes
2.3.4 Localisation et séparation
2.3.5 Le système d’audition complet HARK
II Séparation de sources basée sur l’information spatiale et structurelle des signaux
3 Formation de voies
3.1 Formation de voies : principe
3.2 Formation de voies adaptative
3.2.1 Capon ou MVDR
3.2.2 Maximisation du rapport signal sur bruit
3.3 Formation de voies fixe
3.4 Les fonctions de transfert de tête (HRTF)
3.5 Formation de voies fixe en utilisant les HRTF
3.5.1 Vers la modélisation de la variété du réseau de capteurs
3.5.2 Estimation des filtres de formation de voies par les HRTF
4 Séparation basée sur l’information structurelle des sources
4.1 L’algorithme d’optimisation du gradient naturel
4.2 Analyse en composantes indépendantes
4.3 Minimisation de la norme l1
4.4 Minimisation de la pseudo-norme lp paramétrée
4.4.1 Principe
4.4.2 Algorithme proposé
III Séparation de sources à deux étapes : combinaison de formation de voies et d’algorithme de séparation de sources
5 Séparation avec prétraitement par formation de voies
5.1 Séparation de sources à deux étapes : principe
5.2 Prétraitement avec une formation de voies fixe
5.2.1 Formation de voies vers les directions d’arrivées
5.2.2 Formation de voies vers des directions de visée fixes
5.2.3 Formation de voies vers des directions de visée fixes avec sélection de lobes
5.3 Estimation du nombre de sources et des directions d’arrivées
6 Séparation adaptative avec une étape de formation de voies
6.1 Schéma d’adaptation
6.1.1 Fenêtres d’analyse
6.1.2 Principe d’adaptation
6.1.3 Problèmes de permutation et d’échelle dans le domaine temporel
6.2 Algorithme de séparation sans estimation du nombre de sources
6.3 Algorithme de séparation avec estimation du nombre de sources
6.3.1 Activation d’une ou plusieurs sources
6.3.2 Extinction d’une ou plusieurs sources
IV Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *