Son 3D: aspects acoustiques et applications en réalité virtuelle

Localisation de sources sonores spatiales

La localisation de sources sonores se réfère le plus souvent au processus de détection de la direction de provenance d’une source sonore spatiale par des sujets humains. Il est également possible d’utiliser le terme de localisation sonore. La localisation sonore peut se référer aussi à la détermination de la profondeur d’une source sonore, c’est-à-dire la distance entre l’auditeur et la source. Néanmoins, nous allons utiliser dans ce texte le terme «localisation» ou «localisation de la direction de provenance» pour faire référence à la détermination de la direction de provenance de la source sonore. Pour la distance entre l’auditeur et le source sonore, nous utiliserons le terme de localisation en profondeur. Dans les paragraphes suivants, nous allons décrire un ensemble de travaux de recherche publiés sur la localisation sonore.
Knudsen et Konishi [1979] ont effectué des recherches sur le système de détection sonore de la chouette pour déterminer l’azimut et l’élévation d’une source sonore. Les auteurs ont observé la réponse aux différentes fréquences et diverses combinaisons d’obstruction physiques dans les oreilles. Ils ont conclu que la chouette utilise l’information spectrale (ou fréquentielle) pour déterminer l’élévation. La méthodologie développée et les résultats obtenus par Knudsen et Konishi [1979] représentent une référence très importante dans le domaine de la recherche en écoute spatiale.
Middlebrooks et Green [1991] ont publié un état de l’art exhaustif sur la recherche existante dans le domaine de l’écoute spatiale. Les auteurs affirment que l’être humain utilise principalement les différences interaurales pour déterminer l’azimut, et l’information spectrale pour déterminer l’élévation. D’après ces auteurs, le mouvement de la tête contribue à la localisation de sources sonores uniquement quand l’utilisateur a suffisamment de temps pour s’en servir. Jin et al. [2004] ont étudié le rôle des indices fréquentielles monaurales et interaurales. Les auteurs considèrent que ces informations n’étaient pas suffisantes pour obtenir une localisation précise en élévation. Ces résultats montrent la nécessité d’ajouter plus d’informations pour améliorer la précision en élévation. Simon Carlile et al. [1997] ont étudié la capacité à localiser la provenance d’une source de bruit. Leur principal objectif fut de déterminer la nature et la distribution de l’erreur dans la localisation de sources sonores. Ils avaient aussi pour objectif d’essayer de minimiser l’erreur due aux conditions d’observation et à la plateforme expérimentale. Les sources sonores furent signalées par les utilisateurs avec la tête et furent positionnées à l’aide d’un bras robot. Le suivi de la tête était effectué avec des dispositifs magnétiques. Les erreurs obtenues sont de l’ordre de 3 degrés pour l’azimut et entre 4 et 13 degrés pour l’élévation. Cette étude est importante car elle permet de mesurer la performance humaine de localisation sonore en milieu naturel. La localisation automatique de sources sonores spatiales est un sujet de recherche différent qui risque d’être confondu avec la localisation de sources sonores. La localisation automatique de sources sonores se réfère à l’étude et au développement de mécanismes qui permettent d’identifier la provenance de sources sonores dans l’espace. Il existe un nombre important de publications sur ce sujet dont la majeure partie sont orientés vers des applications robotiques (John et Weng [1998] et Valin et al. [2003]).

Technologies de son 3D

Les technologies de son 3D servent à simuler l’écoute spatiale. Ces technologies peuvent être classées selon les différentes étapes de traitement du son 3D : la capture, la spatialisation et la restitution. La première étape consiste en la capture des aspects suivants: le son diffusé, ses propriétés spatiales et son interaction avec l’environnement. Ces aspects définissent un champ sonore. Les techniques de capture de son spatial nécessitent l’utilisation d’équipements spécifiques tels que les chambres anéchoïques (ou sourdes) et les mécanismes d’enregistrement avancés. La détermination des propriétés spatiales d’une source sonore du monde réel est utile pour son association avec une source sonore équivalente dans le monde virtuel.
La spatialisation du son consiste à doter un stimulus sonore monocanal de propriétés spatiales en fonction d’une position indiquée. Le terme de spatialisation est souvent utilisé pour restituer uniquement la propriété de directivité sans prendre en compte les autres propriétés spatiales telles que la profondeur et la réverbération.
L’étape de spatialisation est normalement effectuée à l’aide de processus de traitement de signal. Ces processus sont pour la plupart implantés sur des composants de logiciels mais il existe aussi des solutions matérielles pour la spatialisation (exemple : le dispositif Convolvotron, Foster et Elizabeth M. Wenzel [1992]). Le transfert implicite dans la spatialisation peut être basé sur des modèles mathématiques ou bien sur des données contenant les propriétés spatiales obtenues dans une étape de capture.
Il existe différents mécanismes pour la restitution de sources sonores en environnement virtuel. Ces méthodes utilisent souvent des casques ou des systèmes multicanaux. Les casques sont utilisés avec les techniques de rendu binaural (deux canaux).
Les systèmes multicanaux sont une solution courante utilisée dans les systèmes immersifs comme le CAVE. La reproduction de son 3D avec des enceintes présente au moins trois inconvénients majeurs (Begault [2005]) : elle dépend fortement de l’acoustique de l’environnement réel, elle n’est pas adaptée à des systèmes multi utilisateurs et elle nécessite une étape supplémentaire de traitement pour éliminer la diaphonie. Cependant, l’utilisation de techniques de rendu binaural et un casque isolant permet une restitution indépendante du contexte réel.
Il existe différentes techniques pour simuler la directivité des sources sonores. Les principales techniques de restitution de la directivité peuvent être classées en trois groupes : les techniques basées sur le positionnement géométrique, celles basées sur les différences interaurales et celles basées sur l’anatomie humaine.
Le positionnement géométrique se base sur les systèmes de restitution sonore multicanaux. Son principe est la variation de l’intensité de la source sonore de chaque canal afin de restituer l’effet de directivité en fonction de deux facteurs : la position des enceintes et la direction envisagée. Ces techniques sont souvent basées sur des modèles trigonométriques.
Les différences interaurales se réfèrent aux différences entre les sons entendus par les deux oreilles pour une seule source sonore spatiale. Les deux différences principales sont la différence interaurale de temps (ITD : Interaural Time Difference) et la différence interaurale d’intensité (IID : Interaural Intensity Difference). Par exemple, une source sonore qui se trouve à gauche de l’auditeur arrivera plus rapidement et plus intensément à l’oreille gauche par rapport au son entendu par l’oreille droite. La perte d’intensité est due à la perte de puissance que subit toute onde sonore en se propageant dans un milieu (dans ce cas l’air).

Retour sonore non spatial en environnement virtuel

L’intégration du retour sonore non spatial dans les interfaces homme machine a été le sujet de différentes recherches scientifiques. Le retour non spatial et non parlé (non-speech) est aussi une technique relativement courante dans les systèmes interactifs. Dans cette section, nous décrivons quelques travaux portant sur ces techniques.
Kramer [1992] a introduit le concept d’affichage auditif (auditory display) qui se réfère à l’utilisation du son pour transmettre des informations significatives aux utilisateurs des systèmes interactifs. Pour cet auteur, les bénéfices de ce type de retour sont divers. Les signaux acoustiques sont plus rapides à détecter que les signaux visuels. Ils permettent aussi d’utiliser des stimuli sonores en parallèle et de transmettre des informations avec des mécanismes non visuels, évitant ainsi de surcharger le retour visuel.
Kramer [1992] a également identifié les principales limites des affichages auditifs. Pour certaines tâches, la faible résolution des différentes variables sonores ne permet pas de les utiliser pour transmettre des informations avec la résolution nécessaire. Une des limites qui présente un intérêt particulier pour nos travaux de recherche est le manque de précision spatiale du retour sonore. Selon l’auteur, ce manque de précision ne permet ni de représenter efficacement des informations volumétriques ni de signaler exactement les points d’intérêt dans l’espace.
Gaver [1986] a présenté l’approche des icones auditives qui se réfère à l’utilisation de sons dits naturels pour fournir des informations. Le principe de cette approche est que l’origine des stimuli doit être facilement reconnue et l’association avec l’information à transmettre doit être intuitive. Par exemple, la progression d’une tâche peut être représentée par le son produit par un liquide qui est versé dans un verre jusqu’à son remplissage total. De cette manière, l’utilisateur est capable de comprendre facilement le message. Un inconvénient majeur de cette approche est qu’il n’est pas toujours facile de trouver ce genre d’association. L’auteur a présenté dans un autre travail le SonicFinder (Gaver [1989]) qui est une référence importante, consistant en une interface auditive basée sur les icones auditives.
Le concept d’Earcons fut présenté par Blattner et al. [1989]. Cette approche est basée sur des séquences musicales qui sont utilisées pour passer des messages représentant des entités, des propriétés ou des événements. Ce modèle eut un impact important sur la conception des interfaces sonores. La conception d’Earcons demande des connaissances en composition musicale. Les utilisateurs doivent apprendre la signification de chaque séquence. Le nombre de messages qui peuvent être efficacement interprétés et la période d’apprentissage peuvent varier entre différents utilisateurs.
Rocchesso et al. [2003] présentèrent leur approche d’Objets Sonores (Sounding objects) pour fournir l’information en applications interactives en utilisant l’audio basé sur des modèles sonores dynamiques. Cette technique comprend différents éléments tels que la modélisation physique du son, l’utilisation de mécanismes paramétrés de contrôle du son et l’application de mécanismes de validations basées sur la perception auditive. Le principe est d’associer les variations de l’information à transmettre aux paramètres correspondant à un modèle physique sonore en particulier. De cette manière, le son change en fonction des modifications de l’information. Il est nécessaire pour cette technique de créer et d’adapter des modèles de synthèse de son et de définir ses paramètres de contrôle ainsi que leurs intervalles. Pour l’approche développée dans le cadre de cette thèse, nous allons reprendre l’idée d’utiliser des paramètres de contrôle pour modifier les caractéristiques des stimuli sonores en fonction de l’interaction de l’utilisateur avec le système. Brewster [2003] et Rocchesso [2003] ont présenté deux états de l’art des aspects théoriques et pratiques des différents modèles existants. Ces modèles ont eu un impact important sur la conception des interfaces auditives, par contre, ils n’ont pas proposé de solution pour la présentation d’information spatiale. Les techniques décrites dans ces travaux sont plutôt appropriées pour transmette les types d’informations suivants : des signalisations sur un événement concret (par exemple, le début ou la fin d’une opération) et les changements d’une variable unidimensionnelle (par exemple, la progression d’une tâche). Un autre inconvénient important est la difficulté rencontrée pour mettre en place un mécanisme de validation basé sur des critères objectifs de performance. Il existe néanmoins des mécanismes subjectifs basés en général sur la perception auditive.

Approches existantes pour améliorer la localisation de sources sonores en environnement virtuel

Le système auditif humain a une faible résolution pour la localisation de sources sonores (N. I. Durlach et al. [1993]). La précision de la localisation de sources virtuelles est normalement affectée par les caractéristiques du modèle de spatialisation employé. Il existe différentes approches pour améliorer la précision de la localisation de sources sonores dans un environnement virtuel.
La localisation auditive supranormale est une approche proposée par N. I. Durlach et al. [1993]. Elle est basée sur la modification contrôlée de la valeur du paramètre d’azimut de la HRTF employée en utilisant une fonction d’association (mapping). La suite de ce travail a été publiée dans Barbara G. Shinn-Cunningham et al. [1998a] et Barbara G. Shinn-Cunningham et al. [1998b]. Ce travail est restreint aux sources sonores localisées dans le plan horizontal.
En M. Grohn et Takala [1994] et M. Grohn et Takala [1995] les auteurs ont présenté le projet nommé MagicMikes traitant de la sonification3 de données spatiales dans un contexte de navigation en environnement virtuel. Cette approche consiste à l’utilisation combinée du guidage auditif et de la spatialisation sonore. M. Grohn et al. [2002] ont présenté une étude pour évaluer la localisation sonore en environnement immersif avec un système multicanal. Les erreurs de localisation obtenues varient entre 6 et 8 degrés pour l’azimut et entre 12 et 25 degrés pour l’élévation.
Marentakis et Brewster [2005] ont mis en place une expérimentation pour comparer différentes indications sonores afin d’améliorer l’efficacité de la localisation des sources sonores. Les auteurs ont testé différentes sources sonores localisées dans le plan horizontal et ont obtenu des erreurs angulaires comprises entre 4 et 10 degrés.
Tapio Lokki et Matti Grohn [2005] ont présenté une étude sur l’effet du guidage audio dans la performance pour la navigation en environnement virtuel. L’évaluation de la performance est basée sur les mesures de temps d’exécution et la longueur des trajectoires entre autres mais la précision angulaire n’a pas été prise en compte. Les auteurs ont trouvé que le guidage audio a un effet significatif sur la performance et qu’il est possible de naviguer en utilisant seulement le retour auditif. Dans cette étude, un groupe d’indices sonores comme le gain et la hauteur musicale (pitch) a été testé. Ce travail a pris en compte la combinaison d’indices paramétrés et la spatialisation sonore pour améliorer la précision de localisation en élévation. Ce travail représente une contribution importante dans le domaine du son 3D. Cependant, les résultats obtenus ne permettent pas d’évaluer la précision dans la localisation des sources sonores. La plupart des techniques existantes visent à améliorer la précision de localisation de sources sonores situées dans le plan horizontal.

Application potentielle du son pour la manipulation

Il n’existe pas de technique de manipulation 3D efficace basée sur le retour sonore. L’existence d’une telle technique aura les avantages suivants :
Manipulation d’objets lorsque le retour visuel est perturbé ou indirect. Manipulation d’objets lorsque le retour visuel est partiellement ou complètement indisponible. Amélioration de la performance de certaines techniques de manipulation existantes basées sur d’autres retours sensoriels. Remplacement d’autres retours sensoriels comme la vision et le retour haptique qui sont techniquement complexes et nécessitent des équipements onéreux.
Utilisation dans les nouvelles techniques de navigation et dans les systèmes de commande ainsi que pour la réalisation de tâches spécifiques : par exemple dans le suivi et la détection de cibles spatiales et l’exploration de données multidimensionnelles.
Les limites les plus importantes de l’écoute spatiale sont le manque de précision et l’ambigüité inhérente (présence d’erreurs inverses et cônes de confusion). L’être humain n’est pas très précis dans la localisation de sources sonores. Il est significativement plus précis dans la localisation en azimut qu’en élévation. L’erreur absolue globale de localisation varie selon les différents auteurs entre 10 et 25 degrés environ et la dispersion des données est importante. Ces erreurs et leurs dispersions sont évidemment trop importantes pour transmettre des informations spatiales précises.
Le fait que l’écoute spatiale dépende des caractéristiques anatomiques de chaque individu peut représenter un inconvénient majeur pour les systèmes de son 3D. Dans ce contexte, nous proposons une technique basée sur des méthodes généralisées.
Les problèmes d’ambigüité représentent aussi un obstacle pour utiliser le son pour l’interaction en environnement virtuel. Il n’est pas convenable que l’information sonore spatiale soit ambigüe car ceci peut affecter d’une manière importante la performance de l’utilisateur. Il est donc nécessaire de développer une technique sans ambigüité.
L’identification de la provenance de source sonore par l’auditeur peut comprendre la réalisation d’un geste de mouvement (localization by movement) pour faciliter le processus. Marentakis et Brewster [2004] ont exploré différents gestes pour interagir avec des interfaces audio spatialisées dans la localisation de sources sonores. Les gestes considérés sont le pointage avec la main, le pointage avec la tête et l’indication avec une interface visuelle. Les auteurs ont défini l’erreur de localisation de chaque geste et ils ont conclu que les trois gestes peuvent être utilisés dans les interfaces auditives.
Les aspects discutés dans ce chapitre seront récapitulés dans les paragraphes suivants pour expliquer le contexte dans lequel notre approche a été proposée. Nous avons envisagé de créer une technique qui permet la manipulation 3D basée sur le retour sonore. Les techniques existantes de guidage sonore sont particulièrement efficaces pour certaines tâches mais elles ne permettent pas de fournir des informations spatiales. Les technologies existantes de son 3D sont matures mais l’information spatiale qu’elles fournissent n’est pas suffisamment précise et elle présente des ambigüités. Nous envisageons de proposer une technique basée sur le guidage audio et le son 3D pour permettre la manipulation 3D en fournissant une information spatiale précise et sans ambigüité.
Cette technique doit satisfaire certains critères. Il faut qu’elle soit intuitive, facile à utiliser et rapidement apprise par l’utilisateur. Il faut qu’elle permette également un bon niveau de performance en termes de précision et de temps d’accomplissement de la tâche. Enfin, il est nécessaire qu’elle réduise significativement la présence d’ambigüités dans la localisation de sources sonores.
Cette technique doit permettre une bonne précision pour fournir des informations spatiales utiles pour la manipulation d’objets en environnement 3D. Par contre, il n’est pas évident de déterminer ce niveau de précision puisqu’il dépend de l’application à étudier. Il a donc été décidé de fixer ce niveau en fonction des limites connues pour la localisation avec les techniques de spatialisation courantes. La précision moyenne en azimut avec les techniques existantes peut atteindre une valeur entre 1 et 3 degrés. Nous chercherons à réduire cette variabilité ou cette dispersion de données. Dans le cas de l’élévation, la meilleure précision moyenne obtenue se trouve autour de 10 degrés. Ainsi, il est nécessaire de réduire en particulier l’erreur en élévation. Par conséquent, notre objectif est d’obtenir une précision en élévation équivalente à celle obtenue en azimut avec les techniques existantes. L’erreur angulaire globale (azimut et élévation combinés) doit être de l’ordre de trois degrés obtenue pour l’azimut en utilisant ces mêmes techniques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction
1.1. Contexte
1.2. Problématique
1.3. Objectifs du projet de thèse
1.3.1. Objectif principal
1.3.2. Objectifs secondaires
1.4. Approche proposée
1.5. Contributions
1.6. Structure du document
2. Son 3D: aspects acoustiques et applications en réalité virtuelle
2.1. Écoute spatiale
2.1.1. Écoute spatiale
2.1.2. Localisation de sources sonores spatiales
2.2. Technologies de son 3D
2.2.1. Spatialisation sonore et HRTF
2.2.2. Acoustique virtuelle
2.3. Retour sonore et son 3D pour l’interaction en environnement virtuel
2.3.1. Retour sonore non spatial en environnement virtuel
2.3.2. Interaction en environnement virtuel
2.3.3. Son 3D pour l’interaction
2.3.4. Approches existantes pour améliorer la localisation de sources sonores en environnement
virtuel
2.3.5. Application potentielle du son pour la manipulation
3. Techniques et outils employés
3.1. Concepts et techniques de traitement de signal
3.2. La fonction HRTF
3.2.1. Les fondements de la fonction HRTF
3.2.2. Individualisation et généralisation des fonctions HRTF
3.2.3. Base de données HRTF
3.2.4. Modèle de la fonction HRTF
3.3. Méthode d’analyse statistique
3.3.1. Statistiques descriptives
3.3.2. Représentations graphiques
3.3.3. Distribution fréquentielle
3.3.4. Expérimentation
3.3.5. Méthode d’Equations Généralisées d’Estimation
3.3.6. Méthode d’Estimation Généralisée de Moyennes Marginales
3.4. Plateforme expérimentale
3.4.1. Architecture logicielle
3.4.2. Architecture logicielle
4. Approche proposée : Sensations Auditives Spatiales Artificielles (SASA)
4.1. L’approche SASA
4.1.1. Description générale de l’approche SASA
4.1.2. Structure d’un groupe SASA
4.1.3. Méthode itérative de génération d’indices sensoriels SASA
4.1.4. Intégration successive des indices SASA
4.2. Proposition préliminaire : groupe d’indices SASA pour la localisation sonore précise
4.2.1. Contexte
4.2.2. Stimulus sonore
4.2.3. Indices de groupe SASA pour une localisation précise .
4.2.4. Modèle de directionalisation utilisé
4.2.5. Protocole de validation expérimentale
4.2.6. Résultats et analyse des données
4.2.7. Distribution fréquentielle des données
4.2.8. Analyse statistique
4.2.9. Conclusions
5. Étude comparative et intégration des techniques SASA et HRTF
5.1. Motivation de la recherche d’un modèle performant
5.2. Modèle combiné HRTF – SASA
5.3. Étude expérimentale
5.3.1. Essais et stratégie de localisation de source sonore
5.3.2. Évaluation expérimentale
5.3.3. Groupe de participants et hypothèses
5.4. Résultats expérimentaux et analyse de données
5.4.1. Évaluation de la performance
5.4.2. Retour d’informations de l’utilisateur
5.4.3. Comparaison de notre approche avec les techniques de spatialisation sonore existantes
5.5. Conclusions
6. Approche CITD pour améliorer la simulation de la profondeur
6.1. Profondeur de sources sonores spatiales
6.2. Simulation de la profondeur des sources sonores spatiales
6.3. Approche proposée : méthode de Différences Interaurales de Temps Compensées
6.3.1. Méthode de Différences Interaurales de Temps Compensées (CITD)
6.3.2. Simulation de la profondeur basée sur l’indice d’intensité
6.4. Étude expérimentale
6.4.1. Évaluation de la performance de l’utilisateur
6.4.2. Retour d’informations de l’utilisateur
6.5. Résultats expérimentaux et analyse de données
6.5.1. Évaluation de performance de l’utilisateur
6.6. Analyse du retour d’informations de l’utilisateur
6.7. Conclusions
7. Application du Son 3D pour la simulation de chirurgie arthroscopique
7.1. La simulation de chirurgie arthroscopique
7.1.1. La simulation chirurgicale
7.1.2. Le geste de triangulation et la manipulation des instruments
7.2. Le simulateur de chirurgie arthroscopique utilisé
7.3. Approche : le Son 3D Enrichi pour guider le geste de triangulation
7.3.1. Le Son 3D Enrichi
7.3.2. Méthode d’intégration du Son 3D Enrichi en environnement virtuel
7.3.3. Application du Son 3D Enrichi pour guider le geste de triangulation dans la simulation chirurgicale
7.3.4. Groupe d’indices SASA utilisé
7.4. Étude expérimentale
7.4.1. Evaluation de la performance
7.4.2. Retour d’informations de l’utilisateur
7.5. Résultats et analyse de données
7.5.1. Résultats de l’évaluation de performance
7.5.2. Analyse du retour d’informations de l’utilisateur
7.6. Conclusions
8. Conclusions et perspectives de recherche
8.1. Conclusions
8.1.1. Problématique scientifique traitée
8.1.2. Solutions développées
8.1.3. Résultats obtenus
8.2. Perspectives de recherche
8.3. Publications réalisées
8.3.1. Articles soumis pour la publication dans des revues internationales
8.3.2. Articles publiés dans des conférences internationales avec comité de lecture
8.3.3. Poster
9. Références
10. Annexe : Questionnaires utilisés
10.1. Analyse du retour d’informations de l’utilisateur : Chapitre 5
10.2. Analyse du retour d’informations de l’utilisateur : Chapitre 6
10.3. Analyse du retour d’informations de l’utilisateur : Chapitre 7
11. Glossaire