Extension du modèle à d’autres interactions et stratégie de contrôle du synthétiseur

Télécharger le fichier pdf d’un mémoire de fin d’études

Modèles physiques

Comme expliqué plus haut, la philosophie de la synthèse par modèle physique est radicalement différente des méthodes par modèles de signaux. L’idée de base est de décrire le fonctionnement physique du système étudié, par exemple un instrument de musique. Si on cherche à reproduire le son d’une guitare, on modélisera par des équations différentielles couplées, selon le degré de raffinement voulu, le déplacement de la corde, l’interaction avec le chevalet, la caisse de résonance, l’interaction du doigt avec la corde et sa position, le rayonnement dans l’air… Comparativement aux modèles de signaux, les modèles physiques sont généralement plus coûteux en temps de calcul et ne peuvent pas tous être exécutés en temps réel, en particulier lorsqu’une fréquence d’échantillonnage élevée est désirée, ce qui est important pour la synthèse sonore. De plus, les modèles physiques sont moins flexibles que les modèles de signaux, et généralement une modélisation physique est dédiée à un type de sons particulier (par exemple les sons de guitare), là où par exemple un modèle de synthèse additive peut permettre de synthétiser une très large classe de sons (e.g. aussi bien la guitare que le violon ou la clarinette). Cependant les modèles physiques permettent généralement de synthétiser des sons d’une très grande qualité, comme par exemple les modèles proposés par Bilbao (2009) 1.
Les premières simulations directes des équations aux dérivées partielles modélisant un phénomène physique de production de son pour la synthèse sonore datent de la fin des années 1960 (Ruiz, 1969), et ont depuis considérablement avancé, notamment grâce l’augmentation constante des capacités de calcul des ordinateurs ainsi qu’à l’amélioration des connaissances. Le principe consiste à discrétiser les dérivées partielles en temps et en espace des équations décrivant le phénomène par des approximations aux différences finies (Ascher et Petzold, 1998). Cette discrétisation permet d’obtenir un schéma numérique donnant accès au déplacement en chaque point (discret) du système étudié à l’instant t + Dt en fonction des déplacements à l’instant t, où Dt est le pas d’intégration temporel (i.e. on accède à la solution en tout point toutes les Dt secondes).
Dans les modèles physiques, l’approche de la synthèse sonore par guide d’onde a été grandement exploitée, en partie grâce aux travaux de Julius Smith (Smith, 1992, 2014). Cette approche, moins coûteuse en temps de calcul que la simulation directe, est particulièrement efficace lorsque la partie vibrante du phénomène considéré peut être modélisée comme un milieu à une seule dimension (par exemple les cordes, certains instruments à vent). L’idée de base consiste à considérer les solutions de l’équation des ondes à une dimension, qui peut s’écrire comme deux ondes se propageant en sens opposé et n’interagissant pas entre elles, pouvant ainsi être simplement simulées par deux lignes à retard (idée premièrement proposée par Kelly et Lochbaum (1962) pour la synthèse de parole et reprise entre autres par Karplus et Strong (1983) pour la synthèse de sons de cordes pincées). Cette ligne à retard est initialisée par des nombres aléatoires et terminée par un filtre passe-bas. Le coût d’un tel algorithme est très faible : il est du même ordre qu’un oscillateur sinusoïdal obtenu par lecture de table d’onde, mais permet d’obtenir un spectre harmonique plutôt qu’une seule composante. Des extensions à 2 et 3 dimensions pour modéliser par exemple des membranes (Laird, 2001) ou des réponses impulsionnelles de salles (Murphy et al., 2007) ont également été proposées.
Cadoz et al. (1984) ont eux proposé des outils de synthèse sonore basés sur la simulation d’éléments mécaniques simples, tel des systèmes masse-ressort, reliés entre eux. La correspondance avec des objets physiques réels (comme une plaque ou un tube) n’est pas directe, mais cette méthode de synthèse permet une grande modularité (on peut facilement connecter différents blocs afin d’obtenir des résultats sonores intéressants), et des travaux sur l’interactivité grâce à des contrôleurs externes facilitent l’usage (Leo-nard et al., 2013).
Enfin, la synthèse modale considère le comportement vibratoire de l’objet comme résultant de la contribution de plusieurs modes oscillants à une seule fréquence et indépendants entre eux (Adrien, 1991). Chaque mode vibratoire est décrit par une équation différentielle du second ordre dont la solution homogène est une sinusoïde exponentiellement amortie, et le déplacement global permettant de remonter au son généré est simplement la somme des vibrations décrites par chaque oscillateur. Différentes conditions initiales ou fonctions d’excitations peuvent être considérées selon le phénomène modélisé. Les travaux de J. M. Adrien sur la synthèse modale ont débouché sur l’environnement graphique Modalys 2 qui permet de connecter des objets physiques simples (cordes, plaques, tubes, etc) et les faire interagir entre eux.
Au-delà des modèles de synthèse sonore en tant que tels, un point important est le contrôle associé à ces modèles. En effet, un modèle de synthèse sonore, en particulier pour un utilisateur peu expérimenté, est compliqué à utiliser pour obtenir le son souhaité, le son “imaginé” par l’utilisateur. Des recherches se penchent donc depuis un certain nombre d’années sur des méthodes permettant de contrôler plus aisément les modèles de synthèse sonore. La section suivante a pour but de détailler l’état de l’art sur les recherches en contrôle des processus de synthèse.

Contrôle de la synthèse sonore

Dans le domaine de la synthèse sonore, on appelle “contrôle” l’ensemble des possibilités que l’utilisateur du synthétiseur aura pour modifier le son produit. On peut d’emblée distinguer deux grands types de contrôles. Le contrôle “gestuel” s’intéresse à la manière dont le geste de l’utilisateur va agir sur le modèle de synthèse, et le contrôle “intuitif” ou “perceptif” qui étudie comment les paramètres que manipulera l’utilisateur vont affecter ce qu’évoquera le son, en terme de qualité sonore (contrôle du timbre) ou de propriétés de la source sonore. Cette phase est cruciale dans le développement d’un synthétiseur, et ce particulièrement pour les modèles de signaux (les modèles physiques prenant directement en entrée des paramètres “compréhensibles” par l’utilisateur, du moins si celui-ci est familier avec la physique). Prenons l’exemple de la synthèse additive. L’utilisateur peut générer des sons très riches en sommant un grand nombre de sinusoïdes et en modulant leurs fréquences et amplitudes. Cependant, on arrive rapidement à plusieurs centaines de paramètres, et réussir à modifier un à un ces paramètres pour obtenir le résultat sonore désiré demande une grande expertise. Bien que l’approche par “essai-erreur” mène à des résultats sonores intéressants par accident, celle-ci n’est pas toujours souhaitable. Il est donc intéressant de relier des ensembles de paramètres de synthèse “bas-niveau” (e.g. les fréquences et amplitudes des oscillateurs dans le cas de la synthèse additive) à un plus petit nombre de paramètres “haut-niveau” interprétables plus facilement par l’utilisateur. Définir les relations adéquates entre les paramètres bas-niveau et haut-niveau est appelé mapping dans le domaine de la synthèse sonore. En tant que verbe, “to map” signifie cartographier, ce qui montre bien l’idée de relation entre un grand nombre de données (provenant de satellites dans le cas d’une carte) difficilement compréhensibles par l’utilisateur et un ensemble moins grand de données (par exemple les contours de la côte maritime sur la carte) interprétables et utilisables plus facilement par l’utilisateur. Cette idée de cartographie illustre également l’idée de différents niveaux de compréhension, d’interprétation et d’expertise requises pour lire différents types de cartes. Si mon but est d’aller faire une randonnée intensive sur le massif de la Sainte-Baume sans emprunter les chemins balisés mais sans vouloir me perdre, j’opterais sûrement pour une carte assez précise représentant les lignes de niveau, les petits chemins, mais qui nécessite une certaine expertise pour l’utiliser. Si en revanche je désire aller en voiture de Marseille jusque la magnifique ville de Morlaix, j’opterais plutôt pour une carte bien moins précise représentant la France et ne montrant pas les détails de la carte précédente en les groupant dans des ensembles plus facilement interprétables comme des auto-routes et des villes. On peut faire l’analogie avec le contrôle de la synthèse sonore, dont on a représenté les différents niveaux sur la figure I.2 (tous les niveaux ne sont pas nécessairement présents dans un modèle de synthèse contrôlable). Le contrôle direct des paramètres “bas-niveau” du synthétiseur (le plus à droite sur la figure) est ce que l’on retrouve dans la majeure partie des synthétiseurs du commerce où en général une longue pratique est nécessaire avant d’arriver à une bonne maîtrise. Un bon exemple de synthétiseur commercial donnant un aperçu des différents niveaux de contrôle (ou tout du moins des différents niveaux de représentation des caractéristiques d’un son) est Massive de chez Native Instruments 3. Ce synthétiseur permet de contrôler les paramètres de synthèse bas-niveau (filtres, oscillateurs, etc), mais classe également les réglages prédéfinis par des attributs intermédiaires liés au timbre du son (avec une interprétation très libre et subjective de la notion de timbre par les développeurs) avec des adjectifs comme “gras”, “chaud” ou “brillant” (bien qu’on ne puisse pas contrôler directement ces attributs, ils sont en lien avec l’étape “contrôle intermédiaire” de la figure I.2), et également par style musical, qu’on peut voir comme une hiérarchie supérieure au timbre (par exemple la musique new-wave va plutôt contenir des sonorités “froides”). D’autres synthétiseurs du commerce s’axent plus sur des contrôles haut-niveau, avec par exemple Chromaphone d’Applied Acoustics Systems 4 qui permet de connecter différents types d’objets entre eux (plaques, tubes,…) et les impacter dans un but musical, ou bien les synthétiseurs de sons d’environnement développés par Au-dioGaming 5 donnant des outils de contrôle intuitifs pour les designers sonores (où par exemple dans le synthétiseur de sons de pas on peut contrôler des attributs comme le type de chaussure, la démarche, le type de sol,…).
Enfin, les recherches en contrôle gestuel de la synthèse sonore visent à permettre une utilisation des modèles de synthèse de manière plus expressive, grâce à l’étude de nouvelles interfaces pour le contrôle et la recherche de mappings intéressants entre les données issues de capteurs gestuels et les paramètres du modèle de synthèse (voir pa exemple (Wanderley et Depalle, 2004) ou le numéro spécial à venir du Computer Music Journal dédié aux avancées récentes dans ce domaine (Wanderley et Malloch, 2014)). Un grand nombre de travaux ont lieu dans ce domaine à tel point qu’une conférence spéciale sur le contrôle gestuel “New Interfaces for Musical Expression” existe depuis une dizaine d’années. Cet aspect ne sera pas abordé dans cette thèse et ne sera donc pas développé davantage dans l’état de l’art. Dans la suite de cette section on détaillera donc brièvement la littérature sur le contrôle du timbre, puis on traitera l’état de l’art sur le contrôle des attributs perceptifs de la source sonore.

Contrôle du timbre

Wessel (1979) fait partie des premiers à avoir l’idée d’utiliser les résultats obtenus grâce à des études sur le timbre (qui sont relativement nombreuses, voir entre autres Grey (1977); Risset et Mathews (1969)) afin de contrôler la synthèse sonore. Dans le but de contrôler un processus de synthèse additive de sons d’instruments musicaux, David Wessel mit en place une série de tests perceptifs sur des sons d’instruments (de dissemblance et de ressemblance entre sons) dont les résultats ont permis de construire un espace de timbre, mettant en avant deux dimensions principales qui sont la répartition spectrale de l’énergie et la nature de l’attaque. Ainsi, l’auteur suggère de contrôler la synthèse sonore en naviguant dans cet espace de timbre et ainsi passer de manière continue et régulière entre différents sons d’instruments par l’interpolation des paramètres de synthèse dans cet espace. D’autres études ont suivis, notamment Schindler (1984) qui laisse une grande liberté à l’utilisateur en le laissant définir des enveloppes dynamiques des partiels et en proposant des méthodes de réduction de données, ou Desainte-Catherine et Marchand (1999) qui proposent le modèle “Structured Additive Synthesis”, défini par quatre paramètres qu’on peut visualiser et modifier : une amplitude globale, une fréquence fondamentale, une “couleur” qui correspond à l’enveloppe spectrale et une “distorsion” qui correspond au fait que les harmoniques ne sont pas exactement les multiples de la fondamentale.
D’autres auteurs ont opté pour des approches d’apprentissage. Ainsi Gounaropou-los et Johnson (2006) proposent tout d’abord un jugement subjectif d’un corpus de sons par des sujets sur un nombre fini de termes utilisés couramment par les musiciens (chaud, brillant, dur,…), puis des méthodes d’apprentissage par réseaux de neurones sont appliquées aux résultats afin de permettre l’ajustement automatique des paramètres d’un modèle de synthèse directement à partir des adjectifs décrivant la qualité sonore (i.e. pour que l’utilisateur puisse directement définir quelque chose comme “je désire un son très chaud et un peu boisé”). Dans le même esprit, Le Groux et Verschure (2008) proposent d’effectuer une méthode d’apprentissage sur une analyse en composantes principales de l’évolution des composantes spectrales afin de resynthétiser des sons en conservant leur timbre mais en modifiant sonie et hauteur tonale ; les auteurs insistent sur le fait que le modèle proposé est assez générique pour contrôler d’autres caractéristiques du timbre comme la brillance. Enfin, Hoffman et Cook (2006, 2007) ont formalisé une généralisation de ces différentes approches dans ce qu’ils appellent “Feature-based synthesis”.

Contrôle des attributs perceptifs de la source sonore

On pourrait supposer que les modèles permettant le meilleur contrôle intuitif de l’évocation qui soit sont les modèles physiques, car ils décrivent directement le phénomène sous-jacent la production du son. Cependant, au-delà du fait qu’ils sont en général plus coûteux en temps de calcul que les modèles de signaux, cette supposition n’est pas entièrement vraie. Dans le cas d’une plaque par exemple, les paramètres que pourra définir l’utilisateur sont entre autres le module d’Young, le coefficient de Pois-son ou la masse volumique, qui sont des paramètres difficilement appréhensibles par un non physicien et qui ne sont pas reliés directement à des évocations, par exemple du matériau. En effet, la réalité physique n’est pas nécessairement la réalité perceptive : il n’est pas dit qu’en imposant les valeurs des coefficients de l’aluminium trouvées dans des abaques dans le modèle physique (de plaque ou de barre par exemple) que le son évoquera nécessairement un objet métallique (de même que le son réellement produit par un objet métallique ne sera pas nécessairement perçu comme tel). De plus, à l’état de nos connaissances actuelles, ces modèles ne permettent pas de générer tous les sons souhaités (par exemple, il semble complexe d’envisager la modélisation physique d’une scène de pluie).
Dans le cas de la synthèse additive de sons d’impacts, Aramaki et al. (2009b, 2011) proposent un contrôle intuitif du matériau perçu. La calibration du contrôle haut-niveau s’est basée à la fois sur des tests perceptifs et sur des considérations physiques. Ce synthétiseur a également l’intérêt de permettre des transitions perceptives continues entre les différents matériaux, permettant de créer des sons intermédiaires, ce qui a un intérêt notamment pour étudier le fonctionnement du système auditif (Aramaki et al., 2009a; Micoulaud-Franchi et al., 2011). Ces transitions continues sont plus simples à effectuer sur des modèles de signaux que sur des modèles physiques : en mettant en avant les dimensions permettant de discriminer les matériaux, on peut interpoler les paramètres de synthèse pour passer d’un matériau à l’autre selon ces dimensions (de la même manière que l’espace de timbre proposé par Wessel (1979) pour les instruments de musique). Ce synthétiseur offre de plus l’avantage de contrôler le processus de synthèse à différents niveaux, aussi bien en manipulant des évocations (matériau) que des paramètres intermédiaires (entre l’évocation et les paramètres de synthèse) liés au timbre. Des travaux sont actuellement poursuivis pour étendre ce contrôle à la forme perçue de l’objet impacté (Rakovec et al., 2013). On reviendra sur ce synthétiseur plusieurs fois au cours de cette thèse.
Le projet The Sounding Object (Rocchesso et Fontana, 2003), achevé il y a une dizaine d’années mais dont les idées continuent à être développées, a permis une nette avancée dans le domaine du contrôle de la synthèse sonore des sons du quotidien. Ces travaux ont été suivis par le projet Closed 6 dont le but était d’approfondir les modèles de synthèse développés dans le cadre de The Sounding Object, et d’évaluer la pertinence de ces outils pour le design sonore. Ces projets ont notamment permis le développement du Sound Design Toolkit 7 qui propose la synthèse et le contrôle de sons solidiens et de liquide. Dans cet outil de design sonore, les différents modèles sont classés hiérarchiquement (Rath et al., 2003) d’une manière proche de celle proposée par Gaver (1993b) : les “modèles bas-niveau” (impact, friction, bulle) permettent de dériver des événements basiques (roulement, froissement) et des processus dérivés de hiérarchie plus élevée (bris d’objet, rebond, éclaboussement). Ces modèles de base ont par exemple permis de développer des applications interactives de réalité virtuelle où le son produit par différents types de sols peut être synthétisé et renvoyé en temps-réel au sujet pendant que celui-ci marche (Nordahl et al., 2011b,a). Sur le contrôle des sons de pas, Cook (2002) a également proposé une interface de contrôle à haut-niveau (nommée “Bill’s Gait”) d’un modèle physiquement informé. Basés sur les travaux de Farnell (2010), Verron et al. (2010) ont proposé un synthétiseur spatialisé de sons d’environnement comme le feu, la pluie, les bruits de pas, le vent… Ce synthétiseur permet à l’utilisateur de contrôler intuitivement le son d’une source par des contrôles comme l’intensité ou le taux de ruissellement pour les sons de pluie, ou bien la force ou la froidure pour les sons de vent. Il permet également de contrôler la spatialisation et l’extension des différentes sources sonores. Actuellement, le projet SkAT-VG 8 s’attache à lever des verrous sur le contrôle de la synthèse, en tâchant de mettre en place des outils de synthèse propo-sant à l’utilisateur de pouvoir ébaucher des sons en utilisant des imitations vocales et gestuelles, de la même manière qu’on ébauche généralement une idée de façon très naturelle en dessinant. Le projet MétaSon dans lequel s’inscrivent ces travaux de thèse s’intéresse également au contrôle des attributs perceptifs des sources sonores et à la possibilité de créer des sons inédits appelés “métaphores sonores” (ce concept sera décrit dans la fin de ce chapitre ainsi que dans le chapitre IV). Une partie de ce projet se penche également sur la modélisation mathématique et l’estimation de la dynamique des sons, qui sont abordés comme des translations et dilatations dans le plan temps-fréquence. Ces travaux permettent par exemple d’estimer la dynamique du son produit par une voiture qui accélère, de lui enlever cette dynamique, lui appliquer une autre dynamique… (Omer et Torrésani, 2013)
Cette “dynamique” du son nous amène enfin aux études qui se sont intéressées à l’évocation du mouvement dans la synthèse sonore monophonique. Merer et al. (2013) se sont attachés aux caractéristiques acoustiques responsables de l’évocation d’un mou-vement dans un son monophonique. Pour cela, des sons abstraits (sons dont on ne peut remonter à la source l’ayant produit) ont été utilisés afin de minimiser la médiation à des références cognitives ou culturelles, et par conséquent se focaliser sur les attributs propres au son. Des tests de catégorisation et de caractérisation graphique des sons (i.e. les sujets devaient dessiner le mouvement évoqué par le son), couplés à une analyse des signaux ont permis de mettre en avant certaines propriétés du son qui évoquent différents types de mouvement (chuter, tourner,…). Basée sur les descripteurs mis en avant par les tests et l’analyse des signaux, une interface de contrôle du mouvement évoqué par la synthèse sonore a été développée et validée par un test perceptif. Thoret et al. (2014); Thoret (2014) ont eux proposé un contrôle évoquant la fluidité du geste produit pour un modèle de synthèse de sons de friction (Van Den Doel et al., 2001). Les auteurs ont pour cela pris en compte dans leur mapping des contraintes bio-mécaniques du geste humain, i.e. la loi en “1/3” reliant courbure et vitesse du geste (Lacquaniti et al., 1983).
La synthèse sonore, et en particulier lorsque l’on dispose de modèles contrôlables comme on l’a vu ici, est un outil parfaitement adapté à la transmission d’informations. La section suivante présente quelques études ayant utilisé la synthèse sonore pour diverses applications.

Domaines d’utilisation de la synthèse sonore

Au-delà des applications musicales évidentes qui furent les premières utilisations de la synthèse sonore, celle-ci est d’un grand intérêt pour plusieurs domaines. D’un point de vue fondamental, la synthèse sonore est d’intérêt pour étudier la perception auditive. Aramaki et al. (2009a) ont par exemple étudié l’activité cérébrale lors de l’écoute de continua entre matériaux sur des sons d’impacts générés par un modèle de synthèse contrôlable à haut-niveau. Ces mêmes sons ont été utilisés pour mettre en évidence les différences perceptives entre schizophrènes et non-schizophrènes (Micoulaudeux étudié la perception des textures sonores, et en particulier la manière dont elles sont probablement codées au niveau cérébral grâce à un modèle de synthèse inspiré par la physiologie du système auditif. Geffen et al. (2011) ont eux étudié la manière dont sont probablement codés au niveau cérébral les sons de liquides en utilisant un modèle de synthèse proposé par van den Doel (2004).
La synthèse sonore peut également trouver des applications importantes dans le design sonore. En effet, Susini et al. (2014) proposent la définition suivante du design sonore .
La synthèse sonore, et en particulier si elle est contrôlable intuitivement, peut permettre de créer ces “sons nouveaux”, notamment pour des applications en “design des interactions sonores” (Sonic Interaction Design), où l’idée est “d’explorer les moyens par lesquels le son peut être utilisé pour transmettre des informations, du sens, ainsi que des qualités esthétiques et émotionnelles dans des contextes interactifs” (Franinovi´c et Serafin, 2013), notamment avec des objets du quotidien “augmentés” d’un retour so-nore interactif. La synthèse sonore peut également être intéressante d’un point de vue industriel, pour la sonification des voitures électriques par exemple. Le mapping des paramètres de synthèse avec les paramètres issus du contrôle du véhicule (vitesse, ac-célération, etc) peut être mis en oeuvre sur la base d’études en simulateur de l’influence du bruit moteur sur la conduite (Denjean et al., 2012, 2013). Un autre exemple de de-sign sonore en situation interactive vient du monde du jeu vidéo, qui a pendant de nombreuses années effectué ses bruitages à partir de sons pré-enregistrés, et s’intéresse de plus en plus à la synthèse sonore, souvent appelée “procedural audio” dans ce do-maine (Böttcher, 2013). En effet, la seule utilisation de banques de sons lors du design sonore d’un jeu nécessite de prévoir chaque scène à l’avance. Cependant, l’utilisation d’un moteur physique de synthèse sonore n’est pas toujours exploitable en temps réel et nécessite souvent des pré-calculs (Zheng et James, 2010, 2011). Afin de combler le fossé entre l’utilisation d’un moteur de synthèse physique et l’approche classique, Pi-card et al. (2009) ont par exemple proposé une méthode de synthèse granulaire. Basé sur un synthétiseur de sons d’environnements spatialisés (Verron, 2010; Verron et al., 2010), Verron et Drettakis (2012) ont quant à eux proposé tout un moteur de synthèse directement relié à au moteur graphique du jeu vidéo.
Enfin, la synthèse sonore trouve également des applications pour la réhabilitation motrice. Rodger et al. (2014) ont étudié l’effet de l’apport de sons de pas synthétiques pour aider des patients atteint de la maladie de Parkinson à améliorer leur démarche. Les effets positifs montrés encouragent à envisager davantage la synthèse sonore dans des processus de rééducation. Danna et al. (2013) ont quant à eux montré que l’ajout de sons de friction dans une tâche d’écriture peut aider à la réhabilitation de la dysgraphie.

Approche écologique de la perception

L’approche écologique de la perception est due à Gibson (1966, 1979) 9. Afin d’expli-quer cette théorie, également appelée perception directe, il est tout d’abord important de décrire brièvement ce que l’on appelle perception indirecte à laquelle s’oppose la théo-rie de Gibson. La perception indirecte est généralement associée à la théorie de l’in-formation appauvrie. Chaque jour, l’être humain est confronté à un grand nombre de stimuli (visuels, sonores, tactiles, olfactifs…), et certains stimuli, ou combinaisons de sti-muli aboutissent à une perception extrêmement riche par rapport à l’information reçue. C’est typiquement le cas de la photographie, qui est une représentation de l’espace à deux dimensions et dont nous allons systématiquement reconstituer la dimension man-quante. Pour la perception des stimuli dynamiques, cette théorie prend en compte que les stimuli sont reçus sous la forme d’une succession d’échantillons, éventuellement déformés par les capteurs sensoriels (déformations dues à la rétine pour l’image, dis-torsion du son par le filtrage cochléaire,…). Cette suite d’échantillons subira ensuite une succession d’opérations afin de recréer du sens pour devenir finalement un événement perçu (Michaels et Carello, 1981).
L’approche écologique s’oppose radicalement à l’approche de l’information appau-vrie, car elle rejette toutes les études “de laboratoire” où les stimuli sont des repro-ductions artificielles de stimuli naturels (d’où la dénomination “écologique”, l’écologie étant la science qui étudie les êtres vivants dans leur milieu et les interactions entre eux). Gibson a proposé sa théorie pour la vision, et propose que la perception est contrainte par notre interaction avec l’environnement. Il propose ainsi de redéfinir totalement la notion de stimulus, en général décrit par des données physiques primaires comme la fréquence et le niveau pour un son, qui ignore selon lui la véritable information conte-nue dans le stimulus. En particulier, il rejette la notion d’échantillonnage vue précé-demment et propose que l’information doit être détectée dans son ensemble et en par-ticulier en intégrant le temps, et le stimulus est ainsi rattaché à un événement particu-lier. Cette opposition entre perception directe et indirecte, dans le cas de la vision, peut être caricaturée par la figure I.3. Ainsi Gibson met de côté les adeptes du traitement de l’information : percevoir (ou même décrire) ne revient pas à décrire cette succession d’événements mais détecter l’information dans son ensemble, un genre de motif global, une morphologie.
Au-delà de la validité psychologique de l’une ou l’autre de ces approches, c’est cette description de l’information comme un tout, comme un motif global, qui nous semble particulièrement intéressante. En effet, Gibson propose que la reconnaissance des événements visuels est possible grâce à des structures invariantes contenues dans le flux sensoriel. Concernant la perception auditive, cette approche a été exploitée en premier par Warren et Verbrugge (1984), et formalisée plus tard par McAdams (1993). Cette approche suppose donc l’existence de structures invariantes qui portent l’informa-tion nécessaire à la reconnaissance des événements sonores. Ces supposés invariants sont divisés en deux catégories : les invariants structurels qui mènent à la reconnais-sance des propriétés physiques de l’objet sonore (par exemple son matériau, sa forme, etc) et les invariants transformationnels qui décrivent le type de changement ou l’action effectuée sur l’objet. Ainsi d’après Michaels et Carello (1981) : “if an event is something happening to a thing, the something happening is presumed to be specified by transfor-mational invariants while the thing that it is happening to is presumed to be described by structural invariants”. Par exemple, une corde vibrante produit un spectre particulier qui permet à l’auditeur de la reconnaître, qu’elle soit frottée (e.g. violon), pincée (e.g. guitare) ou frappée (e.g. piano). De la même manière, il est possible d’entendre si un cylindre rebondit, frotte ou roule quelque soit son matériau (Lemaitre et Heller, 2012).

Invariants perceptifs : comment le son nous informe ?

Un grand nombre d’études traitent de la façon dont nous percevons les sons “réels” (i.e. on exclut ici les études psychoacoustiques utilisant souvent des tons purs, com-plexes harmoniques ou bruits large bande qui n’ont pas pour but d’évoquer des con-cepts “haut-niveau”), et en particulier aux informations auxquelles un auditeur peut remonter grâce à ces sons. Bien qu’elles ne soient pas nécessairement placées dans le contexte de l’approche écologique de la perception, ces études sont d’intérêt pour nos travaux. On traitera majoritairement dans cette partie la perception des sons du quoti-dien autres que musicaux et vocaux.
Gaver (1993b) a proposé une taxonomie empirique des événements sonores du quo-tidien : ceux-ci peuvent être séparés en trois grandes classes représentant “l’état de la matière”, i.e. les sons solides, liquides et gazeux. Chacune de ces catégories comprend des événements basiques (e.g. impact ou friction pour les solides, explosion ou vent pour les gaz, goutte ou éclaboussement pour les liquides), desquels découlent des évé-nements plus complexes (e.g. les vagues découlent des éclaboussements, les bris d’ob-jets des impacts,…), et les trois grandes catégories se recoupent pour former les événe-ments hybrides (e.g. l’explosion d’une bouteille pleine de liquide). Bien que Gaver n’ait pas validé la taxonomie qu’il propose, les études de Lemaitre et al. (2010) et Houix et al. (2012) ont permis de confirmer partiellement cette classification, dévoilant une catégo-rie supplémentaire par rapport aux trois états de la matière qui est les sons provenant de machines. Cette taxonomie a de plus été confirmée par l’étude de la classification d’imitation vocales de sons du quotidien qui est similaire à la classification des sons originaux (Lemaitre et al., 2011). L’imitation vocale a par ailleurs été montrée comme intéressante pour décrire les sons, notamment lorsque ceux-ci ne sont pas identifiables et facilement descriptibles par des verbes (Lemaitre et Rocchesso, 2014), et également pour décrire et caractériser les sons d’accélérations de voitures (i.e. si le son évoque une voiture sportive, une berline etc) (Sciabica, 2011).
Une grande partie des études de la littérature sur la capacité auditive à remonter aux propriétés mécaniques des sources ayant produit le son s’est focalisée sur les sons produits par des solides, et en particulier la capacité à reconnaître le matériau d’un ob-jet impacté. Les premiers travaux sont dus à Gaver (1988) et ont montré la capacité à reconnaître les sons de barres en métal des sons de barres en bois impactées et de dif-férentes tailles, avec des résultats similaires pour des sons enregistrés ou de synthèse. D’autres études ont confirmé la capacité à discriminer les matériaux d’objets impactés entre les catégories grossières (e.g. bois et plastique qui sont peu résonants par rapport
verre et métal qui sont plus résonants) mais ont pointé des confusions à l’intérieur de ces catégories grossières (e.g. bois confondu avec plastique), voir entre autres (Lutfi et Oh, 1997; Avanzini et Rocchesso, 2001a; Tucker et Brown, 2002; Giordano et McA-dams, 2006). En particulier, il a été montré que les sons d’impacts contiennent suffi-samment d’information pour identifier le matériau (Wildes et Richards, 1988), et que la perception du matériau est principalement reliée à l’amortissement en fonction de la fréquence des différentes composantes spectrales (Tucker et Brown, 2002; Klatzky et al., 2000; Giordano et McAdams, 2006) et à la rugosité (Aramaki et al., 2009a). Un point intéressant dans l’étude de Giordano et McAdams (2006) est qu’elle montre éga-lement une dépendance entre le matériau perçu et la fréquence fondamentale du son.
En particulier, les sons de petits objets métalliques sont associés à des objets en verre. Une explication possible, et cohérente avec l’hypothèse de Gibson qui est que notre perception est contrainte par notre interaction avec l’environnement, est que ces sons sont acoustiquement proches or nous sommes plus habitués à entendre des impacts sur des petits verres que sur des petites plaques en métal, ainsi notre système perceptif ne se base plus sur les indices d’amortissements. En effet, même si l’on aime beaucoup le vin, on ne trinque jamais avec des verres de deux mètres de diamètre mais avec des verres de taille classique (mais beaucoup de fois dans le cas d’un amateur de vin), et on infère le matériau du fait de cette régularité statistique dans l’environnement acous-tique du quotidien (e.g. trinquer avec des verres vs frapper des casseroles en métal, qui font un son plus grave que les verres). Récemment, ce type de régularités statis-tiques dans l’environnement acoustique quotidien qui contraignent notre perception a été étudié par Parise et al. (2014), en particulier sur la connotation spatiale associée à la fréquence des sons : un son est haut ou bas, les mélodies montent ou descendent, etc. Leur étude montre que, statistiquement, les sons aigus sont à une élévation plus haute que les graves dans notre environnement quotidien. Il a également été montré que l’on pouvait remonter à la taille des objets impactés par le son qu’ils produisent (Lakatos et al., 1997; Carello et al., 1998; Grassi, 2005), et dans une certaine mesure à leur forme (Lakatos et al., 1997; Kunkler-Peck et Turvey, 2000; Rakovec et al., 2013). La capacité au-ditive à percevoir la dureté des matériaux impactés a également été étudiée par Freed (1990) et Giordano et Petrini (2003), qui montrent entre autres que les auditeurs sont capables de déterminer si l’objet a été impacté par un excitateur plutôt mou ou dur. Le nombre d’études sur la perception des actions, et donc sur les invariants transformation-nels, est moins important. Warren et Verbrugge (1984) ont montré qu’il était possible de prédire à partir du rythme d’une série d’impact si un verre rebondit ou se brise. En effet, les rebonds présentent une régularité temporelle qui n’existe pas lorsqu’un ob-jet se brise. Ils ont ainsi montré qu’en présentant à des auditeurs la superposition de 4 rebonds différents et désynchronisés entre eux, alors ceux-ci percevaient un bris de verre. Stoelinga (2007) et Houben et al. (2004) ont quant à eux montré la capacité audi-tive à percevoir la vitesse de billes roulantes. Enfin Lemaitre et Heller (2012) ont montré que la perception de l’action effectuée par un cylindre (impact, rebond, roulement ou frottement) est très robuste quelque soit son matériau (verre, plastique, métal ou bois).
Un autre exemple d’invariant, qu’on peut considérer comme structurel, nous vient de la parole. En effet, il a été montré que la capacité à reconnaître les différentes voyelles est fortement reliée à la fréquence des deux premiers formants (Peterson et Barney, 1952), ce qui permet ainsi de comprendre différents locuteurs, et de comprendre ce que dit une personne qu’elle ait la voix claire (parole “voisée”) ou enrouée (parole “non-voisée”). Ces fréquences de formants sont tellement caractéristiques de la parole que Remez et al. (1981) ont montré qu’en créant un signal composé de trois sinusoïdes qui suivent les fréquences centrales des trois premiers formants, la parole est toujours com-préhensible.
D’autres auteurs ont étudié la capacité auditive à remonter à d’autres types d’infor-mations. Repp (1987) a par exemple étudié la perception des applaudissements. Pour ce faire, il a enregistré les applaudissements de plusieurs sujets, ceux-ci se connais-sant tous. Chaque sujet écoutait ensuite les applaudissements et devait retrouver qui applaudissait. Les performances ont été relativement médiocres. Cependant, des ana-lyses plus poussées ont permis de montrer une cohérence dans le jugement du sexe de l’applaudisseur, bien que ce jugement ne reflète pas nécessairement du sexe réel de l’applaudisseur : les applaudissements associés à des personnes de sexe féminin sont les sons aigus et de rythme rapide, et ceux associés à des applaudisseurs de sexe masculin sont généralement les sons plus graves et avec un rythme plus lent. On peut donc constater par cette étude que la perception peut être biaisée par certains stéréotypes culturels. De même, Li et al. (1991) ont montré la capacité auditive à distinguer le sexe d’une personne via les sons de pas. Cabe et Pittenger (2000) ont quant à eux montré la capacité des auditeurs à prédire le temps nécessaire pour remplir de liquide un ré-cipient uniquement grâce au son produit. Toujours sur les sons de liquides, Velasco et al. (2013) ont montré que l’écoute de sons de remplissage d’un liquide dans un verre permet d’estimer si le liquide est froid ou chaud. D’un point de vue plus neuroscienti-fique, Geffen et al. (2011) ont étudié la manière dont sont probablement codés les sons de liquides au niveau du système auditif. Comme beaucoup de sons naturels (Voss et Clarke, 1975; Attias et Schreiner, 1997), les sons de liquides présentent une structure in-variante d’échelle. Ainsi, Geffen et al. (2011) ont montré que les enregistrements de sons d’eau présentent un spectre de puissance en 1/ f , où f est la fréquence, et sont perçus comme naturels et évoquant toujours des sons d’eau quelque soit la vitesse de lecture du son (ils sont donc invariants d’échelle). De plus, des sons d’eau synthétiques consti-tués d’une somme de sinus glissants (un sinus glissant bref et bien calibré reproduit le son d’une goutte, cf par exemple (van den Doel, 2004)) dont la distribution est contrô-lée, sont perçus comme naturels et ressemblant à de l’eau seulement s’ils respectent une structure invariante d’échelle.
On voit donc à travers ces études que l’audition est une modalité sensorielle per-mettant de remonter à un grand nombre d’informations. La manière dont nous perce-vons les sons est importante car elle est reliée à la façon dont nous interagissons avec le monde. En effet, les informations auxquelles l’auditeur a accès grâce à l’audition lui donnent les moyens d’inférer certaines propriétés sur les sources ayant produit ces sons, et ainsi d’agir en conséquence. Castiello et al. (2010) et Sedda et al. (2011) ont par exemple montré que les sons sont utilisés dans la planification des gestes de préhension d’objets. En effet, les sons évoquant des actions activent des aires motrices du cerveau tandis que d’autres types de sons ne les activent pas (Pizzamiglio et al., 2005). Les in-formations auditives sont tellement importantes qu’un joueur de tennis expérimenté voit ses performances baisser s’il est privé du son (Takeuchi, 1993), et que la modifi-cation des sons produits par l’interaction avec un objet perturbe l’expérience haptique (Zampini et al., 2003; Zampini et Spence, 2004; Spence et Zampini, 2006).
La synthèse sonore, et en particulier lorsque l’on dispose de modèles contrôlables, est donc un outil parfaitement adapté à la transmission d’informations, comme on l’a vu dans la partie C. Dans la partie suivante, on proposera un paradigme général pour la stratégie de contrôle, fondé sur la description du son en invariants structurels et trans-formationnels. Cette stratégie de contrôle conduira à un modèle de synthèse générique qui sera utilisé tout au long de cette thèse.

A partir des sons d’interactions entre objets solides…

Comme on l’a vu précédemment, la taxonomie décrivant les sons du quotidien pro-posée par Gaver (1993b) a été partiellement confirmée par plusieurs études (Lemaitre et al., 2010, 2011; Houix et al., 2012), qui mettent en avant trois grandes classes représen-tant l’état de la matière (solide, liquide, gazeux) et une quatrième qui est les sons pro-duits par des machines. Houix et al. (2012) ont poussé l’étude en particulier sur les sons solides. Il a été demandé à 30 sujets de classer et décrire un corpus de sons en se focali-sant sur les actions causant les sons indépendamment de la source sonore. Une analyse des résultats en groupes hiérarchiques a permis d’identifier un premier niveau sépa-rant les sons en 2 groupes, d’une part les sons produits par la déformation d’un seul objet (e.g. froissement ou déchirement) et les sons produits par l’interaction entre plu-sieurs objets (e.g. impact ou frottement). Les déformations révèlent ensuite deux sous-groupes qui sont les déformations sans destruction (e.g. froissement) et celles avec (e.g. déchirement), et de même les interactions se divisent en deux sous-groupes qui sont les interactions discrètes (e.g. impact) et les interactions continues (e.g. frottement). Enfin, au niveau le plus bas se trouve la description spécifique de chaque interaction.
Dans cette thèse, nous avons choisi de nous focaliser sur le sous-groupe des inter-actions continues. Trois interactions continues spécifiques seront étudiées : “rouler”, “frotter” et “gratter”. Dans la littérature, les sons de roulement ont été étudiés tant du point de vue perceptif (Houben et al., 2001; Houben, 2002; Houben et al., 2004, 2005; Stoelinga, 2007) que du point de vue de la synthèse sonore, par modèle physique (Rath et Rocchesso, 2005; Stoelinga, 2007; Stoelinga et Chaigne, 2007), par modèle de signal phénoménologique (Hermes, 1998; Van Den Doel et al., 2001) et par schéma d’ana-lyse/synthèse sur des enregistrements réels (Lagrange et al., 2010; Lee et al., 2010). En ce qui concerne les sons liés aux interactions “frotter” et “gratter”, il n’existe pas à notre connaissance d’études dans la littérature ayant différencié ces deux interactions, les deux termes semblant être utilisés sans distinction particulière. Gaver (1993a) a proposé un premier modèle de signal phénoménologique de sons de frottements, qui a ensuite été amélioré par Van Den Doel et al. (2001). Comme décrit par Lagrange et al. (2010), le modèle d’analyse/synthèse qu’ils proposent est suffisamment générique pour être utilisé pour l’ensembles des sons d’interactions continues y compris les sons de frot-tements. Enfin d’un point de vue perceptif, les sons de frottements ont été étudiés par Thoret et al. (2014); Thoret (2014), et en particulier leur relation avec la perception des mouvements biologiques.
Les études liées au roulement seront détaillées dans le chapitre II, consacré à cette interaction. On s’attachera à y développer un modèle de signal, en se basant sur l’étude d’un modèle physique, et on proposera un contrôle intuitif du modèle de signal. Les études liées au frottement seront détaillées dans le chapitre III, consacré à l’étude des différences perceptives entre les interactions “frotter” et “gratter”, ainsi qu’à la mise en place d’un modèle de synthèse permettant de synthétiser ces deux interactions et du contrôle intuitif associé. On présentera en fin de ce chapitre un synthétiseur prenant également en compte le roulement et permettant d’effectuer des transitions perceptives continues entre les trois interactions étudiées, de la même manière que les transitions continues entre matériaux comme proposé par (Aramaki et Kronland-Martinet, 2006; Aramaki et al., 2009b, 2011).

.. vers les métaphores sonores

Outre les possibilités de synthèse précédemment décrites, le paradigme d’étude dans lequel s’inscrivent ces travaux ouvre également des voies d’exploration vers de nouvelles sonorités (“inouïes”) en combinant virtuellement des actions à des objets qui n’y sont pas naturellement associés (e.g. combinaison de l’action “rouler” et “liquide”, ou bien de “frotter” et de “vent”). Dans la même idée, il est possible de substituer “l’objet” à une “texture sonore”, (e.g. un choeur tenant un accord ou une nappe de syn-thétiseur), équivalent d’une matière. Cela nous amène à la définition de “métaphores sonores” dans la mesure où ces combinaisons inédites induisent des évocations plus abstraites que les événements du quotidien, souvent recherchées pour leurs caractéris-tiques esthétiques. La définition de Métaphore donnée par le Larousse est la suivante :
Emploi d’un terme concret pour exprimer une notion abstraite par substitution analogique, sans qu’il y ait d’élément introduisant formellement une comparaison.
On peut recadrer cette définition le contexte de la linguistique introduit par De Saus-sure (1916). Ferdinand De Saussure propose qu’un signe est composé du signifié qui est le concept, la représentation mentale associée à ce signe et du signifiant qui est l’image acoustique d’un mot et qui désigne le signifié. Ces travaux sont la base de la sémio-tique, qui étudie les signes et leur signification, ne se restreignant pas au seul cadre du langage mais à l’ensemble des signes de toutes les modalités sensorielles. Ainsi, on peut voir la métaphore comme une modification ou une substitution du signifiant. La mé-taphore peut entre autres avoir pour but d’aider à la conceptualisation : par exemple, on peut difficilement parler de l’amour sans le concevoir comme une force physique (être attiré par quelqu’un, avoir un coup de foudre…) ou encore comme de la folie (il est fou d’elle…) (Moriceau, 2003). La métaphore peut aussi avoir un but plus poétique, en vue de donner une image plus riche (“Pâle dans son lit vert où la lumière pleut”, Arthur Rimbaud, Le dormeur du val ; ici le lit vert symbolise l’herbe).
On retrouve souvent ce terme employé dans la littérature sur la sonification (Her-mann et al., 2011). Dans la sonification, on emploie généralement ce terme lorsqu’une grandeur (e.g. une distance ou une température) est représentée par un son ayant un attribut (e.g. hauteur tonale ou rythme) variant avec elle, permettant ainsi de (mieux) comprendre la grandeur via l’audition, ou bien de substituer une représentation vi-suelle par une représentation auditive. On retrouve également ce terme dans la littéra-ture sur la musique électroacoustique (et dans la musique en général). Ainsi, d’après Field (2000), les bruits de pas dans une pièce électroacoustique vont souvent être une métaphore du voyage, les sons de portes qui s’ouvrent et se ferment peuvent symboli-ser l’entrée et la sortie dans une partie de la pièce électroacoustique.
Dans le cadre des travaux présentés dans cette thèse, on voudra modifier des tex-tures sonores (e.g. la pluie, un final d’orchestre, une nappe de synthétiseur…) afin de leur faire évoquer une interaction continue particulière (roulement ou frottement par exemple). Ces travaux seront présentés dans le chapitre IV, où les textures sonores se-ront clairement définies. L’idée sera donc d’évoquer des notions très abstraites comme “Faire rouler le final du requiem de Mozart”, “Faire couiner une nappe de synthétiseur” ou encore “Frotter la pluie”. Il est difficile de rattacher un signifié aux signifiants associés aux phrases précédemment citées. On proposera donc de passer par des signifiants qui ne sont plus dans le domaine linguistique. Pour ce faire, on considérera la texture sonore comme un objet sur lequel on peut interagir, et ainsi on représentera les invariants structurels de la texture sonore dans la partie filtre du modèle. Puis on pourra faire évoquer différentes interactions à la texture en entrant dans la partie filtre un signal source caractérisant l’invariant transformationnel lié à l’action. On peut donc voir cette proposition de schéma de métaphores sonores comme un remplacement du signifiant, bien qu’il ne clarifie pas nécessairement le sens signifié. Dans le chapitre IV, ces métaphores seront évaluées perceptivement, ce qui permettra également de tester la robustesse des invariants.
L’idée de ce type d’outils est de proposer une méthode pour des designer sonores et musiciens permettant de modifier le sens véhiculé par une texture sonore. Ainsi, afin de véhiculer un message particulier, l’utilisateur pourrait, grâce aux propositions faites dans cette thèse, enrichir la texture sonore de manière intuitive. Cette proposition est en phase avec la définition du design sonore donnée par Susini et al. (2014) (cf section C), qui est de proposer la création de sons “nouveaux”, dans le sens où l’on ne peut pas les trouver dans des banques de sons existantes ou qui ne peuvent pas être enregistrés.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Contexte et enjeux de la thèse
A Synthèse sonore
A.1 Modèles de signaux
A.2 Modèles physiques
B Contrôle de la synthèse sonore
B.1 Contrôle du timbre
B.2 Contrôle des attributs perceptifs de la source sonore
C Domaines d’utilisation de la synthèse sonore
D Paradigme d’étude
D.1 Approche écologique de la perception
D.2 Invariants perceptifs : comment le son nous informe ?
D.3 Paradigme action-objet
D.4 Modèle de synthèse adopté
E Enjeux de la thèse
E.1 A partir des sons d’interactions entre objets solides..
E.2 … vers les métaphores sonores
E.3 Méthodologie et organisation du document
II Synthèse et contrôle haut-niveau de sons de roulement
A Synthèse et perception des sons de roulement : état de l’art
A.1 Synthèse de sons de roulement
A.1.1 Les modèles basés sur la physique
A.1.2 Les modèles empiriques de signaux
A.1.3 Les modèles basés sur des schémas d’analyse/synthèse
A.2 Perception des sons de roulement
B Mise en évidence d’un invariant transformationnel du roulement
B.1 Sujets
B.2 Stimuli
B.3 Protocole
B.4 Résultats
B.5 Discussion
C Modélisation de l’invariant transformationnel
C.1 Caractérisation de la force d’interaction
C.2 Schéma d’analyse/synthèse de la séquence d’impact
C.3 Indice pour la perception de la vitesse de roulement
C.4 Modélisation de la forme de l’impact
C.5 Estimation des paramètres
D Stratégie de contrôle intuitif
D.1 Contrôle de la taille de la bille
D.2 Contrôle de la vitesse de la bille
D.3 Contrôle de la rugosité de la surface
E Evaluation perceptive de la stratégie de contrôle intuitif
E.1 Sujets
E.2 Stimuli
E.3 Protocole
E.4 Résultats
E.5 Discussion
F Discussion générale
III Extension du Modèle à d’Autres Interactions et Stratégie de Contrôle du Synthétiseur
A Sons de friction : état de l’art
A.1 Synthèse de sons de friction
A.1.1 Synthèse de sons de friction linéaire
A.1.2 Synthèse de sons de friction non-linéaire
A.2 Perception et utilisation des sons de friction
B Etude perceptive des interactions “frotter” et “gratter”
B.1 Catégorisation perceptive de sons de friction enregistrés
B.1.1 Sujets
B.1.2 Stimuli
B.1.3 Protocole
B.1.4 Résultats
B.1.5 Discussion
B.2 Analyse qualitative des sons catégorisés
C Contrôle perceptif des actions “frotter” et “gratter”
C.1 Description du contrôle
C.2 Validation par synthèse
C.2.1 Sujets
C.2.2 Stimuli
C.2.3 Protocole
C.2.4 Résultats
C.2.5 Discussion
D Modèle générique de sons d’interactions continues
D.1 Description des paramètres du modèle
D.2 Morphologie des différentes interactions
D.2.1 Morphologie de l’interaction “gratter”
D.2.2 Morphologie de l’interaction “frotter”
D.2.3 Morphologie de l’interaction “rouler”
D.3 Stratégie de navigation dans l’espace des actions
D.3.1 Définition des prototypes
D.3.2 Espace sonore des interactions
E Perspectives d’élargissement de l’espace sonore des interactions : vers la friction non-linéaire
E.1 Modèle de synthèse source-filtre de sons de friction non-linéaire
E.2 Construction du modèle d’excitation pour les actions “rouler”, “frotter” et “gratter” en synthèse additive
E.2.1 Modèle simplifié
E.2.2 Application aux interactions rouler, frotter et gratter
F Discussion générale
IV Métaphores Sonores
A Les textures sonores : définition
B Synthèse de textures sonores : état de l’art
B.1 Synthèse soustractive de textures sonores
B.2 Autres méthodes de synthèse de textures sonores
C Proposition d’un modèle d’analyse/synthèse de textures sonores
C.1 Définition du modèle
C.2 Estimation d’un modèle AR
C.3 Estimation d’un modèle AR en sous-bandes
D Création de métaphores sonores
D.1 Contribution de l’interaction
D.2 Exemples de métaphores sonores
E Construction du corpus sonore pour les tests perceptifs
E.1 Choix des textures sonores et resynthèse
E.2 Choix des interactions
F Expérience 1 : métaphores sonores vs. mélange des sons
F.1 Sujets
F.2 Stimuli
F.3 Protocole
F.4 Résultats
F.5 Discussion
G Expérience 2 : reconnaissance des interactions dans la métaphore
G.1 Sujets
G.2 Stimuli
G.3 Protocole
G.4 Résultats
G.5 Discussion
H Expérience 3 : reconnaissance des textures originales dans la métaphore
H.1 Sujets
H.2 Stimuli
H.3 Protocole
H.4 Résultats
H.5 Discussion
I Discussion générale