Constitution et caractérisation d’un corpus de sons abstraits

Télécharger le fichier pdf d’un mémoire de fin d’études

Timbre et contrôle

La notion de timbre est, suivant le point de vue qu’on adopte, très liée à la notion d’invariant (notion discuté dans l’introduction) dans le sens où elle décrit ce qui caractérise le son produit par un objet ou un ensemble d’objets 2. Cette notion a motivé un très grand nombre d’études visant à donner au timbre, une définition objective de façon similaire à celle qui existent pour la hauteur et l’intensité notamment en utilisant la synthèse sonore. On peut d’ailleurs considérer que les paramètres d’entrée d’un synthétiseur agissent nécessairement sur le timbre. Toutes ces remarques montrent que le timbre est donc une notion incontournable quand on s’intéresse au contrôle et il n’est pas étonnant que beaucoup d’exemples de recherches sur le contrôle s’inspirent de travaux sur le timbre.

Timbre et contrôle intuitif

Un des exemples les plus parlants et des plus accessibles de contrôle intuitif est celui développé dans [Gounaropoulos et Johnson, 06] où les auteurs ont proposé un contrôle du timbre défini à partir d’adverbes et d’adjectifs qu’utilisent naturellement les musiciens pour décrire le son (clair,chaud, dur, métallique,…). L’approche se base sur un test d’écoute où les sujets ont jugé des sons sur des échelles définies par ces adjectifs ainsi qu’un système d’apprentissage (réseau de neurones).
En prenant un son en entrée, l’algorithme fournit une estimation du jugement pour chaque échelle et permet de modifier le son en agissant sur ces mêmes échelles. Cette approche est très puissante, mais demande encore à être développée pour obtenir des résultats sonores convaincants.
Un travail similaire a été mené par [Howard et al., 07] où les auteurs se sont concentrés sur la partie qui concerne les tests perceptifs, l’implémentation étant réalisée par le contrôle de descripteurs de timbre dans un modèle de synthèse additive. Dans le cas spécifique des sons d’impact et plus précisément du matériau perçu (bois, métal, verre) [Aramaki et al., 11] ont proposé une approche qui a permis d’aboutir à un contrôle offrant à l’utilisateur, la possibilité de passer continûment d’un matériau à un autre à l’aide d’un unique paramètre de contrôle. En résumé, la méthode se base sur un test d’écoute durant lequel les sujets devaient choisir entre 3 catégories de matériaux lors de l’écoute de sons obtenus par morphing entre des re-synthèses d’enregistrements d’impact sur différents matériaux. L’analyse acoustique a ensuite permis d’identifier plusieurs descripteurs permettant de discriminer les sons suivant le matériau perçu ainsi qu’une stratégie pour contrôler ces descripteurs. Pour ce problème comme pour d’autres problématiques qui concernent les sonsd’environnement, la physique permet souvent de trouver des caractéristiques des signaux qui sont  importantes d’un point de vue perceptif. Par exemple dans le cas de structures résonnantes, l’analyse modale met en évidence des relations entre la taille de l’objet et la fréquence fondamentale, ainsi qu’entre l’excitation (notamment le point d’excitation) et la répartition spectrale de l’énergie. Enfinpour les sons d’environnement au sens de [Gaver, 93b], il existe différentes approches qui fournissent des sons de synthèse adaptés à une description sémantique en lien avec des applications multimédias (jeu vidéos, réalité virtuelle). En particulier, [Verron et al., 10] ont mis en oeuvre une stratégie decontrôle qui permet par exemple à l’utilisateur, de contrôler l’intensité ou le ruissellement pour dessons de pluie, la froidure pour des sons de vents, etc.. Un contrôle original a été mis en place qui permet de modifier l’élargissement de sources spatialisées. Des tests d’écoute ont été nécessaires pour déterminer la capacité des auditeurs à discriminer différentes largeurs de sources et donc lenombres de sources virtuelles nécessaires.
L’utilisation de test d’écoute est globalement dédiée à des aspects très précis du contrôle maissemble dans beaucoup de cas, incontournable.
Sans avoir recours à des tests d’écoute pour savoir ce qui est perçu par les auditeurs, les  compositeurs de musiques électroacoustiques sont en permanence dans le questionnement sur  le sens véhiculé par les sons qu’ils utilisent et sur la manière de traduire des idées musicales en  combinaisons et transformations sonores. Les recherches qui ont eu lieu autour de ces musiques sont donc incontournables quand on s’intéresse au contrôle de la synthèse, c’est pourquoi, la section qui suit donne des bases pour mieux comprendre les liens et les apports potentielles à notre problématique.

Apport des musiques électroacoustiques

Au début des années 50, apparaissent presque simultanément deux nouveaux genres de musique qui vont bouleverser la manière d’envisager la composition : la musique concrète et la musique  électronique. La musique concrète s’élabore directement en manipulant de la matière sonore (enregistrée) en opposition aux musiques composées « sur papier » et qui deviennent des sonsseulement quand elles sont jouées par des instrumentistes. La musique électronique quant à elle,est une musique composée uniquement avec des sons de synthèse et dans un premier temps uniquementobtenus par synthèse additive avec des oscillateurs analogiques. Ces deux musiques sont les premières, qui pour exister, sont tributaires de toute une chaîne électroacoustique, dont le haut-parleur estle dernier maillon. De plus, elles opèrent directement sur le son et s’affranchissent de ce qui peut être considéré comme une barrière entre le compositeur et le public : l’interprète. Même si ces deuxmusiques ont souvent été opposées, leurs évolutions et l’apparition d’autres musiques (notamment la musique pour bande) font qu’elles peuvent raisonnablement être regroupées sous le terme de musiques électroacoustiques [Cross, 68].

Quels stimuli et quel protocole

Comme à notre connaissance aucune étude ne s’est posé les questions qui nous intéressent, il est nécessaire de mener une réflexion autour du choix des stimuli et du protocole d’évaluationde ces stimuli. Il faut préciser que ces deux choix sont intimement liés et qu’ils ne peuvent pasêtre faits séparément. En effet, un protocole établi sur la base d’hypothèses et à l’aide d’un pland’expériencedictera précisément les stimuli qui devront être utilisés. Inversement, un ensemble de   stimuli déterminés orientera les choix, ne serait-ce que par des considérations sur les durées ou lesformes, sur des méthodes particulières.
Dans notre cas, il semble intéressant, au moins dans une première approche, de ne pas faire d’hypothèses sur les dimensions perceptives qui sont liées au mouvement. Par ce choix (ou plutôt cette absence de choix), on s’oriente donc vers une sélection de stimuli la plus large possible,susceptible de représenter “tous les sons du monde” et par là même, à un protocole le moins réducteur possible. Ensuite, nous avons le double objectif de concevoir une méthode générale d’évaluation perceptive en vue de contrôler un synthétiseur et celui de mieux caractériser la notion de mouvement.

La catégorisation

Théorie de la catégorisation

Les recherches qui s’intéressent à la catégorisation et à la perception catégorielles sont trèsnombreuses et forment à elles seules une branche importante de la psychologie. De cesrecherches,ressortent un certain nombre de questions fondamentales ainsi que des concepts y afférent. Il s’agitdonc de relever les hypothèses et les problèmes inhérents à une approche par catégorisation pour mieux les prendre en compte dans l’étude qui suit.
Un des premiers principes de la catégorisation semble être de fournir un maximum d’informations en faisant le moins d’efforts (cognitifs) possible [Rosch, 78]. De cette notion d’économie découle la
notion de classes d’équivalence [Goldstone et Kersten, 03] (p. 600) qui indique qu’au sein d’unecatégorie, des éléments différents peuvent être traités de façon identique.
Comme décris dans [Rogosky et Golstone, 05], la catégorisation se base sur la réduction duproblème sous forme de caractéristiques. Dans le domaine de la représentation des objets, les catégories sont souvent distinguées selon trois niveaux d’abstraction [Rosch, 78]. Ces trois niveauxsont inclusifs et les distances inter-catégories sont maximales pour des catégories de même niveau.
Également à travers les travaux de Roch ainsi que ceux de Lakoff, est apparue la notion deprototype et toute une théorie qui en découle. Dans ce cadre, le prototype est un élément qui  représente bien une catégorie et qui peut ne pas avoir d’existence concrète. Cet élément sert donc de référence pour déterminer l’appartenance à la catégorie en fonction des propriétés qu’un objetpartage avec le prototype.

Catégorisation de sons

[Kawai et al., 04] ont mené une étude sur les sons d’environnement où les sujets devaient catégoriser non pas des sons mais leur description. Pour cela, ils leur fournissaient des cartes surlesquelles était écrit un mot décrivant le son, la tâche étant réalisée dans différents contextes (laboratoire, différents lieu d’une ville et chez les sujets). Ils obtiennent ainsi trois grands facteursqui sont un jugement qualitatif, l’activité qui est liée au son et le rôle du son, l’importance relativede ces facteurs étant significativement influencée par le contexte. [Guastavino, 07] s’est intéresséeaux catégories de sons d’environnement et à leur description à l’aide d’une tâche de catégorisationlibre. Les deux catégories principales identifiées concernent le lien ou l’absence de lien avec l’activitéhumaine avec un jugement positif ou négatif sur le son.
Egalement dans le cadre des sons d’environnement, [Gygi et al., 07] se sont intéressés à relier les catégories obtenues à des indices acoustiques et ont montré qu’un petit nombre d’indices (harmonicité, quantité de silence et présence de modulations d’amplitude) permet d’expliquer ces catégories. Ils ont également montré que les jugements perceptifs étaient moins bien expliqués parces indices acoustiques quand il s’agissait de catégorisation que pour des jugements de  dissemblance(obtenus par comparaison par paire).
Dans un cadre très proche de celui qui nous intéresse, [Miranda et al., 00] ont cherché des catégories permettant de décrire les sons complexes issus de leur logiciel de synthèse granulairepour donner des points de repères aux utilisateurs et ainsi en permettre un meilleurcontrôle. Mêmesi la méthode utilisée pour proposer leur catégories est empirique, il est intéressant de voir qu’une partie de la taxonomie est inspirée des travaux de [Schaeffer, 66], et que les auteurs s’intéressent àdes catégories de sons que l’on peut qualifier de sons abstraits pour un problème qui est celui ducontrôle d’un algorithme de synthèse sonore. A noter également que plusieurs catégories ont étéintroduites pour combler les celles qui ne sont que peu détaillées par la typologie de Schaeffer (sons  “chaotiques”, sons “explosifs”, etc.).
Enfin [Bergman et al., 09] ont montré que dans le cas de sons d’alarmes, les catégories sontfaites aussi bien sur la base de critères acoustiques (notamment temporels) que sur la base decritères émotionnels.
Ces études montrent que des critères très différents peuvent être utilisés pour catégoriser des sons.
Il faudra donc évaluer dans quelle mesure ces critères varient entre les sujets.

Dessiner les sons, perception multimodale

Dessiner les sons ou générer des sons à partir de dessins est une problématique qui a intéressé beaucoup de chercheurs et de musiciens. Il s’agira donc de recenser ici quelques-unes des approches qui peuvent nous apporter des informations importantes dans la mise en place de notre protocole et l’analyse des données récoltées.
L’étude des interactions entre les différentes modalités et notamment entre le sonore et le visuel est un domaine de recherche à part entière. Mettre en place un protocole qui vise à décrire le sonore à l’aide de dessins va nécessairement induire des interactions multimodales et requiert une grande prudence.
Le dessin met également en jeu des processus qui ne se limitent pas au visuel mais également aux aspects gestuels et moteurs. Ces aspects doivent également être pris en compte dans la conception du protocole, pour minimiser les éventuelles interactions qui pourraient perturber la validité de nosrésultats.

Dessiner les sons

L’utilisation conjointe de son avec du dessin est très ancienne, ne serait-ce que dans le domainede la musique avec la notation musicale. Dans un document de synthèse concernant la musiqueet le mouvement [Repp, 93] décrit les travaux des trois “pionniers allemands” qui les premiers, se sont intéressés aux liens mouvement-musique et surtout à l’utilisation du dessin pour décrire les  mouvements. Les travaux menés par Sievers dans les années 20 consistaient à analyser les  gestes utilisés lors de la lecture de textes qu’il retranscrivait à l’aide d’un dictionnaire de courbes de type “boucle”. A la même période et en utilisant les mêmes méthodes que Sievers, Becking s’est intéressé à des compositeurs et plus particulièrement aux accentuations dynamiques caractéristiques de cescompositeurs ce qui l’a amené à transcrire un tableau de ces profils (cf. figure 4.2). Il est intéressantde constater que ces travaux mettaient en avant différentes échelles de représentation. Dans les années 30, Trulist s’est intéressé aux mouvements (impliquant le corps entier) suggérés par une pièce musicale et qui se décrivent grâce à quatre types de courbes (dent de scie, lacets supérieurset inférieurs et courbe en huit). Il faut également mentionner les travaux de Clynes (également  rapportés par [Repp, 93]) qui a travaillé à partir de courbes obtenues par mesure de la pression d’appui sur un capteur dédié, lors de l’écoute de musique. Dans le cadre d’un travail autour desUST, [Rousset, 08] a proposé une notation graphique (cf. figure 4.3). Il est très intéressant deremarquer que cette notation utilise systématiquement des repères pour marquer la direction ou le  début et la fin de la notation.
Plusieurs logiciels de composition assistée par ordinateur ont été conçus pour permettre àl’utilisateur de représenter le son avec des dessins afin de contrôler des modules detransformation ou de synthèse  [Lesbros, 96, Lesbros, 99], [Farbood et al., 07], [Wu et Li, 08]. Le plus célèbre de ces systèmes est probablement le UPIC 1 de Iannis Xenakis composé d’une tablette graphique associée à un moteur de synthèse additive. De par le nombre de systèmes qui ont fait suite au UPIC, il apparaît clairement  d’un morceau) Informatique du CEMAMu (Centre d’Etudes de Mathématiques et Automatique Musicales).

Interactions son-image

Dans le domaine de la vision, il existe un effet de persistance de mouvement (en anglais motionafter-effect) qui fait que l’on a l’impression d’observer un mouvement en sens inverse après avoir fixé un objet mobile et que regarde un objet statique (par exemple après avoir fixé une chute d’eau quelques minutes et qu’on regarde un rocher à côté). Dans [Kitagawa et Ichihara, 02], les auteurs ont mis en évidence un phénomène similaire où un son stationnaire est perçu comme étant
non-stationnaire (augmentation d’intensité) en présence d’un stimulus visuel mobile. Inversement [Shams et al., 02] ont montré qu’en présentant un flash de lumière unique simultanément avec une succession de bips sonores on percevra plusieurs flashs dans la limite d’une échelle de tempscaractéristique d’environ 100 ms. Dans une étude célèbre de 1974 (rapportée par [Zwaan et al., 04])
Loftus et Palmer ont présenté des vidéos d’accidents de voiture et demandaient aux sujets  d’estimer la vitesse de la voiture avant impact avec différentes formulations. Selon que la question parlait de“contact”, de “choc” ou de “crash”, les vitesses estimées augmentaient. Il n’est nullement nécessaire de rappeler que de manière générale, la perception est multimodale et qu’il existe des interactionsentre le visuel et le sonore. On doit malgré tout mentionner le célèbre effet “ventriloquist” qui décrit des modifications de la localisation d’une source quand les informations visuelles et auditives necoïncident pas. Des études sur ce phénomène ont montré que l’intégration multimodale est presque optimale [Alais et Burr, 04] et que, contrairement aux idées reçues, il ne met pas en évidence lasupériorité d’une modalité par rapport l’autre.
Par contre, les interactions multimodales peuvent prendre une forme particulière quand il s’agitde mouvement [Alaerts et al., 09] du fait des implications motrices (comme on l’a discuté dans la section 1.5.2). Dans une expérience visuelle mettant en jeu des disques de couleur identiques se rapprochant l’un de l’autre, se superposant puis s’éloignant, [Sekuler et al., 97] ont montré que laprésence de son 150ms avant, pendant ou 150ms après le moment où les disques se superposent, augmente très significativement l’impression que les disques rebondissent ensemble. Dans une situation ambiguë comme celle-ci, le son même s’il n’est que peu concordant avec l’image a doncune forte influence sur la perception globale de la situation. En plus des problèmes d’interaction multimodale, on doit donc prendre en compte le fait de travailler sur une dimension particulièrepour la perception.

Interface de caractérisation graphique

L’étude de la littérature a été complétée par des essais (cf. figure 4.4) de mise en place deprotocoles pour évaluer la faisabilité d’un test d’écoute où les sujets dessinent le mouvement évoquépar des sons abstraits. Un des premiers problèmes qui est apparu rapidement lors de ces essais est dûaux différences d’aptitudes qui existent entre deux individus pour dessiner une seule et même chose.
En effet, les premiers prototypes proposaient de réaliser des dessins libres pour décrire les formes et au-delà des difficultés d’analyse que pose le dessin libre, il est apparu qu’ils ne fournissaient pas une base d’évaluation des sons qui soit commune à tous les sujets. C’est donc sur la base de ces différents essais qu’une grande partie les choix de conception ont été faits par la suite.
La solution que nous proposons et qui est l’une des grandes originalités de notre projet, est de Fournir une interface de dessin paramétrique qui permet aux sujets de dessiner en agissant sur descurseurs linéaires et différents autres contrôles graphiques. Bien entendu l’action sur ces curseurs doit se traduire par la visualisation instantanée de la trajectoire. Les sujets sont donc en mesure de produire des dessins parfaitement identiques, le problème principal étant pour nous de définir les paramètres qui leur seront mis à disposition.

Choix des paramètres de contrôle

Le choix des paramètres de contrôle est une étape critique puisqu’elle nécessite de faire des compromis entre les possibilités laissées aux sujets et la complexité du dispositif. En effet, une interface trop complexe nécessitera un temps d’apprentissage qui sera trop long pour que l’on puisse l’utiliser dans un test perceptif mettant en jeu des dizaines de sujets et de sons. Pour choisir les paramètres, nous nous sommes principalement basés sur les résultas obtenus au chapitre précédent (chapitre 3). Ainsi, l’interface doit permettre de reproduire les 5 grandes catégories identifiées (“Tourne”, “Monte”, “Passe”, “Descend”, “Approche”). En conséquence de quoi, l’interface doit permettre de contrôler la forme et l’orientation de la trajectoire pour pouvoir distinguer des trajectoires circulaires de trajectoires linéaires, des trajectoires qui montent de trajectoires qui descendent. Les dessins que les sujets ont faits spontanément (figure 4.1) nous donnent plus précisément des formes qui doivent être reproduites : spirale, cercle, sinusoïde, hélice et ligne droite. On remarque également que les sujets ont presque systématiquement ajouté des flèches pour indiquer le sens de parcours de la trajectoire ainsi que des références donnant l’orientation de la trajectoire (par exemple un trait horizontal sous la trajectoire en spirale pour indiquer le sol).
Nous avons testé des protocoles avec un maximum de possibilités de contrôle (incluant tous les éléments décrits précédemment) et nous avons notamment mis en évidence la complexité induite par la manipulation d’une interface permettant de positionner la trajectoire n’importe où dans un espace à trois dimensions autour de l’auditeur. Cette possibilité a ainsi été rejetée, les trajectoires ont été placées face à l’auditeur à une distance moyenne fixe. De plus certains sujets ont créé des catégories qui font état de vitesses différentes, c’est donc un paramètre qui doit être contrôlable. Au final, nous avons abouti à 9 paramètres qui permettent de dessiner une trajectoire, la dynamique étant représentée par une sphère qui se déplace le long de cette trajectoire de façon synchrone avec la lecture du son. Le détail de chaque paramètre est donné dans la section suivante.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Notions de mouvement 
1.1 Mouvement évoqué par les sons
1.1.1 Points de départ
1.1.2 Vocabulaire et définitions
1.1.3 Motivations
1.2 Le mouvement musical
1.2.1 Modèles basés sur des mouvements corporels
1.2.2 Modèles mécaniques
1.3 Mouvements corporels, gestes
1.3.1 Geste et contraintes corporelles
1.3.2 Geste instrumental
1.3.3 Gestes et description du son
1.4 Acoustique du mouvement
1.4.1 Le mouvement physique
1.4.2 Analyse de la dynamique des signaux
1.4.3 Transformation et synthèse
1.5 Perception du mouvement
1.5.1 Psychoacoustique
1.5.2 Aspects cognitifs
1.6 Conclusion
2 Le contrôle de synthétiseurs 
2.1 Contrôle “intuitif”
2.2 Contrôle gestuel et synthèse de sons musicaux
2.3 Approches par algorithmes évolutionnistes
2.4 Timbre et contrôle
2.4.1 Contrôle et espaces de timbre
2.4.2 Timbre et contrôle intuitif
2.5 Apport des musiques électroacoustiques
2.5.1 Musique électronique
2.5.2 Musique concrète
2.6 Conclusion
3 Approche par catégorisation 
3.1 Quels stimuli et quel protocole
3.1.1 Quels stimuli ?
3.1.2 Quel protocole ?
3.2 La catégorisation
3.2.1 Théorie de la catégorisation
3.2.2 Catégorisation de sons
3.3 Test 1 : Classification libre
3.3.1 Sujets
3.3.2 Stimuli
3.3.3 Protocole
3.3.4 Résultats
3.4 Test 2 : Classification contrainte
3.4.1 Sujets
3.4.2 Protocole
3.4.3 Résultats
3.4.4 Discussion
3.5 Analyses des signaux
3.5.1 Descripteurs de timbres “classiques”
3.5.2 Descripteurs spécifiques
3.5.3 Sélection de descripteurs
3.5.4 Résultats
3.6 Conclusion
4 Approche par caractérisation graphique 
4.1 Dessiner les sons, perception multimodale
4.1.1 Dessiner les sons
4.1.2 Interactions son-image
4.2 Interface de caractérisation graphique
4.2.1 Choix des paramètres de contrôle
4.2.2 Implémentation
4.3 Constitution et caractérisation d’un corpus de sons abstraits
4.3.1 Présélection des sons
4.3.2 Corpus final
4.4 Protocole
4.4.1 Sujets
4.4.2 Conditions
4.4.3 Test 3 : Caractérisation du corpus
4.4.4 Test 4 : Caractérisation graphique
4.5 Résultats
4.5.1 Test 3
4.5.2 Test 4
4.5.3 Analyse des trajectoires
4.5.4 Résumé
4.6 Conclusion
5 Analyse par synthèse de mouvements 
5.1 Analyse des signaux
5.1.1 Analyse temps-fréquence
5.1.2 Test d’instationnarité
5.2 Moteur de synthèse temps réel
5.2.1 Stratégie de contrôle
5.2.2 Calibration
5.3 Test de validation
5.3.1 Stimuli
5.3.2 Sujets
5.3.3 Protocole
5.3.4 Résultats
5.4 Vers un contrôle générique du mouvement évoqué par les sons
5.5 Conclusion
6 Discussion et perspectives 
6.1 Retour sur les sons abstraits
6.1.1 Utilisation des sons abstraits en psychiatrie
6.1.2 Le naturel
6.1.3 Sur l’utilisation de sons abstraits
6.2 Vers une méthodologie générale pour le contrôle intuitif de la synthèse
6.3 Applications et perspectives
6.3.1 Applications à court terme
6.3.2 Applications musicales
6.3.3 Perspectives
Conclusion 
Annexes 
A Consignes et questionnaire des tests du chapitre 3
B Consignes et questionnaires des tests du chapitre 4
B 1 Test 3
B 2 Test 4
C Mots utilisés pour décrire des sons abstraits dans le Test 3
D Liste des publications de l’auteur
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *