Un système interactif d’aide à l’analyse des musiques électroacoustiques

Musiques électroacoustiques

La naissance des pratiques électroacoustiques a engendré plusieurs esthétiques musicales très différentes. Aujourd’hui, il est difficile de donner une définition précise de la musique électroacoustique. Selon le Larousse, ce terme a été créé dans les années 50 pour désigner toute musique construite à partir de sons enregistrés (musique concrète) ou de synthèses (elektronische musik) en références aux deux courants initiés en France et en Allemagne. Aujourd’hui, le Wikipédia recense plusieurs définitions de la musique électroacoustique :
Le terme “musique électroacoustique” désigne tout type de musique dans laquelle l’électricité a un rôle autre que la simple utilisation du microphone ou de l’amplification pour la production de cette musique ; Désigne tout ce qui utilise la conversion d’un signal acoustique en signal électrique et vice et versa; Musique utilisant la technologie pour enregistrer, produire, créer, manipuler et diffuser le son ; Désigne toutes les activités utilisant l’électricité pour produire, manipuler, diffuser et étudier le son (correspond au terme “electroacoustics” des pays anglo-saxons).
Ces définitions sont difficiles à utiliser dans le contexte musical actuel ou la quasi-totalité de la production musicale utilise des moyens électroniques à un moment de la chaine de création. Ainsi, si on applique ces définitions, une musique utilisant le langage tonal, entièrement produite à partir d’instruments acoustiques, mais enregistrée par des moyens électroniques devient électroacoustique. Les définitions citées ne prennent pas en compte le paradoxe que nous venons d’exposer. Ainsi, dans ce document, nous ferons principalement référence à une définition stylistique des musiques électroacoustiques : regroupement de courants musicaux aux esthétiques distinctes nés dans les années 40 en réaction aux innovations technologiques de production sonore. Par conséquent, on considère la musique électroacoustique comme une collection de genres musicaux et non comme une musique utilisant des moyens électroniques pour sa production.

Classification d’instruments dans la musique polyphonique

La classification automatique d’instruments dans la musique polyphonique reste un challenge difficile à relever et est de fait moins étudiée que la classification d’instruments pour de la musique monophonique. En effet, dans ce contexte, il s’agit de reconnaitre des instruments de musique dans des mixtures instrumentales. Par conséquent, le problème de la description est plus complexe puisqu’il fait intervenir des superpositions sonores et tous les phénomènes que cela peut engendrer (notamment les chevauchements entre partiels).
Certaines méthodes s’attachent à séparer les notes des différents instruments afin d’appliquer des méthodes classiques, d’autres se focalisent sur l’extraction de descripteurs adaptés.
Godsmark & Brown (1999) proposent d’exploiter une trajectoire de timbre dans laquelle le centroïde spectral en fonction de l’amplitude est utilisé pour séparer la musique polyphonique en ses lignes mélodiques constituantes. Le modèle proposé permet d’obtenir un taux de reconnaissance de 80% pour des mélanges piano/contrebasse mais chute de 40% pour des mixtures plus complexes à 4 instruments. Kinoshita et al. (1999) proposent une extension à un système existant qui n’était pas robuste pour les signaux de mixtures présentant des chevauchements de partiels. Le système est testé avec des mélanges de deux notes créant des chevauchements. La méthode fonctionne par rapprochement avec des templates connus qui seront pondérés en évaluant l’importance des descripteurs.
Eggink & Brown (2003) proposent un système de reconnaissance d’instruments par Modèle de Mélange Gaussien (GMM) et utilisent le concept de l’ “attribut manquant” (missing feature theory) quand il y a plus d’un son à la fois. Ainsi, les régions fréquentielles qui contiennent des interférences sont exclues du processus de classification car considérées comme non fiables. La méthode proposée est évaluée sur des combinaisons de deux instruments avec des accords de deux notes ainsi que sur des mélanges de phrases instrumentales.
Essid et al. (2006) proposent une nouvelle approche de reconnaissance des instruments basée sur l’apprentissage de taxonomies instrumentales. Cette approche n’utilise pas de sources instrumentales séparées pour l’apprentissage mais exploite des annotations de musiques commerciales. Ainsi, les différents types de mixtures instrumentales sont appris sur des morceaux de jazz (du duo au quartet) et l’algorithme cherche à retrouver directement ces mixtures dans les signaux de test. Cette méthode prend pour hypothèse l’invariabilité de l’instrumentation de certains styles musicaux et apprend à retrouver les mélanges dans des morceaux basés sur les mêmes instruments.
Kitahara et al. (2007) présentent une solution pour les problèmes de variation des descripteurs dus aux superpositions des sons instrumentaux. Pour résoudre ce problème, les auteurs utilisent une pondération des descripteurs basée sur le degré de perturbation introduit par la superposition. Dans cet article, l’influence de la superposition sur chaque descripteur est assimilée au rapport des variances intra-classe et inter-classe. La pondération est réalisée par une analyse linéaire discriminante qui permet de minimiser ce dernier rapport.
Little & Pardo (2008) s’intéressent à l’identification d’instruments dans des mixtures en réalisant un apprentissage à partir de segments partiellement étiquetés. Dans ce travail, les échantillons d’apprentissage sont les mixtures qui contiennent l’instrument appris dans une proportion significative. Ainsi, le système apprend à partir de mixtures qui contiennent à la fois l’instrument appris et également d’autres instruments. Une étude comparative est réalisée et montre que l’apprentissage sur des échantillons partiellement étiquetés permet d’obtenir de meilleurs résultats qu’une approche classique où les modèles sont appris à partir de sources instrumentales isolées.

Retour de Pertinence et Apprentissage actif

L’utilisation du retour de pertinence a d’abord été introduit dans le domaine de la recherche textuelle (Rijsbergen (1979), Salton (1968)). Ainsi, pendant la recherche de documents, l’utilisateur peut interagir avec le système et sélectionner les documents qui lui semblent pertinents. Les systèmes de classification “orientés audio” exploitant le retour utilisateur sont peu nombreux en comparaison des systèmes purement automatiques. Hoashi et al. (2003) proposent de retrouver des morceaux de musique selon les préférences propres à un utilisateur qui sont supposées être ambigües en utilisant le retour de pertinence. L’approche utilise des arbres de vecteurs quantifiés (TreeQ) pour réaliser la recherche. Pour évaluer la méthode, une base de données a été construite à partir d’une collection de CDs du commerce. Les expériences montrent l’efficacité du retour de pertinence pour la recherche dans la base ainsi que pour la constitution de profils utilisateurs personnalisés.
Dans Mandel et al. (2006), un système de recherche par similarité musicale exploitant des machines à vecteurs supports (SVM) combiné à l’apprentissage actif est présenté. Pour tester le système, 1210 morceaux de musique pop ont étés classés par émotions, styles et artistes. Ainsi, un classifieur est appris pour chaque requête à partir de différentes représentations de descripteurs bas-niveaux d’un ou plusieurs morceaux fournis par l’utilisateur. Le système fonctionne itérativement : à chaque itération, il prédit les étiquettes des morceaux non étiquetés à partir du classifieur courant puis il utilise l’apprentissage actif pour demander à l’utilisateur d’annoter de nouveaux morceaux afin de faire progresser l’apprentissage.
Le but du système est d’obtenir une prédiction correcte des étiquettes en un minimum d’itérations. Ce travail vérifie que dans ce contexte, le recours à l’apprentissage actif permet de diminuer de moitié le nombre de morceaux annotés manuellement. De plus, parmi les différentes représentations de descripteurs bas-niveau comparées, les résultats montrent qu’une représentation simple (moyenne et matrice de covariance des MFCC d’un morceau) permet d’obtenir de meilleurs résultats que des représentations plus complexes (GMM etc.).
Chen et al. (2008) présentent un système de recherche de contenu musical qui intègre le retour utilisateur. Un algorithme d’apprentissage basé sur une fonction de base radiale est utilisé pour la classification et un algorithme de pondération des descripteurs qui utilise à la fois les exemples positifs et négatifs est présenté. Le système est testé pour la classification en genres et en émotions et obtient des résultats comparables à ceux présentés dans la littérature.
Shan et al. (2008) proposent une approche pour la recherche de catégories musicales spécifiques qui partagent un même concept sémantique. Les catégories étant subjectives, ils utilisent le retour de pertinence pour apprendre les concepts sémantiques sur de la musique polyphonique représentée symboliquement. Un modèle de segment et une représentation qui intègrent des descripteurs globaux et locaux sont utilisés. La recherche est effectuée via un algorithme de reconnaissance de formes et un algorithme associatif de classification modifié. Trois stratégies sont utilisées pour sélectionner les objets les plus utiles pour l’apprentissage du concept (le plus positif, le plus informatif et une stratégie hybride).

Classification d’images

Le retour de pertinence est très utilisé dans le domaine de la classification d’images/photos. La raison de ce constat est simple : les photos, tout comme les sons, sont des objets qui renvoient à des jugements très subjectifs. En effet, un utilisateur peut choisir de classifier de tels objets selon plusieurs axes : description, concept, émotion suggérée, vocabulaire esthétique etc. De plus, en classification d’images, il est courant de vouloir associer une image à plusieurs étiquettes : par exemple une photo d’une personne sur une plage peut être affectée à la fois à la classe “plage” et à la classe “personne”. Certains travaux en classification d’images constituent une inspiration importante pour ce travail de classification d’objets sonores car les formalismes possibles pour ces deux types d’objets sont relativement similaires.
Crucianu et al. (2004) et Zhou & Huang (2003) décrivent une vue d’ensemble de la littérature sur le retour de pertinence et l’apprentissage actif appliqués à la recherche d’images. Certains travaux intègrent à la fois le retour de pertinence par apprentissage actif et la classification multilabel (Li et al. (2004), Goeau et al. (2008), Goeau (2009), Singh et al. (2009), Qi et al. (2009)).
Li et al. (2004) proposent une méthode multilabel basée sur des SVMs et exploitant l’apprentissage actif pour la classification d’images. Dans cette publication, une approche de type BR est utilisée et deux stratégies d’échantillonnage originales sont présentées et comparées à une sélection d’échantillons aléatoire.
Goeau et al. (2008) et Goeau (2009) présentent un système de classification d’images basé sur une version évidentielle de l’algorithme des k plus proches voisins qui utilise également l’apprentissage actif. Ce système permet à l’utilisateur d’initialiser, supprimer ou fusionner des classes et éventuellement de corriger les propositions d’étiquettes du système.
L’approche choisie permet de prendre en compte l’imprécision, l’incertitude et les conflits entre les descripteurs visuels. Ainsi, des stratégies d’échantillonnage prenant en compte la positivité, l’ambiguité et la diversité sont présentées. Dans cette approche, les sorties des classifieurs sont exprimées sous forme de probabilités pignistiques (Smets (2005)) qui permettent de sélectionner les échantillons en fonction de la stratégie. L’évaluation du système est réalisée par simulation utilisateur et permet de comparer les résultats obtenus avec les différentes stratégies d’échantillonnage. Le classifieur proposé permet également de gérer la classification multilabel. Singh et al. (2009) proposent une approche de classification multilabel exploitant l’apprentissage actif qui permet de réduire le nombre d’images présentées à l’utilisateur. Cet article propose d’utiliser un classifieur SVM dans une approche BR et compare trois stratégies d’échantillonnage afin de réduire le nombre d’images que l’utilisateur doit annoter manuellement. La première stratégie est aléatoire, elle sert de point de référence. Pour toutes les stratégies, l’image nouvellement annotée est ajoutée à l’ensemble d’apprentissage (elle est donc retirée des images non étiquetées) et le processus est répété itérativement.
La deuxième stratégie est dite “annotation monolabel” : il s’agit d’une stratégie souvent utilisée en apprentissage actif qui consiste à chercher l’échantillon le plus informatif. Dans le cas des SVM, dans un problème bi-classe, l’échantillon le plus informatif est l’échantillon le plus ambigu (celui le plus proche de l’hyperplan séparateur). Dans la dernière stratégie, dite “annotation multilabel”, la distance à la marge est probabilisée et effectué pour chaque étiquette possible et pour chaque échantillon. Une moyenne est ensuite calculée pour chaque échantillon et celui qui maximise cette moyenne est sélectionné. Les expériences réalisées démontrent que la stratégie “annotation monolabel” est plus performante que la stratégie “annotation multilabel”.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte
1.2 Objectifs et problématiques
1.3 Contributions
1.4 Présentation du manuscrit
2 Musiques électroacoustiques et architecture du système
2.1 Introduction
2.2 Naissance des musiques électroacoustiques
2.2.1 Développements avant 1945
2.2.1.1 Apparitions des premiers instruments de musique non acoustiques
2.2.1.2 Vers de nouvelles formes d’expression
2.2.2 Paris et la musique concrète
2.2.2.1 Naissance d’un groupe de recherche
2.2.2.2 Les débuts de la musique concrète
2.2.2.3 Formalisation et notation
2.2.3 Cologne et l’elektronische musik
2.2.3.1 Création du studio de Cologne
2.2.3.2 Les premières pièces d’elektronische musik
2.2.4 Milan, un autre studio européen important
2.3 Définitions
2.4 Analyse des musiques électroacoustiques
2.4.1 Etat de l’art
2.4.2 Approche analytique de trois musicologues
2.5 Un système interactif d’aide à l’analyse des musiques électroacoustiques
2.5.1 Etat de l’art
2.5.2 Architecture du système
2.5.2.1 Contraintes fonctionnelles
2.5.2.2 Choix d’architecture
2.5.3 Corpus synthétique
2.5.3.1 Corpus M
2.5.3.2 Corpus P
2.6 Conclusion
3 Segmentation interactive de musiques électroacoustiques
3.1 Introduction
3.2 État de l’art
3.2.1 Approches par mesures de similarités
3.2.2 Approches par détections de ruptures
3.2.3 Approches par programmation dynamique
3.2.4 Approches par clustering
3.2.5 Approches issues d’autres domaines
3.3 Segmentation interactive
3.3.1 Architecture
3.3.2 Extraction de descripteurs
3.3.3 Construction d’un descripteur de timbre adapté
3.3.3.1 Algorithme de Fisher
3.3.3.2 Sélection d’attributs
3.3.4 Représentation d’unités sonores
3.3.4.1 Segmentation de bas-niveau
3.3.4.2 Intégration temporelle
3.3.5 Clustering hiérarchique
3.3.6 Clustering interactif
3.3.6.1 Coupes globales et locales
3.3.6.2 Comparaisons de deux scénarios d’interaction
3.4 Evaluation
3.4.1 Critères d’évaluation
3.4.2 Expériences
3.4.2.1 Simulation utilisateur
3.4.2.2 Comparaison de performances pour les deux scénarios d’interaction
3.5 Conclusion
4 Classification interactive d’objets sonores
4.1 Introduction
4.2 Etat de l’art
4.2.1 Classification d’instruments dans la musique polyphonique
4.2.2 Retour de Pertinence et Apprentissage actif
4.2.3 Classification multilabel
4.2.4 Classification d’images
4.3 Exploitation des informations d’initialisation
4.4 Descripteurs utilisés
4.5 Apprentissage interactif
4.5.1 Architecture de la boucle d’interaction
4.5.2 Sélection dynamique d’attributs
4.5.3 Prédiction au niveau des segments de mixtures
4.5.4 Apprentissage actif
4.5.4.1 Présentation
4.5.4.2 Adaptation à notre problème
4.6 Comparaison de deux approches interactives
4.6.1 Approche par passages multiples (PM)
4.6.1.1 Concept
4.6.1.2 Stratégies d’échantillonnage
4.6.2 Approche par passage unique (PU)
4.6.2.1 Concept
4.6.2.2 Stratégies d’échantillonnage
4.6.2.3 Gestion de classifieurs
4.7 Evaluation
4.7.1 Simulation utilisateur
4.7.1.1 Segmentation
4.7.1.2 Choix des segments les plus représentatifs
4.7.1.3 Classification des objets sonores
4.7.2 Résultats
4.7.2.1 Performances
4.7.2.2 Complexité des méthodes
4.7.2.3 Analyse des descripteurs sélectionnés
4.8 Conclusion
5 Conclusion
5.1 Bilan
5.2 Perspectives
A Echantillons sonores utilisés
A.1 Corpus Monophonique
A.2 Corpus Polyphonique
B Descripteurs utilisés
B.1 Descripteurs Spectraux
B.2 Descripteurs Cepstraux
B.3 Descripteurs Temporels
B.4 Descripteurs Perceptifs
C Apprentissage supervisé
C.1 Principes
C.2 Machines à Vecteurs Supports
C.3 Fusion des décisions de plusieurs classifieurs binaires
Index
Bibliographie