Méthodes d’apprentissage automatique pour la transcription automatique de la batterie

La transcription de la musique s’inscrit dans le domaine plus vaste de la recherche d’informations musicales, Music Information Retrieval (MIR), et consiste à décrire symboliquement un morceau de musique à partir de ce que l’on entend. À l’instar du traitement de la parole où l’on cherche à reconnaître les mots et les phrases prononcés, la transcription de la musique a pour but d’estimer à partir de la forme d’onde du morceau les notes jouées et leurs paramètres : hauteurs, durées, instants de l’attaque, à ces paramètres on peut ajouter des informations de plus haut niveau telles que les séquences rythmiques, la mesure, l’armure, l’instrumentation, etc. Jusqu’au milieu du XXe siècle, la tâche de transcription était réservée à l’expertise humaine. C’est une tâche difficile nécessitant un long apprentissage. Lors de la formation des musiciens, ceux-ci sont d’ailleurs très vite confrontés à l’exercice de la dictée musicale. Commençant par des motifs simples composés de quelques notes jouées séparément et sans rythme déterminé, les dictées se complexifient au fur et à mesure par l’introduction de motifs rythmiques, de polyphonie et/ou d’instruments différents. Cependant, la musique a toujours intéressé les scientifiques. Déjà au IVe av. J.C., Pythagore pense que la musique est liée aux mathématiques. Il découvre une relation entre la longueur de la corde tendue et la hauteur du son émis lorsqu’on l’a fait vibrer. Il crée d’ailleurs son propre instrument, le monocorde. Grâce à lui, il élabore la base de ce qu’on appellera la gamme pythagoricienne, gamme basée sur une suite de quintes. Avec l’émergence de la pratique musicale et des techniques d’enregistrement, la volonté de transcrire la musique prend tout son sens. Ainsi la transcription de la musique devient un nouveau défi pour les scientifiques. Les recherches sur la représentation des sons et sur l’extraction d’informations utiles par des programmes informatiques permettent aujourd’hui de s’approcher d’un système de transcription automatique de la musique, c’est-à-dire sans intervention de l’oreille humaine. En règle générale, il est plus facile de manipuler des symboles que des sons brutes. Cela rend plus aisées diverses applications dont la transcription automatique de la musique pourrait être une étape préalable comme l’aide à l’apprentissage de la musique, la protection des droits d’auteur, la recommandation musicale ou encore l’indexation d’une bibliothèque musicale.

La transcription automatique de la batterie

Introduction à la transcription de la batterie

La batterie et ses défis

L’instrument
La batterie ou plus largement les percussions jouent un grand rôle dans les musiques occidentales, notamment pour certains genres tels que la pop, le jazz ou le rock. Ils sont les principaux acteurs de la rythmique d’un morceau de musique et ils établissent la structure du morceau en différentes parties. Les sons percussifs sont très différents des sons dits mélodiques. Un son percussif est représenté par un impact, occupant une large bande de fréquence et dont l’énergie se dissipe rapidement. Au contraire, un instrument mélodique va produire une note dont le spectrogramme est plus parcimonieux et dont la durée dépend du musicien et de la partition. Quelques exceptions existent. Par exemple, le xylophone considéré comme instrument percussif produit lui aussi des notes. La batterie est un ensemble d’instruments percussifs dont la plupart peut être classés en deux familles. Les membranophones sont constitués d’une membrane vibrante tendue sur un support cylindrique. On peut notamment citer les toms (aigü, medium et grave), la caisse claire et la grosse-caisse. La deuxième famille est constituée des idiophones. Ces instruments au corps métallique vibrent comme un tout tel les cymbales (ride et crash) ou le Charleston (hi-hat).

Pour les tâches de transcription, il est commun de ne considérer que trois des instruments de la batterie. Ces trois instruments sont le socle de la plupart des rythmes de bases. La grosse-caisse, Bass Drum (BD) en anglais, est jouée au pied. Son énergie est localisée dans les basses fréquences. La caisse-claire, Snare Drum (SD) en anglais, est la contrepartie rythmique de la grosse-caisse. Elle est constituée de deux peaux tendues sur un cylindre. Sur la peau du dessous est fixé un timbre, caractéristique de la caisse-claire, qui gratte la peau vibrante obtenant ainsi un son craquant.

Bases de données

Plusieurs bases de données sont utilisées pour évaluer les différents algorithmes qui sont présentés dans ce manuscrit.

RWC

La base de données Real World Computing (RWC) est une base de données musicale élaborée pour la recherche (Goto et al., 2002). Elle est composée de quatre sous-ensembles de morceaux originaux : Popular Music Database, Royalty Free Music Database, Classical Music Database et Jazz Music Database. Deux nouvelles bases de données ont été ajoutées par la suite (Goto, 2003) : Music Genre Database et Musical Instrument Sound Database. Les morceaux sont polyphoniques et sont fournis avec les annotations de tous les instruments présents sous format MIDI permettant de les resynthétiser.

• La base de données Popular Music Database contient 100 morceaux, 20 chansons en anglais du style des chansons pop du classement des titres américains des années 80 et 80 chansons japonaises dans un style de pop japonaise des années 90. Ces chansons ont été enregistrées spécialement pour cette base de données.
• Le sous-ensemble Classical Music Database est constitué de 4 symphonies, 2 concerto, 4 pièces orchestrales, 10 pièces de musique de chambre, 24 solo et 6 chants. Cela représente donc 50 pièces du domaine publique.
• La base de données Royalty-Free Music Database présente 15 chansons : 10 standards populaires écrites en anglais et 5 chansons pour enfant japonaises. Ce sous-ensemble a été généré pour fournir des chansons bien connues en plus des musiques spécialement composées et enregistrées pour la base de données Popular Music Database.
• La base de données Jazz Music Database contient 5 morceaux jouées avec 7 compositions instrumentales différentes, soit 35 pièces, 2 morceaux de jazz vocal, 2 jouées par un big-band, 2 de jazz modal, 2 de jazz funky et 1 de Free jazz. Enfin 6 pièces de jazz fusion sont ajoutées pour obtenir un corpus de 50 pièces. Tous les morceaux ont été composés et enregistrés pour la base de données.
• La base de données Music Genre Database est décomposée en 10 catégories de genre (populaire, rock, dance, jazz, latin, classique, marche, musique du monde, musique traditionnelle japonaise et voix). Les morceaux de musiques de Music Genre Database sont issus de compositions originales ainsi que de base de données existantes.
• L’ensemble Musical Instrument Sound Database couvre 50 instruments et fournit en principe trois variations pour chaque instrument.

ENST-Drums dataset

La base de données ENST-Drums a été élaborée pour la recherche sur la transcription automatique de la batterie. Elle contient environ 75 min de sons. Trois batteurs professionnels spécialisés sur des styles différents, ont joué sur leur propre batterie. Pour accroître la diversité des enregistrements différents types de baguettes (classiques, balais, mailloches et rodins) ont été utilisés et les batteries ont des compositions différentes allant d’un petite batterie avec deux tomes et deux cymbales à des batteries rock avec quatre toms et cinq cymbales. Chaque batteur a enregistré cinq différents types de séquences. Pour chaque séquence, les batteurs ne suivaient aucune partition et il n’a pas été demandé de jouer une séquence rythmique particulière. Elles ont été par la suite annotées de manière semi automatique. Hits Des séquences de coups de baguette séparés par quelques secondes de silence ont été jouées sur chaque instrument pour chaque type de baguettes disponibles. Phrases Environ soixante séquences courtes de différents styles ont été jouées par les batteurs sans accompagnement. Une liste de styles a été présentés aux batteurs et chaque batteur a sélectionné ses favoris. Pour chaque style, six phrases sont jouées à différents tempi (lent, médium, rapide) avec deux niveaux de complexité. Le premier est simple sans ornement et le deuxième plus complexe avec des ornements. Soli Les trois batteurs ont joué au moins cinq soli dans des styles de leur choix. Les soli devaient durer au minimum 30s, contenir tous les instruments présents sur la batterie ainsi que des séquences très complexes. Minus-one Une vingtaine de morceaux ont été joués par les batteurs sur des accompagnements pré-enregistrés sans séquence de batterie, les minus-one ou des musiques générées depuis des fichiers MIDI sans la partie de batterie. Les minus-one couvrent différents styles avec des morceaux d’environ 1 min. Les accompagnements sont aussi disponibles dans la base de données avec deux types de mixage différents. Le premier est un mixage brut, dry des différentes voix. Le deuxième, wet, ajoute de l’égalisation et de la compression pour se rapprocher de la musique commercialisée.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction
1 Introduction
Contexte
Approches et contributions
Organisation du document
2 La transcription automatique de la batterie
2.1 Introduction à la transcription de la batterie
2.1.1 La batterie et ses défis
2.1.1.1 L’instrument
2.1.1.2 Ses particularités et ses défis
2.1.2 Bases de données
2.1.2.1 RWC
2.1.2.2 ENST-Drums dataset
2.1.2.3 Base de données d’apprentissage du challenge MIREX pour la transcription automatique de la batterie
2.1.3 La tâche de transcription
2.1.4 Mesure d’évaluation des algorithmes
2.1.5 Applications
2.2 Un classement des méthodes de transcription
2.2.1 Quelques briques de base
2.2.1.1 Caractéristiques des données
2.2.1.2 Segmentation à partir des événements
2.2.1.3 Fonction d’activation
2.2.1.4 Transformation des caractéristiques
2.2.1.5 Classification des événements
2.2.1.6 Modèle du langage
2.2.2 Différentes combinaisons de briques
2.2.2.1 Méthodes basées sur la segmentation
2.2.2.2 Méthodes basées sur la classification d’événements
2.2.2.3 Méthodes basées sur le modèle du langage
2.2.2.4 Méthodes basées sur les fonctions d’activation
2.2.2.5 Méthodes basées sur les DNN
2.3 Les problèmes rencontrés lors de la transcription de la batterie
2.3.1 Les interférences entre instruments
2.3.2 Les conditions d’enregistrement et de post-production
2.3.3 Le manque de données annotées
II Des outils pour la transcription automatique de la batterie
3 Méthodes de décomposition non-négative
3.1 NMF/NMD
3.1.1 NMF
3.1.2 Fonctions de coût
3.1.3 Mise à jour multiplicative
3.1.4 NMD
3.1.5 Variantes contraintes
3.1.5.1 Parcimonie
3.1.5.2 Continuité temporelle
3.1.5.3 Décorrélation
3.2 PLCA/SI-PLCA
3.2.1 PLCA
3.2.2 SI-PLCA
3.3 IS-NMD statistique
3.3.1 IS-NMF/EM
3.3.2 IS-NMD/EM
3.4 Perspectives
4 Les réseaux de neurones
4.1 Les réseaux de neurones
4.1.1 Un neurone
4.1.2 Les fonctions d’activation usuelles
4.1.3 Architecture d’un réseau de neurones
4.2 Apprentissage des paramètres
4.2.1 Mise à jour des paramètres
4.2.2 Fonction de coût
4.2.3 Les différentes bases de données
4.2.4 Régularisation
4.3 Différentes familles de réseaux de neurones
4.3.1 Principe d’un réseau de neurones récurrent
4.3.2 Principe d’un réseau de neurones convolutif
III Applications à la transcription automatique de la batterie
5 Comparaison de modèles de décomposition non-négative pour la transcription automatique de la batterie
5.1 État de l’art : les modèles de décomposition non-négatifs pour la transcription de la batterie
5.2 Algorithme de transcription automatique de la batterie
5.2.1 Apprentissage des bases des sources cibles
5.2.2 Étape de décomposition
5.2.2.1 Prétraitement du signal et ajout d’éléments au dictionnaire
5.2.2.2 Décomposition
5.2.2.3 Etape de seuillage
5.2.3 Contrainte d’activation du background
5.2.3.1 NMD
5.2.3.2 SI-PLCA
5.2.3.3 IS-NMD/EM
5.3 Résultats de la comparaison des algorithmes de décomposition non-négative
5.3.1 Base de données
5.3.2 Résultats
5.4 Conclusion
6 Adaptation du dictionnaire de la NMD
6.1 État de l’art : l’adaptation des bases
6.2 Adaptation du dictionnaire par filtrage
6.2.1 Construction des B-splines
6.2.2 Modèle exponentiel et gaussien
6.2.3 Provenance de la non-convergence
6.3 Mise à jour contrainte du dictionnaire à 15 bases par instrument
6.3.1 Contrainte basée sur la divergence d’IS
6.3.2 Ajout de contraintes de décorrélation entre les instruments
6.3.3 Contraintes de parcimonie des activations
6.3.4 Contrainte d’activation d’une seule base par instrument
6.3.5 Résultats
6.4 Mise à jour contrainte du dictionnaire à 1 base par instrument
6.4.1 Choix de la base
6.4.2 Les différents modèles étudiés
6.4.3 Résultats
6.5 Mise à jour du dictionnaire avec définition du domaine de variation
6.5.1 Définition du domaine de variation et contraintes appliquées
6.5.2 Les différents modèles étudiés
6.5.3 Resultats
6.6 Conclusion
IV Conclusion