Classification des contours par déformation tempolf’lle dynamique

Calcul du spectrogramme

L’ensemble des méthodes ut ilisées daus cette étude se basent sur la représentatioll temps-fréquence du signal (spectrogramme) . La technique choisie ici est la t ransformée de Fourier à fenêtre glissante. Le signal acoustique échantillonné, s[m], est multiplié par une fenêtre glissante w[m] de K échantillons. La transformée de Fourier de chaque segment, n , obtenu est calculée. La fenêtre glissante se déplace avec un pas de L échantillons (figure 2.:3). On peut définir le spect rogramme, S[n, k], par le module des transformées de Fouri er rapide (FFT) des différentes fenêtres pondérées du signal. On a alors 1 J( – 1 1 S[n, k] = ‘~O s[nL + m]w[m]e – j2;mk , (2.1) où n = 0, l , … ,N – 1 et k = 0, l , . . . ,NI – l , représentent respectivement le temps et la fréquence. Le nombre de fréquences discrètes M (taill e de la FFT) doit être supérieur ou égal au nombre d ‘échantillons K de la fenêtre w. Plusieurs fonctions de pondération w[n] sont proposées dans la littérature; celles ut ilisées dans ce travail sont reportées en annexe A. Selon la nature du signal à analyser, il est possible de modifier la taille, K , et le pas d ‘avancement, L , de la fenêtre glissante. Plus K est petit, plus la précision temporelle du spectrogramm e est accrue et la précision fréquentielle basse. Au contraire, plus K est grand , plus la précision temporelle du spectrogramme est basse et la précision fréquentielle accrue. L’amélioration de la résolut ion temporelle se fait donc au détriment de la résolution fréquentielle et vice versa. Ce compromis de précision en t emps et en fréquence est appelé dualit é d’Heisenberg.

Deux techniques permettent cependant de contourner cette dualité afin d ‘obtenir un spectrogramme avec à la fois une bonne précision en temps et en fr équence. Tout d ‘abord, le choix d ‘un pas d ‘incrémentation L inférieur à la taille de la fenêtre K (chevauchement des segments d ‘analyse) permet d ‘améliorer la précision temporelle du spectrogramme sans affecter la précisiOll fréquentielle. Plus le pas sera petit, meilleure sera la précision t ell1- porelle. Ensuite, calculer la FFT sur une durée supérieure à celle des segments (/Ill > K ) en ajoutant des zéros à la fin du signal fenêtré (zero padding) , permet d ‘obtenir une résolution fréquentielle plus grande sans pour autant dégrader la précision temporelle. Il est à noter que cette opération n’ajoute aucune information au signal. Cependant, elle agit comme une interpol ation du spectre et permet d ‘obtenir une im age temps-fréquence plus précise. Il est à not er que ces deux techniques augmentent de façon importante la quanti té de calcul. Les vocalises auxquelles on s’intéresse ici ayant des caractéristiques de durée et de fr équence différentes, il n ‘est pas possible de les représenter toutes avec précision sur un même spectrogramme (dualité d ‘Heisenberg). Plusieurs jeux de paramètres sont alors ut ilisés pour le calcul des spectrogrammes, un premier pour les vocalises A et B, un second pour les vocalises D et un troisième pour les impulsions de 20 Hz (cf. t ableaux A. 1 et A.2 en annexe).

Détection par coïncidence des spectrogrammes

La coïncidence des sp ectrogrammes consiste à retrouver dans un spectrogramme inconnu une vocalise précise à partir d ‘un patron (image) de sa représentation tempsfr équence. Cett e technique, couramment utilisée en traitement de l’image, fait part ie des premières méthodes robust es appliquées pour la reconnaissance de vocalises d ‘animaux , plus spécialement de baleines (1’vIellinger et Clark, 1996, 2000). L’opération permettant l’association du patron avec le spectrogramme peut varier selon les études. Ici l’opération ut ilisée est l’opération logique AND. Tout d ‘abord , le spectrogramme issu de l’étape d ‘atténuation du bruit (cf. section 2.3.2) est binarisé. Les valeurs du spectrogramme supérieures à zéro sont fixées à un , les autres sont fixées à zéro. Ensuite, une image binaire du patron temps-fréquence de la vocalise à détecter est créée par l’expérimentateur. Elle est défini e par un segment de droite (i.e . une image de chirp ) caractérisé par les paramètres suivants : la fréquence de début, il, la fréquence de fin , 12 , la durée, Dvoc, l’épaisseur en fréquence, 6.J et la durée qui précède et succède l’image de la vocalise, Dini . Ces paramètres sont illustrés sur la figure 2.5 . Les valeurs de ces paramètres pour les différentes vocalises sont reportées dans le tabl eau A.2 en annexe. Enfin, en calculant le taux de superposition du modèle créé, à chaque pas de temps du spectrogramme inconnu grâce à l’opération AND, une fonction de détection est obtenue. Une valeur de 100% indique une correspondance parfaite des zeros et des uns. Un seuil Tcs est défini . Les pics de la fonction de détection qui excèdent ce seuil définissent les p ositions temporelles des vocalises dét ectées. La figure 2.6 illustre de façon schématique le processus de détection.

Certaines vocalises sont représentées par un seul fragment, cependant d ‘aut res sont constit uées de plusieurs fragments (contour fr agmenté) . Il s’avère donc nécessaire de connecter certains de ces fr agments afin de reconstit uer l’intégrité des contours, Chaque paire, Xi, de fragments suffisamment proches en t emps (inférieurs à Tseg secondes) est caractérisée par un vecteur, ai , contenant les pentes, ail et a i2 (figure 2,8), des bouts l des fragments adj acents et par la distance fréquentielle minimale de cassure, f3i’ Deux distances de cassure sont mesurées pour chaque connexion. L’une, f3i2 , correspond à l’écart de fréquence mesuré lorsque la fin du premier fragment est prolongée linéairement jusqu ‘au début du deuxième fragment. L’ autre, f3il , correspond à l’écart de fréquence mesuré lorsque le début du deuxième fr agment est prolongé linéairement jusqu ‘à la fi n du premier (figure 2.8) . La distance f3i correspond à la plus petite des deux,

La connexion des fragments est décidée en ut ilisant des modèles de probabilités (Halkias et Ellis, 2006). La probabilité de connexion a été modélisée en extrayant, de l’ensemble de la base de données d ‘apprent issage, deux séries d ‘observations, La et L{3, correspondant respectivement aux paramètres Cf et f3 calculés pour N paires de fragments appartenant à des mêmes contours. Ces deux séries d’observations peuvent alors s’écrire On définit ainsi deux distributions normales 8 a( ~ a , f..la) (figure 2.9a, c) et 8{3 (a{3 , f..l{3 ) (figure 2.9b) pour modéliser les séries d’observations La et L {3, avec L:;a, f..la, a{3 et f..l{3 , respectivement la matri ce de covariance et le vecteur de moyennes de La, et, l’écart-type et la moyenne de L {3. Une connexion de paire de fragments inconnus, x, de paramètres Cfx et f3x, peut ainsi être évaluée par sa vraisemblance, P( x), exprimée par où P(xI 8 a ) et P(xI8{3) sont respectivement les vraisemblances que la connexion x puisse être engendrée par les modèles 8 a et 8 {3 , et sont définies par

Classification des contours par déformation temporelle dynamique

La déformation tem porelle dynamique (DTW) est une méthode de classification initi alement développée et utilisée dans le domaine de la parole pour la reconnaissance de mots isolés (Habiner et Juang, 1993). Cette méthode fut ensuite introduite p our la classification des vocalises stéréotypées d ‘animaux, comme par exemple les vocalises de dauphins (Buck et Tyack, 1993) , d’épaulards (Brown et al., 2006) et d’oiseaux (ho el al., 1996; Anderson F.t al. , 1996). L’algorithme consiste à reconnaître une vocalise inconnue, T , en la comparant à des modèles de vocalises connues d ‘un dictionnaire. Il permet, lors de cette comparaison, de tenir compte des compressions et des extensions temporelles des vocalises, engendrées soit lors de la production du son (modulation par la baleine elle même, e.g. vocalise D, Berchok et aL., 2006) soit lors de la propagation des ondes sonores dans le médium (e .g. échos, trajets multiples, cf. figure 1.2b) . Le dictionnaire est constit ué de k modèles de références, Rk’ de vocalises connues sélectionnées dans la base de données d ‘apprentissage par l’expérimentateur. Le but est de définir une mesure de dissemblance (distance) entre la vocalise inconnue T et chaque modèle Rk. Chaque vocalise est représentée à chaque pas de temps n, par trois paramètres: fin sdn], la fréquence instantanée et, v[n] et a[n] respectivement la vitesse et l’accélération de f insdn] définis par

Classification des contours par quantification vectorielle

La quantification vectorielle est à la base une technique de groupement qui peut aussi être utilisée comme une méthode de classification en faisant référence à des modèles. Elle a été développée principalement reconnaissance de la parole pour le codage et l’identification du locuteur (Pan et al. , 198.5; Soong el al. , 1985), mais est ut ilisée dans divers problèm es de classification comme par exemple les sons respiratoires (Bahoura et P elletier, 2003) et les caractères manuscrits (Ca,mastra et Vinciarelli, 2001). La méthode opère en deux phases, l’apprentissage et la classification. L’extraction des descripteurs consiste à caractériser chaque contour de vocalise extrait (cf. section 2.3.4.1) par un vecteur à quatre dimensions composé de la fréquence minimale, de la fréquence maximale, de la durée et de la différence de fréquence entre le début et la fin du contour. P armi les autres descripteurs testés2 (résultats non reportés dans ce document) , la combinaison citée ci-dessus permet d’obtenir la meilleure discrimination. Lors de la phase d’apprentissage, chaque vocalise extraite de la base de données d ‘apprent issage est représentée par un point dans un espace des descripteurs à quatre dimensions (figure 2.12) . Chaque classe de vocalise, k , est donc représentée par un nuage de N k points X k = { XH, Xk2, ‘ ” ,XkNJ, où Nk est le nombre d ‘exemplaires de cette vocalise. Le processus d ‘apprentissage, Q, consiste à faire correspondre à chacun de ces nuages de points , un nombre restreint, M, de régions dans le même espace (Linde et al., 1980). Chaque région, peut être représentée par son centroïde. Pour une classe, k, de vocalises données, ces centroïdes, constituent le dictionaire Ck = {CkI , Ck2, … , CkM } de cette classe. On peut noter ce processus par

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Résumé
Table des matières
Liste des tableaux
Liste des figures
Liste des abréviations
Liste des notations
1 Introduction
2 l\1atériel et méthodes
2.1 Collecte des données
2.2 Bases de données
2.3 Détection et identification des vocalises
2.3.1 Calcul du spectrogramrne
2.3 .2 Réduction du brui t .
2.:3.2.1 Égalisation
2.3.2.2 Lissa.ge du spectrogramme
2.3.2.3 Seuillage
2.3.4.1 Extraction des conto urs
2.3.4.2 Classification des contours par déformation tempolf’lle dynamique
2.3.4.3 Classification contours par quantification vectorielle
2.3.5 Ajustement des paramètres
2.4 Evaluation de la perform ance
2.4. 1 Performance de la reconnaissance
2.4.2 Rapidité d ‘exécution
3.Résultats
3.1 Perform an ce de reconnaissance .
3.2 Rapidité d ‘exécution
4 Discussion
4.1 Analyse des résultats
4.1.1 Comparaison des méthodes
4. 1. 2 Utilisation connne outils de monitorage
4.2 Perspectives…. .
4.2.1 Améliorations
4.2.2 Autres applications
Annexes
A Paramètres utilisés pour les méthodes de détection et d e reconnaissance
B Durées des vocalises de la base de données de test
Références

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *