La reconnaissance automatique du locuteur

Présentation du laboratoire S.I.A

Le laboratoire SIA, crée en 2011, est une unité de Recherche du Centre d’Etudes Doctorales en Sciences et Techniques de l’Ingénieur domicilié à la Faculté des Sciences et Techniques de Fès et regroupant des laboratoires de recherche tous accrédités par l’Université Sidi Mohamed Ben Abdellah de Fès, et domiciliés à la Faculté des Sciences et Techniques, l’Ecole Supérieure de Technologie, la Faculté Polydisciplinaire de Taza, l’Ecole Nationale des Sciences Appliquées de Fès et l’ENS de Fès. Le LSIA est composé de 12 enseignants-chercheurs du département d’Informatique de la FST de Fès et de 23 doctorants. Cette imbrication étroite entre enseignement et recherche, est un élément essentiel de la dynamique du laboratoire.

Les thématiques de recherche se situent au coeur des Sciences et Technologies de l’Information et de la Communication et s’articulent essentiellement autour des thématiques de recherche des enseignants chercheurs du laboratoire et assure une large couverture thématique présentant un atout très important pour le laboratoire.

L’objectif du travail

Le présent travail s’inclue principalement dans le domaine de reconnaissance automatique du locuteur qui a pour objectif en premier lieu de savoir si on peut identifier des locuteurs en mode indépendant du texte à travers une approche différente qui est basée sur l’étude des spectrogrammes et les réseaux de neurones profonds, par la suite on vise a amélioré les résultats obtenus en employant différentes techniques et en réexaminant la démarche suivie pour aboutir à nos fins.

Vue générale sur la démarche adoptée

Dans le cadre de la reconnaissance automatique du locuteur la démarche adoptée va suivre des étapes bien précises commençant par une étude des spectrogrammes qui vont être le principale outil dans notre tâche d’identification automatique du locuteur par la suite une étape de prétraitement de données va avoir lieu pour bien personnaliser nos données d’apprentissage, la prochaine étape consiste à extraire les caractéristiques les plus pertinentes à partir des images spectrogrammes et générer les modèles à partir de ces derniers en se basant sur les CNN, et à partir d’une nouvelle image spectrogramme d’un locuteur on va obtenir différents scores que l’un d’eux va représenter l’identité du locuteur.

Les approches scientifiques en reconnaissance automatique du locuteur

La majorité des systèmes actuels de reconnaissance automatique du locuteur sont basés sur l’utilisation de modèles de mélange de gaussiennes (GMM). Ces modèles de nature générative sont généralement appris en utilisant les techniques de Maximum de Vraisemblance et de Maximum A Posteriori (MAP)[2]. Cependant, cet apprentissage génératif ne s’attaque pas directement au problème de classification étant donné qu’il fournit un modèle de la distribution jointe.

Ceci a conduit récemment à l’émergence d’approches discriminantes qui tentent de résoudre directement le problème de classification[3], et qui donnent généralement de bien meilleurs résultats. Par exemple les machines à vecteurs de support (SVM), combinées avec les vecteurs GMM sont parmi les techniques les plus performantes en reconnaissance automatique du locuteur[4].

Applications de la reconnaissance automatique de la parole et du locuteur

La parole est certainement le moyen de communication directe entre humains qui est le plus sophistiqué. Les subtiles variations du langage sont capables de susciter chez l’auditeur non seulement une palette fort variée d’émotions et de sentiments, mais aussi une attention complète de son cerveau. Les ordinateurs et les logiciels qui se construisent actuellement, bien que capables de traiter énormément d’informations en un temps très court, n’ont pas encore la capacité de générer ou de comprendre les finesses de la parole humaine. Cependant, de nombreuses applications en reconnaissance de la parole sont déjà industrialisées, allant de la dictée vocale a la commande d’opérations diverses dans les navettes spatiales.

De plus en plus, les entreprises de télécommunications et de services (banques, assurances), désireuses d’améliorer leur service à la clientèle, tentent d’introduire des applications basées sur les technologies de la parole. La palette de ces technologies est fort riche, partant de systèmes de reconnaissance de la parole entraines pour un seul locuteur a des systèmes capables de reconnaitre des centaines de milliers de mots. Dans un autre registre, un grand nombre de services demandent une reconnaissance de l’identité du locuteur (accès aux boites vocales, à des services par abonnements, consultation de comptes en banques, etc…).

Finalement, pour le dialogue homme-machine soit complet, le domaine de la synthèse de la parole essaie de produire de la voix humaine (ou y ressemblant fort) automatiquement.

Historique des neurones formels

L’histoire a commencé avec la construction d’un modèle simplifié de neurone biologique qui est appelé neurone formel. Les travaux menés sur ce dernier ont montré qu’avec un réseau de neurones formels on peut théoriquement réaliser des fonctions logiques, arithmétiques et symboliques complexes[6]. Ce neurone formel est doté d’une fonction de transfert qui lui permet, selon des règles, de transformer ces entrées en une sortie, il possède des paramètres importants tel que les coefficients synaptiques et le seuil de chaque neurone, et la façon de les ajuster, la chose qui détermine l’évolution du réseau en fonction de ses informations d’entrées.

Pour que le réseau de neurones formels propose une solution optimale, ces paramètres doivent converger vers des valeurs qui assurent la bonne classification lors de la phase d’apprentissage et par suite l’apprentissage dans un réseau de neurones formels revient à adapter les coefficients synaptiques pour classifier les exemples présentés en entrée.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Résumé
Abstract
Liste des figures
Listes des acronymes
Introduction générale
Chapitre 1 – Cadre général du projet
I.Introduction
II.Présentation du laboratoire S.I.A
III. L’objectif du travail
IV.Vue générale sur la démarche adoptée
Chapitre 2 – La reconnaissance automatique du locuteur et les réseaux de neurones profonds
I.Introduction Générale
II.La reconnaissance automatique du locuteur
II.Branches de la reconnaissance automatique du locuteur
a) Vérification automatique du locuteur
b) Identification automatique du locuteur
c) Classification
d) Segmentation
e) Détection du locuteur
f) Suivi du locuteur
Les approches scientifiques en reconnaissance automatique du locuteur
Modalités de reconnaissance automatique du locuteur
Points forts/faibles de la reconnaissance automatique du locuteur
Applications de la reconnaissance automatique de la parole et du locuteur
La mise en place d’un système de reconnaissance automatique du locuteur
Structure des systèmes de reconnaissance automatique du locuteur
a) La paramétrisation
b) La modélisation
c) La décision
III. Les réseaux de neurones profonds
Historique des neurones formels
Perceptron
a) Apprentissage
b) Limitation du perceptron
Perceptrons multicouches
a) Fonction de transfert
b) Principe de rétropropagation
L’apprentissage profond
a) Les réseaux de neurones profonds
b) Les réseaux de neurones convolutifs
c) Réseaux de croyances profonds
Les réseaux de neurones profonds en R.A.L
Introduction
Les réseaux de neurones profonds en R.A.L
a) Extraction de caractéristiques
b) Classification : Structure générale
Conclusion
Chapitre 2 – Identification automatique du locuteur utilisant les spectrogrammes et CNN
Les spectrogrammes
Approche proposée
Base de données
Processus suivi
a) Prétraitement de données
b) Génération de spectrogramme
c) Architecture du CNN
d) L’identification automatique du locuteur
e) Analyse des résultats
Conclusion