Codage de la parole par prédiciton linéaire

Codage de la parole par prédiciton linéaire

Reconnaissance vocale d ‘une personne et son fonctionnement

La reconnaissance vocale automatique d’une personne ou d’un locuteur se basant sur la voix fait encore parler d‘elle, suite aux nombreuses difficultés rencontrées par plusieurs équipes de programmeurs et développeurs formés pour trouver une solution optimale. Cette technologie s’est limitée à la vérification ou la détection de l‘identité d’une personne à partir de sa voix. En reconnaissance du locuteur, on fait la différence entre la vérification et l’identification du locuteur, bien que le problème reste le même. Est-ce que cette voix détectée correspond bien à cette personne sensée la produire parmi des centaines de voix d‘individus déjà préenregistrés ou non. Cette différence se détermine dans la reconnaissance d‘un locuteur, dépendante du texte, avec texte dicté, ou reconnaissance indépendante du texte. Dans le premier cas, la reconnaissance est limitée par la prononciation d’une phrase, déjà fixée dans la conception du système ; ou dictée en forme de mot de passe dans le deuxième cas, et non précisée dans le dernier. La vérification vocale a pour but de filtrer en acceptant ou refusant une identité proclamée par un locuteur. En se basant sur le calcul d’un modèle stochastique sur la base dune expression vocale prononcé par ce dernier et comparer ce modèle à d’autre modèle de d’autres locuteurs déjà enregistrés. Au fil des année les techniques de reconnaissance vocale automatique de locuteur, s’est considérablement élargi du au progrès des algorithmes utilisés, l’évolution remarquable des technologies utilisées, et la puissance de traitement disponible.

Son fonctionnement

Il est important de ne pas confondre analyse du locuteur et dictée vocale. Dans un cas on cherche à déterminer l’identité d’un individu grâce à sa voix ; dans l’autre on cherche à déterminer ce que dit la personne sans se soucier de son identité. La plupart des systèmes d’identification de la voix utilisent l’affichage d’un texte, des mots spécifiques doivent être lus puis parlés afin de vérifier que la personne à authentifier est bien présente et qu’il ne s’agit pas d’un enregistrement. Ils se concentrent sur les seules caractéristiques de voix qui sont uniques à la configuration de la parole d’un individu. Ces configurations de la parole sont constituées par une combinaison des facteurs comportementaux et physiologiques. Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles qu’un système automatisé d’identification de voix analyse. Il n’est donc pas possible d’imiter la voix d’une personne inscrite dans la base de données.

La variabilité d’une personne à une autre démontre les différences du signal de parole en fonction du locuteur. Cette variabilité, utile pour différencier les locuteurs, est également mélangée à d’autres types de variabilité variabilité due au contenu linguistique, variabilité intra-locuteur (qui fait que la voix dépend aussi de l’état physique et émotionnel d’un individu), variabilité due aux conditions d’enregistrement du signal de parole (bruit ambiant, microphone utilisé, lignes de transmission) .qui ces variabilité peuvent rendre l’identification du locuteur plus difficile. Malgré toutes ces difficultés apparentes et le problème qui consiste à extraire l’information contenue dans un signal de parole, typiquement par échantillonnage du signal électrique obtenu à la sortie d’un microphone, afin qu’il puisse être comparé à des modèles sous forme numérique, la voix reste un moyen biométrique intéressant à exploiter car pratique et disponible via le réseau téléphonique, contrairement à ses concurrents.

Mécanismes de production de la parole

Le processus de production de la parole est un mécanisme à caractéristique très complexe qui repose sur une interaction entre les systèmes neurologique et physiologique. La parole commence par une activité neurologique. Après que soient survenues l’idée et la volonté de parler, le cerveau dirige les opérations relatives à la mise en action des organes phonatoires. Le fonctionnement de ces organes est bien, quant à lui, de nature physiologique. Une grande quantité d’organes et de muscles entrent en jeu dans la production des sons des langues naturelles. Le fonctionnement de l’appareil phonatoire humain repose sur l’interaction entre trois entités les poumons, le larynx, et le conduit vocal. Le larynx est une structure cartilagineuse qui a pour fonction de réguler le débit d’air via le mouvement des cordes vocales. Le conduit vocal s’étend des cordes vocales jusqu’aux lèvres dans sa partie buccale et jusqu’aux narines dans sa partie nasale. La parole apparaît physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire. L’air des poumons est comprimé par l’action du diaphragme.

Cet air sous pression arrive ensuite au niveau des cordes vocales. Si les cordes sont écartées, l’air passe librement et permet la production de bruit. Si elles sont fermées, la pression peut les mettre en vibration et l’on obtient un son quasi périodique dont la fréquence fondamentale correspond généralement à la hauteur de la voix perçue. L’air mis ou non en vibration poursuit son chemin à travers le conduit vocal et se propage ensuite dans l’atmosphère. La forme de ce conduit, déterminée par la position des articulateurs tels que la langue, la mâchoire, les lèvres ou le voile du palais, détermine le timbre des différents sons de la parole. Le conduit vocal est ainsi considéré comme un filtre pour les différentes sources de production de parole telles que les vibrations des cordes vocales ou les turbulences engendrées par le passage de l’air à travers les constrictions du conduit vocal. Le son résultant peut être classé comme voisé ou non voisé selon que l’air émis a fait vibrer les cordes vocales ou non. Dans le cas des sons voisés, la fréquence de vibration des cordes vocales, dite fréquence fondamentale ou pitch, noté F0, s’étend généralement de 70 à 400 hertz. L’évolution de la fréquence fondamentale détermine la mélodie de la parole. Son étendue dépend des locuteurs, de leurs habitudes mais aussi de leurs états physique et mental. Un exemple de signal de parole correspondant à la prononciation du mot (sa) est donné à la Figure 2.6. Le son (sa) est représenté dans le domaine temporel, la première partie (de 0 à 80 ms) est non voisée, c’est un signal non périodique de faible énergie. La dernière partie représente un signal quasi-périodique avec une énergie plus grande, et est donc voisée.

Le processus de production de la parole peut être représenté par le modèle source-filtre (Figure 2.7. (b)). Le signal de parole est modélisé comme la sortie d’un filtre linéaire variant dans le temps, qui simule les caractéristiques spectrales de la fonction de transfert du conduit vocal, excité par un signal source qui reflète l’activité des cordes vocales dans les zones voisées et le bruit de friction dans les zones non voisées. Quoique simpliste, cette représentation est capable de décrire la majorité de phénomènes de la parole et a été à la base de nombreux codeurs et synthétiseurs de parole. La décomposition source/filtre est une théorie particulièrement bien adaptée au problème de la conversion de voix. Transformer les paramètres de filtre revient à simuler la modification des caractéristiques du conduit vocal alors que la modification des paramètres du signal source simule les changements de la prosodie et des caractéristiques du signal d’excitation glottique. Des travaux de recherche ont permis d’apporter des informations a priori sur la forme du signal d’excitation glottique dans le cas des sons voisés.

Ces études ont abouti à une modélisation théorique du signal glottique par un ensemble de paramètres pertinents fréquence fondamentale, quotient d’ouverture, bruit de friction, etc… Cependant, l’extraction des paramètres pertinents du signal glottique reste un problème épineux. C’est d’ailleurs le manque de robustesse de ces techniques de dé convolution source-filtre qui fait que le signal glottique est encore peu utilisé tel quel en conversion de voix. Une approximation classiquement employée consiste à considérer que le signal de source est constitué d’impulsions générées aux instants de fermeture de la glotte auxquelles s’ajoute un bruit blanc. Dans un tel modèle présenté en figure 2.7. (a), le spectre de la partie ”filtre” appelée aussi enveloppe spectrale est composée du spectre du filtre décrivant le conduit vocal auquel s’ajoute la partie lisse du spectre glottique. Suivant le modèle du signal glottique utilisé, cette partie lisse du spectre du signal glottique peut être modélisée par un modèle AR d’ordre 2 ou 4. Certaines caractéristiques de ce modèle AR telles que la position du formant glottique et la pente spectrale sont d’ailleurs utilisées pour caractériser la qualité vocale du signal de parole. La partie ”filtre” ainsi modélisée est porteuse des informations relatives à ”l’empreinte” vocale d’un locuteur, c’est pourquoi elle est également dénommée timbre.5

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
Chapitre I Généralités
1.Introduction
2.Qu’est-ce que la biométrie vocale ?
2.1. Reconnaissance vocale d ‘une personne et son fonctionnement
2.2. Le système est-il robuste ?
2.3. Les Domaines d’utilisation de la Reconnaissance vocale
2.4. Problématique de la reconnaissance vocale
3.Les défis et les motivations
4.La voix dans un système de AAL (Authentification Automatique du Locuteur)
4.1. Capture et traitement de la voix
4.2. Pourquoi l’authentification vocale ?
4.3. Evaluation des performances en AAL
5.Reconnaissance vocale [3
5.1. Quelles sont les applications directes de la reconnaissance vocale ?
5.2. Où en est-on en matière de reconnaissance vocale?
5.3. Comment modélise-t-on la parole ?
5.4. De telles modélisations sont-elles utilisables pour identifier une voix?
5.5. D’autres techniques permettront-elles un jour de définir une empreinte vocale, unique ?
6.Etude d’un signal sonore
6.1 Caractéristiques d’un signal sonore.
Le rythme
6.2 Les composantes du son
6.3. Traitement du son
6.4. Les fichiers audio numérique
Conclusion
Chapitre II Etat de l’art
1.Introduction
2.Le timbre de la voix
2.1 La voix
2.2 La qualité vocale
2.3 Dimensions perceptives et leurs corrélats acoustiques
3.Caractérisation de l’identité vocale
Conclusion
Chapitre III La Réalisation
1.Introduction
2.Les outils de réalisation
2.1 JAVA [13]
2.2 JAVASCRIPT
2.3 L’IDE Netbeans
2.4 WAMP Server [10]
3 -Étape de développement
3.1 Analyse des besoins
3.2. Technologies mises en oeuvre
3.3 Les taches des utilisateurs
3.4. Maven et la bibliothèque recognito
3.5. Codage de la parole par prédiciton linéaire
4.La Conception
4.1. La modélisation
5.Réalisation
5.1 Les étapes d’utilisation du dictaphone
5.2 Les étape d’utilisation de l’application de reconnaissance vocale
Conclusion
Conclusion Générale
Références

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *