Le principe de la reconnaissance vocale

GENERALITES

Il existe deux grands types de reconnaissance vocale :
★ La reconnaissance du locuteur ou « Speaker recognition » :
Le but de la reconnaissance du locuteur est de reconnaître qui parle et donc de reconnaître le locuteur et non pas le contenu.
★ La reconnaissance de la parole ou « Speech recognition » :
La reconnaissance de la parole est utilisée pour reconnaître ce qui est dit. Dès lors, elle permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce n’est pas du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.

L’appareil phonatoire 

Le résonateur de l’appareil phonatoire est composé de quatre cavités principales en série (Figure2) : le pharynx ou arrière gorge (1), les deux cavités buccales (2 et 3) délimitées par la langue et que l’on simplifiera à une seule et l’ajutage labiale (4) situé entre les dents et les lèvres. La cavité nasale, en “parallèle” sur l’ensemble série précédent, vient compléter ce résonateur. La source de ce résonateur est en fait décomposable en deux émissions distinctes et d’origines différentes. Les cordes vocales, en fournissant un spectre riche en harmoniques, produisent les sons voisés. Le bruit d’écoulement de l’air en provenance des poumons, dont le spectre est similaire à un bruit blanc, crée les sons non voisés. Les sons et la parole naissent de l’excitation d’un résonateur et sont formés par les ouvertures et les volumes de ce dernier qui varient très rapidement.

Signal de la parole 

Le signal vocal est caractérisé par :
– sa fréquence
– son intensité (ou le niveau sonore)
– son timbre (ou « la richesse » du signal) .

Fréquence
La fréquence qui est l’inverse de la période T, est le nombre d’oscillations dans une seconde. On peut aussi avoir la fréquence F à partir de la formule suivante : F=V/ λ . Avec V la célérité ou la vitesse du son en m/s et λ la longueur d’onde en m.

➤ Fréquence fondamentale
Le signal de la parole comprend un son fondamental et des harmoniques dont les rapports de fréquences avec la fondamentale sont des quotients de nombres entiers. Toute vibration sonore peut être décomposée en une somme de fonctions sinusoïdales élémentaires dont les périodes plus courtes sont proportionnelles avec sa propre période. (C’est la décomposition en ≪ série de Fourier ≫).
➤ Fréquence harmonique
C’est la fréquence multiple de la fréquence fondamentale f0, c’est-à-dire fn = nf0 avec n є {2, 3, …}. Une harmonique correspond à une fonction trigonométrique sinusoïdale dont la fréquence est un multiple de la fréquence de la fonction périodique décomposée. La somme de toutes les harmoniques d’une fonction périodique reconstitue la fonction. Prenons par exemple un signal acoustique s(t) qui est la superposition de trois sinusoïdales pures dont la fréquence fondamentale est f1 = 440Hz et de fréquences harmoniques f2 = 880Hz, f3 = 1320Hz .

Prosodie 

La prosodie est la façon de décrire ou de présenter formellement les éléments de l’expression orale à savoir les tons, les accents, l’intonation et la qualité. Ces éléments transmettent des informations sur la signification d’un énoncé. En d’autres termes, elle désigne les phonèmes liés à l’évolution dans le temps des paramètres de hauteur, d’intensité et de durée. La perception de hauteur est essentiellement liée à la fréquence fondamentale qui correspond au niveau physiologique de la production et à la fréquence de vibration des cordes vocales. La perception d’intensité est essentiellement liée à l’amplitude et à l’énergie du son, mais dépend aussi partiellement dépend aussi de sa durée. La perception de durée correspond à son temps d’émission et sa durée acoustique. A noter que le terme « durée » est utilisé pour désigner à la fois le paramètre perceptif et le paramètre acoustique et le terme « longueur » comme synonyme de durée perçue est utile quand la distinction est importante.

L’information vocale

Le signal de la parole véhicule plusieurs types d’informations, tels que le fondamental, la prosodie, le timbre et les phonèmes. Par conséquent, ceci impose, aux systèmes de reconnaissance vocale, de n’extraire que l’information nécessaire à son application, les phonèmes pour les machines de dictée par exemple. La parole est surtout contenue dans les deux premiers formants, mais l’information proprement dite provient des transitions formantiques. En général, on considère que la plage de fréquences d’un signal de parole se situe dans la bande de 100Hz-5KHz (300Hz 3.4KHz pour la téléphonie).

METHODE DE RECONNAISSANCE VOCALE

Les systèmes de reconnaissance vocale numériques sont caractérisés par :
➤ le prétraitement qui comprend l’acquisition du signal de la parole et l’extraction des paramètres,
➤ l’apprentissage du vocabulaire et la comparaison aux références,
➤ le traitement des résultats.

La phase d’apprentissage pendant laquelle un ou plusieurs locuteurs prononcent une ou plusieurs fois chacun des mots de l’application prévue. Ces prononciations sont toutes prétraitées puis conservées telles quelles ou bien moyennées dans un dictionnaire de références en tant que “ images acoustiques ”.
Puis la phase de reconnaissance où le signal à reconnaître subit le même prétraitement que la phase précédente. Il est ensuite comparé aux références contenues dans le dictionnaire. Le calcul d’une « distance » et sa comparaison à un seuil permettent ou non de retenir la ou les références les plus proches.

Mais les différences de prononciation et les variations de débit d’élocution, parfois importantes et non linéaires imposent l’utilisation d’algorithmes de comparaison telle que la comparaison dynamique ou les chaînes de Markov.

Le prétraitement du signal 

L’information portée par le signal de la parole est essentiellement contenue dans les formants. Il est donc nécessaire d’affranchir ces derniers de signaux indésirables tels que la source ou le « bruit »” de numérisation (enveloppe spectrale en dents de scie). Les systèmes de prétraitement permettent donc d’améliorer la représentation des formants par « lissage », et de fournir, à l’outil de comparaison, des vecteurs constitués de coefficients pertinents. Les méthodes les plus courantes pour le traitement du signal de la parole sont les analyses spectrales réalisées par transformée de Fourier.

La numérisation

La conversion d’un signal analogique sous forme numérique implique une double approximation. D’une part, dans l’espace des temps, le signal fonction du temps x(t) est remplacé par ses valeurs x (nT) à des instants multiples entiers d’une durée T ; c’est l’opération d’échantillonnage. D’autre part, dans l’espace des amplitudes, chaque valeur x (nT) est approchée par un multiple entier d’une quantité élémentaire q ; c’est l’opération de quantification. La valeur approchée ainsi obtenue est ensuite associée à un nombre ; c’est le codage, ce terme étant souvent utilisé pour désigner l’ensemble, c’est-à-dire le passage de la valeur x (nT ) au nombre qui la représente.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
Chapitre I. Le principe de la reconnaissance vocale
I.A. GENERALITES
I.A.1. L’appareil phonatoire
I.A.2. Signal de la parole
I.A.3. Prosodie
I.A.4. L’information vocale
I.B. METHODE DE RECONNAISSANCE VOCALE
I.B.1. Le prétraitement du signal
I.B.2. La comparaison Dynamique ou DTW
Chapitre II. Réalisation du didacticiel nommé « PC Helper »
II.A. PROGRAMMATION
II.B. LES INTERFACES DE « PC Helper »
II.B.1. Ecran de démarrage
II.B.2. Ecran de connexion
II.B.3. Ecran d’accueil
II.B.4. Ecran détail
II.B.5. Ecran Vidéo
II.B.6. Menu
II.B.7. Ecran EXERCICE
II.B.8. Ecran COMMANDE
II.B.9. Ecran Favoris
II.B.10. Ecran INFORMATION
II.B.11. Ecran Checking Internet
II.B.12. Ecran MICRO
Chapitre III. Les points forts de l’intégration de la reconnaissance vocale dans le secteur de l’éducation
III.A. De réels avantages pour tous les étudiants
III.A.1. Rapidité
III.A.2. Prendre de notes
III.B. Accessibilité des étudiants souffrant d’un handicap physique
III.B.1. Utilisation de la tablette en mains libres
III.B.2. Une aide pédagogique pour les étudiants sourds et malentendants
III.C. Technologie d’assistance à l’usage des étudiants souffrant de difficultés d’apprentissage
III.C.1. Transformer les idées en textes écrits
III.C.2. Permettre une plus grande autonomie
CONCLUSION
Bibliographies
Webographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *