Traitement Automatique De La Parole Arabe

Traitement Automatique De La Parole Arabe

Traitement automatique de la parole

Le traitement automatique des langues (T.A.L.) ou NLP (Natural Language Processing) est un domaine de recherche pluridisciplinaire, qui fait collaborer linguistes, informaticiens, logiciens, psychologues, documentalistes, lexicographes ou traducteurs, et qui appartient au domaine de l’Intelligence artificielle (I.A). Dans le monde nous trouvons plusieurs langues. De chaque langue dérivent plusieurs dialectes. A cet effet le traitement automatique de la parole est un domaine pour lequel un effort important a été approuvé au cours des cinq dernières décennies. Le traitement automatique de la parole ou Speech processing est l’un des filières du traitement automatique de la langue naturelle qui a comme objectif fondamental l’amélioration de la communication Homme-Machine. Selon Shannon dans sa théorie de l’information [1], un message représenté comme une séquence de symboles discrets peut quantifier son contenu d’information en bits, et le débit de transmission de l’information est mesuré en bits par secondes (bps). Mais en traitement de la parole l’information est d’une forme analogique continue « Speech Signal » ce qui est impossible de l’introduire directement dans la machine ; c’est pour cette raison qu’il faut faire des transformations (prétraitements) de numérisation de ce signal afin que nous puissions l’exploiter sur machine.

Le son naturel

Nous percevons les voix des personnes qui nous entourent, le bruit du vent ou de la cascade, le chant des oiseaux, les bruits de l’activité humaine tels que les moteurs. Nous entendons la musique produite par les instruments de musique, par la radio et les CD et diffusée dans des haut-parleurs, etc. Et si nous tentons d’émettre un son soutenu, une note chantée par exemple, et si nous sommes attentifs, nous sentons des parties du corps vibrer. Cela peut être dans la poitrine, dans le ventre, dans la tête, dans la gorge ou ailleurs. La voix produit des vibrations qui se répercutent dans le corps parce que la voix humaine est elle-même une vibration engendrée par les cordes vocales. Celles-ci vibrent sous l’effet de l’intention mentale. Elles sont mises en action ainsi que le souffle, par notre volonté. Il faut soit affiner notre sensibilité, soit nous mettre dans des conditions un peu excessives pour se rendre compte que tous les sons sont des vibrations. Ainsi, plaçons-nous à proximité d’un haut-parleur qui diffuse une musique très forte, par exemple lors d’un festival de ‘Andalous’ ou de ‘Anachide’ en plein air. Nous sentons immédiatement notre ventre vibrer sous l’effet du son. Nous voyons la membrane du haut-parleur vibrer elle aussi. C’est elle qui, par sa vibration, produit le son. Le son produit se propage dans tous les sens avec une vitesse variante selon la nature de l’environnement c’est-à-dire plus la matière est dense, plus la vibration sonore est plus rapide.

Traitement du signal vocal

L’information contenue dans le signal de parole peut être analysée de bien des façons. Si nous observons la forme que produit la parole selon l’audiogramme présenté par la figure (fig. 1.3) nous remarquons une forme périodique avec des amplitudes variantes ou pseudopériodiques. Ainsi, aux cotés droit et gauche du signal principal nous distin- guons des petites courbes non identifiées, ce que nous appelons le bruit. Il y a plusieurs travaux sur le sujet de reconnaissance de parole/ non parole basés sur le bruit (Speech/- NONSpeech) [7]. En plus, chaque individu possède sa propre information vocale qui le caractérise. Et cette information peut être extraite à partir des signaux sortant du résonateur.

Les traits acoustiques du signal de parole sont directement liés à sa production dans l’appareil phonatoire. Tout d’abord, nous avons l’énergie du son [8] ; celle-ci est liée à la pression de l’air en amont du larynx. Puis nous avons la fréquence fondamentale F0 [9] ; cette fréquence correspond à la fréquence du cycle d’ouverture/fermeture des cordes vocales. Enfin, nous avons le spectre du signal de parole [10] ; celui-ci résulte du filtrage dynamique du signal en provenance du larynx par le conduit vocal qui peut être considéré comme une succession de tubes ou de cavités acoustiques de sections diverses (fig. 1.4). Chacun de ces traits acoustiques est lui-même intimement lié à une autre grandeur perceptuelle, à savoir l’intensité, le rythme, et le timbre. Le spectrogramme est la représentation temps-fréquence qui permet de mettre en évidence les différentes composantes fréquentielles du signal à un instant donné. L’ensemble des spectres constituant le spectrogramme sont calculé par la transformé de Fourier que nous allons voir plus en détails par la suite.

Paramétrisation du signal vocal

L’objectif de cette phase de reconnaissance est d’extraire des coefficients représentatifs du signale de la parole. Ces coefficients sont calculés à intervalles réguliers. En simplifiant les choses, le signal de la parole est transformé en une série de vecteurs de coefficients, ces coefficients doivent représenter au mieux ce qu’ils sont censé modéliser et doivent extraire le maximum d’informations utiles pour la reconnaissance. Parmi les coefficients les plus utilisés et qui représentent au mieux le signal de la parole, nous trouvons les coefficients ceptraux, appelés également ceptres. Les deux méthodes les plus connus pour l’extraction du ceptres sont : l’analyse spectrale et l’analyse paramétrique. Pour l’analyse spectrale (par exemple, Mel-Scale Frequency Ceptral Coefficients (MFCC)) comme pour l’analyse paramétrique (par exemple, le codage prédictif linéaire (LPC)), le signal de parole est transformé en une série de vecteurs calculés pour chaque trame. Il existe d’autres types de coefficients qui sont surtout utilisés dans des milieux bruités, nous citons par exemple les coefficients PLP (Perceptual Linear Predective).

Ces coefficients permettent d’estimer les paramètres d’un filtre autorégressif en modélisant au mieux le spectre auditif [13]. Il existe plusieurs techniques permettant l’amélioration de la qualité des coefficients, nous trouvons par exemple ; l’analyse discriminante linéaire (LDA), l’analyse discriminante non linéaire (NLDA), etc.[14] Ces coefficients jouent un rôle capital dans les approches utilisées pour la reconnaissance de la parole. En effet, ces paramètres qui modélisent le signal seront fournis au système de reconnaissance pour l’estimation de la probabilité P(séquence|message). Dans notre travail, nous utilisons les coefficients MFCC pour tester leur rendement dans un environnement bruité. L’utilisation des MFCC est motivée par les deux propriétés suivantes :

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Traitement automatique de la parole
1.1 Introduction
1.2 Le son naturel
1.3 Perception du son
1.4 Système de production de la parole chez l’être humain
1.5 Phonème et Phonétique
1.6 Traitement du signal vocal
1.6.1 Intensité d’un signal vocal
1.6.2 Le rythme
1.6.3 Le timbre
1.7 Automatisation de la Parole
1.7.1 L’échantillonnage
1.7.2 Quantification
1.7.3 Codage
1.8 Paramétrisation du signal vocal
1.8.1 Groupement en trames (Frame blocking)
1.8.2 Fenêtrage
1.8.3 Calcul de la transformée de Fourier rapide (Fast Fourier Transform, FFT)
1.8.4 Filtrage sur l’échelle Mel
1.8.5 Calcul du cepstre sur l’échelle Mel
1.8.6 Calcul des caractéristiques dynamiques des MFCC
1.9 conclusion
2 Techniques de classification
2.1 Introduction
2.2 Chaînes de Markov cachés
2.2.1 Les processus stochastiques
2.2.2 Les modèles de Markov
2.2.3 Les problèmes fondamentaux d’un HMM
2.2.4 L’algorithme FORWARD
2.2.5 L’algorithme BACKWARD
2.2.6 L’Algorithme de Viterbi
2.2.7 L’algorithme de Baum-Welch
2.2.8 Algorithme à passage de Jeton (Token passing algorithm)
2.2.9 Les limites des HMMs
2.3 Support Vector Machines (SVM)
2.4 Dynamic Time Warpping (DTW)
2.5 Réseaux de neurones à délai temporel (TDNN)
2.6 Conclusion
3 Expériences sur les mots connectés et continus 38
3.1 Introduction
3.2 Construction de la base de données
3.3 Introduction des fichiers sons
3.4 Etiquetage manuel des données
3.4.1 Etiquetage pour la reconnaissance de mots connectés
3.4.2 Étiquetage pour la reconnaissance de mots continue .
3.5 Paramètrisation
3.6 Définition du HMM
3.6.1 HMM de reconnaissance de mots connectés
3.6.2 HMM de reconnaissance de mots continus
3.7 Initialisation
3.8 Apprentissage
3.9 Définition de la grammaire
3.9.1 Grammaire pour la reconnaissance de parole isolée .
3.9.2 Grammaire pour la reconnaissance de parole continue
3.10 Construction du dictionnaire
3.11 Génération du réseau de mots (Word Network)
3.12 La reconnaissance
3.13 L’évaluation
3.14 Analyse des résultats
3.15 Implémentation d’une calculatrice vocale
3.16 Conclusion
Conclusion générale
Perspectives
A L’outil HTK

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *