Parole pathologique et traitement automatique de la parole 

La production de la parole

La production de la parole est un acte dont la complexité et la multitude des organes qui y prennent part sont souvent masquées par son caractère naturel et facile.
Outre l’acte moteur, la parole engage des opérations linguistiques complexes, telles que la sémantique, la syntaxe, la phonologie, etc. Dans les travaux de (Ferrand, 2001), les modèles psycholinguistiques définissent 3 étapes dans la production de la parole :  la conceptualisation du message (définition des idées à exprimer)  la lexicalisation du message (choix des mots à utiliser) l’articulation du message. Nous nous focaliserons ici sur la troisième étape de ce modèle : l’articulation du message. En effet, la production de la parole n’est pas un acte involontaire, mais plutôt un acte moteur planifié et particulièrement complexe qui nécessite une importante coordination ainsi qu’une succession de mouvements faisant intervenir aussi bien le système anatomique périphérique que le système neurologique central. La parole est une fonction complexe, nécessitant de l’attention, une certaine motivation, et une coordination motrice importante (Pinto, 2007).
Chaque acte moteur volontaire s’articule autours de 3 étapes :
la planification et l’élaboration du mouvement : il s’agit de la définition d’une stratégie pour sélectionner les mouvements adaptés parmi notre répertoire de possibilités ;
la préparation du mouvement : correspond à l’établissement de la séquence de contractions musculaires nécessaires pour les mouvements définis ;
l’exécution du mouvement durant laquelle le cortex moteur primaire, le tronc cérébral et la moelle épinière génèrent et conduisent l’information correspondant à la séquence définie dans l’étape précédente aux organes concernés.
Avant même sa réalisation, la production de la parole est programmée dans notre système nerveux et sa production fait intervenir à la fois le système nerveux central et le système nerveux périphérique.
Le système nerveux central est composé de l’encéphale (cerveau, tronc cérébral et cervelet) et de la moelle épinière. Le système nerveux périphérique comporte les nerfs permettant le transfert de l’information du système nerveux central aux différents organes. Il renferme 2 types de nerfs : les nerfs crâniens (liés à l’encéphale) et les nerfs spinaux ou rachidiens (liés à la moelle épinière).

La dysarthrie

Les troubles de la communication sont définis par The American Speech and Hearing Association (ASHA) de la manière suivante : ”An impairment in the ability to receive, send, process, and comprehend concepts or verbal, nonverbal and graphic symbol systems. A communication disorder may be evident in the processes of hearing, language, and/or speech.
A communication disorder may range in severity from mild to profound. It may be developmental or acquired. Individuals may demonstrate one or any combination of the three aspects of communication disorders. A communication disorder may result in a primary disability or it may be secondary to other disabilities“ (ASHA, 1993). Sur la base de cette définition, les troubles de communications englobent toute altération de la voix, du langage, de l’audition ou de la parole. La dysarthrie, étant un trouble de la parole, est alors un trouble de communication.
Initialement, les dysarthries ont été décrites comme des troubles purement articulatoires. Peacher, dans (Peacher, 1950), était l’un des premiers à évoquer la possibilité de l’implication de facteurs autre que l’articulation relevant de la neurophysiologie, la psychologie, la phonétique instrumentale et de la pathologie de la parole (Auzou et al.,2000).
En 1957, (Grewel, 1957) a proposé le terme de dysarthro-pneumo-phonie afin de rendre compte des atteintes non articulatoires de la dysarthrie. Cependant, ce terme bien qu’assez descriptif des différents niveaux d’atteintes dans la plupart des pathologies liées à la dysarthrie, ne s’est pas répandu dans la pratique courante. C’est en 1975, que Darley définit la dysarthrie comme un trouble de la réalisation motrice de la parole, secondaire à des lésions du système nerveux central et/ou périphérique (Darley et al., 1975). Actuellement, le terme ”dysarthrie“ englobe les troubles moteurs de la parole d’origine neurologique acquis et non développementaux (à l’exception de l’apraxie) (Auzou, 2007a). Cette définition se limite aux troubles d’origine neurogène et exclue les troubles mécaniques (fractures mandibulaires, fentes palatines, etc.) qui peuvent aussi affecter la parole.
Les dysarthries sont multiples et résultent en plusieurs altérations perturbations (certaines générales et d’autres propres à chacune des dysarthries). Cette multitude de troubles a été le sujet de différents travaux de recherche ce qui a conduit à plusieurs classifications des dysarthries

Évaluation perceptive de la dysarthrie

Le moyen d’évaluation de la parole dysarthrique le plus utilisé dans la pratique clinique est l’évaluation perceptive (Duffy, 2005), une évaluation à l’oreille de la parole du patient.
Le principe de cette évaluation peut paraître assez simple et repose sur l’indissociabilité entre l’appareil auditif (l’oreille) et la parole elle-même. Les buts d’une évaluation perceptive de la parole pathologique, et dans notre cas dysarthrique, sont :
d’identifier si la parole est effectivement pathologique ou non ; d’aider à définir les objectifs de prise en charge thérapeutique de la parole ; d’aider à mesurer l’évolution de la parole lors de prises en charge longitudinales des patients.
Ce bilan clinique de la dysarthrie doit alors, dans l’idéal, permettre une évaluation qualitative et même quantitative de la parole. Cette évaluation doit permettre de quantifier la sévérité de la dysarthrie, les principales anomalies la caractérisant, les organes effecteurs concernés dans ces anomalies ainsi que l’auto-perception de la dégradation de la parole par le patient lui-même.
Un des critères importants à évaluer lors de bilans cliniques est la sévérité de la dysarthrie afin de pouvoir définir les objectifs thérapeutiques et pouvoir évaluer son évolution. Cependant, cette sévérité peut être vue comme un critère d’évaluation à part ou comme une agrégation de plusieurs autres paramètres perceptifs tels que l’intelligibilité, la compréhensibilité et l’efficacité (Auzou, 2007b; Hustad, 2008; Lowit et Kent,2010).
L’intelligibilité peut être définie par la précision avec laquelle le message émis par le locuteur est décodé par l’auditeur. Plusieurs méthodes ont été établies pour mesurer cette intelligibilité en se basant généralement sur le taux d’unités (mots, phonèmes, syllabes) correctement reconnues par l’auditeur (Barreto et Ortiz, 2008; Fontan, 2012; Hustad, 2008). La compréhensibilité est souvent décrite comme une forme particulière de l’intelligibilité prenant en compte les informations contextuelles (connaissance du patient, indices sémantiques, indices visuels, etc.) lors de l’évaluation de la parole. Un troisième critère d’évaluation est l’efficacité. Elle se mesure par la quantité de messages intelligibles transmis par le locuteur par unité de temps. Sa mesure peut refléter une altération du débit de parole ou de l’intelligibilité. Ces évaluations d’intelligibilité et de sévérité présentent plusieurs avantages surtout au niveau de leurs implémentation qui est assez simple, naturelle et réalisable selon le cadre du travail par un clinicien (suivi thérapeutique des patients) ou un jury d’écoute (travaux de recherche sur la dysarthrie).

Traitement automatique de la parole pathologique

Comme pour toute parole ”atypique“ (enfants, apprenant d’une deuxième langue, etc.), les outils de Reconnaissance Automatique de la Parole (RAP) ont présenté des limites et des performances non consistantes lors de leurs applications à la parole pathologique. Deux visions ont émergé :  la première tente d’utiliser ces difficultés et les erreurs commises par les outils de RAP sur la parole pathologique pour l’évaluer et mesurer son intelligibilité la deuxième voit dans ces outils un moyen pour faciliter et assister les patients dans leurs vies quotidiennes et se concentre dans l’amélioration des performances de ces outils face à la parole pathologique. On parle alors de systèmes de communication alternative et augmentée (Augmentive and Alternative Communication – AAC )

TAP pour l’évaluation de la parole

Deux écoles essentielles ont émergé dans le cadre de l’utilisation de la RAP pour l’évaluation de la parole (Martinez et al., 2013). Dans la première, la RAP est utilisée pour fournir une transcription automatique de la parole dont la qualité estimée au travers du taux de reconnaissance de mots peut être corrélée et interprétée comme une mesure d’intelligibilité (Doyle et al., 1997; Sharma et al., 2009; Christensen et al., 2012).
La deuxième approche utilise les outils de TAP pour extraire des informations pertinentes permettant la caractérisation de la parole et pouvant être utilisées dans des systèmes de prédiction automatique d’intelligibilité (Carmichael, 2007; Middag et al., 2009; Nuffelen et al., 2009; Khan et al., 2014). Cependant, l’éventuelle utilité de tels systèmes ne fait pas l’unanimité et des réserves sur leurs intérêts ont été émises dans les travaux de (Griffin et al., 2000). Ces réserves portaient essentiellement sur le type de parole à utiliser lors de l’apprentissage des systèmes (parole normale ou parole dysarthrique) et son effet sur le feed-back fournit par ces système à l’utilisateur. Les premières utilisations des outils de TAP pour l’évaluation de la parole dysarthrique remontent aux années 90 (Shriberg et al., 1990; Parsons, 1997). Dans (Ferrier et al., 1992), le système de RAP DragonDictate est utilisé pour transcrire des mots lus par des locuteurs dysarthriques et des locuteurs contrôles. Le feed-back fourni par le système a permis une amélioration dans l’articulation des mots par les participants.
Dans (Carmichael, 2007) une version informatisée du test Frenchay Dysarthria Assessment a été proposée. Le système évalue l’intelligibilité de la parole au niveau mot et phrase en utilisant les mêmes données que le test perceptif original. Contrairement à la majorité des travaux qui reposaient sur le taux des mots correctement reconnus pour l’évaluation de l’intelligibilité, cette approche utilise un alignement automatique contraint par le texte des mots prononcés par le patient avec des modèles appris sur de la parole normale. L’intelligibilité des locuteurs est alors calculée en utilisant les scores de vraisemblance mesurés au niveau phonème.

TAP dans les technologies de communication alternative et augmentée

Comme mentionné précédemment, la majorité des approches automatiques à base de RAP pour l’évaluation de la parole pathologique (intelligibilité, déviance au niveau phonème) exploite et met en profit les difficultés qu’éprouvent ces outils face à la parole atypique, et dans notre contexte pathologique. Suite à la généralisation des applications à base de RAP dans la vie quotidienne, ces difficultés sont également devenues des contraintes à l’utilisation normale de ces applications par les locuteurs atteints de troubles de la parole.
De plus, et dans plusieurs cas, la dysarthrie s’accompagne de plusieurs handicaps physiques qui limitent le champs d’activité et de manœuvre du patient et ses capacités aussi bien communicatives que sociales. Ces difficultés peuvent se manifester dans des tâches simples de l’ordre du contrôle des outils et d’appareils électroniques dans une maison (TV, ordinateur, téléphone, etc.) ainsi que des équipements normaux (porte, fenêtre, etc.). En plus des troubles de parole dus à la dysarthrie résultant en la diminution de l’intelligibilité ou même sa disparition, le risque d’isolement et de retrait de la vie sociale des patients augmente.
Afin de répondre à ces besoins, un autre champs d’application des outils de la RAP a vu le jour : les systèmes de communication alternative et augmentée. Ces outils développés pour les personnes souffrant de troubles de la communication ou de parole permettent au patients de remplacer ou de compléter la parole et l’écriture pour mieux communiquer et gérer les différents outils à leur disposition dans leurs environnements. En effet, et même pour les patients dysarthriques, la parole reste le vecteur de communication le plus naturel, le plus performant et parfois le plus facile à réaliser dans le cas de sévères handicaps liés à la maladie. C’est dans ce cadre qu’a émergé le besoin de systèmes de RAP capables de reconnaître la parole des patients les plus dysarthriques soit pour la commande des dispositifs ou pour la génération d’une parole synthétique (à partir de la transcription de la parole ou du signal lui même) plus intelligible et donc plus communicatif pour le patient (Griffin et al., 2000; Hawley et al., 2005).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
I État de l’art et contexte général 
2 Parole pathologique et traitement automatique de la parole 
2.1 La production de la parole
2.1.1 La parole : acte moteur volontaire
2.1.2 Les organes de production de la parole
2.1.3 Les sons du Français
2.2 La dysarthrie
2.2.1 Classifications des dysarthries
2.2.2 Pathologies liées à la dysarthrie
2.2.3 Évaluation perceptive de la dysarthrie
2.3 Traitement automatique de la parole pathologique
2.3.1 TAP pour l’évaluation de la parole
2.3.2 TAP dans les technologies de communication alternative et augmentée
2.3.3 Adaptation des modèles à la parole dysarthrique
2.3.4 TAP pour la parole ”atypique“
2.3.5 Motivations
2.4 Conclusion
3 Contexte Expérimental 
3.1 Projets
3.1.1 DesPhoAPady
3.1.2 TYPALOC
3.2 Corpus
3.2.1 Le corpus VML
3.2.2 Le corpus DesPhoAPady
3.2.3 Le corpus TypALoc
3.2.4 Le corpus BREF
3.2.5 Le corpus Ester
3.3 Mesures d’évaluation
3.3.1 Évaluation de la qualité de l’alignement automatique
3.3.2 Évaluation de la détection d’anomalies
3.4 Conclusion
II Apport des outils de TAP face à la parole dysarthrique 
4 Alignement automatique de la parole 
4.1 Alignement automatique de la parole
4.1.1 Paramétrisation du signal
4.1.2 Modélisation acoustique de la parole : Modèles de Markov Cachés
4.1.3 Alignement automatique de la parole
4.2 Étude du comportement du système d’alignement face à la parole dysarthrique
4.2.1 Parole lue
4.2.2 Parole spontanée
4.2.3 Parole lue et parole spontanée
4.2.4 Confusion phonémique dans l’alignement automatique de la parole lue
4.3 Conclusion
5 Détection automatique d’anomalies au niveau phonème 
5.1 Approche de détection automatique d’anomalies
5.1.1 Extraction de paramètres
5.1.2 Classification
5.2 Évaluation de l’approche automatique de détection d’anomalies au niveau phonème
5.2.1 Application sur un corpus annoté au niveau phonème VML
5.2.2 Application sur un corpus non annoté DesPhoAPaDy
5.3 Discussion du comportement de l’approche de détection d’anomalies
5.3.1 Comportement face à la parole lue et spontanée
5.3.2 Détection d’anomalies et alignement de la parole
5.4 Localisation des anomalies sur les mots bisyllabiques
5.5 Conclusion
6 Évaluation perceptive de l’approche de détection automatique d’anomalies dans la parole dysarthrique 
6.1 Protocole
6.1.1 Corpus
6.2 Résultats et discussions
6.3 Conclusion
7 Conclusions et perspectives

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *