Répartition hommes/femmes dans les systèmes d’IA

Le 1er juin 2011 un article intitulé « It’s Not You, It’s It: Voice Recognition Doesn’t Recognize Women » a été publié dans la rubrique technologique du Time. Cet article expliquait que les chances étaient fortes que les systèmes de reconnaissance automatique contenus dans les voitures fonctionnent moins bien si l’on était une femme. Le directeur du département client, David Champion expliquait que ce n’était pas que le genre, mais également les accents, sa voix n’étant jamais reconnue par les voitures de marque anglaise comme les Land Rover.

Que ce soit pour régler le GPS de votre voiture, pour dicter des SMS à votre téléphone ou interagir avec un service client téléphonique automatique, les technologies de la parole investissent de plus en plus notre quotidien. Ces nouvelles technologies sont de plus en plus utilisées mais il semblerait que les performances puissent varier en fonction de différents facteurs tels que le genre ou l’accent de l’utilisateur. Dans le cas de l’article précédemment cité, la solution proposée par les constructeurs automobiles était de changer la manière dont les gens parlent. D’après le vice-président des technologies de la parole du groupe ATX, Tom Schalk, “many issues with women’s voices could be fixed if female drivers were willing to sit through lengthy training… Women could be taught to speak louder, and direct their voices towards the microphone”. Cette solution nous semblant quelque peu insultante et difficile à mettre en œuvre, nous avons souhaité aborder le problème sous un angle différent : l’entraînement non pas des utilisateurs mais des systèmes. Les systèmes automatiques sont développés sur un ensemble de données, et nous supposons que le choix de ces données à un impact non-négligeable sur les performances du système.

Le présent travail se propose donc d’étudier, dans le cadre restreint de la parole médiatique, les données utilisées par les systèmes de reconnaissance automatique de la parole et d’en évaluer l’influence sur les performances. Plus généralement, ce travail peut également constituer une première contribution concernant l’étude de l’impact des données d’apprentissage sur les performances des systèmes d’intelligence artificielle utilisés pour le traitement automatique de la parole en français.

Dernièrement le machine learning ou apprentissage automatique a investi de nombreux champs de recherche. L’explosion de la quantité de données disponibles notamment avec le World Wide Web, les réseaux de neurones artificiels, la puissance de calcul des machines actuelles sont autant de facteurs qui ont installé l’apprentissage automatique comme méthode incontournable. La norme est ainsi devenue de développer les systèmes sur des grands ensembles de données, grâce à des algorithmes d’apprentissage profond. Les données sont la matière première de ces nouveaux systèmes et la constitution de corpus d’apprentissage est maintenant une part importante du développement de ces nouveaux outils.

En traitement automatique de la parole (TAL) comme dans de nombreux domaines, les corpus sont donc devenus indispensables pour la conception des systèmes. Cependant la production de ces corpus constitue un coût et un investissement que tous les laboratoires ne peuvent pas se permettre (Gravier et al., 2004). Différents corpus ont donc été créés, dans le cadre de campagnes d’évaluation, pour permettre aux équipes de recherche d’avoir accès à des données de qualité à moindre coût. Et ces campagnes ont également permis d’évaluer les performances des systèmes sur différentes tâches.

La campagne d’Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques, appelée ESTER (1 et 2), a eu lieu dans le cadre du projet EVALDA du programme Technolangue. Le but de cette campagne était de permettre une évaluation commune des performances des systèmes du traitement de la parole en France. Elle a été principalement soutenue par l’Association francophone de la communication parlée (AFCP), par le Centre d’expertise parisien de la Délégation générale pour l’armement (DGA/CEP) et par l’European Language Ressources Association (ELRA).

La campagne ESTER1 a eu lieu entre 2003 et 2005. Les tâches sur lesquelles se focalisait cette campagne s’organisaient selon deux axes : la transcription orthographique et la segmentation. Une tâche d’extraction d’information, la reconnaissance d’entités nommées, a été rajoutée dans la deuxième phase de la campagne. Une description des différentes catégories de tâches et des métriques d’évaluation est disponible dans les plans d’évaluation consultables sur le site de l’AFCP. Pour évaluer les systèmes sur chacune de ces tâches, un corpus a été constitué, contenant des enregistrements provenant de 4 sources différentes : France Inter, France Info, Radio France International (RFI), Radio Télévision Marocaine (RTM). Le corpus est organisé en deux grandes parties : la première est constituée d’enregistrements faits entre 1998 et 2003, pour un total de 100h de parole annotées manuellement (Galliano et al., 2006). La seconde partie, non annotée, contient 1677h de parole, enregistrées sur les mêmes périodes. Un corpus de test d’une dizaine d’heures, provenant des mêmes sources, ainsi que de deux sources supplémentaires (France Culture et Radio Classique) a également été fourni. Les émissions de ce corpus de test ont été enregistrées en 2004.

ESTER2 a débuté fin janvier 2008 et avait pour but de mesurer les progrès effectués par les systèmes de transcription automatique depuis la publication des résultats d’ESTER1. Elle reprend donc les tâches étudiées dans la campagne d’ESTER1 et en introduit de nouvelles, comme la transcription avec données contemporaines et la reponctuation. ESTER2 visait aussi à élargir le type de données pris en compte comme la parole accentuée et la parole spontanée. Les ressources acoustiques disponibles pour la campagne étaient les ressources d’ESTER1, complétées par un corpus d’une centaine d’heures contenant des émissions de radio africaines transcrites (provenant d’Africa n°1 et TVME), dans le but d’étudier l’impact de l’accent. Une partie du corpus EPAC (Estève et al., 2010), annoté par le Laboratoire Informatique de l’Université du Mans (LIUM) a également été distribuée. Le corpus EPAC provient de la partie non-annotée d’ESTER1 qui contient les transcriptions d’environ 100h de parole « conversationnelle ».

La campagne ETAPE (Évaluation en Traitement Automatique de la Parole) s’est déroulée entre 2011 et 2012 et se situe dans la continuité des deux campagnes ESTER. La campagne ETAPE avait pour but de diversifier les sources étudiées en évaluant notamment les systèmes sur des émissions télévisées. En plus de permettre l’observation de l’évolution des performances des systèmes sur les tâches précédemment étudiées dans le cadre des campagnes ESTER, un focus a été fait sur la parole spontanée, avec l’utilisation de données télévisées dans lesquelles les phénomènes de parole superposée sont importants. Là où les campagnes ESTER s’intéressaient principalement aux émissions de type « nouvelles », ETAPE a choisi de proposer des données plus variées pour permettre une évaluation et une amélioration des systèmes sur un ensemble plus large de contenus médiatiques professionnels (Gravier et al., 2012). Les tâches étaient une fois de plus des tâches de segmentation (avec une attention particulière pour la détection de parole superposée), de transcription et d’extraction d’information (entités nommées). Le corpus contient une quarantaine d’heures de parole, divisées en 13,5h de radio et 29h de télévision et contient des émissions d’informations, de débats mais aussi des programmes de divertissement, recouvrant ainsi de nombreuses configurations communicationnelles. Sur les enregistrements de radio, la plupart consistent en des débats, favorisant ainsi l’interaction et la parole superposée, avec parfois des conditions acoustiques difficiles (ex : Un Temps de Pauchon).

REPERE (Reconnaissance des PERsonne dans des Émissions télévisuelles) s’intéresse à la reconnaissance de personnes dans les émissions télévisées (Giraudel et al., 2012). La campagne a eu lieu entre 2011 et de 2014, a été financée par la DGA et encadrée par le Laboratoire National de Métrologie et d’Essai (LNE). Le corpus, distribué par la société ELDA, est constitué de 60h de parole provenant d’émissions des chaînes BFM TV et LCP. Comme le corpus ETAPE, il regroupe des émissions de type news, débat mais également des programmes de divertissement dans lesquels la proportion de parole spontanée est plus forte.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Partie 1 : État de l’art et positionnement du problème
1. DES SYSTÈMES DÉVELOPPÉS SUR CORPUS
2. CORPUS ET PERFORMANCES DES SYSTÈMES D’IA
3. LES CORPUS MÉDIATIQUES
Partie 2 : Méthodologie du travail de mémoire
CHAPITRE 1. LES RESSOURCES
1. LES DONNÉES
2. STRUCTURE DE LA BASE DE DONNÉES
3. REMPLISSAGE DE LA BASE DE DONNÉES
CHAPITRE 2. LES ANALYSES : MÉTHODES ET OUTILS
1. EXTRACTION DES DONNÉES : REQUÊTES SQL
2. PRÉPARATION DES DONNÉES : SCRIPTS PYTHON
3. LES MODÈLES STATISTIQUES
4. LE SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
Partie 3 – Résultats
CHAPITRE 3. LA PLACE DES FEMMES ET DES HOMMES DANS LES CORPUS MÉDIATIQUES
1. COMMENT QUANTIFIER LA PLACE D’UN LOCUTEUR ?
2. UNE FEMME POUR DEUX HOMMES
3. DES FEMMES QUI PRENNENT LA PAROLE DEUX FOIS MOINS QUE LES HOMMES
4. DES FEMMES QUI PARLENT MOINS LONGTEMPS QUE LES HOMMES ?
CHAPITRE 4. BIAIS ET PERFORMANCES : LE CAS D’UN SYSTÈME D’ASR
1. ANALYSE DU CORPUS D’APPRENTISSAGE
2. ANALYSE DES PERFORMANCES
Conclusion