Lexique bilingue d’expressions polylexicales

Télécharger le fichier pdf d’un mémoire de fin d’études

Lexiques bilingues `a partir de corpus parall`eles

L’extraction de lexiques bilingues a` partir de corpus parall`eles est fortement li´ee `a la traduction automatique statistique (Brown et al., 1993). Conventionnellement, on se r´ef`ere `a cette tˆache en utilisant le terme alignement. La litt´erature concernant l’ali-gnement en corpus parall`eles est particuli`erement riche et les travaux men´es dans ce cadre comprennent des approches d’alignement d’unit´es linguistiques de diﬀ´erents ni-veaux de granularit´e (document, phrase, segment, mot, etc). Le niveau de granularit´e de ces unit´es est d´etermin´ en fonction de l’application finale de celles-ci (traduction automatique, recherche d’information interlingue). Partant d’un corpus parall`ele, des alignements de granularit´e de plus en plus fine peuvent ˆetre obtenus de mani`ere s´equentielle. Dans cette section nous d´ecrivons les approches d’alignement de deux principaux niveaux de granularit´e : l’alignement phrastique (phrase) et l’alignement sous-phrastique (mot, segment, expression).

Alignement phrastique

L’alignement de phrases pr´esente une utilit´e sans cesse croissante pour de nom-breuses applications de TAL. Les textes parall`eles ne sont pas toujours traduits phrase a` phrase. Les phrases longues peuvent ˆetre divis´ees et les phrases courtes peuvent ˆetre fusionn´ees. Il existe mˆeme des langues comme le tha¨ı dont l’´ecriture ne comprend pas d’indicateur de fin de phrase. Un alignement au niveau de la phrase s’av`ere donc utile.
De nombreuses approches d’alignement de phrases ont et´e propos´ees dans la litt´erature. Les premiers travaux remontent a` (Brown et al., 1991), o`u l’alignement se base sur le nombre de mots dans chaque phrase. L’id´ee qui sous-tend leur approche est que plus les tailles de deux phrases se rapprochent, plus elles sont susceptibles de s’aligner. Citons ´egalement les travaux de (Gale et Church, 1991) qui, au lieu de consid´erer le nombre de mots, ils utilisent le nombre de caract`eres dans chaque phrase comme caract´eristique de base. D’autres approches se basent sur l’alignement de mots simples pour extraire des paires de phrases en relation de traduction (Kay et R¨oschei-sen, 1993; Chen, 1993). Une combinaison de ces deux approches a et´ pr´esent´ee dans (Moore, 2002). Outre l’alignement de mots et la longueur des phrases, des approches g´eom´etriques (Melamed, 1996) et de reconnaissance de formes (Melamed, 1999) ont et´ ´egalement utilis´ees dans ce cadre.
En alignement phrastique, des caract´eristiques telles que la corr´elation entre les tailles de phrases, et les contraintes lexicales sont souvent suﬃsantes pour que l’aligne-ment de phrase soit relativement bon. Cependant, il est bien souvent pr´ef´erable d’ali-gner des unit´es textuelles plus larges (paragraphe, section, chapitre) avant de proc´eder a` l’alignement phrastique. Un alignement sous-phrastique facilitera ´egalement l’aligne-ment phrastique (Kay et R¨oscheisen, 1993), et r´eciproquement. Ce type d’alignement permet de r´eduire l’espace de recherche des mots en relation de traduction, et les mots en relation de traduction permettent de rep´erer les phrases en correspondance.

Alignement sous-phrastique

L’alignement sous-phrastique est une tˆache de niveau de granularit´e plus fin que celui de l’alignement phrastique. Ce type d’alignement constitue une composante importante pour la traduction automatique statistique (Brown et al., 1993; Och et Ney, 2003). Cette section est consacr´ee a` la description de diﬀ´erentes approches s’int´eressant a` l’alignement de mots simples, de segments et d’expressions polylexi-cales.

Alignement de mots et de segments

Pour mettre en relation des mots qui sont des traductions mutuelles, la plupart des travaux se basent sur des approches purement statistiques et partent du constat que la corr´elation entre les distributions de mots en relation de traduction est elev´ee. La distribution d’un mot est g´en´eralement d´efinie par sa position et sa fr´equence dans le corpus parall`ele. Dans ce type d’approches, un mod`ele du corpus est construit `a partir des donn´ees parall`eles align´ees au niveau phrastique. Ce mod`ele doit permettre une maximisation globale de la relation de traduction dans son ensemble. Concr`etement, pour chaque couple d’´enonc´es source-cible d’un corpus parall`ele, il s’agit de cher-cher `a d´eterminer les meilleurs liens entre les mots de l’´enonc´ source et ceux de la cible. Les plus connus de ces mod`eles sont ceux remontant aux travaux de (Brown et al., 1993). Ces mod`eles sont au nombre de cinq (IBM1,. . . , IBM5), de complexit´ croissante, chacun introduisant des param`etres permettant d’aﬃner les r´esultats du pr´ec´edent, tels la position des mots, leur d´eplacement au cours du processus de tra-duction (“distorsion”) ou encore le nombre de mots correspondant au mot source (“fertilit´e”). Une extension de ces mod`eles a et´ introduite dans (Vogel et al., 1996). Dans cette ´etude, une int´egration d’un mod`ele d’alignement a` base de Mod`eles de Markov Cach´es (Hidden Markov Model, HMM) a et´ mise en place. Ce mod`ele a et´ utilis´e dans GIZA++ (Och et Ney, 2003), le syst`eme d’alignement le plus utilis´e. Un exemple d’alignement ´etabli par cet outil est pr´esent´ dans la figure 1.4. Nous consta-tons que les alignements obtenus d´ecrivent aussi bien des correspondances entre mots (president ←→ pr´esident) qu’entre blocs de mots (cut oﬀ ←→ retire la parole a`). Ces blocs sont constitu´es par des groupes de mots ou n-grammes contigus nomm´es segments (phrases en anglais).
Bien que GIZA++ soit utilis´e dans la plupart des syst`emes de traduction sta-tistique, sa performance n’est prouv´ee que pour l’alignement des phrases de petites tailles (de l’ordre de 50 mots) et pour des paires de mots apparaissant au moins 50 fois dans le corpus parall`ele (Koehn et Knight, 2001). Pour produire des r´esultats satis-faisants, ces mod`eles purement statistiques dits g´en´eratifs n´ecessitent d’importantes quantit´es de donn´ees parall`eles pour l’apprentissage. La complexit´ math´ematique et l’absence d’encodage explicite des connaissances linguistiques font de ces mod`eles des boites noires et rendent diﬃcile l’analyse des r´esultats produits, notamment ceux li´es a` l’alignement. Il est impossible de savoir pourquoi certains alignement ont echou´ tout comme il est parfois diﬃcile de savoir pourquoi d’autres ont r´eussi.
Pour palier ces insuﬃsances, des mod`eles statistiques dit discriminants sont uti-lis´es. (Allauzen et Wisniewski, 2009) proposent deux mod`eles discriminants d’aligne-ment mot `a mot. Le premier mod`ele formalise la tˆache d’alignement comme une tˆache de classification multiclasse et traite celle-ci avec un classifieur a` maximum d’entropie. Ce mod`ele permet d’introduire ais´ement des caract´eristiques arbitraires tout en pr´esentant une complexit´ faible aussi bien en apprentissage qu’en inf´erence. Il pr´edit les alignements ind´ependamment les uns des autres, bien qu’il soit intuitive-ment plus pertinent de le faire conjointement afin de pouvoir choisir l’alignement d’un mot en tenant compte des alignements de ses voisins. C’est pour cette raison qu’ils ont consid´er´ un mod`ele fond´e sur les champs conditionnels al´eatoires (CRFs). Ces mod`eles formalisent l’alignement de mots comme une tˆache d’´etiquetage de s´equence dans laquelle chaque mot de la phrase source est associ´e a` l’index d’un mot de la phrase cible. Toutefois, l’utilisation de ces mod`eles discriminants pour l’alignement se heurte a` une diﬃcult´e majeure : leur apprentissage n´ecessite des corpus align´es mot a` mot alors que la quasi-totalit´e des corpus disponibles aujourd’hui sont align´es phrase a` phrase et que les rares corpus align´es mot `a mot ne comportent g´en´eralement que peu d’exemples. (DeNero et Klein, 2010) pr´esentent ´egalement un mod`ele discrimi-nant d´edi´ `a l’alignement de segments. Ce mod`ele pr´edit directement quel ensemble de segments doivent ˆetre extraits a` partir d’une phrase. (Haghighi et al., 2009) ex- ploitent les contraintes des grammaires de transduction inversible pr´esent´ees dans (Wu, 1997). Ces grammaires fournissent des contraintes structurelles coh´erentes sur la relation entre une phrase et sa traduction. Les parties source et cible d’une paire de phrases align´ees sont analys´ees simultan´ement selon un arbre de d´erivation binaire. La particularit´e de cette technique est qu’elle permet d’inverser les constituants d’une phrase d’une langue a` l’autre a` n’importe quel niveau de l’arbre. Les approches pure-ment statistiques tentent d’analyser les textes bilingues en se basant sur des mod`eles probabilistes. Les phrases ne sont pas consid´er´ees comme des entit´es structur´ees et on n’a pas recours a` des lexiques. Les r´esultats obtenus par ces approches sont suﬃ-samment utiles pour des applications r´eelles telles que la traduction automatique, la recherche d’information interlingue, etc. Un reproche majeur adress´ a` ces approches est qu’elles ne fonctionnent que quand les corpus trait´es sont larges.
Mˆeme si le domaine a connu une grande activit´e au cours de ces derni`eres ann´ees, peu d’am´eliorations ont et´ adopt´ees au final par la communaut´e. Certaines re-cherches (Xu et Chen, 2011) tentent d’am´eliorer la performance de l’alignement par des connaissances obtenues a` partir d’alignements fait par des humains. Ils montrent que, par rapport a` GIZA++, les gains r´ealis´es par des alignements humains sont inf´erieurs `a un point BLEU et que plus la taille de corpus d’apprentissage est grande, moins cette am´elioration l’est.
Citons ´egalement les travaux de (Lardilleux, 2010), qui pr´esente l’outil d’aligne-ment anymalign. Cet outil permet d’aligner les mots simples ou segments de faible fr´equence ou rares, qui dans la litt´erature, sont habituellement rejet´es et jug´es peu fiables. La m´ethode consiste `a rendre les mots fr´equents rares dans des sous corpus constitu´es par ´echantillonnage et d’eﬀectuer la tˆache d’alignement : il s’agit de se placer dans un espace vectoriel dont le nombre de dimensions est constitu´e par le nombre d’´enonc´es (source, cible) du corpus parall`ele. A chaque mot est associ´e un vecteur dont la i-i`eme composante est le nombre d’occurrences de ce mot dans la i-`eme phrase, puis pour chaque couple de mots, une similarit´e entre les vecteurs cor-respondants est mise en place en se basant sur le cosinus. Comme le font remarquer (Och et Ney, 2003), d’une part, le choix d’une mesure de corr´elation pour l’alignement bilingue est g´en´eralement assez arbitraire, car ces mesures produisent des r´esultats de qualit´e comparable, par exemple l’indice de Jaccard et le cosinus. D’autre part, ils consid`erent que ces m´ethodes dites associatives qu’ils qualifient d’heuristiques, ne peuvent pas rivaliser avec les m´ethodes estimatives qui reposent sur l’estimation de param`etres dans le cadre d’une th´eorie bien fond´ee.
Peu de travaux exploitent des connaissances linguistiques pour eﬀectuer la tˆache d’alignement sous phrastique. Citons par exemple les travaux de (Zribi, 1995) qui dans le cadre de sa th`ese propose une solution formelle unique pour l’alignement de phrases, de paragraphes et de mots simples faisant intervenir un lexique bilingue. Il consid`ere que ces probl`emes sont analogues. Le principe de sa m´ethode consiste a` comparer les unit´es source et cible et `a retenir les couples pour lesquels la comparaison est concluante. Les approches a` bases de connaissances linguistiques font quant a` elles une analyse plus ou moins fine des textes trait´es et l’alignement se base sur des lexiques bilingues de transfert. En plus d’un lexique bilingue, (Semmar et al., 2010) font appel aux entit´es nomm´ees et aux cognats pour l’alignement de mots simples. Ces unit´es sont tout d’abord mises en correspondances. Ensuite, pour les unit´es non align´ees encadr´ees par des mots align´es, le syst`eme recourt `a la cat´egorie grammaticale des mots sources et cibles. Partant de l’id´ee que plus les cat´egories grammaticales et les relations syntaxiques sont proches dans les deux langues, plus les alignements qui en r´esultent ont la chance d’ˆetre bons (Zribi, 1995), (Ozdowska, 2006) pr´esente une approche syntaxique pour l’alignement de mots simples. Dans cette approche, la technique de programmation logique inductive est utilis´ee pour apprendre des r`egles de propagation syntaxique. Le principe requiert un corpus parall`ele align´e au niveau de la phrase, que ce corpus soit analys´e syntaxiquement et que ´egalement des paires de mots amorces extraites d’un lexique bilingue soient pr´esentes dans les paires de phrases. Ces approches sont plus pr´ecises et peuvent ˆetre appliqu´ees a` de tr`es petits corpus. Tout le probl`eme r´eside dans la couverture des dictionnaires bilingues.

Vers l’alignement d’expressions polylexicales

Une expression polylexicale (EPL, en anglais MultiWord Expression (MWE)) peut ˆetre d´efinie comme une combinaison de mots pour laquelle les propri´et´es syn-taxiques ou s´emantiques de l’expression enti`ere ne peuvent pas ˆetre obtenues `a partir de ses parties (Sag et al., 2002). Les EPL regroupent les expressions fig´ees et semi-fig´ees (ex. cordon bleu), les entit´es nomm´ees (ex. New York ), les verbes a` particule (ex. grow up), les constructions a` verbe support (ex. faire face a`), etc.(Sag et al., 2002; Constant et al., 2011). Elles sont fr´equemment employ´ees dans les textes ´ecrits car elles constituent une part significative du lexique d’une langue. (Jackendoﬀ, 1997) es-time que la fr´equence de leur utilisation est ´equivalente `a celle des mots simples. Bien qu’elles soient facilement employ´ees et reconnues par les humains, leur identification pose un probl`eme majeur pour diverses applications du traitement automatique des langues. Dans cette ´etude, nous nous int´eressons a` l’extraction de ce type d’unit´es.
Au cours des derni`eres ann´ees, de nombreux travaux de recherche ont et´ men´es sur la tˆache d’extraction d’EPL bilingues `a partir de corpus parall`eles. La traduction des EPL d’une langue `a une autre exige que ce type d’unit´e soit reconnue. C’est pour cette raison que la plupart des travaux identifient tout d’abord les EPL dans chaque partie du corpus parall`ele, et puis se basent sur diﬀ´erentes techniques d’alignements pour les mettre en correspondance.
Identification monolingue d’EPL : Les techniques d’identification d’EPL tournent autour de trois approches : (1) des approches symboliques (2) des approches statistiques et (3) des approches hybrides combinant (1) et (2). Les approches symboliques se basent sur des patrons morpho-syntaxiques d´efinis manuellement (N+Prep+N, N+N, Adj+N, …). Ces approches font appel a` des ´etiqueteurs morphosyntaxiques pour prendre en consid´eration certaines cat´egories de mots et a` des outils de lemmatisation pour reconnaˆıtre toutes les formes fl´echies d’une unit´e lexicale. Le travail de (Kupiec, 1993) peut ˆetre consid´er´ comme l’un des premiers travaux sur l’extraction d’EPL a` partir de corpus parall`eles. Ce travail ´etait centr´ sur des groupes nominaux comme “late spring” [la fin du prin-temps], identifi´es sur la base de leur cat´egorie en utilisant un reconnaisseur `a ´etats finis. Plusieurs travaux se sont bas´es sur cette technique dont ceux de (Okita et al., 2010).
(Dagan et Church, 1994) pr´esentent Termight, un outil de cr´eation de lexiques bilingues de termes techniques. L’identification de ces termes se fait sur la base d’un ´etiqueteur morpho-syntaxique. Ensuite, la liste de candidats trouv´ee est filtr´ee ma-nuellement. L’application de filtres `a base de cat´egories grammaticales permet une r´eduction importante du bruit dans les sorties par l’exclusion de candidats constitu´es de mots vides. Malgr´e leur simplicit´e, les approches symboliques restent diﬃcile a` appliquer lorsque les donn´ees ne sont pas etiquet´ees morpho-syntaxiquement. Une autre limite de cette approche est que la d´efinition de patrons d’extraction d’EPL est d´ependante de la langue.
Les approches statistiques d’identification d’EPL se concentrent sur leur compor-tement collocationnel. Ce comportement est quantifi´e sur la base de mesures d’associa-tion lexicales. Le r´esultat d’extraction est repr´esent´ par la liste de paires candidates tri´ee par ordre d´ecroissant du score d’association obtenu. Les paires situ´ees en haut de la liste sont les plus susceptibles de constituer de vraies EPL et de pr´esenter un int´erˆet lexicographique. (Smadja et al., 1996) proposent l’outil Xtract pour l’extrac-tion de collocations a` partir de textes `a travers une combinaison de n-grammes et d’une mesure d’information mutuelle. (Pecina, 2008) compare 55 mesures d’associa-tion pour le classement d’EPL candidates. Cette ´etude montre que la combinaison de diﬀ´erentes mesures d’association par une technique de classification classique (r´eseaux de neurones) contribue `a de meilleurs r´esultats que lorsque ces mesures sont employ´ees individuellement. Une limite pratique de ces approches est l’importante combinatoire g´en´er´ee, en particulier si l’on cherche `a extraire des EPL de plus de deux mots. En plus, dans ce type d’approche, la d´efinition d’un seuil `a partir duquel un segment extrait peut ˆetre consid´er´ comme une EPL ou pas est n´ecessaire.
Il est devenu clair que la simple mesure d’association ne suﬃt pas a` identifier les EPL et qu’il conviendrait de consid´erer en plus leurs propri´et´es linguistiques (Piao et al., 2005). Les approches hybrides combinent les informations statistiques avec des informations linguistiques morphologiques, syntaxiques ou encore s´emantiques pour l’identification des EPL. Par exemple, (Cook et al., 2007) utilisent des connaissances a` priori sur la structure syntaxique d’une expression idiomatique en vue de d´eterminer si une instance de l’expression est utilis´ee litt´eralement ou d’une fa¸con idiomatique. Ils pr´esument que, dans la plupart des cas, les usages idiomatiques d’une expression ont tendance a` se produire dans un petit nombre de formes de cet idiome. (Seretan et Wehrli, 2007; Daille, 2001; Moir´on et Tiedemann, 2006) utilisent des patrons morphosyntaxiques pour identifier des EPL candidats dans un texte et les pond`erent par leur valeur d’association. Dans ce cadre, la valeur d’association permet de pr´edire si une expression candidate est une EPL ou pas.
Des propri´et´es s´emantiques des EPL ont et´ r´ecemment utilis´ees pour distinguer les EPL compositionnelles de celles non compositionnelles. En eﬀet, (Katz et Gies-brecht, 2006; Baldwin et al., 2003) utilisent l’analyse s´emantique latente (LSA) et montrent que contrairement aux EPL non compositionnelles, les EPL composition-nelles apparaissent g´en´eralement dans des contextes similaires a` leur constituants. La limite principale de ce type d’approche, faisant intervenir l’aspect s´emantique, est que la distinction entre une utilisation idiomatique ou pas d’une EPL s’appuie sur des expressions idiomatiques connues et que cette information est g´en´eralement ab-sente. En outre, cette approche ne fonctionne que lorsque l’expression en question est extrˆemement fr´equente.
Alignement d’EPL : Pour identifier des correspondances entre expressions dans diﬀ´erentes langues, la plu-part des travaux font appel `a des outils d’alignement de mots simples pour gui-der l’alignement d’EPL (Dagan et Church, 1994; Moir´on et Tiedemann, 2006; Ren et al., 2009). D’autres se basent sur des algorithmes d’apprentissage statistique comme par exemple l’algorithme it´eratif de r´e-estimation Expectation Maximization (Kupiec, 1993; Okita et al., 2010). Une hypoth`ese largement suivie pour acqu´erir des EPL bilingues est qu’une expression dans une langue source garde la mˆeme structure syn-taxique que son ´equivalente dans une langue cible donn´ee (Seretan et Wehrli, 2007; Tufis et Ion, 2007). Or, les EPL ne se traduisent pas forc´ement par des expressions ayant la mˆeme cat´egorie grammaticale (i.e ≪ insulaire en d´eveloppement ≫ et ≪ small island developing ≫ ) ou la mˆeme longueur 1 (i.e ≪ en ce qui concerne ≫ et ≪ as regards ≫ ). Dans (Semmar et al., 2010), l’alignement de mots compos´es consiste a` ´etablir des correspondances par des r`egles de formulation entre les mots compos´es de la phrase source et ceux de la phrase cible.

Lexiques bilingues `a partir de corpus comparables

Bien que les corpus parall`eles bilingues se soient multipli´es au cours des derni`eres ann´ees, ils sont encore relativement peu nombreux par rapport `a la grande quantit´e de textes monolingues. Plus important encore, il est diﬃcile de disposer de corpus pa-rall`eles sp´ecialis´es dans un domaine particulier et s’ils existent, ces ressources doivent avoir et´e construites par des traducteurs humains. Par cons´equent, les lexiques bi-lingues construits a` partir de ces corpus sont le r´esultat d’une r´etro-ing´enierie du lexique utilis´e par les traducteurs. Cette r´etro-ing´enierie ajoute donc en plus un biais de traduction caus´e par les ph´enom`enes de calques (c’est `a dire une traduction mot a` mot) et d’autres traductions influenc´ees par la langue source. En outre, l’acquisi-tion et le traitement de ces corpus sont des tˆaches coˆuteuses en temps. Pour pallier ces insuﬃsances, les recherches r´ecentes se sont donc pench´ees sur l’exploitation de ressources diverses et plus disponibles : les corpus comparables.
L’alignement lexical a` partir de corpus comparables est toutefois une op´eration d´elicate : il n’est plus possible de s’appuyer sur la distribution des mots dans le docu-ment. Les approches propos´ees cherchent plutˆot `a prendre en compte le contexte de chaque terme a` aligner, c’est-a`-dire la fa¸con dont ils sont employ´es et les mots avec lesquels ils cooccurrent dans le texte. Cette section est consacr´ee a` la pr´esentation des diﬀ´erentes approches propos´ees. Dans la section 1.4.1, nous d´ecrivons les premi`eres approches s’int´eressant a` l’utilisation de corpus comparables pour l’extraction de lexiques bilingues. Nous pr´esentons ensuite dans les sections 1.4.2 et 1.4.3 l’approche standard et les diﬀ´erentes am´eliorations qui lui sont apport´ees. Enfin, nous passons en revue des approches connexes dans la section 1.4.4.

Transfert des vecteurs de contexte

Afin de rendre possible la comparaison des vecteurs sources et cibles, et contrai-rement aux m´ethodes introduites par (Rapp, 1995) et (Fung, 1995), les vecteurs des termes sources sont traduits par le biais d’un dictionnaire bilingue amorce. Ce dic-tionnaire sert de pont entre la langue source et cible. Il constitue l’´el´ement cl´e de l’approche standard. S’il propose plusieurs traductions pour un mot, l’ensemble de traductions propos´ees sont ajout´ees. Par contre, les mots qui n’y figurent pas sont simplement ignor´es. Les r´esultats d’extraction sont donc influenc´es par la couverture du dictionnaire bilingue.

Comparaison des vecteurs sources et cibles

Une fois traduits dans la langue cible, les vecteurs des termes a` traduire sont com-par´es a` l’ensemble des vecteurs de contexte des candidats a` la traduction a` l’aide d’une mesure de similarit´e vectorielle. La plus populaire est le cosinus, mais de nombreux auteurs ont etudi´ des m´etriques alternatives comme l’indice de Jaccard pond´er´ee ou encore la distance de Manhattan. En fonction des valeurs de similarit´e, nous obtenons une liste ordonn´ee de traductions candidates pour chaque terme a` traduire.

R´esultats de l’approche standard

Les recherches exploitant l’approche standard se sont int´eress´ees a` la construc-tion et `a l’extension de lexiques bilingues par des mots du domaine g´en´eral (Rapp, 1995), de termes issue d’un domaine de sp´ecialit´ (Chiao et Zweigenbaum, 2002; D´ejean et al., 2002; Prochasson et al., 2009) ou encore de termes complexes (Morin et Daille, 2006; Laroche et Langlais, 2010). Comme il a et´ mentionn´ pr´ec´edemment, le r´esultat d’alignement obtenu par cette approche est une liste ordonn´ee de candidats a` la traduction pour chaque terme a` traduire class´ee en fonction des valeurs de simi-larit´e entre leur vecteurs de contexte respectifs. Les r´esultats de cette approche sont evalu´es en comptant le nombre de candidats corrects trouv´es dans les N premiers candidats renvoy´es (succ`es au rang N ou succes`N ). Cette m´ethode d’´evaluation a et´ originellement utilis´ee dans la une conf´erence pour l’´evaluation des syst`emes de recherche d’information TrecEval.
La qualit´e des traductions obtenues par l’approche standard d´epend du domaine auquel on s’int´eresse, de la taille du corpus, de la taille de la fenˆetre contextuelle et des mesures d’association et de similarit´e adopt´ees. Par exemple, (Rapp, 1999a) ob-tient une pr´ecision de 72 % au succes`1 pour un tr`es large corpus comparable compos´e d’articles de journaux anglais-allemand. Dans le domaine m´edical, (Chiao et Zwei-genbaum, 2002) obtiennent une pr´ecision de 20 % pour le succes`1 avec un corpus fran¸cais-anglais d’environ 600 000 mots. Dans (Morin et al., 2008), les auteurs uti-lisent un corpus fran¸cais-japonais li´e `a la th´ematique du diab`ete et de l’alimentation. Pour les succes`10, ils portent la pr´ecision `a 49 %. En pratique, et comme il a et´ not´e dans (Prochasson, 2009), il est diﬃcile de comparer les r´esultats de diﬀ´erents tra-vaux en extraction de lexiques bilingues a` partir de corpus comparables, en raison de diﬀ´erences entre les corpus, les domaines d’´etude ou encore les ressources linguistiques utilis´ees.

Am´eliorations de l’approche standard

La couverture du dictionnaire bilingue assurant le transfert des vecteurs de contexte en langue cible demeure le noyau de l’approche standard. Si trop peu de mots sont traduits, la comparaison de vecteurs traduits et de vecteurs cibles ne don-nera pas une bonne repr´esentation de leur similarit´e distributionnelle puisque r´ealis´ee sur un ´echantillon trop faible de vocabulaire. La valeur des el´ements non traduits des vecteurs de contextes disparaˆıtra lorsque ce vecteur sera transf´er´ en langue cible. Pour limiter cet eﬀet, des techniques visant `a am´eliorer les r´esultats de l’approche standard ont vu le jour par l’adjonction de ressources linguistiques suppl´ementaires. Ainsi, en associant un dictionnaire de langue g´en´erale `a un dictionnaire sp´ecialis´e, dans le but d’aligner des termes simples, (Chiao et Zweigenbaum, 2003) obtiennent une am´elioration significative des performances d’alignement en faisant passer la pr´ecision de 61 `a 94 % pour les succes`20. Dans (Morin et Prochasson, 2011), les auteurs combinent un lexique g´en´eral avec un lexique de specialit´e. Ce lexique est extrait `a partir de segments parall`eles identifi´es dans le corpus comparable. Un gain en pr´ecision de +9 points pour le succes`20 a et´ rapport´e. Une approche similaire a et´ propos´ee par (Vuli´c et Moens, 2012) o`u les traductions sures sont d’abord extraites pour en construire un lexique bilingue servant apr`es d’amorce pour transf´erer les vecteurs de contexte du reste des candidats du corpus comparable. (D´ejean et al., 2002) s’appuient sur des propri´et´es hi´erarchiques d’un th´esaurus sp´ecialis´ pour am´eliorer les rangs des traductions candidates. Avec cette ressource suppl´ementaire, ils ont pass´e la pr´ecision de 57 a` 63 % pour les succes`20. (Li et Gaussier, 2010) proposent une approche qui tente d’am´eliorer la pr´ecision de la m´ethode standard en introduisant une mesure de comparabilit´e du corpus comparable consid´er´ et en am´eliorant le corpus selon cette mesure avant d’extraire le lexique bilingue.
R´ecemment, des recherches fond´ees sur l’hypoth`ese que plus les vecteurs de contextes sont repr´esentatifs, meilleure est la mise en correspondance bilingue ont et´ men´ees. (Prochasson et al., 2009) introduisent la notion de points d’ancrage constitu´es de translitt´erations et de mots compos´es scientifiques. L’hypoth`ese propos´ee repose sur le fait de donner plus d’importance `a ces unit´es lorsque l’on compare les vecteurs de contexte. Pour un corpus de textes issus du domaine m´edical anglais/japonaise, une am´elioration de la pr´ecision de 18 % en utilisant les translitt´erations et les mots compos´es scientifiques pour les succes`10 mais demeure nulle pour le succes`1. (Rubino et Linar`es, 2011) combinent la repr´esentation contextuelle avec une repr´esentation th´ematique et graphique (translitt´erations et cognats) de termes m´edicaux. Ils ´emettent l’hypoth`ese qu’un terme et sa traduction partagent des similarit´es d’un point de vue th´ematique et qu’en domaine de sp´ecialit´ beaucoup de termes sont port´es d’une langue a` une autre sans subir de modification. Leur m´ethode atteint une pr´ecision de 83 % et un faible rappel de 26 % pour les traductions au succes`1. (Hazem et Morin, 2012a) proposent deux crit`eres de filtrage du dictionnaire bilingue dans le but de ne garder que les mots qui donnent la meilleure repr´esentation du vecteur de contexte dans la langue cible. Le premier crit`ere se base sur les cat´egories grammaticales des mots du contexte mais aucune am´elioration n’a et´ d´emontr´ee. Le deuxi`eme crit`ere est bas´e sur une mesure de pertinence d’un mot pour un domaine donn´e. Contrairement au premier crit`ere, celui ci rapporte une petite am´elioration (4 % en pr´ecision) par rapport a` la m´ethode standard.
Les ambigu¨ıt´es r´ev´el´ees par le dictionnaire bilingue amorce ont et´ prises en compte plus r´ecemment. (Gaussier et al., 2004) utilisent une vue g´eom´etrique et d´ecomposent le vecteur d’un mot en fonction de ses sens par l’utilisation de plusieurs m´ethodes comme l’analyse canonique de corr´elation et l’analyse s´emantique latente. Les meilleurs r´esultats sont obtenus par l’utilisation d’une approche mixte avec une am´elioration de la pr´ecision moyenne (Mean Average Precision, MAP) de 10 % au succes`500. (Apidianaki et al., 2013) proposent une approche bas´ee sur une m´ethode de d´esambigu¨ısation lexicale trans-lingue. Dans leur approche, les sens candidats de chaque el´ement du vecteur de contexte correspondent aux clusters de sens de ses traductions qui sont trouv´ees dans un corpus parall`ele. La d´esambigu¨ısation des clus-ters de traduction se fait sur la base des el´ements du mˆeme vecteur de contexte. La d´esambigu¨ısation permet ainsi de ne garder que le cluster des traductions les plus pertinentes pour la description du terme a` traduire. La limite principale de cette m´ethode est qu’elle requiert un corpus parall`ele pour construire le lexique bilingue. Or, comme il a et´ not´e auparavant, ce type de ressource est tr`es rare surtout pour des domaines de sp´ecialit´.

Typologie d’EPL

Les classifications et terminologies des EPL sont tr`es nombreuses et vari´ees dans la litt´erature linguistique. La classification la plus populaire actuellement dans la com-munaut´e internationale du TAL est celle d´ecrite dans (Sag et al., 2002). Ces derniers proposent de d´ecouper les EPL en deux classes : les expressions lexicalis´ees et les expressions institutionalis´ees (Figure 2.1). Les expressions lexicalis´ees poss`edent un certain degr´ de figement syntaxique et/ou s´emantique, qui peut ˆetre d´etect´ par des crit`eres linguistiques formels. Les expressions institutionalis´ees sont compositionnelles syntaxiquement et s´emantiquement, mais sont statistiquement idiosyncratiques : les mots des expressions apparaissent ensemble soit par convention soit de mani`ere ha-bituelle comme par exemple l’EPL “traﬃc jam”. Nous pr´esentons dans ce qui suit les types d’EPL de ces deux classes et d´etaillons ceux qui nous seront utiles dans la suite : les collocations, les mots compos´es et les entit´es nomm´ees.

Les expressions lexicalis´ees

Expressions fig´ees:
Les expressions fig´ees sont des combinaisons de plusieurs mots, non-compositionnelles du point de vue s´emantique comme par exemple, l’expression cul de sac d´esignant une impasse. Les crit`eres linguistiques pour d´eterminer si une combinaison de mots est une expression fig´ee sont bas´es sur des tests syntaxiques et s´emantiques. Par exemple, l’expression boˆıte noire est une expression fig´ee car elle n’accepte pas de variations lexicales (boˆıte sombre, caisse noire) et elle n’autorise pas d’insertions (boˆıte tr`es noire).
Expressions semi-fig´ees:
Ces expressions respectent ´egalement les contraintes d’ordre des mots et de la non-compositionalit´e, mais elles sont soumises a` un certain degr´ de variation lexicale, par exemple dans la forme de flexion. Il est ainsi possible de les consid´erer comme une unit´e complexe ayant une seule partie de discours mais qui est lexicalement variable a` des positions particuli`eres, comme par exemple la terminaison. Selon (Sag et al., 2002), ces expressions prennent diverses formes, notamment des idiomes non d´ecomposables, des mots compos´es et des entit´es nomm´ees. Les idiomes non d´ecomposables sont des expressions dont les composantes ne contribuent pas a` la signification figur´ee de l’en-semble (par exemple, kick the bucket ou shoot the breeze). Les mots compos´es sont construits par une juxtaposition de deux mots permettant d’en former un troisi`eme qui soit un mot a` part enti`ere et dont le sens ne se laisse pas forc´ement deviner par celui des deux constituants. Ainsi, un garde-fou est, en fran¸cais, un lemme ind´ependant de garde et de fou dont le sens de ≪ pr`es d’un foss´e, empˆechant de tomber ≫ ne peut ˆetre devin´. Les mots compos´es comme car park, part of speech sont similaire au idiomes non d´ecomposables puisqu’ils sont ´egalement des unit´es non modifiable syntaxique-ment. Les entit´es nomm´ees sont des ph´enom`enes qui ont ´et´e largement etudi´es dans le TAL car ce sont des unit´es fondamentales pour plusieurs applications comme l’extrac-tion d’information ou la traduction automatique. Les entit´es nomm´ees comprennent de nombreux ph´enom`enes linguistiques comme les noms propres (noms de personne, d’organisation, etc.), les expressions num´eriques ou les expressions de temps. Dans cette ´etude, nous nous int´eressons plus particuli`erement aux mots compos´es et aux entit´es nomm´ees vu qu’ils apparaissent avec une fr´equence elev´ dans un texte et dans les textes du parlement europ´een, la plupart d’expressions sont constitu´es de mots compos´es et d’entit´es nomm´ees.
Expressions syntaxiquement flexibles:
Alors que les expressions semi-fig´ees conservent le mˆeme ordre des mots, les expres-sions syntaxiquement flexibles pr´esentent un ´eventail beaucoup plus large de variabi-lit´e syntaxique. Ce type d’expression se compose des verbes a` particule et des idiomes d´ecomposables. Les verbes a` particule sont constitu´es d’un verbe plus une ou plu-sieurs particules comme par exemple write up, look up. Les idiomes d´ecomposables ont tendance a` ˆetre syntaxiquement souples dans une certaine mesure. Des idiomes comme pop the question, ou spill the beans sont d´ecomposables, car chaque composant contribue a` l’interpr´etation figur´ee de l’ensemble. Ce qui importe pour qu’un idiome soit consid´er´ comme d´ecomposable c’est que ses parties poss`edent de la signification, litt´erale ou figur´ee, contribuant de fa¸con ind´ependante a` l’interpr´etation figur´ee de l’expression dans son ensemble.

Les expressions institutionalis´ees

Comme elles ont et´ d´efinies plus haut, les expressions institutionalis´ees sont constitu´ees essentiellement de collocations. Les collocations sont d´ecrites comme des combinaisons de mots qui pr´esentent des aﬃnit´es et tendent a` apparaˆıtre ensemble (pas forc´ement de mani`ere contig¨ue) (Tutin et Grossmann, 2002), comme par exemple, argument de poids, amour fou. Il existe deux approches principales pour d´efinir les collocations. Tout d’abord, en linguistique de corpus, les collocations sont consid´er´ees comme des combinaisons habituelles de mots au sens fr´equentiel (Sinclair, 1991). Cette d´efinition est celle utilis´ee le plus souvent par les chercheurs en TAL qui sp´ecifient les collocations a` l’aide de mesures associatives statistiques (Smadja et al., 1996; Pecina, 2008). Elle est assez large et couvre toutes les EPL. Certaines collocations sont rela-tivement fig´ees comme par exemple peur bleue. Avec les crit`eres utilis´es dans le cadre du lexique-grammaire qui constitue `a la fois une m´ethode est une pratique eﬀective de description formelle des langues, ce type d’expressions serait consid´er´ comme un mot compos´e : peur (bleue ou rouge ou orange).
Dans cette ´etude, nous nous int´eressons a` l’identification d’expressions institu-tionalis´ees et de certaines expressions lexicalis´ees, plus particuli`erement, nous don-nons plus d’attention aux mots compos´es, collocation, noms propres et certaines ex-pressions fig´ees pr´epositionnelles (en ce qui concerne, par rapport a,` . . . ) puisqu’elle constituent des EPL dont la fr´equence est tr`es elev´ee dans les textes.

Heuristiques de filtrage

Le r´esultat de l’identification des EPL est repr´esent´ par une liste d’EPL can-didates ordonn´ees en fonction de leur fr´equence dans le corpus. Plusieurs candidats parmi ceux produits apparaissent imbriqu´es dans d’autres. Afin d’´eviter un eﬀet de surg´en´eration, o`u nous identifions par exemple, des candidats qui sont imbriqu´es dans d’autres, nous proposons de filtrer la liste des candidats obtenue. Dans la litt´erature, le filtrage se fait par l’utilisation de mesures d’association (Daille, 2001; Seretan et Wehrli, 2007; Vintar et Fisier, 2008). Contrairement a` ces travaux, notre syst`eme n’applique pas de filtre fond´e sur des mesures d’association ou sur la fr´equence. Nous proposons par contre deux heuristique de filtrage visant a` ne garder que les expres-sions qui sont susceptibles de constituer des EPL. Ces heuristiques se basent plutˆot sur la taille des EPL et consid`erent que :
– Si une expression est imbriqu´ee dans une autre et qu’elles apparaissent avec la mˆeme fr´equence (par exemple les EPL “first instance” et “court of first instan-ce”), on ne garde que la plus couvrante (plus longue).
– Si une expression apparaˆıt dans un grand nombre d’autres expressions, nous suivons l’approche propos´ee par (Frantzi et al., 2000) et ´eliminons toutes les expressions plus longues. Par exemple l’EPL “member state” apparaˆıt dans
les EPL candidates “each member state, member state exercise, member state national, all member state”. Dans ce cas, nous consid´erons que les EPL plus longues ne sont pas assez pertinentes et ne gardons que l’EPL “member state”.
Nous prenons en consid´eration toutes les expressions extraites, aussi bien fr´equentes que non fr´equentes et celles dont les constituants ont un degr´ de corr´elation elev´ ou faible. A notre connaissance, aucune approche d’extraction d’EPL n’a aussi pris en consid´eration l’ensemble des EPL trouv´ees.

Alignement d’EPL : approche par comparaison de distributions

Dans cette section, nous pr´esentons la m´ethode d’alignement que nous propo-sons pour construire le lexique bilingue d’EPL. Cette m´ethode tente de trouver, pour chaque EPL de la langue source, la traduction qui lui correspond dans l’ensemble d’EPL de la langue cible. Cette tˆache pose de s´erieux probl`emes en l’absence de res-sources externes. C’est la raison pour laquelle la plupart des travaux de recherche portant sur l’alignement d’EPL utilisent des dictionnaires bilingues de mots simples et des r`egles de traduction compositionnelle (Semmar et al., 2010) ou des outils d’ali-gnement de mots simples (Ren et al., 2009; Deleger et al., 2009) pour mener `a bien la tˆache l’alignement. Dans la pr´esente ´etude, la m´ethode d’alignement que nous propo-sons est ind´ependante de toute ressource externe, elle requiert simplement un corpus parall`ele et la liste des EPL candidates dans les langues source et cible.
Notre approche h´erite de la s´emantique distributionnelle, o`u nous associons a` chaque EPL source et cible une repr´esentation sp´ecifique qui servira par la suite de base pour l’´etablissement d’une relation de traduction entre chaque paire d’EPL (source, cible). Elle consiste a` construire pour chaque EPL source (respectivement cible), l’empreinte de sa distribution dans la partie source (respectivement cible) du corpus parall`ele. Cette approche s’appuie sur l’hypoth`ese qu’il n’y a pas de traduc-tions manquantes dans le corpus parall`ele (Fung, 1995). Puisqu’aucune traduction ne manque, a` chaque fois qu’une EPL apparaˆıt a` un endroit dans le corpus source, sa traduction apparaˆıtra `a une position comparable dans le corpus cible. Ceci nous conduit par cons´equent a` ´emettre l’hypoth`ese que la distribution d’une EPL et de sa traduction sont similaires.
L’algorithme d’alignement que nous proposons enregistre cette distribution dans un vecteur de bool´eens, en notant la pr´esence ou non des EPL source (respectivement cible) dans les phrases du corpus source (respectivement cible). A titre d’exemple, nous pr´esentons le vecteur repr´esentant l’EPL fran¸caise “ `a nouveau ” dans la figure 2.3. Reste donc a` comparer les vecteurs sources avec les vecteurs cibles pour rep´erer les distributions les plus semblables. Plus en d´etail, notre algorithme d’alignement est it´eratif et op`ere de la fa¸con suivante :
1. Trouver l’EPL la plus fr´equente dans chaque phrase source.
2. Extraire les EPL cibles qui apparaissent dans toutes les phrases parall`eles a` celles o`u figure l’expression source.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 ´Etat de l’art
1.1 Introduction
1.2 Corpus multilingues
1.2.1 Corpus parall`eles
1.2.2 Corpus comparables
1.3 Lexiques bilingues `a partir de corpus parall`eles
1.3.1 Alignement phrastique
1.3.2 Alignement sous-phrastique
1.3.2.1 Alignement de mots et de segments
1.3.2.2 Vers l’alignement d’expressions polylexicales
1.4 Lexiques bilingues `a partir de corpus comparables
1.4.1 Premi`eres approches
1.4.2 Approche standard
1.4.2.1 Constitution des vecteurs de contexte
1.4.2.2 Transfert des vecteurs de contexte
1.4.2.3 Comparaison des vecteurs sources et cibles
1.4.2.4 R´esultats de l’approche standard
1.4.3 Am´eliorations de l’approche standard
1.4.4 Approches connexes
1.5 Conclusion
I Extraction de lexiques bilingues `a partir de corpus paral` elles
2 Lexique bilingue d’expressions polylexicales
2.1 Introduction
2.2 Expressions polylexicales
2.2.1 D´efinition
2.2.2 Typologie d’EPL
2.2.2.1 Les expressions lexicalis´ees
2.2.2.2 Les expressions institutionalis´ees
2.3 Extraction de lexique bilingue
2.3.1 Identification monolingue d’EPL
2.3.1.1 EPL candidates
2.3.1.2 Heuristiques de filtrage
2.3.2 Alignement d’EPL : approche par comparaison de distributions
2.4 Evaluation
2.5 Conclusion
3 Application des expressions polylexicales `a un syst`eme de traduction statistique
3.1 Introduction
3.2 Traduction automatique statistique
3.2.1 Traduction statistique : mod`ele standard
3.2.2 Moses : TAS `a base de segments
3.3 EPL dans Moses
3.3.1 Strat´egies d’int´egration dynamiques
3.3.1.1 Nouveau mod`ele de traduction
3.3.1.2 Extension de la table de traduction
3.3.1.3 Trait additionnel pour les EPL
3.3.2 Strat´egie d’int´egration statique
3.4 Exp´eriences et r´esultats
3.4.1 Cadre exp´erimental
3.4.1.1 Corpus et outils
3.4.1.2 Qualit´e d’une traduction
3.4.2 R´esultats et discussion
3.5 Conclusion
II Extraction de lexiques bilingues : Vers l’exploitation de corpus comparables
4 Contexte et Mat´eriel
4.1 Introduction
4.2 Corpus Comparables
4.2.1 Wikip´edia comme corpus comparable
4.2.2 Corpus du projet TTC
4.2.3 Normalisation des corpus
4.3 Dictionnaires bilingues
4.4 Listes de r´ef´erences
4.5 Param`etres exp´erimentaux
4.5.1 Fenˆetre contextuelle
4.5.2 Mesure d’association
4.5.3 Mesure de similarit´e
4.6 Param`etres d’´evaluation
4.7 Conclusion
5 D´esambigu¨ısation lexicale des vecteurs de contexte
5.1 Introduction
5.2 Aper¸cu g´en´eral de l’approche
5.3 Ressources s´emantiques
5.3.1 WordNet
5.3.2 Mesures de similarit´e s´emantique
5.3.2.1 `A base de distance taxinomique
5.3.2.2 `A base de traits
5.3.3 ´Evaluation des mesures de similarit´e
5.4 Algorithme de d´esambigu¨ısation
5.5 ´Evaluations
5.5.1 Approches de r´ef´erence
5.5.2 Polysemie dans les corpus comparables
5.5.3 Fusion de donn´ees par syst`eme de vote
5.5.4 R´esultats exp´erimentaux et analyse
5.6 Conclusion
6 Analyse s´emantique explicite pour l’extraction de lexiques bilingues
6.1 Introduction
6.2 Analyse s´emantique explicite (ESA)
6.3 Aper¸cu g´en´eral de l’approche
6.4 Repr´esentation contextuelle
6.4.1 Repr´esentation directe
6.4.2 Repr´esentation `a partir de contextes
6.4.3 Combinaison de repr´esentations
6.5 Graphe de traduction
6.6 Identification de traductions candidates
6.7 ´Evaluations
6.7.1 Repr´esentations contextuelle
6.7.1.1 Cadre exp´erimental
6.7.1.2 R´esultats et discussion
6.7.2 Sp´ecificit´e au domaine
6.7.2.1 Sp´ecificit´e des mots
6.7.2.2 Dictionnaire g´en´erique
6.7.2.3 Analyse des r´esultats
6.8 Conclusion
Conclusion
Bibliographie