Mémoires partagées d’alignements sous-phrastiques bilingues

Alignement de mots

Des situations de croisement interviennent dès lors que l’on aligne des unités plus fines que la phrase entre deux langues quelconques. Nous abordons ici l’alignement de mots (ou alignement simple) dans lequel on fait l’hypothèse que les correspondances sont injectives [58] [137] [97] (un mot est aligné au plus à un autre, éventuellement à aucun). Réduire l’alignement à un paradigme injectif, ne semble pas très pertinent, d’un point de vue linguistique, mais les différentes approches liant simplement des mots ont souvent l’avantage d’être plus précises et moins difficiles. Produire un alignement simple constitue parfois la première étape de traitements visant à apparier des unités plus longues par propagation [107] ou par discrimination [58]. Les unités liées sont alors appelées des ancres sûres. Par ailleurs, le problème de l’alignement de mots peut se ramener à un problème connu de couplage dans un graphe biparti, pour lequel il existe des solutions polynomiales, notamment par la méthode hongroise [97] [136]. Lorsque l’hypothèse d’injectivité n’est pas faite, des alignements entre groupes de mots peuvent apparaître, ce qui présente à la fois un avantage et une faiblesse. Certes, il est alors possible de rendre compte de correspondances plus complexes et plus légitimes (les verbes anglais à particule sont un bon exemple), mais il sera parfois difficile d’interpréter les raisons d’un alignement groupant. En effet, des liens groupants pourront refléter la présence d’un syntagme cohérent, mais tout aussi bien indiquer une hésitation de la part du système, auquel cas il faut envisager chaque lien comme une branche possible d’une alternative (voir figure 1.3). On parle parfois de « liens sûrs » pour désigner les liens simples et de « liens flous » ou « probables » pour les liens multiples [82] [38].

Alignements croisants

Les croisements sont une difficulté majeure dans l’alignement sous phrastique puisque nous l’avons vu, chercher une solution sans contrainte de réordonnancement est un problème NP-difficile. Dans les modèles IBM [24], cette restriction se fait via un paramètre dit de distorsion grâce auquel tous les alignements ne sont pas équiprobables et dépendent notamment des positions des mots dans la biphrase. Les modèles 4 et 5, en complexifiant les paramètres,tiennent compte de distorsions relatives, permettant à des mots liés localement de conserver leur proximité en passant à l’autre langue. Des approches utilisant des tables d’intervalles de mots [82] ou des segmentations de la biphrase [139] entraînent également des modèles de distorsion relative pour réordonner les intervalles. Des travaux proches entraînent leur paramètre de distorsion grâce à un pré-alignement de mots [6] utilisé pour décrire les permutations locales entre les langues. Une approche différente consiste, pour une des deux langues, à réordonner dans chaque phrase des ensembles de mots afin de rendre les deux langues plus « semblables ». L’intérêt est alors de pouvoir y appliquer des techniques d’alignement monotone ou presque (voir par exemple [75], [41], [66]). On parle de techniques de monotonisation. Des analyses syntaxiques permettent un réordonnancement motivé linguistiquement (voir section suivante 1.1.3.7).

Discussion en faveur d’un modèle d’alignement adapté aux divergences

Autour d’une discussion guidée par des exemples, nous tentons de circonscrire et de préciser le type d’alignements dont il est question ici. En d’autres termes, quelle limite peut-on légitimement s’autoriser ? En évoquant les différents phénomènes de divergence au chapitre précédent, nous avons mentionné la volonté de voir, au sein d’une biphrase alignée, la possibilité de lier des groupes de mots. La première contrainte que l’on souhaite imposer est celle-ci : un mot lié n’appartiendra qu’à un seul groupe de mots tous liés entre eux. Il s’agit d’une hypothèse de « bonne formation » classique dans des approches de traduction formalisant des représentations alignées. On peut citer par exemple le « Alignment Well-Formedness Criteria » dans l’approche d’alignement de sous-arbres de [140] ou encore la contrainte d’unicité dans la définition des S-SSTC de Tang [5] qui sont des alignements sur des structures bilingues complexes. Un « alignement » ne satisfaisant pas cette hypothèse serait selon nous une forme dégénérée sans grande valeur1 l’interaction avec l’outil AlignIt respectera cette contrainte linguistique. On observe en figure 2.1 un alignement dégénéré et quelques alternatives bien formées : dans l’alignement dégénéré, les mots cible s1 et s3 sont liés à c1, mais ne partagent pas le même ensemble de voisins (c3 est voisin de s3 mais pas de s1). Le groupe de liens rouges ne forme donc pas une unité de sens. Remarquons qu’aucun des modèles décrits dans l’état de l’art en section 1.1 (mots, ITG, asymétriques, intervalles de mots, …) ne produit de forme dégénérée. La contrainte, bien qu’implicite, est assez universelle.

Les sous-ensembles de modèles existants

Les différents modèles d’alignement existants imposent généralement des contraintes afin d’alléger les traitements algorithmiques. Il en résulte des types d’alignement variés. En se basant sur une biphrase B = (S,C) de longueur (n,m) donnée, les différents modèles décrits précédemment au 1.1 (mots, ITG, asymétriques, intervalles de mots,etc.) opèrent sur des ensembles que l’on peut injecter naturellement dans A (S,C). Il peut lui même être injecté dans B(S,C), l’ensemble des graphes bipartis sur des nœuds étiquetés par les mots de S et C. En dénombrant les espaces sur lesquels opèrent les différents modèles évoqués, nous espérons ici donner une idée de leur expressivité. Bien sûr, il s’agit d’une description quantitative. En aucun cas il ne faut voir les espaces d’alignements comme l’ensemble des configurations obtenues en confrontant des paires de langues,mais plus vraisemblablement comme l’espace circonscrit par les limites de l’expressivité de chaque modèle. Les différentes études sur la divergence nous encouragent à opter pour des barrières très reculées entourant un très vaste espace. En choisissant A (S,C) comme l’espace le plus général au lieu de B(S,C), nous signalons toutefois que cet espace ne doit pas se montrer inutilement trop général. Nous passons en revue quelques exemples de modèles classiques et dénombrons chaque fois les alignements de couverture maximale du modèle concerné, pour alléger les formules. Pour dénombrer aussi les alignements partiels, il faudra sommer sur toutes les sous-biphrases.

Un « travail » collaboratif

Le magazine Time choisit de reconnaître « Vous » comme personnalité de l’année 2006, en soulignant l’importance de la communauté informatique qui collabore [en ligne] comme jamais auparavant pour créer des objets nouveaux tels que Wikipedia, Youtube ou MySpace. L’outil développé durant cette thèse est une plate-forme collaborative, aidant à la construction d’une ressource alignée de qualité dans plusieurs langues, contrôlable et modifiable par des annotateurs non-experts. Ceux-ci peuvent, via une interface web, parcourir phrase après phrase des corpus multilingues proposés et les aligner (à un niveau sous-phrastique) à la souris. Pour parler de véritable collaboration, il faut favoriser l’interopérabilité. Nous avons choisi une approche totalement transparente dans le sens où les alignements de chacun sont visibles par tous. Un enregistrement de l’utilisateur est tout de même nécessaire afin d’associer chaque alignement à son annotateur. Ainsi, il est possible de contribuer en créant un alignement à partir d’une biphrase vierge de tout lien ou de se servir de l’alignement d’un autre comme base de départ. Dans les deux cas, sauvegarder l’alignement se fait sur son espace de travail personnel, on ne pourra jamais modifier celui d’un autre et inversement. Les informations sont stockées sur le serveur hébergeant le site et seuls quelques calculs nécessaires à l’affichage des liens sont gérés côté client. L’approche web permet un accés immédiat et ne demande aucune installation. Finalement, la ressource créée sera téléchargeable en l’état à tout instant, directement sur le site sous un format XML. L’outil AlignIt est donc un prototype permettant l’alignement collaboratif via un site web. Les approches collaboratives nécessitent généralement la valorisation de l’outil dans un modèle économique et/ou social propre à entretenir l’intervention de contributeurs. Dans le cadre de cette thèse nous nous sommes limités à étudier l’outil en soi,ses prérequis théoriques et techniques ainsi que d’explorer des possibilités d’automatisation. Nous parlons donc de prototype dans le sens où l’outil n’est qu’une vitrine (bien que la ressource créée soit bien réelle) et pourrait être au cœur d’une forme finalisée dans le type de différentes plates-formes collaboratives (une transformation nécessitant 5pas dans la version actuelle, mais c’est prévu quelques apports, mais aucune modification fondamentale). On peut donner l’exemple d’approches dites de sciences participatives utiles pour la récolte de données scientifiques. Il peut y avoir un travail de communication opéré en amont au travers des média classiques (journaux, radios, TVs internet) et/ou des compensations financières. Les approches les plus connues sont en biologie/médecine pour des études sur la santé ou encore le test de médicaments ou de produits cosmétiques. On peut aussi trouver des exemples plus originaux comme celui du projet sud4science [110] qui pour former un corpus de plus de 90000 SMS a ouvert une vaste campagne de communication autour de la récolte de SMS, récompenses à la clé. Le projet Blinker est également assimilable aux sciences participatives et pour lesquelles les annotateurs sont rémunérés. Mais de nombreux projets aux budgets limités recherchent aussi l’intervention de bénévoles en imaginant d’autres motivations. C’est le cas des approches de type jeu avec un but. Nous pouvons citer, dans le domaine du TAL, le Phrase Detective de Jon Chamberlain [32] qui propose, au travers de mini-jeux, de créer une ressource annotée sémantiquement. Il s’agit en général de repérer dans un corpus, des co-références, ce qui est appelé « trouver le coupable ». Le JeuxDeMots9 de Mathieu Lafourcade [85] est un autre exemple de GWAP pour lequel les joueurs contribuent à la construction d’un réseau lexical. Principalement, les jeux proposent de lister des mots ou expressions qui partagent une relation avec un mot de départ (relation dont la nature peut être entre autres la synonymie, l’antonymie, l’hyperonymie ou plus simplement une idée associée). La motivation qui est ici le jeu, peut revêtir d’autres formes comme celle d’outil pédagogique : nous citons à ce titre PtitClic-Kids [162]10 proposé à des enseignants pour travailler sur le vocabulaire avec leurs élèves. Puis nous pouvons évoquer simplement les outils non ambivalents de travail collaboratif pour lesquels l’objet produit est le but premier des contributeurs. L’exemple le plus proche de notre problématique est celui des outils de Traduction Assistée par Ordinateur (TAO)11 englobant une dimension collaborative tel que TRANSBey.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

LISTE DES FIGURES
CHAPITRE 1 : PROBLÉMATIQUE ET ÉTAT DE L’ART
1.1 L’alignement
1.1.1 Notions
1.1.2 L’alignement sous-phrastique
1.1.3 Des modèles de différentes expressivités
1.2 De la divergence en traduction
1.2.1 Premier obstacle : les expressions
1.2.2 La préservation du sens derrière la forme de surface
1.2.3 La divergence observée face à la divergence souhaitée
1.3 Positionnement
CHAPITRE 2 : L’ENSEMBLE DES ALIGNEMENTS
2.1 Discussion en faveur d’un modèle d’alignement adapté aux divergences
2.2 Un modèle adapté
2.2.1 Généralités
2.2.2 L’espace formel des alignements sous-phrastiques
2.2.3 Les sous-ensembles de modèles existants
2.3 Comparaison entre alignements
2.3.1 Avant-propos
2.3.2 Les distances des transferts
2.3.3 La distance des divisions
CHAPITRE 3 : ALIGNIT : UNE APPROCHE COLLABORATIVE ET DES OUTILS AUTOMATIQUES
3.1 Mise en place d’un outil d’alignement collaboratif
3.1.1 Motivations et orientations envisagées
3.1.2 AlignIt : Présentation de l’interface homme-machine
3.2 L’alignement sous-phrastique à base d’exemples
3.2.1 Avant-propos
3.2.2 Architecture générale
3.2.3 L’analyse syntaxique en renfort
CHAPITRE 4 : MODÈLE DE REPRÉSENTATION THÉORIQUE POUR DES ALIGNEMENTS STRUCTURÉS
4.1 Une structure expressive pour décrire les exemples
4.1.1 Une correspondance entre l’arbre et la phrase : la SSTC
4.1.2 Une correspondance bilingue entre SSTC : la S-SSTC
4.2 Les structures bilingues dans AlignIt
CHAPITRE 5 : UNE MÉMOIRE DE FRAGMENTS POUR L’ALIGNEMENT À BASE D’EXEMPLES
5.1 Constitution d’une mémoire d’exemples
5.1.1 Fragments formels
5.1.2 Les mémoires d’alignements
5.1.3 La taille (potentielle) de l’ensemble des fragments compatibles
5.2 Reconstruction à base de fragments
5.2.1 Modélisation du problème
5.2.2 Complexités
5.2.3 Bilan
CHAPITRE 6 : CADRE EXPÉRIMENTAL
6.1 Ressources utilisées
6.1.1 Des corpus parallèles
6.1.2 Les analyseurs syntaxiques
6.2 Quelques expériences
6.2.1 La reconstruction par des fragments courts
6.2.2 Accords et désaccords d’une approche non experte
CHAPITRE 7 : CONCLUSION
7.1 Synthèse
7.2 Perspectives
7.2.1 Apports techniques souhaitables
7.2.2 R-utilisateurs trilingues
7.2.3 Fragmentations
7.2.4 Des solutions du côté de la bioinformatique
7.2.5 Le mot de la fin
BIBLIOGRAPHIE
I.1 Corpus news commentary
I.2 Corpus DW2
II.1 Corpus news commentary
II.2 Corpus DW2
RÉSUMÉ