La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni.

Présentations similaires


Présentation au sujet: "Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni."— Transcription de la présentation:

1 Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni ISSCO / TIM / ETI Université de Genève, Suisse

2 RECITAL 2005Bruno Cartoni2 Plan de l’exposé  But de la recherche  Motivations  Modèle proposé  Expérience  Choix d’un processus de construction  Réalisation de l’expérience  Évaluation  Conclusion et perspectives

3 RECITAL 2005Bruno Cartoni3 But de la recherche  Résoudre l’incomplétude lexicale en TA  Exploiter les propriétés morphosémantiques des néologismes construits

4 RECITAL 2005Bruno Cartoni4 Motivations (I)  Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu en TA :  non-traduction  analyse syntaxique de la phrase affectée Caractérisation des mots inconnus (Maurel, 2004)  noms propres  créations lexicales  erreurs typographiques

5 RECITAL 2005Bruno Cartoni5 Motivations (II)  Créativité lexicale  propriété de chaque langue de former de nouvelles unités (Guilbert, 1975)  Néologie formelle  création de formes nouvelles à partir de matériaux lexicaux existants  75 % de la néologie (Cabré, 2002)  construction morphologique (préfixation, suffixation, etc.)

6 RECITAL 2005Bruno Cartoni6 Motivations (III)  Parallélisme entre deux langues morphologiquement proches  français et italien : même origine, même fonds lexical commun (Geysen, 1990)  similitudes dans les procédés de construction des mots  similitudes exploitables en TALN (Namer, 2001; Gdaniec, et al. 2001)

7 RECITAL 2005Bruno Cartoni7 Modèle proposé (I) ItalienFrançais Devo riaffrontare questo problema. Je dois riaffrontare ce problème. ?

8 RECITAL 2005Bruno Cartoni8 Modèle proposé (II) Mot inconnu construit : riaffrontare Analyse du mot par décomposition : ri + affrontare Transfert lexical Génération par construction néologique : réaffronter Italien Français affrontare  L it Je dois réaffronter ce problème.

9 RECITAL 2005Bruno Cartoni9 Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical Base : affronter RCM : re + verbe = verbe  Dictionnaire bilingue de formes de base  Règles de construction des mots (Corbin, 1987) bilingues

10 RECITAL 2005Bruno Cartoni10 Hypothèses  Les néologismes construits sont sémantiquement transparents.  Les procédés de construction des mots sont parallèles dans deux langues morphologiquement proches.

11 RECITAL 2005Bruno Cartoni11 Expérience  Choix d’un processus de construction  Construction et application de RCM bilingues  Evaluation  Evaluation de l’analyse ( sens sémantiquement transparent des néologismes en langue source )  Evaluation de la traduction ( mots construits en langue cible )

12 RECITAL 2005Bruno Cartoni12 Processus de construction  En italien (Dardano, 1978) : ri- + Y verbe = « Y di nuovo » (rimangiare, rifare, etc.)  En français (Rey-Debove, 2004) : re- + Y’ verbe = « Y’ de nouveau » (remanger, refaire, etc. )

13 RECITAL 2005Bruno Cartoni13 La RCM bilingue FR X/ VERBE => ri/ PREF [Y/ VERBE ] Y/ VERBE  L it X’/ VERBE => re/ PREF [Y’/ VERBE ] Y’/ VERBE  L fr IT où : Y/ VERBE = Y’/ VERBE (équivalents de traduction) = (+ tous les changements morphographémiques)

14 RECITAL 2005Bruno Cartoni14 Le préfixe réitératif sur un nom déverbal  En italien (Dardano, ibid ) : ri- + X nom_deverbal (ristabilizzazione)  En français : re- + X nom_deverbal (redistribution)

15 RECITAL 2005Bruno Cartoni15 La RCM bilingue pour les noms déverbaux FR IT = X/ NOM => ri/ PREF [Y/ NOM ] Y/ NOM = [a-z]*zione/i | [a-z]*mento/i | [a-z]*aggio/i Y/ NOM  L it X’/ NOM => re/ PREF [Y’/ NOM ] Y’/ NOM = [a-z]*tion/s | [a-z]*ment/s | [a-z]*age/s Y’/ NOM  L fr où : Y/ NOM = Y’/ NOM (équivalents de traduction) (+ tous les changements morphographémiques)

16 RECITAL 2005Bruno Cartoni16 Corrélaire En français comme en italien: « ce qui est défait peut être refait » RCM pour le préfixe de-/dé- devant un nom ou un verbe Paradigmes: IT: stabilizzare/destabilizzare/ristabilizzare FR: stabiliser/déstabiliser/restabiliser

17 RECITAL 2005Bruno Cartoni17 Réalisation de l’expérience 1.Extraction des mots inconnus du corpus italien (ilSole24ore) par confrontation avec le lexique L it 2.Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) 4.Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) 3.Traduction de la base (par un système de TA commercial)

18 RECITAL 2005Bruno Cartoni18 Etape 1 : les mots inconnus Méthode : confrontation du corpus (ilSole24ore) avec le lexique d’un analyseur morphosyntaxique ( mmorph )  corpus : 1.88 mio d’occurrences  mots inconnus : 225 075 (12 %)  exclusion des noms propres  potentiellement néologismes : 90 260 (4.8 %) Mots inconnus = Corpus – LexRef

19 RECITAL 2005Bruno Cartoni19 Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) X/ VERBE => ri/ PREF [Y/ VERBE ] Y/ VERBE  L it IT "riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] …

20 RECITAL 2005Bruno Cartoni20 Etape 2 : évaluation  Les néologismes construits sont-ils sémantiquement transparents ?

21 RECITAL 2005Bruno Cartoni21 Etape 2 : évaluation ex: ri + posare ex: de + cantare  erreurs  néologismes  lacunes du lexique de référence Les verbes:

22 RECITAL 2005Bruno Cartoni22 Etape 2 : évaluation ri + suzione Les noms:

23 RECITAL 2005Bruno Cartoni23 Etape 3 : traduction Traduction de la base (Systran © + validation manuelle) " riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] … ITFR "organizzare" ="organiser" "distribuzione" ="distribution" "centralizzazione"= "centralisation"

24 RECITAL 2005Bruno Cartoni24 Etape 4 : traduction Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) IT =FR "riorganizzare" = "réorganiser" "redistribuzione" = "redistribution" "decentralizzazione" = "décentralisation" …

25 RECITAL 2005Bruno Cartoni25 Etape 4 : évaluation  Evaluation des constructions françaises :  jugement humain de la correction de la traduction (sentiment linguistique)  jugement uniquement sur la « bonne » formation du néologisme en français  jugement selon trois critères (correct / incertain / incorrect )

26 RECITAL 2005Bruno Cartoni26 Etape 4 : évaluation recrocheter réemplacement

27 RECITAL 2005Bruno Cartoni27 Résultats chiffrés  Bon taux de rappel  Meilleurs résultats sur des règles très contraintes

28 RECITAL 2005Bruno Cartoni28 Conclusions  Pour une règle très restreinte, les RCM bilingues proposent des traductions très valables.  La relative constance de l’utilisation du préfixe ri- /re- en fait une règle utile sur le long terme.  La règle permet d’éviter une alimentation frénétique des lexiques informatisés pour tous les mots construits possibles.

29 RECITAL 2005Bruno Cartoni29 Perspectives  Application du même principe à l’ensemble des préfixes connus de l’italien  Application du même principe aux formants néoclassiques (Iacobini, 2004) tele-, eco-, euro-, pseudo-  Etude des limites du modèle  Extension à d’autres paires de langues

30 Merci

31 RECITAL 2005Bruno Cartoni31 Référence  Cabré T., Freixa, J., Solé E., (2002), A la limite des mots construits possible, Actes du Forum de morphologie, pp. 65-78.  Corbin D., (1987), Morphologie dérivationnelle et structuration du lexique, Tuebingen, Niemeyer.  Dardano M., (1978), La formazione delle parole nell'italiano di oggi, Rome, Bulzoni.  Gdaniec C., Manandise, E., McCord, M., (2001), Derivational Morphology to the Rescue: How It Can Help Resolve Unfound Words in MT. Actes de MT Summit VIII.  Guilbert, L. (1975), La créativité lexicale, Larousse, Paris.  Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes de JADT 2004, Louvain-la-Neuve.  Namer, F. (2001), Génération automatique de néologismes bilingues morphologiquement construits en français et en italien. Actes de TALN 2001. pp. 281-296.  Rey-Debove J., Ed. (2004). Brio, Paris, Dictionnaire Le Robert.


Télécharger ppt "Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni."

Présentations similaires


Annonces Google