Sylwia Ozdowska1, Vincent Claveau2 Alignement de mots par apprentissage artificiel de règles de propagation syntaxique en corpus de taille restreinte Sylwia Ozdowska1, Vincent Claveau2 1ERSS – Université de Toulouse le Mirail ozdowska@univ-tlse2.fr 2OLST – Université de Montréal vincent.claveau@umontreal.ca Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Alignement – késako ? Mise en correspondance dans un corpus parallèle de segments textuels qui sont potentiellement la traduction les uns des autres Prise en compte de différents niveaux de segmentation textuelle paragraphes, phrases, syntagmes, mots Intérêts de l’alignement (Véronis 00) traduction automatique acquisition de ressources multilingues Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Alignement de mots – comment ? Utilisation dominante de modèles statistiques (Brown et al. 93) nécessite de grandes quantités de données Quelques techniques basées sur la syntaxe analyse en constituants/dépendances (Wu 00 ; Ozdowska 04) connaissances/outils linguistiques Dans notre cas analyse en dépendances anglais/français peu de données d’entrainement Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Alignement basé sur la syntaxe Hypothèse de Debili & Zribi (1996) : partir de deux mots en relation de traduction dans des phrases alignées – le "couple amorce" propager le lien d'équivalence vers d'autres mots de la phrase à l'aide des relations de dépendance syntaxique le couple amorce Community/Comunauté permet d’aligner les mots ban/interdire grâce à la relation sujet propagation syntaxique suj The Community banned imports of ivory. La Communauté a interdit l'importation d'ivoire. suj Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Règles de propagation syntaxique suj The Community banned imports of ivory. La Communauté a interdit l'importation d'ivoire. suj Règle de propagation utilisée V suj Nom / V suj Nom propagation à partir d'un couple amorce de régis Community / Communauté vers un couple de verbes recteurs ban/interdire Critères de définition type de relation syntaxique direction de la relation (partie du discours) Comment ? manuellement (Ozdowska, 2004) automatiquement apprentissage artificiel Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Programmation Logique Inductive PLI : technique d’apprentissage artificiel supervisée à partir d’ exemples E+ d’un concept… … et d’un ensemble B de connaissances externes… … apprendre un ensemble H de règles (clauses de Horn)… … tel que B H E+╞/= □ et B H ╞= E+ Dans notre cas concept = règles d’alignement syntaxique E+ = exemples d’alignements corrects dans des phrases B = couples amorces et relations syntaxiques connues dans les biphrases exemples Intérêts de la PLI règles inférées interprétables => comparaison modélisation naturelle des dépendances syntaxiques par des prédicats (eg. M1 est sujet de M2 => sujet(M1,M2)) Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Constitution d'exemples Couples amorces = exemples d'alignements valides nécessaires à l'apprentissage (E+) Détection des couples amorces projection d'un lexique bilingue extrait de chaque corpus par calcul de fréquences de cooccurrence des mots dans les biphrases repérage de cognats par calcul de la sous-chaîne maximale commune à deux mots Détection en moyenne de 4 à 6 couples amorces (selon les corpus) par biphrase Taux d'erreur d'environ 5% Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Apprentissage de règles de propagation Soient la biphrase …private sector companies / …les entreprises du secteur privé les relations syntaxiques det(entreprises, les). prep(du, secteur). prep_de(entreprises, du). adj(secteur, privé). nn(compagnies, sector). adj(sector, private). le couple amorce ca(sector, secteur). Si companies/entreprises sont alignés (amorce), la règle inférée à partir de cet exemple est align(MEn, MFr) :- nn(MEn, E1), prep_de(MFr, F1), prep(F1,F2), ca(E1,F2). MEn nn E1 / MFr prep_de F1 prep F2 E1 MEn MFr F1 F2 Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
En résumé… Détection des couples amorces E+ Biphrases etiquetées syntaxiquement Algo de PLI Corpus etiqueté syntaxiquement align(MEn, MFr) :- nn(MEn, E1), prep_de(MFr, F1), prep(F1,F2), ca(E1,F2). Alignements Application des règles Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Données d'apprentissage Corpus d'entraînement HANSARD : débats parlementaires canadiens ARCADE : questions-réponses traitées à la Commission Européenne INRA : recherche agronomique influence du corpus d'apprentissage sur les règles inférées ? Utilisation d'une portion de chaque corpus variant de 10 à 1000 biphrases influence de la taille du corpus d'apprentissage sur les performances ? Relations de dépendance syntaxique repérées par SYNTEX (Bourigault & Fabre, 2000) Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Données d'évaluation Données de la campagne HLT 2003 (Mihalcea & Pedersen, 2003 ; Och & Ney, 2003) comparaison avec les modèles statistiques (notamment ceux basés sur GIZA++) Corpus de test 447 biphrases extraites du HANSARD ( corpus d'entraînement) Jeu de référence (2 annotateurs) alignement S (accord inter-annotateurs) alignement P (ambigu expressions figées, traductions libres) : tous les autres cas Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Règles inférées Inférence 30 règles pour chaque corpus avec 1000 phrases Productivité des règles isomorphismes parfaits, i.e. même structure syntaxique dans les deux langues ( 50% des règles) non-isomorphismes plus ou moins standard, e.g. structure N N de l'anglais et N de N du français peu de différences dans les règles d'un corpus à l'autre Comparaison avec (Ozdowska 04) très peu de différences règles non produites manuellement Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Résultats (1) Évaluation (alignements S) Peu de variation en fonction du corpus d'apprentissage Performances comparables à celles offertes par les systèmes statistiques en terme de f-mesure meilleure précision… …rappel relativement plus bas Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Résultats (2) Évolution des performances selon la taille des corpus d'entraînement nombre de phrases qui servent à produire les exemples pour l'apprentissage variant de 10 à 1000 exemple du corpus HANSARD 300 à 1000 phrases : quasiment aucune variation de P et R < 300 phrases : P augmente et R décroît seules les règles de propagation les plus sûres sont trouvées 10 phrases : inférence de règles suffisamment pertinentes pour avoir une f-mesure de 65% Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Résultats (2) Évolution des performances selon la taille du corpus d'entraînement (10 à 1000 phrases) Corpus HANSARD Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Examen des résultats Alignements non détectés densité de couples amorces insuffisante absence de relations de dépendance Alignements détectés à tort erreurs d'étiquetage syntaxique règles inférées trop génériques relations de dépendance sujet et objet : les règles ne prennent pas en charge les changements de voix d'une langue à l'autre good legislation has been brought in by liberal governments les gouvernements libéraux ont apporté de bonnes mesures législatives alignement legislation / gouvernement reformulations the Government must implement the recommandations of the Commisionner of Official Languages le gouvernement se doit de respecter les recommandations du Commissaire aux langues officielles alignement implement / respecter annoté comme non valide dans le jeu de test HLT Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Examen des résultats Alignements non détectés densité de couples amorces insuffisante absence de relations de dépendance Alignements détectés à tort erreurs d'étiquetage syntaxique règles inférées trop génériques relations de dépendance sujet et objet : les règles ne prennent pas en charge les changements de voix d'une langue à l'autre - good legislation has been brought in by liberal governments - les gouvernements libéraux ont apporté de bonnes mesures législatives alignement legislation / gouvernement reformulations - the Government must implement the recommandations of the Commisionner of Official Languages - le gouvernement se doit de respecter les recommandations du Commissaire aux langues officielles alignement implement / respecter annoté comme non valide dans le jeu de test HLT Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Conclusion Alignement de mots basé sur la syntaxe et l'apprentissage semi-supervisé repérage d'exemples de couples de mots alignés par une technique automatique d'amorçage apprentissage de règles de propagation à partir des exemples Complète autonomie Résultats comparables à ceux obtenus par les meilleurs systèmes statistiques Peu de données nécessaires à l'apprentissage Alignements 1-1 Analyseurs syntaxiques pour les deux langues Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan
Perspectives Introduction d'informations de type catégoriel portant sur les parties du discours Utilisation d'exemples négatifs pour éviter des généralisations excessives et donc des règles pas suffisamment précises Adaptation à d'autres paires de langues proximité morpho-syntaxique suffisante disponibilité d'outils d'analyse morpho-syntaxique Étude de cas d'isomorphismes et de non-isomorphismes Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan