Extraction de synonymes à partir d’un corpus multilingue aligné Lonneke Van der PLAS Jörg TIEDEMANN Jean-Luc MANGUIN
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Introduction Traitement automatique d’un corpus. Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés. Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Qui fait quoi ? (ou : le plan) Alignement mot à mot du corpus multilingue (J. Tiedemann) Extraction de synonymes (L. van der Plas) Evaluation par comparaison avec un dictionnaire de référence (JL Manguin) Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Le corpus utilisé Corpus Europarl : actes du parlement européen (Ph. Koehn) 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois) Partie française : 33 millions d’occurrences dans 1 million de phrases Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 L’alignement Premier alignement par phrases (nécessaire avant l’étape suivante) Alignement mot à mot avec l’outil Open Source GIZA++ (F.J. Och) Lemmatisation Pas de détection préalable des unités composées Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Les vecteurs caractéristiques Un exemple en néerlandais : automne_FR outono_PT autumn_EN fall_EN herfst 102 92 75 67 najaar 89 78 90 69 La fréquence est utilisée pour les traitements. On impose un double seuil sur les colonnes et les lignes. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Les traitements La similarité est calculée avec l’indice de Dice « pondéré » : La pondération est faite par l’information mutuelle spécifique : Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Exemple de résultats accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : méthode Filtrage catégoriel (avec dictionnaire externe) Mesures sur les synonymes proposés pour une liste de 950 mots Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les mesures Couverture Précision Rappel Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les résultats (1) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les résultats (2) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Bilan et perspectives Technique améliorable par la prise en compte des unités composées Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe Importantes perspectives lexicographiques Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Merci de votre attention ! Des questions ? Any questions ? ¿ Preguntas ? Irgendwelche Fragen ? Vragen ? Domande ? Alguma pergunta ? Van der Plas, Tiedemann, Manguin - JLC Lorient 2007