La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction de synonymes à partir d’un corpus multilingue aligné

Présentations similaires


Présentation au sujet: "Extraction de synonymes à partir d’un corpus multilingue aligné"— Transcription de la présentation:

1 Extraction de synonymes à partir d’un corpus multilingue aligné
Lonneke Van der PLAS Jörg TIEDEMANN Jean-Luc MANGUIN

2 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Introduction Traitement automatique d’un corpus. Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés. Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

3 Qui fait quoi ? (ou : le plan)
Alignement mot à mot du corpus multilingue (J. Tiedemann) Extraction de synonymes (L. van der Plas) Evaluation par comparaison avec un dictionnaire de référence (JL Manguin) Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

4 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Le corpus utilisé Corpus Europarl : actes du parlement européen (Ph. Koehn) 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois) Partie française : 33 millions d’occurrences dans 1 million de phrases Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

5 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
L’alignement Premier alignement par phrases (nécessaire avant l’étape suivante) Alignement mot à mot avec l’outil Open Source GIZA++ (F.J. Och) Lemmatisation Pas de détection préalable des unités composées Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

6 Les vecteurs caractéristiques
Un exemple en néerlandais : automne_FR outono_PT autumn_EN fall_EN herfst najaar La fréquence est utilisée pour les traitements. On impose un double seuil sur les colonnes et les lignes. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

7 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Les traitements La similarité est calculée avec l’indice de Dice « pondéré » : La pondération est faite par l’information mutuelle spécifique : Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

8 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Exemple de résultats accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

9 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : méthode Filtrage catégoriel (avec dictionnaire externe) Mesures sur les synonymes proposés pour une liste de 950 mots Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

10 Évaluation : les mesures
Couverture Précision Rappel Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

11 Évaluation : les résultats (1)
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

12 Évaluation : les résultats (2)
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

13 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Bilan et perspectives Technique améliorable par la prise en compte des unités composées Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe Importantes perspectives lexicographiques Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

14 Merci de votre attention !
Des questions ? Any questions ? ¿ Preguntas ? Irgendwelche Fragen ? Vragen ? Domande ? Alguma pergunta ? Van der Plas, Tiedemann, Manguin - JLC Lorient 2007


Télécharger ppt "Extraction de synonymes à partir d’un corpus multilingue aligné"

Présentations similaires


Annonces Google