La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS.

Présentations similaires


Présentation au sujet: "Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS."— Transcription de la présentation:

1 Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

2 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Introduction Traitement automatique dun corpus. Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés. Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches.

3 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Qui fait quoi ? (ou : le plan) Alignement mot à mot du corpus multilingue (J. Tiedemann) Extraction de synonymes (L. van der Plas) Evaluation par comparaison avec un dictionnaire de référence (JL Manguin) Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin)

4 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Le corpus utilisé Corpus Europarl : actes du parlement européen (Ph. Koehn) 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois) Partie française : 33 millions doccurrences dans 1 million de phrases

5 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Lalignement Premier alignement par phrases (nécessaire avant létape suivante) Alignement mot à mot avec loutil Open Source GIZA++ (F.J. Och) Lemmatisation Pas de détection préalable des unités composées

6 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Les vecteurs caractéristiques automne_FR outono_PTautumn_ENfall_EN herfst najaar Un exemple en néerlandais : La fréquence est utilisée pour les traitements. On impose un double seuil sur les colonnes et les lignes.

7 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Les traitements La similarité est calculée avec lindice de Dice « pondéré » : La pondération est faite par linformation mutuelle spécifique :

8 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Exemple de résultats accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât

9 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : méthode Filtrage catégoriel (avec dictionnaire externe) Mesures sur les synonymes proposés pour une liste de 950 mots Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue

10 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : les mesures Couverture Précision Rappel

11 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : les résultats (1)

12 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : les résultats (2)

13 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Bilan et perspectives Technique améliorable par la prise en compte des unités composées Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe Importantes perspectives lexicographiques

14 Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Merci de votre attention ! Des questions ? Any questions ? ¿ Preguntas ? Irgendwelche Fragen ? Vragen ? Domande ? Alguma pergunta ?


Télécharger ppt "Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS."

Présentations similaires


Annonces Google