La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble

Présentations similaires


Présentation au sujet: "Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble"— Transcription de la présentation:

1 Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble Delphine.Bernhard@imag.fr http://www-timc.imag.fr/Delphine.Bernhard/

2 Delphine Bernhard RÉCITAL 2005 2 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

3 Delphine Bernhard RÉCITAL 2005 3 / 30 Introduction Morphème : unité minimale porteuse de sens Applications  Recherche d’informations [Schulz et al., 2002]  Structuration de terminologie [Zweigenbaum & Grabar, 2000]]

4 Delphine Bernhard RÉCITAL 2005 4 / 30 Types d’approches Raciniseurs algorithmiques [Porter, 2001 : Snowball] Similarité graphique :  distance d’édition  chaînes de caractères communes Ressources existantes [CELEX, MorTAL] Segmentation automatique à partir de corpus

5 Delphine Bernhard RÉCITAL 2005 5 / 30 Objectifs Divers procédés morphologiques :  Flexion  Dérivation  Composition Informations minimales Applicabilité de la méthode à d’autres langues que le français. Retrouver les familles de mots à partir de leur segmentation

6 Delphine Bernhard RÉCITAL 2005 6 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

7 Delphine Bernhard RÉCITAL 2005 7 / 30 Position Selon leur position sur l’axe syntagmatique, on distingue trois types d’unités :  préfixes : se situent avant une base  bases : peut apparaître en début de mot  suffixes : se situent après une base La base constitue le noyau autour duquel s’articulent les affixes

8 Delphine Bernhard RÉCITAL 2005 8 / 30 Alignement Sur l’axe paradigmatique, les morphèmes peuvent se substituer les uns aux autres L’alignement des mots (repérage des points communs et différences) permet ainsi l’identification des segments de mots [van Zaanen, 2001] Ce choix entre différentes unités se traduit par une prédictibilité réduite du segment suivant en fonction des segments précédents [Harris, 1955 ; Déjean, 1998]

9 Delphine Bernhard RÉCITAL 2005 9 / 30 Longueur – Fréquence Longueur : les bases sont généralement plus longues que les préfixes et les suffixes Fréquence :  les segments morphologiques se répètent  les affixes sont plus fréquents que les bases [Creutz & Lagus, 2005] Les différences de longueur et fréquence permettent de distinguer les bases des affixes [Vergne, 2003 : distinction mots vides – mots pleins]

10 Delphine Bernhard RÉCITAL 2005 10 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

11 Delphine Bernhard RÉCITAL 2005 11 / 30 Méthode 1. Apprentissage des affixes (préfixes et suffixes) 2. Acquisition des bases Alignement des mots 3. Segmentation des mots Données nécessaires : liste des mots d’un corpus

12 Delphine Bernhard RÉCITAL 2005 12 / 30 Apprentissage des affixes (1/5) Apprentissage effectué à partir des mots les plus longs (nombre de mots paramétrable) Décomposition des mots en sous-chaînes Pour deux sous-chaînes consécutives s 1 et s 2, calcul du maximum de : et

13 Delphine Bernhard RÉCITAL 2005 13 / 30 Apprentissage des affixes (2/5) Exemples pour le mot "postchirurgicale " s1.s2s1.s2 post. chirurpostc. hirurgicchirur. gichirurgical. e f(s 1 )4232014 f(s 2 )201628712 515 f(s 1.s 2 )33208 p(s 1 |s 2 )0.150.190.070.0006 p(s 2 |s 1 )0.071.0 0.57 max0.151.0 0.57

14 Delphine Bernhard RÉCITAL 2005 14 / 30 Apprentissage des affixes (3/5)

15 Delphine Bernhard RÉCITAL 2005 15 / 30 Apprentissage des affixes (4/5) Repérage de la base et des affixes parmi les segments Utilisation des différences longueur – fréquence et de la position par rapport à la base Segmentspostchirurgicale Fréquences42> 14 <12 515 Longueurs4 1

16 Delphine Bernhard RÉCITAL 2005 16 / 30 Apprentissage des affixes (5/5) Apprentissage d’affixes supplémentaires par alignement

17 Delphine Bernhard RÉCITAL 2005 17 / 30 Acquisition des bases Les bases sont obtenues en retranchant les affixes appris de chaque mot du corpus  Exemple : la base chirurgi est obtenue à partir du mot chirurgie auquel on retire le suffixe e Alignement des mots contenant les bases ainsi obtenues

18 Delphine Bernhard RÉCITAL 2005 18 / 30 Alignement des mots Segmentation de médicochirurgical : médico + chirurgi + ca + l

19 Delphine Bernhard RÉCITAL 2005 19 / 30 Segmentation des mots Privilégie les segments les plus fréquents

20 Delphine Bernhard RÉCITAL 2005 20 / 30 Segmentation des mots Privilégie les segments les plus fréquents Respect de la différence longueur - effectif

21 Delphine Bernhard RÉCITAL 2005 21 / 30 Implémentation Python Base de données PostgreSQL Démo : http://www-timc.imag.fr/Delphine.Bernhard/ (rubrique démo)

22 Delphine Bernhard RÉCITAL 2005 22 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

23 Delphine Bernhard RÉCITAL 2005 23 / 30 Évaluation Evaluation effectuée à partir de deux corpus de textes médicaux :  Français : 12 600 mots différents  Anglais : 11 200 mots différents Critère utilisé : validité de la relation morphologique entre deux mots contenant la même base

24 Delphine Bernhard RÉCITAL 2005 24 / 30 Résultats de l’évaluation

25 Delphine Bernhard RÉCITAL 2005 25 / 30 Exemple de résultats MotSegmentation chirurgicalchirurgi + ca + l chirurgicalementchirurgi + ca + l + e + ment chirurgicaleschirurgi + ca + l + e + s chirurgiechirurgi + e chirurgienschirurgi + e + n + s médicochirurgicalmédic + o + chirurgi + ca + l post-chirurgicalepost + - + chirurgi + ca + l + e postchirurgicauxpost + chirurgi + ca + ux préchirurgicalpré + chirurgi + ca + l radiochirurgicalradio + chirurgi + ca + l radiochirurgicaleradio + chirurgi + ca + l + e

26 Delphine Bernhard RÉCITAL 2005 26 / 30 Sous-segmentation Deux mots appartenant à une même famille sont rattachés à des bases différentes (baisse du rappel) :  cibl + ant cibl + e cibl + e + s cibl + ée cibl + ée + s volum + e + - + cibl + e volum + e + s + - + cibl + e + s  cibla + ient

27 Delphine Bernhard RÉCITAL 2005 27 / 30 Sur-segmentation Deux mots appartenant à des familles différentes sont rattachés à la même base (baisse de la précision) :  col + lég + i + ale  lég + al + e + s médic + o + - + lég + al  lég + er lég + er + s lég + ère  priv + i + lég + i + ant priv + i + lég + i + e

28 Delphine Bernhard RÉCITAL 2005 28 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusions – Perspectives

29 Delphine Bernhard RÉCITAL 2005 29 / 30 Conclusions Méthode ne nécessitant qu’une liste des mots d’un corpus Potentiellement applicable à d’autres langues à morphologie concaténative Segmentation des mots composés Résultats de l’évaluation : bonne précision, rappel moyen

30 Delphine Bernhard RÉCITAL 2005 30 / 30 Perspectives Couplage avec des informations d’ordre sémantique (distribution des mots par exemple) Applicabilité des résultats obtenus sur un corpus à d’autres corpus : ré-utilisation des unités découvertes


Télécharger ppt "Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble"

Présentations similaires


Annonces Google