Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAdélaïde Marechal Modifié depuis plus de 9 années
1
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble Delphine.Bernhard@imag.fr http://www-timc.imag.fr/Delphine.Bernhard/
2
Delphine Bernhard RÉCITAL 2005 2 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
3
Delphine Bernhard RÉCITAL 2005 3 / 30 Introduction Morphème : unité minimale porteuse de sens Applications Recherche d’informations [Schulz et al., 2002] Structuration de terminologie [Zweigenbaum & Grabar, 2000]]
4
Delphine Bernhard RÉCITAL 2005 4 / 30 Types d’approches Raciniseurs algorithmiques [Porter, 2001 : Snowball] Similarité graphique : distance d’édition chaînes de caractères communes Ressources existantes [CELEX, MorTAL] Segmentation automatique à partir de corpus
5
Delphine Bernhard RÉCITAL 2005 5 / 30 Objectifs Divers procédés morphologiques : Flexion Dérivation Composition Informations minimales Applicabilité de la méthode à d’autres langues que le français. Retrouver les familles de mots à partir de leur segmentation
6
Delphine Bernhard RÉCITAL 2005 6 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
7
Delphine Bernhard RÉCITAL 2005 7 / 30 Position Selon leur position sur l’axe syntagmatique, on distingue trois types d’unités : préfixes : se situent avant une base bases : peut apparaître en début de mot suffixes : se situent après une base La base constitue le noyau autour duquel s’articulent les affixes
8
Delphine Bernhard RÉCITAL 2005 8 / 30 Alignement Sur l’axe paradigmatique, les morphèmes peuvent se substituer les uns aux autres L’alignement des mots (repérage des points communs et différences) permet ainsi l’identification des segments de mots [van Zaanen, 2001] Ce choix entre différentes unités se traduit par une prédictibilité réduite du segment suivant en fonction des segments précédents [Harris, 1955 ; Déjean, 1998]
9
Delphine Bernhard RÉCITAL 2005 9 / 30 Longueur – Fréquence Longueur : les bases sont généralement plus longues que les préfixes et les suffixes Fréquence : les segments morphologiques se répètent les affixes sont plus fréquents que les bases [Creutz & Lagus, 2005] Les différences de longueur et fréquence permettent de distinguer les bases des affixes [Vergne, 2003 : distinction mots vides – mots pleins]
10
Delphine Bernhard RÉCITAL 2005 10 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
11
Delphine Bernhard RÉCITAL 2005 11 / 30 Méthode 1. Apprentissage des affixes (préfixes et suffixes) 2. Acquisition des bases Alignement des mots 3. Segmentation des mots Données nécessaires : liste des mots d’un corpus
12
Delphine Bernhard RÉCITAL 2005 12 / 30 Apprentissage des affixes (1/5) Apprentissage effectué à partir des mots les plus longs (nombre de mots paramétrable) Décomposition des mots en sous-chaînes Pour deux sous-chaînes consécutives s 1 et s 2, calcul du maximum de : et
13
Delphine Bernhard RÉCITAL 2005 13 / 30 Apprentissage des affixes (2/5) Exemples pour le mot "postchirurgicale " s1.s2s1.s2 post. chirurpostc. hirurgicchirur. gichirurgical. e f(s 1 )4232014 f(s 2 )201628712 515 f(s 1.s 2 )33208 p(s 1 |s 2 )0.150.190.070.0006 p(s 2 |s 1 )0.071.0 0.57 max0.151.0 0.57
14
Delphine Bernhard RÉCITAL 2005 14 / 30 Apprentissage des affixes (3/5)
15
Delphine Bernhard RÉCITAL 2005 15 / 30 Apprentissage des affixes (4/5) Repérage de la base et des affixes parmi les segments Utilisation des différences longueur – fréquence et de la position par rapport à la base Segmentspostchirurgicale Fréquences42> 14 <12 515 Longueurs4 1
16
Delphine Bernhard RÉCITAL 2005 16 / 30 Apprentissage des affixes (5/5) Apprentissage d’affixes supplémentaires par alignement
17
Delphine Bernhard RÉCITAL 2005 17 / 30 Acquisition des bases Les bases sont obtenues en retranchant les affixes appris de chaque mot du corpus Exemple : la base chirurgi est obtenue à partir du mot chirurgie auquel on retire le suffixe e Alignement des mots contenant les bases ainsi obtenues
18
Delphine Bernhard RÉCITAL 2005 18 / 30 Alignement des mots Segmentation de médicochirurgical : médico + chirurgi + ca + l
19
Delphine Bernhard RÉCITAL 2005 19 / 30 Segmentation des mots Privilégie les segments les plus fréquents
20
Delphine Bernhard RÉCITAL 2005 20 / 30 Segmentation des mots Privilégie les segments les plus fréquents Respect de la différence longueur - effectif
21
Delphine Bernhard RÉCITAL 2005 21 / 30 Implémentation Python Base de données PostgreSQL Démo : http://www-timc.imag.fr/Delphine.Bernhard/ (rubrique démo)
22
Delphine Bernhard RÉCITAL 2005 22 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
23
Delphine Bernhard RÉCITAL 2005 23 / 30 Évaluation Evaluation effectuée à partir de deux corpus de textes médicaux : Français : 12 600 mots différents Anglais : 11 200 mots différents Critère utilisé : validité de la relation morphologique entre deux mots contenant la même base
24
Delphine Bernhard RÉCITAL 2005 24 / 30 Résultats de l’évaluation
25
Delphine Bernhard RÉCITAL 2005 25 / 30 Exemple de résultats MotSegmentation chirurgicalchirurgi + ca + l chirurgicalementchirurgi + ca + l + e + ment chirurgicaleschirurgi + ca + l + e + s chirurgiechirurgi + e chirurgienschirurgi + e + n + s médicochirurgicalmédic + o + chirurgi + ca + l post-chirurgicalepost + - + chirurgi + ca + l + e postchirurgicauxpost + chirurgi + ca + ux préchirurgicalpré + chirurgi + ca + l radiochirurgicalradio + chirurgi + ca + l radiochirurgicaleradio + chirurgi + ca + l + e
26
Delphine Bernhard RÉCITAL 2005 26 / 30 Sous-segmentation Deux mots appartenant à une même famille sont rattachés à des bases différentes (baisse du rappel) : cibl + ant cibl + e cibl + e + s cibl + ée cibl + ée + s volum + e + - + cibl + e volum + e + s + - + cibl + e + s cibla + ient
27
Delphine Bernhard RÉCITAL 2005 27 / 30 Sur-segmentation Deux mots appartenant à des familles différentes sont rattachés à la même base (baisse de la précision) : col + lég + i + ale lég + al + e + s médic + o + - + lég + al lég + er lég + er + s lég + ère priv + i + lég + i + ant priv + i + lég + i + e
28
Delphine Bernhard RÉCITAL 2005 28 / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusions – Perspectives
29
Delphine Bernhard RÉCITAL 2005 29 / 30 Conclusions Méthode ne nécessitant qu’une liste des mots d’un corpus Potentiellement applicable à d’autres langues à morphologie concaténative Segmentation des mots composés Résultats de l’évaluation : bonne précision, rappel moyen
30
Delphine Bernhard RÉCITAL 2005 30 / 30 Perspectives Couplage avec des informations d’ordre sémantique (distribution des mots par exemple) Applicabilité des résultats obtenus sur un corpus à d’autres corpus : ré-utilisation des unités découvertes
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.