Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
Delphine Bernhard RÉCITAL / 30 Introduction Morphème : unité minimale porteuse de sens Applications Recherche d’informations [Schulz et al., 2002] Structuration de terminologie [Zweigenbaum & Grabar, 2000]]
Delphine Bernhard RÉCITAL / 30 Types d’approches Raciniseurs algorithmiques [Porter, 2001 : Snowball] Similarité graphique : distance d’édition chaînes de caractères communes Ressources existantes [CELEX, MorTAL] Segmentation automatique à partir de corpus
Delphine Bernhard RÉCITAL / 30 Objectifs Divers procédés morphologiques : Flexion Dérivation Composition Informations minimales Applicabilité de la méthode à d’autres langues que le français. Retrouver les familles de mots à partir de leur segmentation
Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
Delphine Bernhard RÉCITAL / 30 Position Selon leur position sur l’axe syntagmatique, on distingue trois types d’unités : préfixes : se situent avant une base bases : peut apparaître en début de mot suffixes : se situent après une base La base constitue le noyau autour duquel s’articulent les affixes
Delphine Bernhard RÉCITAL / 30 Alignement Sur l’axe paradigmatique, les morphèmes peuvent se substituer les uns aux autres L’alignement des mots (repérage des points communs et différences) permet ainsi l’identification des segments de mots [van Zaanen, 2001] Ce choix entre différentes unités se traduit par une prédictibilité réduite du segment suivant en fonction des segments précédents [Harris, 1955 ; Déjean, 1998]
Delphine Bernhard RÉCITAL / 30 Longueur – Fréquence Longueur : les bases sont généralement plus longues que les préfixes et les suffixes Fréquence : les segments morphologiques se répètent les affixes sont plus fréquents que les bases [Creutz & Lagus, 2005] Les différences de longueur et fréquence permettent de distinguer les bases des affixes [Vergne, 2003 : distinction mots vides – mots pleins]
Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
Delphine Bernhard RÉCITAL / 30 Méthode 1. Apprentissage des affixes (préfixes et suffixes) 2. Acquisition des bases Alignement des mots 3. Segmentation des mots Données nécessaires : liste des mots d’un corpus
Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (1/5) Apprentissage effectué à partir des mots les plus longs (nombre de mots paramétrable) Décomposition des mots en sous-chaînes Pour deux sous-chaînes consécutives s 1 et s 2, calcul du maximum de : et
Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (2/5) Exemples pour le mot "postchirurgicale " s1.s2s1.s2 post. chirurpostc. hirurgicchirur. gichirurgical. e f(s 1 ) f(s 2 ) f(s 1.s 2 )33208 p(s 1 |s 2 ) p(s 2 |s 1 ) max
Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (3/5)
Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (4/5) Repérage de la base et des affixes parmi les segments Utilisation des différences longueur – fréquence et de la position par rapport à la base Segmentspostchirurgicale Fréquences42> 14 < Longueurs4 1
Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (5/5) Apprentissage d’affixes supplémentaires par alignement
Delphine Bernhard RÉCITAL / 30 Acquisition des bases Les bases sont obtenues en retranchant les affixes appris de chaque mot du corpus Exemple : la base chirurgi est obtenue à partir du mot chirurgie auquel on retire le suffixe e Alignement des mots contenant les bases ainsi obtenues
Delphine Bernhard RÉCITAL / 30 Alignement des mots Segmentation de médicochirurgical : médico + chirurgi + ca + l
Delphine Bernhard RÉCITAL / 30 Segmentation des mots Privilégie les segments les plus fréquents
Delphine Bernhard RÉCITAL / 30 Segmentation des mots Privilégie les segments les plus fréquents Respect de la différence longueur - effectif
Delphine Bernhard RÉCITAL / 30 Implémentation Python Base de données PostgreSQL Démo : (rubrique démo)
Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives
Delphine Bernhard RÉCITAL / 30 Évaluation Evaluation effectuée à partir de deux corpus de textes médicaux : Français : mots différents Anglais : mots différents Critère utilisé : validité de la relation morphologique entre deux mots contenant la même base
Delphine Bernhard RÉCITAL / 30 Résultats de l’évaluation
Delphine Bernhard RÉCITAL / 30 Exemple de résultats MotSegmentation chirurgicalchirurgi + ca + l chirurgicalementchirurgi + ca + l + e + ment chirurgicaleschirurgi + ca + l + e + s chirurgiechirurgi + e chirurgienschirurgi + e + n + s médicochirurgicalmédic + o + chirurgi + ca + l post-chirurgicalepost chirurgi + ca + l + e postchirurgicauxpost + chirurgi + ca + ux préchirurgicalpré + chirurgi + ca + l radiochirurgicalradio + chirurgi + ca + l radiochirurgicaleradio + chirurgi + ca + l + e
Delphine Bernhard RÉCITAL / 30 Sous-segmentation Deux mots appartenant à une même famille sont rattachés à des bases différentes (baisse du rappel) : cibl + ant cibl + e cibl + e + s cibl + ée cibl + ée + s volum + e cibl + e volum + e + s cibl + e + s cibla + ient
Delphine Bernhard RÉCITAL / 30 Sur-segmentation Deux mots appartenant à des familles différentes sont rattachés à la même base (baisse de la précision) : col + lég + i + ale lég + al + e + s médic + o lég + al lég + er lég + er + s lég + ère priv + i + lég + i + ant priv + i + lég + i + e
Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusions – Perspectives
Delphine Bernhard RÉCITAL / 30 Conclusions Méthode ne nécessitant qu’une liste des mots d’un corpus Potentiellement applicable à d’autres langues à morphologie concaténative Segmentation des mots composés Résultats de l’évaluation : bonne précision, rappel moyen
Delphine Bernhard RÉCITAL / 30 Perspectives Couplage avec des informations d’ordre sémantique (distribution des mots par exemple) Applicabilité des résultats obtenus sur un corpus à d’autres corpus : ré-utilisation des unités découvertes