Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble

Slides:



Advertisements
Présentations similaires
Extraction de synonymes à partir d’un corpus multilingue aligné
Advertisements

CHAPITRE 8 Géométrie analytique
Module 5 : Implémentation de l'impression
Tension électrique aux bornes des prises de courant :
Chap. 4 Recherche en Table
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Cours 3-b Méthode des éléments finis 1D
L’ESTIME ELEMENTAIRE.
Méthodes de comparaison entre séquences multi-échelles végétales
Xialong Dai, Siamak Khorram
Analyse et structuration thématiques
ANDRE Marine DABIN Julie WATERLOT Amandine
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Outil de statistique textuelle FALLET Justine CRUAUD Marion
OLST — Université de Montréal
Compétences - tâches réparties par niveaux
Technologie Collège Document d’accompagnement du programme de
Cherche repère Le quadrilatère ABCD ci-dessous a été dessiné dans un repère orthonormé qui a disparu.   Retrouver le repère initial à partir des coordonnées.
Support Initiation Publisher 2010
Les sous-programmes Chapitre n° 5: Objectifs : Activité:
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Ecole thématique Dynamique de la production écrite : approche pluridisciplinaire Poitiers, 09 juillet 2013 Ecole thématique Dynamique de la production.
YASS : Recherche de similarités dans les séquences d'ADN
Pour l’utilisation de l’Analyse en Constituants Immédiats
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
FRE 2645 CIDED04 : 22 Juin 2004 Système de reconnaissance structurelle de symboles, basé sur une multi représentation en graphes de régions, et exploitant.
Méthode des k plus proches voisins
Bases de données lexicales
Alignement de séquences (suite)
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Courbes de Bézier.
LIN 1720 DGD 10 Traits et règles phonologiques
LIN 1750 DGD 11 Prosodie.

Les projections parallèles et centrales
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
Développement informatique : Outils dexploitation de films infrarouges Projet dimagerie : Reconnaissance automatique de lemplacement dobjets sur des imagesinfrarouges.
Interprétation automatique
Interprétation d’une coupe stratigraphique
Recherche heuristique dans les bases de données L’algorithme BLAST
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Détection de contours automatique et application aux images réelles
Qualification biologique des ovocytes et des zygotes en AMP par analyse et traitement d’images Khemmou J. 1, Vuillemenot J. 1, Pieralli C. 2, Roux C. 3.
A propos des unités de la langue et du concept de l’arbitraire Estanislao Sofía – Université de Paris X – Nanterre.
Laboratoire de Physique Nucléaire et des Hautes Energies, Paris
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
STATISTIQUES – PROBABILITÉS
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Problème de double digestion
Présentation RFIA janvier 2002
Chapitre 3: Translation et Vecteurs
Les homothéties (Dilations) Faire les images de perspectif!
Modélisation N-morphes en classification des textes de Wikipedia
CHARGEMENT, CENTRAGE ET STABILITE LONGITUDINALE
Chapitre 1 Nombres relatifs.
Soutenance de Stage DEA / DESS
Synthèse d’images et Rendu Réaliste Compression Progressive de Modèles 3D DOMENGET Bruno DUMAS Benjamin EISTI.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Journée Des Doctorants 2004
1 SYSTEMES D ’ EQUATIONS
Partie II : Segmentation
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Géométrie et communication graphique
Transcription de la présentation:

Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble

Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

Delphine Bernhard RÉCITAL / 30 Introduction Morphème : unité minimale porteuse de sens Applications  Recherche d’informations [Schulz et al., 2002]  Structuration de terminologie [Zweigenbaum & Grabar, 2000]]

Delphine Bernhard RÉCITAL / 30 Types d’approches Raciniseurs algorithmiques [Porter, 2001 : Snowball] Similarité graphique :  distance d’édition  chaînes de caractères communes Ressources existantes [CELEX, MorTAL] Segmentation automatique à partir de corpus

Delphine Bernhard RÉCITAL / 30 Objectifs Divers procédés morphologiques :  Flexion  Dérivation  Composition Informations minimales Applicabilité de la méthode à d’autres langues que le français. Retrouver les familles de mots à partir de leur segmentation

Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

Delphine Bernhard RÉCITAL / 30 Position Selon leur position sur l’axe syntagmatique, on distingue trois types d’unités :  préfixes : se situent avant une base  bases : peut apparaître en début de mot  suffixes : se situent après une base La base constitue le noyau autour duquel s’articulent les affixes

Delphine Bernhard RÉCITAL / 30 Alignement Sur l’axe paradigmatique, les morphèmes peuvent se substituer les uns aux autres L’alignement des mots (repérage des points communs et différences) permet ainsi l’identification des segments de mots [van Zaanen, 2001] Ce choix entre différentes unités se traduit par une prédictibilité réduite du segment suivant en fonction des segments précédents [Harris, 1955 ; Déjean, 1998]

Delphine Bernhard RÉCITAL / 30 Longueur – Fréquence Longueur : les bases sont généralement plus longues que les préfixes et les suffixes Fréquence :  les segments morphologiques se répètent  les affixes sont plus fréquents que les bases [Creutz & Lagus, 2005] Les différences de longueur et fréquence permettent de distinguer les bases des affixes [Vergne, 2003 : distinction mots vides – mots pleins]

Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

Delphine Bernhard RÉCITAL / 30 Méthode 1. Apprentissage des affixes (préfixes et suffixes) 2. Acquisition des bases Alignement des mots 3. Segmentation des mots Données nécessaires : liste des mots d’un corpus

Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (1/5) Apprentissage effectué à partir des mots les plus longs (nombre de mots paramétrable) Décomposition des mots en sous-chaînes Pour deux sous-chaînes consécutives s 1 et s 2, calcul du maximum de : et

Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (2/5) Exemples pour le mot "postchirurgicale " s1.s2s1.s2 post. chirurpostc. hirurgicchirur. gichirurgical. e f(s 1 ) f(s 2 ) f(s 1.s 2 )33208 p(s 1 |s 2 ) p(s 2 |s 1 ) max

Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (3/5)

Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (4/5) Repérage de la base et des affixes parmi les segments Utilisation des différences longueur – fréquence et de la position par rapport à la base Segmentspostchirurgicale Fréquences42> 14 < Longueurs4 1

Delphine Bernhard RÉCITAL / 30 Apprentissage des affixes (5/5) Apprentissage d’affixes supplémentaires par alignement

Delphine Bernhard RÉCITAL / 30 Acquisition des bases Les bases sont obtenues en retranchant les affixes appris de chaque mot du corpus  Exemple : la base chirurgi est obtenue à partir du mot chirurgie auquel on retire le suffixe e Alignement des mots contenant les bases ainsi obtenues

Delphine Bernhard RÉCITAL / 30 Alignement des mots Segmentation de médicochirurgical : médico + chirurgi + ca + l

Delphine Bernhard RÉCITAL / 30 Segmentation des mots Privilégie les segments les plus fréquents

Delphine Bernhard RÉCITAL / 30 Segmentation des mots Privilégie les segments les plus fréquents Respect de la différence longueur - effectif

Delphine Bernhard RÉCITAL / 30 Implémentation Python Base de données PostgreSQL Démo : (rubrique démo)

Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusion – Perspectives

Delphine Bernhard RÉCITAL / 30 Évaluation Evaluation effectuée à partir de deux corpus de textes médicaux :  Français : mots différents  Anglais : mots différents Critère utilisé : validité de la relation morphologique entre deux mots contenant la même base

Delphine Bernhard RÉCITAL / 30 Résultats de l’évaluation

Delphine Bernhard RÉCITAL / 30 Exemple de résultats MotSegmentation chirurgicalchirurgi + ca + l chirurgicalementchirurgi + ca + l + e + ment chirurgicaleschirurgi + ca + l + e + s chirurgiechirurgi + e chirurgienschirurgi + e + n + s médicochirurgicalmédic + o + chirurgi + ca + l post-chirurgicalepost chirurgi + ca + l + e postchirurgicauxpost + chirurgi + ca + ux préchirurgicalpré + chirurgi + ca + l radiochirurgicalradio + chirurgi + ca + l radiochirurgicaleradio + chirurgi + ca + l + e

Delphine Bernhard RÉCITAL / 30 Sous-segmentation Deux mots appartenant à une même famille sont rattachés à des bases différentes (baisse du rappel) :  cibl + ant cibl + e cibl + e + s cibl + ée cibl + ée + s volum + e cibl + e volum + e + s cibl + e + s  cibla + ient

Delphine Bernhard RÉCITAL / 30 Sur-segmentation Deux mots appartenant à des familles différentes sont rattachés à la même base (baisse de la précision) :  col + lég + i + ale  lég + al + e + s médic + o lég + al  lég + er lég + er + s lég + ère  priv + i + lég + i + ant priv + i + lég + i + e

Delphine Bernhard RÉCITAL / 30 Plan 1. Introduction – Objectifs 2. Propriétés utilisées 3. Présentation de la méthode 4. Évaluation 5. Conclusions – Perspectives

Delphine Bernhard RÉCITAL / 30 Conclusions Méthode ne nécessitant qu’une liste des mots d’un corpus Potentiellement applicable à d’autres langues à morphologie concaténative Segmentation des mots composés Résultats de l’évaluation : bonne précision, rappel moyen

Delphine Bernhard RÉCITAL / 30 Perspectives Couplage avec des informations d’ordre sémantique (distribution des mots par exemple) Applicabilité des résultats obtenus sur un corpus à d’autres corpus : ré-utilisation des unités découvertes