Segmentation thématique de textes : au-delà de la récurrence lexicale

Slides:

Advertisements

Présentations similaires

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.

Advertisements

Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:

Principe des puissances virtuelles

Fabrice Lauri, François Charpillet, Daniel Szer

M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon

1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.

Licence pro MPCQ : Cours

Distance inter-locuteur

Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.

Introduction aux classes empiétantes François Brucker Brest (Breizh)

Regroupement (clustering)

1 La mise en œuvre de lannexe statistique du PNAI Michèle Lelièvre (DREES) Emmanuelle Nauze-Fichet (DREES) Groupe de travail du CNLE du 20 mars 2009.

Classe : …………… Nom : …………………………………… Date : ………………..

RECONNAISSANCE DE FORMES

Test statistique : principe

Reconnaissance de la parole

1. Les caractéristiques de dispersion. 11. Utilité.

Analyse et structuration thématiques

l'approche ergonomique

La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.

Construction des 3 hauteurs

ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.

Ordonnancement des mouvements de deux robots

Une stratégie départementale pour le développement de lenseignement des langues vivantes à lEcole.

Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.

Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)

Améliorer les performances du chiffrage à flot SYND

Initiation au système d’information et aux bases de données

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.

1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.

IAS 16 « Immobilisations corporelles »

Application des algorithmes génétiques

Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.

Classification Multi Source En Intégrant La Texture

1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.

1.2 COMPOSANTES DES VECTEURS

Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

1 Conduite du changement LA CONDUITE DU CHANGEMENT.

F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.

VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.

SYSTEMES D’INFORMATION

SCIENCES DE L ’INGENIEUR

2 TP avec l ’aide d ’un modeleur 3D :

Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.

La métaphore dans lhypermédia : effets sur la navigation Etude empirique exploratoire.

Représentation des systèmes dynamiques dans l’espace d’état

Courbes de Bézier.

Graphe d ’interaction La réalisation du graphe d ’interaction permet d ’assurer l'uniformité des pages et de navigation qui rendent un projet plus fonctionnel.

La statistique descriptive

Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.

1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.

Notre calendrier français MARS 2014

Les changements de numéraire dans la tarification d’options

Chapitre 3 Syntaxe et sémantique.

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.

Technique de points de contrôle: Formes de Bézier

Cours #9 Segmentation Découverte 4- Segmentation Introduction

SUJET D’ENTRAINEMENT n°4

Découverte de correspondances entre ontologies distribuées

ASI 3 Méthodes numériques pour l’ingénieur

ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL

CALENDRIER-PLAYBOY 2020.

LES PILES ET FILES.

Potentiel électrostatique

Rappels de statistiques descriptives

Transcription de la présentation:

Segmentation thématique de textes : au-delà de la récurrence lexicale Olivier Ferret LIC2M CEA LIST

Problème abordé Analyse thématique Applications Segmentation thématique (axe syntagmatique) délimiter des segments de document thématiquement homogènes Identification thématique (axe paradigmatique) identifier les thèmes des documents et de leurs segments Structuration thématique (axe fonctionnel) mettre en évidence les relations thématiques entre les segments Applications segmentation d’un flot textuel continu (transcriptions audio) segmentation thématique filtrage et classification de documents identification thématique résumé automatique structuration thématique

Un exemple Segment 1 Grève Identité thématique Segment 2 Marché pétrolier Identité thématique Segment 3 Grève

Différents moyens de segmenter Segmentation fondée sur le contenu thème : caractérisé par un vocabulaire spécifique changement de vocabulaire  changement de thème plus généralement, ruptures de la cohésion lexicale dans les textes cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte rendant compte de son caractère textuel réitération (curé – prêtre) et collocation (voleur – policier) Repérage des marques de changement de thème présence de marques linguistiques explicites marquant un changement de thème oral : temps de pause des locuteurs, prosodie … écrit : connecteurs, introducteurs de cadres thématiques … cadre (Charolles) : contexte d’un état ou d’une série d’événements introducteurs de cadre thématique En ce qui concerne la croissance, Au sujet des élections à venir,

Problématique (1) Base commune des méthodes de segmentation thématique fondées sur le contenu définition d'unités textuelles élémentaires (phrases) segment = ensemble d'unités textuelles contiguës jugées thématiquement proches transformation des unités textuelles en vecteurs de mots (modèle Vector Space) évaluation de la proximité thématique de deux unités (ou regroupements d'unités) grâce à une mesure de similarité entre leurs vecteurs si similarité entre vecteurs > seuil  unités jugées thématiquement proches et réunies dans le même segment Rôle central de la similarité entre unités textuelles

Problématique (2) Évaluation de la similarité entre unités textuelles critère de base : récurrence lexicale (réitération stricte) évaluation fondée sur le nombre de mots communs entre unités extensions (réitération et collocation) utilisation de connaissances externes pour prendre en compte les proximités sémantiques entre mots (synonymie, hyperonymie …) construites manuellement : WordNet, Roget Thesaurus … construites automatiquement : cooccurrences lexicales projection dans un espace sémantique construit à partir de corpus Analyse Sémantique Latente, Local Context Analysis

Approches proposées Base commune Extension de type endogène méthode de segmentation fondée sur la récurrence lexicale Extension de type endogène utilisation du document traité comme « source de connaissances » construire une représentation des thèmes du document similarité = mots communs + mots appartenant aux mêmes thèmes Extension de type exogène utilisation des relations d’un réseau de cooccurrences lexicales construction du réseau de cooccurrences à partir d’un corpus similarité = mots communs + mots liés dans le réseau de cooccurrences Combinaison des approches endogène et exogène similarité = mots communs + mots  mêmes thèmes + mots liés dans le réseau

Segmenter avec la récurrence lexicale Principes même cadre général que celui adopté par Hearst pour TextTiling + modifications au niveau de chaque étape Les 3 étapes issues de TextTiling prétraitement linguistique du document normalisation des mots : analyse morphologique + étiquetage morpho-syntaxique (TreeTagger) sélection des mots pleins (i.e. mots non grammaticaux) représentation des phrases sous forme de vecteurs évaluation de la cohésion lexicale au sein du document identification des changements de thèmes sur la base des ruptures de la cohésion lexicale

Évaluation de la cohésion lexicale (1) Fenêtre glissante sur le document unité de déplacement : phrase Mesure de similarité entre les deux volets de la fenêtre 2 x # mots communs # mots volet droit + # mots volet gauche cœfficient de Dice = Phrases Cohésion

Évaluation de la cohésion lexicale (2)

Identification des changements de thème (1) Score de probabilité d'un minimum de la courbe de cohésion de correspondre à un changement de thème différence de cohésion entre le minimum et ses maxima environnants Suppression des changements de thème trop proches Sélection des changements de thème minima dont le score dépasse un seuil s'adaptant à la distribution des scores seuil = moyenne(scores) -  . écart-type(scores) min max1 max2

Identification des changements de thème (2) seuil

Approche endogène Association de tâches généralement séparées segmentation et identification thématiques Principe général comment les résultats de l’identification thématique peuvent aider la segmentation ? 2 étapes Découverte des thèmes d’un document identification thématique non supervisée Intégration des thèmes découverts dans le processus de segmentation évaluation de la cohésion lexicale : relations de récurrence stricte + relations thématiques prise en compte à un niveau local des relations lexicales existant plus globalement dans un document

Identification thématique : principes Identification non supervisée pas de référence à des thèmes externes thème = sous-ensemble du vocabulaire du document Hypothèse les mots d’un même thème ont tendance à apparaître à proximité les uns des autres au sein d'un document Méthode collecter les cooccurrences entre mots au sein du document évaluer la proximité des mots suivant leurs cooccurrents classifier les mots du document selon leur proximité classification non supervisée classe = thème

Évaluation de la proximité des mots Même prétraitement linguistique du document que pour la segmentation Collecte des cooccurrences entre mots déplacement d'une fenêtre de taille fixe sur le document prétraité (unité de déplacement : mot sélectionné) enregistrement des cooccurrences entre le premier mot de la fenêtre et les suivants pas de prise en compte de l'ordre des cooccurrents résultat = un vecteur de cooccurrents / mot sélectionné Proximité thématique des mots du document calcul de la matrice de similarité des mots du document application de la mesure Cosinus entre leurs vecteurs de cooccurrents

Découverte des thèmes d'un document Classification non supervisée des mots du document application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz, Kumar et Steinbach, 2001) Algorithme SNN Construction d’un graphe de similarité à partir de la matrice de proximité thématique des mots du document nœud : mot sélectionné du document arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité des mots qu'elle relie Éclaircissement du graphe de similarité par limitation du nombre de voisins (seuil sur les valeurs de proximité) Transposition des relations : proximité entre 2 mots  nombre de voisins partagés par les 2 mots Détection de composantes de forte densité dans le graphe des voisins partagés

Graphe de similarité éclairci

Transposition : similarité  nb voisins partagés 4 mots considérés voisins non partagés d’après (Guo et al., 07) voisins partagés

Détection des composantes de forte densité (1) Graphe des voisins partagés 1 1 2 2 1 1 1 1 1 1 1 2 2 2 2 2 2 1 : nombre de voisins partagés relation dans le graphe de similarité mot du document

Détection des composantes de forte densité (2) Sélection des liens forts filtrage sur le nombre de voisins partagés Caractérisation des mots par leur nombre de liens forts 1 2 3 2 : nombre de liens forts seuil liens forts = 2

Détection des composantes de forte densité (3) Suppression des mots avec peu de liens forts Germes des thèmes : mots avec beaucoup de liens forts Rattachement des mots restant au germe le plus proche (si suffisamment proche) 1 2 3 seuil rattachement = 1 mot supprimé seuil élimination = 0 germe de thème seuil germe = 2

Illustration de la découverte de thèmes « Mélange » de 2 textes sur des thèmes différents  redécouverte des 2 thèmes Thème « vache folle » Thème « fabrication de skis » folle, fédéral, cas, fabricant, Streule, marché, devenir, vache, bovin, paire, production, ski, infecter, maladie, ESB, Stöckli, Suisse, indiquer, humain, déclarer directeur, année, entreprise dernier

Segmentation intégrant les thèmes découverts Intégration faite au niveau de l'évaluation de la cohésion détermination des thèmes représentatifs du contenu de la fenêtre mesure Cosinus entre la représentation d'un thème et chaque volet de la fenêtre thème représentatif (TR) = thème suffisamment proche de chacun des 2 volets de la fenêtre calcul de la cohésion selon les thèmes découverts Cohésion globale cohésion(récurrence lexicale) + cohésion(thèmes) Pas de changement au niveau des deux autres étapes # (volet droit  {TRi} – Mréc) + # (volet gauche  {TRi} – Mréc) # mots volet droit + # mots volet gauche Mréc = volet droit  volet gauche

Approche exogène Utilisation d’un réseau de cooccurrence lexicales facile à construire automatiquement à partir d’un corpus source de connaissance privilégiée sur les relations de cohésion lexicale au sein des textes associations lexicales les plus significatives observées dans les textes Exploitation conjointe de 2 sources de cohésion récurrence lexicale relations issues du réseau de cooccurrences toute source de connaissances est nécessairement incomplète (noms propres, termes spécialisés …)

Réseau de cooccurrences lexicales Méthode de construction prétraitement des textes : sélection des mots pleins comptage des cooccurrences au sein d'une fenêtre glissante accent mis sur les relations sémantiques et pragmatiques taille : 20 mots (environ 50 mots avant sélection) pas d'ordre : m1 - m2 équivalent à m2 - m1 respect des frontières de texte cohésion entre mots : information mutuelle normalisée filtrage des cooccurrences les moins significatives fréquence < 10 ; cohésion < 0,1 Réseau pour le Français 24 mois du journal Le Monde (~ 40 millions de mots) ~ 23 000 lemmes et 5 milions de cooccurrences

Exemples de cooccurrences lemme 1 lemme 2 fréquence cohésion « type » policier cambriolage 13 0,19 thématique bateau voilier 125 0,22 hyperonymie prendre racine 120 0,11 collocation collision franc 7 0,08 « bruit » livre intranquilité 23 0,20

Exemple : graphe des cooccurrents de organe

Utiliser des cooccurrences pour segmenter Mêmes principes d’intégration que précédemment intégration au niveau de l’évaluation de la cohésion lexicale pas de changement au niveau des deux autres étapes Évaluation de la cohésion lexicale sélection des mots des 2 volets les + fortement liés selon le réseau cooccurrences : fréquence  14 ; cohésion  0,14 mot lié à au moins 2 mots de l’autre volet par le biais du réseau Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche} calcul de la cohésion selon les relations de cooccurrence Cohésion globale cohésion(récurrence lexicale) + cohésion(cooccurrences) # (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc) # mots volet droit + # mots volet gauche

Combinaison des approches endogène et exogène Même principe que pour chaque approche combinaison au niveau de l’évaluation de la cohésion lexicale Cohésion globale cohésion(récurrence lexicale) + cohésion(thèmes) + cohésion(cooccurrences)

Évaluation : principes (1) Méthodologie de référence retrouver les frontières de documents ou de morceaux de documents concaténés les uns à la suite des autres (cf. corpus de Choi) Problème la découverte de thèmes n'a pas de sens sur un assemblage de morceaux de documents sans relations thématiques méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de l'identification thématique au niveau de la segmentation Adaptation de la méthodologie de référence ensemble de couples de documents relatifs à des thèmes différents utilisation des documents jugés positivement / topics CLEF découpage de chaque document d’un couple en segments de tailles arbitraires (entre 3 et 11 phrases ; idem Choi) concaténation des segments en alternant un segment d'un document et un segment de l'autre  document d'évaluation (10 segments)

Évaluation : principes (2) Document Topic10 Document Topic 88 Document d’évaluation bi-thématique

Évaluation : mesure Mesure d'erreur probabiliste Pk (Beeferman et al., 1997) jugement de couples de mots séparés par K mots K : moitié de la taille moyenne des segments de référence WindowDiff : variante tenant compte du nombre de frontières séparant les couples de mots référence (ref) segmenteur (hyp) p1 p2 p3 p4 p5 p6 p7 Fausses alarmes : p2-p3 ref : segments différents hyp : même segment OK : p4-p5 ref : même segment hyp : même segment ou p2-p4 ; p5-p6 ref : segments différents hyp : segments différents Faux négatifs : p3-p4 ; p3-p5 ; p6-p7 ref : même segment hyp : segments différents

Évaluation : résultats de l’approche endogène F06 : récurrence lexicale F06T : récurrence lexicale + thèmes Intérêt de la prise en compte des thèmes (F06T > *) Stabilité des résultats (Français vs Anglais) Faibles performances de méthodes telles que C99 Forte différence du niveau moyen entre Français et Anglais

Évaluation : résultats globaux F06C : récurrence lexicale + cooccurrences F06CT : récurrence lexicale + thèmes + cooccurrences Intérêt des connaissances externes F06C > * de façon significative (sauf pour F06T), alors que significativité des résultats plus contrastée pour F06T / LCSeg et TextTiling* Intérêt de la coopération entre approches endogène et exogène F06C > F06T mais pas significatif pour Pk F06CT > F06T significativement pour toutes les mesures mais différence entre F06C et F06CT pas significative

Perspectives Méthode Évaluation combiner approches endogène et exogène pour l’identification thématique utiliser les résultats de cette identification « étendue » au niveau de la segmentation Évaluation utilisation de documents segmentés manuellement difficultés soulevées par (Bestgen et Piérard, TALN 2006) accords entre deux juges tout juste significatifs mais bon accord général sur une segmentation « moyenne » mauvaises performances des segmenteurs automatiques critères de segmentation des juges variables (segmentation fine / à gros grain ; préférence donnée aux marques explicites)