La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

A chaque corpus son découpage et une segmentation pour tous

Présentations similaires


Présentation au sujet: "A chaque corpus son découpage et une segmentation pour tous"— Transcription de la présentation:

1 A chaque corpus son découpage et une segmentation pour tous
2ème DÉfi Fouille de Textes septembre 2006, Fribourg, Suisse A chaque corpus son découpage et une segmentation pour tous Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG

2 Objectifs Proposition d’une méthode adaptée au particularité de chaque corpus en suivant les 3 étapes de la segmentation Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Entrée : texte Sortie : segment 21 septembre 2006 DEFT‘06

3 Corpus 3 corpus Prétraitement des trois corpus Tree tagger
Adjectifs verbes noms Nombre de phrases du corpus Nombre de ruptures de thème Corpus politique 303373 18929 Corpus juridique 433456 9934 Corpus scientifique 4722 337 <1.1x> BONSOIR MADAME, BONSOIR MADEMOISELLE, BONSOIR MONSIEUR. <1.2> COMME JE VOUS L'AVAIS INDIQUE, PENDANT LA CAMPAGNE PRESIDENTIELLE JE CONSI DERE QU'UNE DE MES MISSIONS, UNE DE MES MISSIONS IMPORTANTES EST DE VOUS INFORME R, ET JE VOUDRAIS VOUS INFORMER CE SOIR DES MOTIFS QUI M'ONT CONDUIT AU CHOIX DU PREMIER MINISTRE ET A LA COMPOSITION DU NOUVEAU GOUVERNEMENT. <2.1x> Article X <2.2> 1) Les prélèvements sur les productions de charbon et d'acier prévus aux a rticles 49 et 50 du Traité sont assis sur les produits suivants: 1. Briquettes d e lignite et semi coke de lignite <2.3> 2. Houille de toutes catégories <2.4> 3. Fonte autre que destinée à la fabrication des lingots <3.1x> D'un point de vue conceptuel, l'apprentissage se joue entre un espace de description des objets d'entrée et un espace d'hypothèses. <3.2> Le choix d'un principe inductif permet d'évaluer, à partir des exemples, l a qualité des hypothèses et de prescrire l'hypothèse théorique optimale. 21 septembre 2006 DEFT‘06

4 Plan Méthodes Résultats Méthode du Text Tiling
Apprentissage sur les phrases Méthode de cohérence Résultats 21 septembre 2006 DEFT‘06

5 Méthode de Text Tiling Adaptation au corpus juridique
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Méthode de Text Tiling Adaptation au corpus juridique Utilisation de la structure du corpus en article Emplacement des ruptures à la fin d’un article Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Découpage par article Calcul du cosinus entre les blocs Valeurs de similarité calculées des blocs Entrée : texte Sortie : segment 21 septembre 2006 DEFT‘06

6 Calcul de la similarité
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité Bloc A <>Article <--> Similarité(A, B) Bloc B <>Article <--> Sélection des ruptures Similarité(B, C) Bloc C <>Article <--> Similarité(C, D) Bloc D <>Article <--> Similarité(D, E) Bloc E <>Article <--> 21 septembre 2006 DEFT‘06

7 Sélection des ruptures
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Sélection des ruptures Il y a une vallée lorsque (ya1 – ya2) + (ya3 – ya2) > δ, δ étant un seuil à fixer Validation des paramètres δ = 0 correspond aux tests donnant de meilleurs résultats 21 septembre 2006 DEFT‘06

8 Apprentissage sur les phrases
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Apprentissage sur les phrases Phrases de rupture formées d’un vocabulaire spécifique dans le corpus politique Phrases de non rupture formées de mots de liaison Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Découpage par phrase de rupture et de non rupture Établissement de 2 profils Score de correspondance de chaque phrase Entrée : texte Sortie : segment 21 septembre 2006 DEFT‘06

9 Formules d’apprentissage
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Formules d’apprentissage Pj : ensemble des phrases de type j, j étant une rupture ou une non rupture Qj : ensemble des phrases contenants le lemme i 21 septembre 2006 DEFT‘06

10 Validation des paramètres
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Validation des paramètres Seuil important amélioration de 25% Différents en fonction des corpus 21 septembre 2006 DEFT‘06

11 Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Méthode de cohérence Présence de digression dans le corpus scientifique Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Découpage par phrase Liens dans une zone intermédiaire Valeurs de cohérence de chaque phrase Entrée : texte Sortie : segment 21 septembre 2006 DEFT‘06

12 Calcul de la similarité(1/5)
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité(1/5) Zone de comparaison Taille de la zone : 2 δ δ δ Phrases adjacentes Toutes les phrases Phrases dans une zone 21 septembre 2006 DEFT‘06

13 Calcul de la similarité(2/5)
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité(2/5) Calcul de la matrice de similarité dans la zone de comparaison (cosinus) Avec f(i,x) la fréquence du mot x dans la phrase i 21 septembre 2006 DEFT‘06

14 Calcul de la similarité(3/5)
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité(3/5) Calcul de la matrice de liens Notion de lien 2 phrases fortement similaires sont liées Seuil de similarité Par exemple, on a δ = 2 phrases Lien (x,y) = 1 si case rouge Lien (x,y) = 0 si case grise Matrice de liens 21 septembre 2006 DEFT‘06

15 Calcul de la similarité(4/5)
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité(4/5) Calcul de la matrice de cohérence Notion de cohérence j Phrase i k 3 4 3 21 septembre 2006 DEFT‘06

16 Calcul de la similarité(5/5)
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Calcul de la similarité(5/5) Calcul de la matrice de cohérence MC (2,3) = Lien(1,3) + Lien(2,3) + Lien(2,4) = = 1 1  2  1 5 4 3 2 1 21 septembre 2006 DEFT‘06

17 Sélection des ruptures
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Sélection des ruptures La courbe de cohérence La diagonale de la matrice de cohérence Les changements de thème correspondent au minimum locaux de la courbe 21 septembre 2006 DEFT‘06

18 Validation des paramètres
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Validation des paramètres Taille de la zone inférieure ou égale à la moyenne de la taille des segments Taille de la zone Moyenne des résultats 5 0,191 10 15 0,188 20 0,182 25 0,172 30 0,167 40 0,164 50 0,165 60 0,171 100 0,131 δ δ δ Taille des segments Moyenne Corpus politique 16 Corpus scientifique 14 21 septembre 2006 DEFT‘06

19 Validation des paramètres
Méthodes Méthode du Text Tiling Apprentissage sur les phrases Méthode de cohérence Résultats Validation des paramètres Seuil de similarité entre deux phrases est supérieure à 0,5 Seuil >0,3 > 0,4 > 0,5 > 0,6 > 0,7 Moyenne 0,164 0,161 0,172 0,170 21 septembre 2006 DEFT‘06

20 Plan Méthodes Résultats Descriptions des essais Corpus juridique
Corpus scientifique Corpus politique 21 septembre 2006 DEFT‘06

21 Descriptions des essais
Méthodes Résultats Descriptions des essais Corpus juridique Corpus scientifique Corpus politique Descriptions des essais Choix des méthodes en fonctions des corpus ESSAI 1 ESSAI 2 ESSAI 3 Corpus politique METHODE DE ROCCHIO METHODE DE COHERENCE COMBINAISON Corpus juridique METHODE DE TEXTTILING Corpus scientifique 21 septembre 2006 DEFT‘06

22 Corpus juridique 21 septembre 2006 DEFT‘06 Méthodes Résultats
Descriptions des essais Corpus juridique Corpus scientifique Corpus politique Corpus juridique 21 septembre 2006 DEFT‘06

23 Corpus politique 21 septembre 2006 DEFT‘06 Méthodes Résultats
Descriptions des essais Corpus juridique Corpus politique Corpus scientifique Corpus politique 21 septembre 2006 DEFT‘06

24 Corpus scientifique 21 septembre 2006 DEFT‘06 Méthodes Résultats
Descriptions des essais Corpus juridique Corpus politique Corpus scientifique Corpus scientifique 21 septembre 2006 DEFT‘06

25 Conclusion Approches différenciées
Proposition d’une méthode de segmentation Avec une zone de comparaison intermédiaire Avec un nouveau calcul de similarité les liens Avec une segmentation sur la diagonale Méthode non supervisée Méthode pouvant être combinée 21 septembre 2006 DEFT‘06

26 Je vous remercie de votre attention

27 A chaque corpus son découpage et une segmentation pour tous
2ème DÉfi Fouille de Textes septembre 2006, Fribourg, Suisse A chaque corpus son découpage et une segmentation pour tous Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG

28 Résultats sur le corpus d’évaluation
Etat de l’art Proposition Expérimentation Validation Comparaison Résultats Résultats sur le corpus d’évaluation moyenne + ou - ESSAI 1 ESSAI 2 ESSAI 3 discours simple 0, 0, 0,274342 0,134466 0,180209 fen 1 0, 0, 0,386936 0,307809 0,288286 fen 2 0, 0, 0,460655 0,402088 0,351411 lois 0, 0, 0,248967 0, 0, 0,249402 0, 0, 0,374646 scientifique 0, 0, 0,165816 0,160695 0,158983 0, 0, 0,299616 0,278867 0,307937 0, 0, 0,355677 0,346636 0,380952 21 septembre 2006 DEFT‘06


Télécharger ppt "A chaque corpus son découpage et une segmentation pour tous"

Présentations similaires


Annonces Google