La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille.

Présentations similaires


Présentation au sujet: "Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille."— Transcription de la présentation:

1 Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille de Textes septembre 2006, Fribourg, Suisse

2 21 septembre 2006DEFT06 2 Objectifs Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Sortie : segment Entrée : texte Proposition dune méthode adaptée au particularité de chaque corpus en suivant les 3 étapes de la segmentation

3 21 septembre 2006DEFT06 3 Corpus 3 corpus Prétraitement des trois corpus – Tree tagger – Adjectifs verbes noms Nombre de phrases du corpusNombre de ruptures de thème Corpus politique Corpus juridique Corpus scientifique BONSOIR MADAME, BONSOIR MADEMOISELLE, BONSOIR MONSIEUR. COMME JE VOUS L'AVAIS INDIQUE, PENDANT LA CAMPAGNE PRESIDENTIELLE JE CONSI DERE QU'UNE DE MES MISSIONS, UNE DE MES MISSIONS IMPORTANTES EST DE VOUS INFORME R, ET JE VOUDRAIS VOUS INFORMER CE SOIR DES MOTIFS QUI M'ONT CONDUIT AU CHOIX DU PREMIER MINISTRE ET A LA COMPOSITION DU NOUVEAU GOUVERNEMENT. Article X 1) Les prélèvements sur les productions de charbon et d'acier prévus aux a rticles 49 et 50 du Traité sont assis sur les produits suivants: 1. Briquettes d e lignite et semi coke de lignite 2. Houille de toutes catégories 3. Fonte autre que destinée à la fabrication des lingots D'un point de vue conceptuel, l'apprentissage se joue entre un espace de description des objets d'entrée et un espace d'hypothèses. Le choix d'un principe inductif permet d'évaluer, à partir des exemples, l a qualité des hypothèses et de prescrire l'hypothèse théorique optimale.

4 21 septembre 2006DEFT06 4 Plan Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

5 21 septembre 2006DEFT06 5 Méthode de Text Tiling Adaptation au corpus juridique – Utilisation de la structure du corpus en article – Emplacement des ruptures à la fin dun article Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Sortie : segment Entrée : texte Calcul du cosinus entre les blocs Valeurs de similarité calculées des blocs Découpage par article Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

6 21 septembre 2006DEFT06 6 Calcul de la similarité Bloc A Bloc B Bloc C Bloc D Bloc E Similarité(A, B) Similarité(B, C) Similarité(C, D) Similarité(D, E ) Sélection des ruptures <>Article <>Article <>Article <>Article <>Article Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

7 21 septembre 2006DEFT06 7 Sélection des ruptures Il y a une vallée lorsque (y a1 – y a2 ) + (y a3 – y a2 ) > δ, δ étant un seuil à fixer Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats Validation des paramètres – δ = 0 correspond aux tests donnant de meilleurs résultats

8 21 septembre 2006DEFT06 8 Apprentissage sur les phrases Phrases de rupture formées dun vocabulaire spécifique dans le corpus politique Phrases de non rupture formées de mots de liaison Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Entrée : texte Établissement de 2 profils Score de correspondance de chaque phrase Découpage par phrase de rupture et de non rupture Sortie : segment Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

9 21 septembre 2006DEFT06 9 Formules dapprentissage P j : ensemble des phrases de type j, j étant une rupture ou une non rupture Q j : ensemble des phrases contenants le lemme i Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

10 21 septembre 2006DEFT06 10 Validation des paramètres Seuil important amélioration de 25% Différents en fonction des corpus Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

11 21 septembre 2006DEFT06 11 Méthode de cohérence Présence de digression dans le corpus scientifique Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Entrée : texte Liens dans une zone intermédiaire Valeurs de cohérence de chaque phrase Découpage par phrase Sortie : segment Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

12 21 septembre 2006DEFT06 12 Calcul de la similarité(1/5) Zone de comparaison Taille de la zone : 2 δ Phrases adjacentesToutes les phrasesPhrases dans une zone δ δ Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

13 21 septembre 2006DEFT06 13 Calcul de la similarité(2/5) Calcul de la matrice de similarité dans la zone de comparaison (cosinus) Avec f(i,x) la fréquence du mot x dans la phrase i Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

14 21 septembre 2006DEFT06 14 Calcul de la similarité(3/5) Calcul de la matrice de liens – Notion de lien 2 phrases fortement similaires sont liées – Seuil de similarité Par exemple, on a δ = 2 phrases – Lien (x,y) = 1 si case rouge – Lien (x,y) = 0 si case grise Matrice de liens Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

15 21 septembre 2006DEFT06 15 Calcul de la similarité(4/5) Calcul de la matrice de cohérence Notion de cohérence j Phrase i k Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

16 21 septembre 2006DEFT06 16 Calcul de la similarité(5/5) Calcul de la matrice de cohérence MC (2,3) = Lien(1,3) + Lien(2,3) + Lien(2,4) = = Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

17 21 septembre 2006DEFT06 17 Sélection des ruptures La courbe de cohérence – La diagonale de la matrice de cohérence Les changements de thème correspondent au minimum locaux de la courbe Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

18 21 septembre 2006DEFT06 18 Validation des paramètres Taille de la zone – inférieure ou égale à la moyenne de la taille des segments Taille de la zoneMoyenne des résultats 50, , , , , , , , , ,131 δ δ δ Taille des segments Moyenne Corpus politique16 Corpus scientifique14 Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

19 21 septembre 2006DEFT06 19 Validation des paramètres Seuil de similarité – entre deux phrases est supérieure à 0,5 Seuil >0,3 > 0,4 > 0,5 > 0,6 > 0,7 Moyenne0,1640,1610,1720,1700,164 Méthodes – Méthode du Text Tiling – Apprentissage sur les phrases – Méthode de cohérence Résultats

20 21 septembre 2006DEFT06 20 Plan Méthodes Résultats – Descriptions des essais – Corpus juridique – Corpus scientifique – Corpus politique

21 21 septembre 2006DEFT06 21 Descriptions des essais Choix des méthodes en fonctions des corpus ESSAI 1ESSAI 2ESSAI 3 Corpus politique METHODE DE ROCCHIO METHODE DE COHERENCE COMBINAISON Corpus juridique METHODE DE TEXTTILING Corpus scientifique METHODE DE ROCCHIO METHODE DE COHERENCE COMBINAISON Méthodes Résultats – Descriptions des essais – Corpus juridique – Corpus scientifique – Corpus politique

22 21 septembre 2006DEFT06 22 Corpus juridique Méthodes Résultats – Descriptions des essais – Corpus juridique – Corpus scientifique – Corpus politique

23 21 septembre 2006DEFT06 23 Corpus politique Méthodes Résultats – Descriptions des essais – Corpus juridique – Corpus politique – Corpus scientifique

24 21 septembre 2006DEFT06 24 Corpus scientifique Méthodes Résultats – Descriptions des essais – Corpus juridique – Corpus politique – Corpus scientifique

25 21 septembre 2006DEFT06 25 Conclusion Approches différenciées Proposition dune méthode de segmentation – Avec une zone de comparaison intermédiaire – Avec un nouveau calcul de similarité les liens – Avec une segmentation sur la diagonale Méthode non supervisée Méthode pouvant être combinée

26 Je vous remercie de votre attention

27 Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille de Textes septembre 2006, Fribourg, Suisse

28 21 septembre 2006DEFT06 28 Résultats sur le corpus dévaluation moyenne+ ou -ESSAI 1ESSAI 2ESSAI 3 discours simple0, , , , , fen 10, , , , , fen 20, , , , , lois simple0, , , fen 10, , , fen 20, , , scientifique simple0, , , , , fen 10, , , , , fen 20, , , , , Etat de lart Proposition Expérimentation – Validation – Comparaison – Résultats


Télécharger ppt "Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille."

Présentations similaires


Annonces Google