La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse et structuration thématiques Stratégie pour des textes courts : maximum 10 pages Texte long (un rapport): – considéré comme un ensemble de textes.

Présentations similaires


Présentation au sujet: "Analyse et structuration thématiques Stratégie pour des textes courts : maximum 10 pages Texte long (un rapport): – considéré comme un ensemble de textes."— Transcription de la présentation:

1 Analyse et structuration thématiques Stratégie pour des textes courts : maximum 10 pages Texte long (un rapport): – considéré comme un ensemble de textes courts –Délimités en fonction du plan

2 Les données Le texte annoté par le repérage de marques linguistiques : –Introducteurs de cadre –Annonces thématiques –Marqueurs d'intégration linéaire : phrases liées Le texte balisé par Anathème : –Un segment = un regroupement d'unité élémentaires (alignement sur des phrases) –Les débuts et fin de segment

3 Analyse thématique (1) Fondée sur la cohésion lexicale : –Des mots qui se répètent dans des zones consécutives forment un segment thématiquement homogène –Principe : association d'un vecteur de mots à chaque zone –Repérage de ruptures par calcul de distance

4 Analyse thématique (2) Efficace sur des textes scientifiques Application du même principe sur des textes narratifs –Prise en compte de proximités sémantiques –Enrichissement des vecteurs par des mots liés issus d'un réseau de collocations Et encore d'autres méthodes...

5 Architecture Analyse linguistique (ContextO) Analyse Thématique Intégration Collabo ration entre les deux analyses Texte balisé en segments Structuration Texte annotéTexte balisé

6 Structuration des textes Le texte est segmenté en différentes parties liées à des sujets consécutifs différents La structure thématique du texte est de type "emboîtée" : Sujet 1 Sujet2 Sujet 1 => on ne revient pas au sujet 2 par la suite La structuration repose sur des ressemblances lexicales –Quand on reparle d'un sujet après une déviation ou un changement de thème, on réutilise des termes préalablement introduits

7 Principe de la structuration Description des segments par l vecteur de mots = "moyenne" des vecteurs des unités de base qui le compose. Evaluation de la distance entre segments Choix de la plus forte liaison => le segment reprend un thème Mise en boite des segments compris entre les 2 segments sélectionnés Réitération sur les segments contigus restant

8 Conclusion La méthode ne donne pas d'indication sur le type de lien hiérarchique lors d'un emboîtement : on sait que les sujets sont différents Envisager d'autres méthodes de construction de la structure d'un texte –Tenir compte des marques linguistiques –Exemples Marques intégration linéaire => niveau d'emboitement Marque de résultats => existence d'une hypothèse dans la même boite

9 Présentation à l'utilisateur Différents niveaux d'abstraction/de granularité La structure en boite, chacune caractérisée par son thème –Un groupe nominal pertinent Un GN mis en contexte –phrase –un segment Retour au texte


Télécharger ppt "Analyse et structuration thématiques Stratégie pour des textes courts : maximum 10 pages Texte long (un rapport): – considéré comme un ensemble de textes."

Présentations similaires


Annonces Google