Analyse et structuration thématiques Stratégie pour des textes courts : maximum 10 pages Texte long (un rapport): considéré comme un ensemble de textes courts Délimités en fonction du plan
Les données Le texte annoté par le repérage de marques linguistiques : Introducteurs de cadre Annonces thématiques Marqueurs d'intégration linéaire : phrases liées Le texte balisé par Anathème : Un segment = un regroupement d'unité élémentaires (alignement sur des phrases) Les débuts et fin de segment
Analyse thématique (1) Fondée sur la cohésion lexicale : Des mots qui se répètent dans des zones consécutives forment un segment thématiquement homogène Principe : association d'un vecteur de mots à chaque zone Repérage de ruptures par calcul de distance
Analyse thématique (2) Efficace sur des textes scientifiques Application du même principe sur des textes narratifs Prise en compte de proximités sémantiques Enrichissement des vecteurs par des mots liés issus d'un réseau de collocations Et encore d'autres méthodes ...
Texte balisé en segments Architecture Analyse linguistique (ContextO) Analyse Thématique Texte annoté Texte balisé Intégration Collaboration entre les deux analyses Texte balisé en segments Structuration
Structuration des textes Le texte est segmenté en différentes parties liées à des sujets consécutifs différents La structure thématique du texte est de type "emboîtée" : Sujet 1 Sujet2 => on ne revient pas au sujet 2 par la suite La structuration repose sur des ressemblances lexicales Quand on reparle d'un sujet après une déviation ou un changement de thème, on réutilise des termes préalablement introduits
Principe de la structuration Description des segments par l vecteur de mots = "moyenne" des vecteurs des unités de base qui le compose. Evaluation de la distance entre segments Choix de la plus forte liaison => le segment reprend un thème Mise en boite des segments compris entre les 2 segments sélectionnés Réitération sur les segments contigus restant
Conclusion La méthode ne donne pas d'indication sur le type de lien hiérarchique lors d'un emboîtement : on sait que les sujets sont différents Envisager d'autres méthodes de construction de la structure d'un texte Tenir compte des marques linguistiques Exemples Marques intégration linéaire => niveau d'emboitement Marque de résultats => existence d'une hypothèse dans la même boite
Présentation à l'utilisateur Différents niveaux d'abstraction/de granularité La structure en boite, chacune caractérisée par son thème Un groupe nominal pertinent Un GN mis en contexte phrase un segment Retour au texte