Textométrie : point de vue linguistique des données

Textométrie : point de vue linguistique des données
Serge Heiden UMR ICAR ENS-LSH / CNRS ATHIS, ENS-LSH, Lyon, Septembre 2007

Projet ANR Textométrie 2007-2010
Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

Objectifs Développer : une plate-forme open-source de textométrie :
Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)

Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : LEXICO : André Salem (diffusion par le web, en shareware : SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source :

Synthèse de la méthode textométrique
1. Préparation du corpus 2. Analyse du corpus

1. Préparation de corpus établissement du texte

Préparation du corpus Codage (XML – Unicode - TEI)

Enrichissement linguistique : Entités nommées
Dates Personnes Sommes monétaires Lieux Événements etc.

0. EXEMPLE : Texte source (dépêche)
In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

Vue HTML colorisée du résultat

Étiquetage morphosyntaxique et lemmatisation
Vue tabulée (Cordial) :

2. Analyse sur texte enrichi
[pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section Expression algébrique Champ sémantique Partie du discours Forme du mot Figure poétique lemme phrase paragraphe section ... ... axe des occurrences n 1 2 3 ... ... Interprétations & propriétés du projet de recherche Outils de TAL Macro-structure du texte

Analyse exploratoire par moteur de recherche
exemple d’index hiérarchique par requête

Concordances Usage 4 : exemple de concordance

Fonctions non contrastives de Weblex
Analyse globale synthèse de tendances Analyse locale lecture détaillée Analyse paradigmatique Analyse syntagmatique Lexicogramme récursif Cooccurrents Concordance d’expressions CQP Lexicogramme Gamme des fréquences Index CQP* Vocabulaire Dimensions Rapidité Couverture … Répartitions Répartition CQP Synthèse Moteur Edition en ligne du texte du corpus Edition originale du texte du corpus Édition Précision Contrôle

Structure des fonctionnalités
Synthèse de : Hyperbase, Lexico, Sato, Weblex 4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation Point de vue : Quantitatif Qualitatif

Weblex et le modèle SEMA
Analyse quantitative : Analyse factorielle, CAH Indices statistiques maison : Spécificités Cooccurrences (lexicogramme simple et récursif) N-grammes = segments répétés Moteurs de recherche Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document) Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation) Général : XQuery - eXist Édition de fac-similé Données textuelles : HTML, PDF Données orales : SMIL, PDF S M E

Modèle de données courant : 11 rubriques d’entrée
Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

Généralisation de la Méthode : Cercle Herméneutique
Formes Lemmes Entités Généralisation de la Méthode : Cercle Herméneutique TAL Interprétation Qualité : Qui ? Quand ? Sources Édition Annotation SEMA Établissement du texte Transmission OCR TXT Unicode XML XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █

Transmissibilité des textes = capitalisation des efforts de codage
Traçabilité = documentation Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI Codage du corps des textes (principes, standard) : XML TEI Responsabilités et qualité Exemple : CCFM (

Textométrie : point de vue linguistique des données

Présentations similaires

Présentation au sujet: "Textométrie : point de vue linguistique des données"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Textométrie : point de vue linguistique des données

Présentations similaires

Présentation au sujet: "Textométrie : point de vue linguistique des données"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back