Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007
Projet ANR Textométrie 2007-2010 Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal
Objectifs Développer : une plate-forme open-source de textométrie : Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)
Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com) HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html) LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW) SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm) WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf) XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org) Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source : http://michel.jacobson.free.fr/ITE/index_en.html)
Synthèse de la méthode textométrique 1. Préparation du corpus 2. Analyse du corpus
1. Préparation de corpus établissement du texte http://bfm.ens-lsh.fr
Préparation du corpus Codage (XML – Unicode - TEI)
Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.
0. EXEMPLE : Texte source (dépêche) In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.
Chaîne de TAL Entités nommées [LT XML Edinburgh Language Technology Group] 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans
Vue HTML colorisée du résultat
Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :
2. Analyse sur texte enrichi [pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section Expression algébrique Champ sémantique Partie du discours Forme du mot Figure poétique lemme phrase paragraphe section ... ... axe des occurrences n 1 2 3 ... ... Interprétations & propriétés du projet de recherche Outils de TAL Macro-structure du texte
Analyse exploratoire par moteur de recherche exemple d’index hiérarchique par requête
Concordances Usage 4 : exemple de concordance
Fonctions non contrastives de Weblex Analyse globale synthèse de tendances Analyse locale lecture détaillée Analyse paradigmatique Analyse syntagmatique Lexicogramme récursif Cooccurrents Concordance d’expressions CQP Lexicogramme Gamme des fréquences Index CQP* Vocabulaire Dimensions Rapidité Couverture … Répartitions Répartition CQP Synthèse Moteur Edition en ligne du texte du corpus Edition originale du texte du corpus Édition Précision Contrôle
Structure des fonctionnalités Synthèse de : Hyperbase, Lexico, Sato, Weblex 4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation Point de vue : Quantitatif Qualitatif
Weblex et le modèle SEMA Analyse quantitative : Analyse factorielle, CAH Indices statistiques maison : Spécificités Cooccurrences (lexicogramme simple et récursif) N-grammes = segments répétés Moteurs de recherche Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document) Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation) Général : XQuery - eXist Édition de fac-similé Données textuelles : HTML, PDF Données orales : SMIL, PDF S M E
Modèle de données courant : 11 rubriques d’entrée Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)
Généralisation de la Méthode : Cercle Herméneutique Formes Lemmes Entités Généralisation de la Méthode : Cercle Herméneutique TAL Interprétation Qualité : Qui ? Quand ? Sources Édition Annotation SEMA Établissement du texte Transmission OCR TXT Unicode XML XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █
Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI Codage du corps des textes (principes, standard) : XML TEI Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)
Merci