La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007.

Présentations similaires


Présentation au sujet: "Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007."— Transcription de la présentation:

1 Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS ATHIS, ENS-LSH, Lyon, Septembre 2007

2 Projet ANR Textométrie Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

3 Objectifs Développer : une plate-forme open-source de textométrie : Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)

4 Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : HYPERBASE : Etienne Brunet (diffusé en CDROM par lU. de Nice : LEXICO : André Salem (diffusion par le web, en shareware : paris3.fr/ilpga/ilpga/tal/lexicoWWW)http://www.cavi.univ- paris3.fr/ilpga/ilpga/tal/lexicoWWW SATO : François Daoust (diffusé par lUQAM, en CDROM et par le web : WEBLEX : Serge Heiden (diffusé par lENS-LSH : application web à usage académique par projets de recherche : XAIRA : Lou Burnard (diffusé par lOUCS : par le web, en open source : Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support dexpérimentation et dillustration de fonctionnalités textométriques innovantes : ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source :

5 Synthèse de la méthode textométrique 1. Préparation du corpus 2. Analyse du corpus

6 1. Préparation de corpus établissement du texte

7 Préparation du corpus Codage (XML – Unicode - TEI)

8 Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.

9 0. EXEMPLE : Texte source (dépêche) In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

10 plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | openangle.perl | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans Chaîne de TAL Entités nommées [LT XML Edinburgh Language Technology Group] 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML

11 Vue HTML colorisée du résultat

12 Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :

13 2. Analyse sur texte enrichi Forme du mot Partie du discours lemme... axe des occurrences Champ sémantique Figure poétique... n phrase paragraphe section Interprétations & propriétés du projet de recherche Outils de TAL Macro-structure du texte [pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section Expression algébrique

14 Analyse exploratoire par moteur de recherche exemple dindex hiérarchique par requête

15 Concordances Usage 4 : exemple de concordance

16 Fonctions non contrastives de Weblex … -Précision -Contrôle Analyse globale synthèse de tendances Analyse locale lecture détaillée Répartitions Répartition CQP Gamme des fréquences Index CQP* Vocabulaire Dimensions -Rapidité -Couverture Edition en ligne du texte du corpus Edition originale du texte du corpus Lexicogramme récursif Cooccurrents Concordance dexpressions CQP Lexicogramme Analyse paradigmatique Analyse syntagmatique Synthèse Moteur Édition

17 Structure des fonctionnalités Synthèse de : Hyperbase, Lexico, Sato, Weblex 4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation Point de vue : Quantitatif Qualitatif

18 Weblex et le modèle SEMA Analyse quantitative : Analyse factorielle, CAH Indices statistiques maison : Spécificités Cooccurrences (lexicogramme simple et récursif) N-grammes = segments répétés Moteurs de recherche Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & C oncordances KWIC triées (IR) Greenstone (recherche booléenne simple / document) Données orales : NXT Search (NITE) (recherche dans des graphes dannotation) Général : XQuery - eXist Édition de fac-similé Données textuelles : HTML, PDF Données orales : SMIL, PDF

19 Modèle de données courant : 11 rubriques dentrée Codage : comment interpréter -> XML ( ) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation dunités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types dindex (corps, langues, titres, notes, etc.), en/hors texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points daccès, métadonnées, publications, etc. Feuilles de style dédition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

20 Généralisation de la Méthode : Cercle Herméneutique Sources Édition Annotation Établissement du texte Interprétation TAL OCR Transmission Formes Lemmes Entités TXT Unicode XML XML-TEI Qualité : -Qui ? -Quand ? SEMA Légende : Activité Objet Assistance informatique Contrôle qualité

21 Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI Codage du corps des textes (principes, standard) : XML TEI Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)http://ccfm.ens-lsh.fr

22 Merci


Télécharger ppt "Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007."

Présentations similaires


Annonces Google