Textométrie : point de vue linguistique des données

Slides:

Advertisements

Présentations similaires

Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.

Advertisements

CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.

Transformation de documents XML

Table ronde Le B.A.-BA de la lecture numérique L. Zaysser

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE

Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)

Une solution personnalisable et extensible

Indexation vidéo Indexation multimédia

La France Données sociales

La France Données sociales

Le projet d ENT dans l'académie de Rennes Réunion des Interlocuteurs TICE en SPCFA 6 mai 2009.

XHTML EXtensible HyperText Markup Language. HTML et XML HTML (HyperText Markup Language) et XML (eXtensible Markup Language) sont deux spécifications.

le langage les éléments

Domaines nominaux XSLT

Navigation Interactive dans les documents

ANDRE Marine DABIN Julie WATERLOT Amandine

Girard Pia & Laffont Caroline

Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline

Outil de statistique textuelle FALLET Justine CRUAUD Marion

MIKHAYLOVA Vera Exposé Java principe de fonctionnement Lundi 17 mai 2004 DEUG 1ère année Science du langage Paris III.

Programmation et projet encadré

Manipulation d’XML avec XSL

Métadonnées pour les thèses numériques françaises

Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)

Plateforme de revues et d’articles en sciences humaines et sociales

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO

> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.

Bonjour. 2 constats numériques Nos livres très clair Bilan.

COME Bernard Comeau Commerce électronique Les éléments retrouvés dans une page Web. COME 2001.

Traitement de texte ++.

d’un article scientifique

Archimède : dépôt institutionnel de la Bibliothèque de lUniversité Laval Par Rida Benjelloun Chef de la section recherche.

B2i Lycée Circulaire BO n°31 du 29/08/2013.

Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.

Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.

Corpus parallèles et textométrie

Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005

Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.

Moteur de recherche d’information

Projet Lucene 22 avril 2011 Acquisition de Connaissances 2

1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.

OUTILEX Présentation des résultats

24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.

Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions

Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)

Forum des Industries de la Langue, 17 mars 2010

La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.

La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.

Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) (

Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.

Recherche par mots-clés vs recherche en langue naturelle.

Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.

Les techniques des moteurs de recherche

Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.

Réaliser et diffuser un projet intégrant les TIC

BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.

Traitement de texte +.

WINWORD.. OBJECTIFS n.n. WINWORD n POURQUOI WINWORD n SAISIE n OPERATIONS AVANT IMPRESSION n CREATION DE MODELES.

Reveal-This Ou comment générer des métadonnées utiles automatiquement.

Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.

Soutenance du mémoire de synthèse

Module : Langage XML (21h)

Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

L'annotation structurelle François Daoust Centre ATO,Université du Québec à Montréal Yves Marcoux EBSI, Université de Montréal Jean-Marie Viprey LASELDI,

Transcription de la présentation:

Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

Projet ANR Textométrie 2007-2010 Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

Objectifs Développer : une plate-forme open-source de textométrie : Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)

Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com) HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html) LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW) SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm) WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf) XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org) Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source : http://michel.jacobson.free.fr/ITE/index_en.html)

Synthèse de la méthode textométrique 1. Préparation du corpus 2. Analyse du corpus

1. Préparation de corpus établissement du texte http://bfm.ens-lsh.fr

Préparation du corpus Codage (XML – Unicode - TEI)

Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.

0. EXEMPLE : Texte source (dépêche) In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

Chaîne de TAL Entités nommées [LT XML Edinburgh Language Technology Group] 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans

Vue HTML colorisée du résultat

Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :

2. Analyse sur texte enrichi [pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section Expression algébrique Champ sémantique Partie du discours Forme du mot Figure poétique lemme phrase paragraphe section ... ... axe des occurrences n 1 2 3 ... ... Interprétations & propriétés du projet de recherche Outils de TAL Macro-structure du texte

Analyse exploratoire par moteur de recherche exemple d’index hiérarchique par requête

Concordances Usage 4 : exemple de concordance

Fonctions non contrastives de Weblex Analyse globale synthèse de tendances Analyse locale lecture détaillée Analyse paradigmatique Analyse syntagmatique Lexicogramme récursif Cooccurrents Concordance d’expressions CQP Lexicogramme Gamme des fréquences Index CQP* Vocabulaire Dimensions Rapidité Couverture … Répartitions Répartition CQP Synthèse Moteur Edition en ligne du texte du corpus Edition originale du texte du corpus Édition Précision Contrôle

Structure des fonctionnalités Synthèse de : Hyperbase, Lexico, Sato, Weblex 4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation Point de vue : Quantitatif Qualitatif

Weblex et le modèle SEMA Analyse quantitative : Analyse factorielle, CAH Indices statistiques maison : Spécificités Cooccurrences (lexicogramme simple et récursif) N-grammes = segments répétés Moteurs de recherche Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document) Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation) Général : XQuery - eXist Édition de fac-similé Données textuelles : HTML, PDF Données orales : SMIL, PDF S M E

Modèle de données courant : 11 rubriques d’entrée Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

Généralisation de la Méthode : Cercle Herméneutique Formes Lemmes Entités Généralisation de la Méthode : Cercle Herméneutique TAL Interprétation Qualité : Qui ? Quand ? Sources Édition Annotation SEMA Établissement du texte Transmission OCR TXT Unicode XML XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █

Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI Codage du corps des textes (principes, standard) : XML TEI Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)

Merci