Textométrie : point de vue linguistique des données

Slides:



Advertisements
Présentations similaires
Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Advertisements

CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
Transformation de documents XML
Table ronde Le B.A.-BA de la lecture numérique L. Zaysser
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)
Une solution personnalisable et extensible
Indexation vidéo Indexation multimédia
La France Données sociales
La France Données sociales
Le projet d ENT dans l'académie de Rennes Réunion des Interlocuteurs TICE en SPCFA 6 mai 2009.
XHTML EXtensible HyperText Markup Language. HTML et XML HTML (HyperText Markup Language) et XML (eXtensible Markup Language) sont deux spécifications.
le langage les éléments
Domaines nominaux XSLT
Navigation Interactive dans les documents
ANDRE Marine DABIN Julie WATERLOT Amandine
Girard Pia & Laffont Caroline
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Outil de statistique textuelle FALLET Justine CRUAUD Marion
MIKHAYLOVA Vera Exposé Java principe de fonctionnement Lundi 17 mai 2004 DEUG 1ère année Science du langage Paris III.
Programmation et projet encadré
Manipulation d’XML avec XSL
Métadonnées pour les thèses numériques françaises
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Plateforme de revues et d’articles en sciences humaines et sociales
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Bonjour. 2 constats numériques Nos livres très clair Bilan.
COME Bernard Comeau Commerce électronique Les éléments retrouvés dans une page Web. COME 2001.
Traitement de texte ++.
d’un article scientifique
Archimède : dépôt institutionnel de la Bibliothèque de lUniversité Laval Par Rida Benjelloun Chef de la section recherche.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.
Corpus parallèles et textométrie
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Moteur de recherche d’information
Projet Lucene 22 avril 2011 Acquisition de Connaissances 2
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
OUTILEX Présentation des résultats
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) (
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Recherche par mots-clés vs recherche en langue naturelle.
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
Les techniques des moteurs de recherche
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Réaliser et diffuser un projet intégrant les TIC
BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.
Traitement de texte +.
WINWORD.. OBJECTIFS n.n. WINWORD n POURQUOI WINWORD n SAISIE n OPERATIONS AVANT IMPRESSION n CREATION DE MODELES.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
L'annotation structurelle François Daoust Centre ATO,Université du Québec à Montréal Yves Marcoux EBSI, Université de Montréal Jean-Marie Viprey LASELDI,
Transcription de la présentation:

Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

Projet ANR Textométrie 2007-2010 Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

Objectifs Développer : une plate-forme open-source de textométrie : Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)

Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com) HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html) LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW) SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm) WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf) XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org) Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source : http://michel.jacobson.free.fr/ITE/index_en.html)

Synthèse de la méthode textométrique 1. Préparation du corpus 2. Analyse du corpus

1. Préparation de corpus établissement du texte http://bfm.ens-lsh.fr

Préparation du corpus Codage (XML – Unicode - TEI)

Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.

0. EXEMPLE : Texte source (dépêche) In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

Chaîne de TAL Entités nommées [LT XML Edinburgh Language Technology Group] 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans

Vue HTML colorisée du résultat

Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :

2. Analyse sur texte enrichi [pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section Expression algébrique Champ sémantique Partie du discours Forme du mot Figure poétique lemme phrase paragraphe section ... ... axe des occurrences n 1 2 3 ... ... Interprétations & propriétés du projet de recherche Outils de TAL Macro-structure du texte

Analyse exploratoire par moteur de recherche exemple d’index hiérarchique par requête

Concordances Usage 4 : exemple de concordance

Fonctions non contrastives de Weblex Analyse globale synthèse de tendances Analyse locale lecture détaillée Analyse paradigmatique Analyse syntagmatique Lexicogramme récursif Cooccurrents Concordance d’expressions CQP Lexicogramme Gamme des fréquences Index CQP* Vocabulaire Dimensions Rapidité Couverture … Répartitions Répartition CQP Synthèse Moteur Edition en ligne du texte du corpus Edition originale du texte du corpus Édition Précision Contrôle

Structure des fonctionnalités Synthèse de : Hyperbase, Lexico, Sato, Weblex 4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation Point de vue : Quantitatif Qualitatif

Weblex et le modèle SEMA Analyse quantitative : Analyse factorielle, CAH Indices statistiques maison : Spécificités Cooccurrences (lexicogramme simple et récursif) N-grammes = segments répétés Moteurs de recherche Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document) Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation) Général : XQuery - eXist Édition de fac-similé Données textuelles : HTML, PDF Données orales : SMIL, PDF S M E

Modèle de données courant : 11 rubriques d’entrée Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

Généralisation de la Méthode : Cercle Herméneutique Formes Lemmes Entités Généralisation de la Méthode : Cercle Herméneutique TAL Interprétation Qualité : Qui ? Quand ? Sources Édition Annotation SEMA Établissement du texte Transmission OCR TXT Unicode XML XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █

Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI Codage du corps des textes (principes, standard) : XML TEI Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)

Merci