1 Premier bilan de l utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.

Slides:



Advertisements
Présentations similaires
Prof. Assist. Dr Penphan THIPKONG
Advertisements

Analyse distributionnelle automatique
De l’approche communicative à l’approche actionnelle
Prof. Assist. Dr Penphan THIPKONG
I expo, Paris juin 2007 LA RÉUTILISATION DES DONNÉES PUBLIQUES EN EUROPE ET EN FRANCE LES LICENCES TYPES Pourquoi ? Comment ? Et après ? Bernard.
Terminologie et corpus : la question du genre et de la variation
Arrière-plan théorique Il ny a pas de conscience innée des mécanismes des divers discours et des types de textes qui les associent que ce soit pour les.
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Synthèse des textes officiels
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Dématérialisation des marchés publics Quels besoins dinteropérabilité et de standardisation? CGIET Standardisation et interopérabilité 13 septembre 2011.
Forum Forestier Lémanique au 10 ème anniversaire du Forum Forestier Lémanique Paiements des services des écosystèmes forestiers : solution ou illusion.
Outils d’aide à l’évaluation des acquis des élèves
Cours Web sémantique Langage SPARQL
1 er décembre 2005Projet ILD&ISTC1 Langues et documents Perspectives.
Epidémiologie des cancers digestifs en France
Analyse et structuration thématiques
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Discours et TAL TAL et discours
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
Formation de formateurs PPRE de passage 2 avril 2009 Daprès C. DARROUZET & P. WARGNIER LES PROGRAMMES PERSONNALISÉS DE RÉUSSITE ÉDUCATIVE.
L’INSPECTION PEDAGOGIQUE DES ENSEIGNANTS
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
Conception d’une application de gestion de fiches études
Travaux pratiques sur Nooj
Cordial, le TAL et les aides à la rédaction
Caroline Patenaude Bibliothécaire – responsable informatique et Web Bibliothèque des lettres et sciences humaines, Université de Montréal 4 novembre 2010.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
L’observation réfléchie de la langue au cycle 3
Vers une ontologie du domaine de l’astronomie
Lecture de plans du bâtiment TD1
GROUPES DE COMPETENCE ? QUELLE ORGANISATION POUR QUELS OBJECTIFS ?
Pour un système formel de description linguistique
PUBLIC HEALTH AGENCY of CANADA AGENCE DE LA SANTÉ PUBLIQUE du CANADA 1 PUBLIC HEALTH AGENCY of CANADA AGENCE DE LA SANTÉ PUBLIQUE du CANADA SUICIDE CHEZ.
Présentation du port de Bejaia
Le langage oral en maternelle
Simulateur Interactif de Qos dans un Routeur
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY mes Document daccompagnement des programmes « Le Langage à lEcole Maternelle » mes Document daccompagnement.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
SLATE : UNE TENTATIVE DE DIALOGUE ENTRE SPÉCIALISTES DE LÉVALUATION ET CHERCHEURS EN ACQUISITION M. Prodeau & C. Carlo ELCA-DILTEC.
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1 Couplage dun langage de contrôle de formatage avec un système de formatage existant DEA ISC : 1 avril 2003 Fateh Boulmaiz
Cours de l interpr é tation 2 è me p é riode d entra î nement: Mémorisation logique Discours narratif.
Ontologies pour l’astronomie
La syntaxe du primaire au secondaire : portrait des élèves et pistes d’interventions Pascale Lefrançois, Isabelle Montésinos- Gelet, Dominic Anctil, Darrin.
Objectifs  Auteur non mentionné  Informations erronées  Mise à jour peu fréquente  Navigation difficile  Publicité intrusive  Atteinte à la vie.
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Ressources Internet liées à la CIB
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Sylwia Ozdowska1, Vincent Claveau2
Ecole Normale Supérieure 1 rue Maurice Arnoux F Montrouge Université Paris 7 30 rue du château des rentiers, F Paris Adresse postale : 2, place.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Évaluations nationales et maîtrise de la langue Continuité et perspective.
Meilleurs vœux pour 2011!.
Consolidation de grands réseaux lexicaux
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
PROGRAMMES CYCLE III Programmes d’enseignement de l’école élémentaire et du collège: BO spécial n°11 du 26 novembre 2015 Socle commun de connaissances.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
GEOMETRIE du cycle 1 au cycle 3 quelques pistes
Transcription de la présentation:

1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006

2 Objectifs 1. Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique réduction de la durée des études / réduire la durée études (au lycée) -> variantes morphologiques augmenter les taux dintérêt / hausse de taux dintérêt -> variantes synonymiques marché international du bois / acheter le bois chez d'autres -> chaîne cohésive {marché, acheter} 2. Présenter le premier bilan de lobservation des données

3 Points de d é part Données : 10 ans de le Monde constitués en aval de lanalyse de Syntex et calculées par Upery (Bourigault 2003) selon un critère distributionnel (vndoc.mdb) BdD permet de visualiser tous les paragraphes d'apparition de tous les couples GN [N de ARG] et GV [V obj ARG] dont les ARG sont identiques.

4 Extraits du fichier vndoc.mdb, base de données utilisée

5 1. Pourquoi LinguaStream? enrichissement incrémental des documents électroniques, facilite la conception et lévaluation de chaînes de traitements complexes tout en requérant des compétences informatiques minimales

6 1. D é marche à suivre ans de le Monde xmlisé selon les caractéristiques de la plate-forme 2. Construire un lexique pour lensemble de noms recteurs et lensemble de verbes recteurs. « Aligner » les deux lexiques. 3. Faire une expression régulière pour trouver puis surligner les couples nom-verbe : {anchor:start, type:paragraph} (!{type:paragraph})+ {type:nom} /as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+ /sem {id:"$x"} {anchor:end, type:paragraph}

7 Extrait du fichier LinguaStream sur lequel nous avons travaillé

8 1. Difficultés rencontrées Mais… 1. Taille de corpus 2. Résultats surgénéralisés et non satisfaisants 3. Manque du formalisme DSDL (Discourse Structure Description Language) permettant dexprimer des contraintes au niveau discursif.

9 2. Premier bilan de l observation des donn é es Les 23 couples les plus fréquents : les couples qui partagent au moins 100 paragraphes Chaque couple -> 10 paragraphes 14 couples morphologiquement liés, 6 couples en contexte immédiat, 1 couple non morphologique (hausse/augmenter), 1 couple marginal (nombre/compter), 1 couple erroné (coupe/couper dans la Coupe du Monde) Dans le cas des couples les plus fréquents, la plupart des parents distributionnels sont des parents morphologiques.

10 Résultat de lanalyse manuelle des 23 couples les plus fréquents

11 Perspectives Mieux manipuler loutil un autre moyen pour repérer des couples distributionnels Étendre lobservation sur des couples moyennement fréquents voisins distributionnels -> construire des chaînes de cohésion?

12 R é f é rences Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la construction dontologies à partir de corpus », Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p. Morris, J. & Hirst G. (1991), Lexical cohesion computed by thesaural relations as an indicator of the structure of text in Computational Linguistics 17 (pp ) Teich, E & Fankhauser, P. (2005) Exploring Lexical Patterns in Text: Lexical Cohesion Analysis withWordNet in Interdisciplinary Studies on Information Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.): Heterogeneity in Focus: Creating and Using Linguistic Databases Vergez-Couret M. (2006) Apprendre Linguastream par lexemple : Annoter les marqueurs linguistiques de la relation délaboration (en cours de réalisation) Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil dexploration linguistique sur corpus », TALN juin 2005, pp LinguaStream