La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Premier bilan de l utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.

Présentations similaires


Présentation au sujet: "1 Premier bilan de l utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006."— Transcription de la présentation:

1 1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006

2 2 Objectifs 1. Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique réduction de la durée des études / réduire la durée études (au lycée) -> variantes morphologiques augmenter les taux dintérêt / hausse de taux dintérêt -> variantes synonymiques marché international du bois / acheter le bois chez d'autres -> chaîne cohésive {marché, acheter} 2. Présenter le premier bilan de lobservation des données

3 3 Points de d é part Données : 10 ans de le Monde constitués en aval de lanalyse de Syntex et calculées par Upery (Bourigault 2003) selon un critère distributionnel (vndoc.mdb) BdD permet de visualiser tous les paragraphes d'apparition de tous les couples GN [N de ARG] et GV [V obj ARG] dont les ARG sont identiques.

4 4 Extraits du fichier vndoc.mdb, base de données utilisée

5 5 1. Pourquoi LinguaStream? enrichissement incrémental des documents électroniques, facilite la conception et lévaluation de chaînes de traitements complexes tout en requérant des compétences informatiques minimales

6 6 1. D é marche à suivre ans de le Monde xmlisé selon les caractéristiques de la plate-forme 2. Construire un lexique pour lensemble de noms recteurs et lensemble de verbes recteurs. « Aligner » les deux lexiques. 3. Faire une expression régulière pour trouver puis surligner les couples nom-verbe : {anchor:start, type:paragraph} (!{type:paragraph})+ {type:nom} /as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+ /sem {id:"$x"} {anchor:end, type:paragraph}

7 7 Extrait du fichier LinguaStream sur lequel nous avons travaillé

8 8 1. Difficultés rencontrées Mais… 1. Taille de corpus 2. Résultats surgénéralisés et non satisfaisants 3. Manque du formalisme DSDL (Discourse Structure Description Language) permettant dexprimer des contraintes au niveau discursif.

9 9 2. Premier bilan de l observation des donn é es Les 23 couples les plus fréquents : les couples qui partagent au moins 100 paragraphes Chaque couple -> 10 paragraphes 14 couples morphologiquement liés, 6 couples en contexte immédiat, 1 couple non morphologique (hausse/augmenter), 1 couple marginal (nombre/compter), 1 couple erroné (coupe/couper dans la Coupe du Monde) Dans le cas des couples les plus fréquents, la plupart des parents distributionnels sont des parents morphologiques.

10 10 Résultat de lanalyse manuelle des 23 couples les plus fréquents

11 11 Perspectives Mieux manipuler loutil un autre moyen pour repérer des couples distributionnels Étendre lobservation sur des couples moyennement fréquents voisins distributionnels -> construire des chaînes de cohésion?

12 12 R é f é rences Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la construction dontologies à partir de corpus », Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p. Morris, J. & Hirst G. (1991), Lexical cohesion computed by thesaural relations as an indicator of the structure of text in Computational Linguistics 17 (pp ) Teich, E & Fankhauser, P. (2005) Exploring Lexical Patterns in Text: Lexical Cohesion Analysis withWordNet in Interdisciplinary Studies on Information Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.): Heterogeneity in Focus: Creating and Using Linguistic Databases Vergez-Couret M. (2006) Apprendre Linguastream par lexemple : Annoter les marqueurs linguistiques de la relation délaboration (en cours de réalisation) Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil dexploration linguistique sur corpus », TALN juin 2005, pp LinguaStream


Télécharger ppt "1 Premier bilan de l utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006."

Présentations similaires


Annonces Google