Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen TALN 2003 atelier.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Vocabulaire 6.2 Français II Bon voyage ! 1.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
ACTIVITES NUMERIQUES Ranger les nombres Trouver le nombre manquant
Reconnaissance de la parole
Les numéros 70 –
Les numéros
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Sud Ouest Est Nord Individuel 36 joueurs
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Cest parti ! 4,7 + 3,3 Levez la tête ! 3,9 + 5,6.
Algorithme et structure de données
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Analyse de la variance à un facteur
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Français I Leçon 2B Une semaine au lycée Au Debut #7 (for the dates of November 5 and 6) Please Translate the Following: 1. I love the math course. (Adorer.
La méthodologie………………………………………………………….. p3 Les résultats
L’Heure Telling Time.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Les quartiers Villeray – La Petite-Patrie et les voisinages
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les chiffres & les nombres
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
How many of these flags do you recognise? Work with your partner to see if you know many – write them down - some will crop up shortly!
How many of these flags do you recognise? Work with your partner to see if you know many – write them down - some will crop up shortly!
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.

Slide 1 of 39 Waterside Village Fête ses 20 ans.
Annexe Résultats provinciaux comparés à la moyenne canadienne
Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet Jacques Vergne GREYC - Université de Caen
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
To practice: Quantities Un, une, des, de Du, de la, de l’, de Le, la, l’, les.
3. La structure du marché par couleur
Jacques Vergne GREYC - Université de Caen
Transcription de la présentation:

Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen TALN 2003 atelier : "TALN et multilinguisme"

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-2- sites de presse --- système ---> revues de presse utilisateurs : journalistes, internautes "de quoi et de qui est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?" inversion de la problématique des moteurs de recherche mots-clés (thèmes) ---> documents espace de recherche ---> thèmes principaux de l'actualité les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens la Une du Monde application cadre (1)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-3- "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien) l'utilisateur navigue dans ce graphe pour accéder à des termes liés et à des articles la Une du Monde application cadre (2)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-4- interface utilisateur santé école été alcool suivi loi gouvernement jeunes milieu scolaire santé des jeunes naviguer dans le graphe des termes

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-5- corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites méthode capable de repérer à la fois : les mots vides rares et les mots pleins très fréquents (tels que guerre ou war ) pour centrer les termes sur des mots pleins dans un corpus multilingue ( à mots) de langues alphabétiques, non diagnostiquées sans analyse syntaxique, ni dictionnaire, ni stoplist spécifications de l'outil

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-6- méthodes d'André Salem, Helena Ahonen, François Rousselot : - recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton (recherche des n-grammes à partir des n-1-grammes) - avec, en entrée, les mots vides de la langue traitée pour éviter de les prendre comme termes (stopword-list) l'existant : motifs répétés

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-7- un outil endogène terme proposé par Didier Bourigault : calculer le "rattachement des groupes prépositionnels et des adjectifs ou groupes adjectivaux" dans un corpus monolingue avec dictionnaire et analyse syntaxique même sens générique : utiliser des régularités distributionnelles lexicales dans un corpus pour traiter ce même corpus mais sens spécifique différent : repérer à la fois les mots vides rares et les mots pleins très fréquents dans un corpus multilingue sans analyse syntaxique, ni dictionnaire, ni stoplist

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-8- fréquence des mots => silence sur les mots pleins fréquents Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont les mots vides Saussure : "dans la langue, il n'y a que des différences" => se servir des différences de longueur et d'effectif de 2 mots contigus pas d'autre ressource que le corpus traité lui-même, sans se préoccuper de la langue comment poser le problème (1)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-9- texte : suite de mots vides et de mots pleins Manifestazioni per la pace in tutto il mondo résultat recherché : comment poser le problème (2) Manifestazioni per la pace in tutto il mondo P PPP vvvv

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-10- critères de différence entre 2 mots contigus : - différence de longueur en nombre de lettres : il mondo (2 lettres - 5 lettres) - différence d'effectif dans le corpus : il mondo (19 occurrences - 3 occurrences) comment poser le problème (3)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-11- rechercher 2 types de séquences de mots, où 1 ou 2 mots vides sont encadrés par 2 mots pleins : tutto il mondo Manifestazioni per la pace solution proposée : principe séquence PvP du la of im ne il le lui y en séquence PvvP de la of the aus dem que des ist ein a été n'a is the qui ne P PP P vvv

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-12- 1) Étudier le corpus pour en extraire les mots vides 2) Générer les termes candidats solution proposée : processus (0)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-13- 1) Étudier le corpus pour en extraire les mots vides segmenter le corpus sur les limites de textes de liens et sur les ponctuations --> virgulots pour chaque virgulot, rechercher les séquences PvP et PvvP à partir des différences de longueur et d'effectif solution proposée : processus (1)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-14- déductions Plein vide vide Plein Plein vide Plein effectifs profil rare fréquent fréquent rare rare fréquent rare pour chaque virgulot, rechercher les séquences PvP et PvvP Manifestazioni per la pace in tutto il mondo longueurs 14 > < 5 profil long court court long long court long solution proposée : processus (2)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-15- 2) Générer les termes candidats selon les motifs : P+ Manifestazioni pace tutto mondo P+ v+P+ Manifestazioni per la pace pace in tutto tutto il mondo P+ v+P+ v+P+ Manifestazioni per la pace in tutto pace in tutto il mondo solution proposée : processus (3)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-16- de : 340 la : 207 l' : 153 le : 113 d' : 107 à : 107 du : 103 et : 99 des : 88 en : 87 les : 84 a : 82 un : 80 Le : 74 La : 72 L' : 62 in : 62 une : 56 Les : 55 's : 55 to : 53 pour : 43 au : 41 sur : 41 résultats (1) espace de recherche 2 : une centaine de sites publiés par Google News, environ la moitié étant des sites nord-américains ( 163 Ko, mots 2435 occurrences de 820 termes candidats (de 47 à 2 occurrences / terme) espace de recherche corpus termes candidats mots vides les plus fréquents (15 mars 2003) to : 327 in : 280 of : 237 the : 230 's : 166 de : 154 for : 144 on : 143 and: 138 a : 126 The :118 en : 76 la : 75 by : 55 Al : 53 with : 52 is : 41 A : 38 from: 36 at : 34 i : 34 't : 32 un : 31 à : 31 espace de recherche 1 : 22 sites de la presse française nationale et régionale, 17 sites de la presse européenne (Suisse, Belgique, Allemagne, Italie, Espagne, UK, Irlande), et 4 sites de presse nord-américaine, chaque langue étant représentée par au moins 2 sites 84 Ko, mots 1566 occurrences de 584 termes candidats (de 42 à 2 occurrences / terme)

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-17- espace de recherche 1 : résultats (2) espace de recherche 2 : termes candidats les plus fréquents silence sur les mots vides => bruit sur les termes candidats article : 42 guerre : 21 Jean- Luc Lagar dère : 17 monde : 12 Açores : 11 Weitere Artikel : 10 mort : 10 Bagdad : 8 empire : 8 semaine : 8 Lettre : 7 Plan : 7 fin : 7 guerra : 7 procès : 7 réforme : 7 sommet : 7 Echos : 6 Was : 5 Tutti : 4 vous : 3 About: 2 Alors : 2 Ein : 2 Have : 2 If : 2 Mais : 2 Qu' : 2 Wie : 2 Wo : 2 avant : 2 contra: 2 could : 2 depuis:2 encore:2 faut : 2 mieux: 2 nous : 2 now : 2 plusieurs : 2 that : 2 tout : 2 tutto : 2 25/584 = 4,3% des 584 termes candidats extraits Läs mer: 47 ÉÑ Ä : 29 Laden : 24 war : 22 Kabul : 20 Qaeda : 20 China : 18 Statement : 17 Sep 12 : 15 Pak : 14 Press Se cretary : 13 Sep 11 : 13 Northern Alliance: 12 guerra : 12 Irak : 11 Kandahar : 11 This: 12 How : 7 Don' : 6 It : 6 Most : 4 contra: 4 won' : 4 Alla : 3 My : 3 auf : 3 One : 2 Wer : 2 Where:2 Why : 2 après : 2 down : 2 einer : 2 enough:2 only : 2 they : 2 when : 2 which: 2 22/820 = 2,7% des 820 termes candidats extraits

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-18- espace de recherche 1 : résultats (3) espace de recherche 2 : bruit sur les mots vides => silence sur les termes candidats termes retenus les plus fréquents (nb de sites - nb d'articles) guerre (12-24) Lagardère (11-16) Jean- Luc Lagard ère (9-12) monde (8-13) 15 (7-10) 16 (7-9) Aznar (7-8) Açores (7-10) empire (7-8) semaine (7-8) Chirac (6-6) Premier ministre (6-7) fin (6-9) français (6-9) mort (6-10) pays (6-10) site (6-8) sommet (6-6) Policy (19-23) U.S. (18-39) China (14-29) war (14-71) Special (12-24) This (12-24) United (12-18) Privacy Policy (11-11) Week (11-14) East (10-12) American (9-14) Information (9-13) Press (9-25) Saddam (9-13) Azores (8-8) How (8-10) Index (8-8) Middle East (8-8) Money (8-8) War : 9 paix : 7 soir : 7 war : 7 aide : 4 dimanche: 4 Photo : 3 baisse : 3 Aide : 2 Groupe : 2 attendu : 2 home : 2 turn : 2 voie : 2 world : 2 News : 77 New: 43 news : 23 killed : 18 Home : 17 Help : 16 Free : 10 Global : 9 Air : 8 help : 8 make : 8 First : 7 Get : 7 get : 7 groups : 7 15/584 = 2,6% des 584 termes candidats extraits 88/820 = 10,7% des 820 termes candidats extraits

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-19- résultats (4) les mots vides rares et les mots pleins très fréquents sont-ils correctement repérés ? calcul fondé sur des différences entre mots et non des valeurs absolues (aucun seuil) => détection des mots vides ou pleins presque indépendante de leur effectif article (42), guerre (21), monde (12), mort (10), guerra (9) : mots pleins von (8), con (7), della (6), sous (5), vom (4), zum (3), einer (2), grâce (1) : mots vides il suffit qu'un seul contexte ait pu les détecter au moyen des différences adéquates

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-20- conclusion méthode originale n'utilisant ni analyse syntaxique, ni dictionnaire, ni stoplist - capable de repérer à la fois les mots vides rares et les mots pleins fréquents - dans un corpus multilingue, de langues alphabétiques, inconnues a priori, mélangées dans le corpus, et non diagnostiquées dans les calculs calculs indépendants des langues, insensibles à l'ajout d'une nouvelle langue, ni aux proportions entre langues différentes bonne qualité des résultats et adéquation de la méthode à la tâche => des propriétés linguistiques très générales sont exploitées : les différences (ou valeurs relatives) l'optimisation du code : plus un mot est fréquent, plus il est court

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-21- vos questions ?

14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-22-