Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen TALN 2003 atelier : "TALN et multilinguisme"
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-2- sites de presse --- système ---> revues de presse utilisateurs : journalistes, internautes "de quoi et de qui est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?" inversion de la problématique des moteurs de recherche mots-clés (thèmes) ---> documents espace de recherche ---> thèmes principaux de l'actualité les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens la Une du Monde application cadre (1)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-3- "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien) l'utilisateur navigue dans ce graphe pour accéder à des termes liés et à des articles la Une du Monde application cadre (2)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-4- interface utilisateur santé école été alcool suivi loi gouvernement jeunes milieu scolaire santé des jeunes naviguer dans le graphe des termes
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-5- corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites méthode capable de repérer à la fois : les mots vides rares et les mots pleins très fréquents (tels que guerre ou war ) pour centrer les termes sur des mots pleins dans un corpus multilingue ( à mots) de langues alphabétiques, non diagnostiquées sans analyse syntaxique, ni dictionnaire, ni stoplist spécifications de l'outil
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-6- méthodes d'André Salem, Helena Ahonen, François Rousselot : - recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton (recherche des n-grammes à partir des n-1-grammes) - avec, en entrée, les mots vides de la langue traitée pour éviter de les prendre comme termes (stopword-list) l'existant : motifs répétés
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-7- un outil endogène terme proposé par Didier Bourigault : calculer le "rattachement des groupes prépositionnels et des adjectifs ou groupes adjectivaux" dans un corpus monolingue avec dictionnaire et analyse syntaxique même sens générique : utiliser des régularités distributionnelles lexicales dans un corpus pour traiter ce même corpus mais sens spécifique différent : repérer à la fois les mots vides rares et les mots pleins très fréquents dans un corpus multilingue sans analyse syntaxique, ni dictionnaire, ni stoplist
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-8- fréquence des mots => silence sur les mots pleins fréquents Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont les mots vides Saussure : "dans la langue, il n'y a que des différences" => se servir des différences de longueur et d'effectif de 2 mots contigus pas d'autre ressource que le corpus traité lui-même, sans se préoccuper de la langue comment poser le problème (1)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-9- texte : suite de mots vides et de mots pleins Manifestazioni per la pace in tutto il mondo résultat recherché : comment poser le problème (2) Manifestazioni per la pace in tutto il mondo P PPP vvvv
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-10- critères de différence entre 2 mots contigus : - différence de longueur en nombre de lettres : il mondo (2 lettres - 5 lettres) - différence d'effectif dans le corpus : il mondo (19 occurrences - 3 occurrences) comment poser le problème (3)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-11- rechercher 2 types de séquences de mots, où 1 ou 2 mots vides sont encadrés par 2 mots pleins : tutto il mondo Manifestazioni per la pace solution proposée : principe séquence PvP du la of im ne il le lui y en séquence PvvP de la of the aus dem que des ist ein a été n'a is the qui ne P PP P vvv
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-12- 1) Étudier le corpus pour en extraire les mots vides 2) Générer les termes candidats solution proposée : processus (0)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-13- 1) Étudier le corpus pour en extraire les mots vides segmenter le corpus sur les limites de textes de liens et sur les ponctuations --> virgulots pour chaque virgulot, rechercher les séquences PvP et PvvP à partir des différences de longueur et d'effectif solution proposée : processus (1)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-14- déductions Plein vide vide Plein Plein vide Plein effectifs profil rare fréquent fréquent rare rare fréquent rare pour chaque virgulot, rechercher les séquences PvP et PvvP Manifestazioni per la pace in tutto il mondo longueurs 14 > < 5 profil long court court long long court long solution proposée : processus (2)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-15- 2) Générer les termes candidats selon les motifs : P+ Manifestazioni pace tutto mondo P+ v+P+ Manifestazioni per la pace pace in tutto tutto il mondo P+ v+P+ v+P+ Manifestazioni per la pace in tutto pace in tutto il mondo solution proposée : processus (3)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-16- de : 340 la : 207 l' : 153 le : 113 d' : 107 à : 107 du : 103 et : 99 des : 88 en : 87 les : 84 a : 82 un : 80 Le : 74 La : 72 L' : 62 in : 62 une : 56 Les : 55 's : 55 to : 53 pour : 43 au : 41 sur : 41 résultats (1) espace de recherche 2 : une centaine de sites publiés par Google News, environ la moitié étant des sites nord-américains ( 163 Ko, mots 2435 occurrences de 820 termes candidats (de 47 à 2 occurrences / terme) espace de recherche corpus termes candidats mots vides les plus fréquents (15 mars 2003) to : 327 in : 280 of : 237 the : 230 's : 166 de : 154 for : 144 on : 143 and: 138 a : 126 The :118 en : 76 la : 75 by : 55 Al : 53 with : 52 is : 41 A : 38 from: 36 at : 34 i : 34 't : 32 un : 31 à : 31 espace de recherche 1 : 22 sites de la presse française nationale et régionale, 17 sites de la presse européenne (Suisse, Belgique, Allemagne, Italie, Espagne, UK, Irlande), et 4 sites de presse nord-américaine, chaque langue étant représentée par au moins 2 sites 84 Ko, mots 1566 occurrences de 584 termes candidats (de 42 à 2 occurrences / terme)
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-17- espace de recherche 1 : résultats (2) espace de recherche 2 : termes candidats les plus fréquents silence sur les mots vides => bruit sur les termes candidats article : 42 guerre : 21 Jean- Luc Lagar dère : 17 monde : 12 Açores : 11 Weitere Artikel : 10 mort : 10 Bagdad : 8 empire : 8 semaine : 8 Lettre : 7 Plan : 7 fin : 7 guerra : 7 procès : 7 réforme : 7 sommet : 7 Echos : 6 Was : 5 Tutti : 4 vous : 3 About: 2 Alors : 2 Ein : 2 Have : 2 If : 2 Mais : 2 Qu' : 2 Wie : 2 Wo : 2 avant : 2 contra: 2 could : 2 depuis:2 encore:2 faut : 2 mieux: 2 nous : 2 now : 2 plusieurs : 2 that : 2 tout : 2 tutto : 2 25/584 = 4,3% des 584 termes candidats extraits Läs mer: 47 ÉÑ Ä : 29 Laden : 24 war : 22 Kabul : 20 Qaeda : 20 China : 18 Statement : 17 Sep 12 : 15 Pak : 14 Press Se cretary : 13 Sep 11 : 13 Northern Alliance: 12 guerra : 12 Irak : 11 Kandahar : 11 This: 12 How : 7 Don' : 6 It : 6 Most : 4 contra: 4 won' : 4 Alla : 3 My : 3 auf : 3 One : 2 Wer : 2 Where:2 Why : 2 après : 2 down : 2 einer : 2 enough:2 only : 2 they : 2 when : 2 which: 2 22/820 = 2,7% des 820 termes candidats extraits
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-18- espace de recherche 1 : résultats (3) espace de recherche 2 : bruit sur les mots vides => silence sur les termes candidats termes retenus les plus fréquents (nb de sites - nb d'articles) guerre (12-24) Lagardère (11-16) Jean- Luc Lagard ère (9-12) monde (8-13) 15 (7-10) 16 (7-9) Aznar (7-8) Açores (7-10) empire (7-8) semaine (7-8) Chirac (6-6) Premier ministre (6-7) fin (6-9) français (6-9) mort (6-10) pays (6-10) site (6-8) sommet (6-6) Policy (19-23) U.S. (18-39) China (14-29) war (14-71) Special (12-24) This (12-24) United (12-18) Privacy Policy (11-11) Week (11-14) East (10-12) American (9-14) Information (9-13) Press (9-25) Saddam (9-13) Azores (8-8) How (8-10) Index (8-8) Middle East (8-8) Money (8-8) War : 9 paix : 7 soir : 7 war : 7 aide : 4 dimanche: 4 Photo : 3 baisse : 3 Aide : 2 Groupe : 2 attendu : 2 home : 2 turn : 2 voie : 2 world : 2 News : 77 New: 43 news : 23 killed : 18 Home : 17 Help : 16 Free : 10 Global : 9 Air : 8 help : 8 make : 8 First : 7 Get : 7 get : 7 groups : 7 15/584 = 2,6% des 584 termes candidats extraits 88/820 = 10,7% des 820 termes candidats extraits
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-19- résultats (4) les mots vides rares et les mots pleins très fréquents sont-ils correctement repérés ? calcul fondé sur des différences entre mots et non des valeurs absolues (aucun seuil) => détection des mots vides ou pleins presque indépendante de leur effectif article (42), guerre (21), monde (12), mort (10), guerra (9) : mots pleins von (8), con (7), della (6), sous (5), vom (4), zum (3), einer (2), grâce (1) : mots vides il suffit qu'un seul contexte ait pu les détecter au moyen des différences adéquates
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-20- conclusion méthode originale n'utilisant ni analyse syntaxique, ni dictionnaire, ni stoplist - capable de repérer à la fois les mots vides rares et les mots pleins fréquents - dans un corpus multilingue, de langues alphabétiques, inconnues a priori, mélangées dans le corpus, et non diagnostiquées dans les calculs calculs indépendants des langues, insensibles à l'ajout d'une nouvelle langue, ni aux proportions entre langues différentes bonne qualité des résultats et adéquation de la méthode à la tâche => des propriétés linguistiques très générales sont exploitées : les différences (ou valeurs relatives) l'optimisation du code : plus un mot est fréquent, plus il est court
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-21- vos questions ?
14/6/2003© Jacques Vergne Atelier : "TALN et multilinguisme"-22-