Jacques Vergne GREYC - Université de Caen Un exemple de traitement "alingue" endogène : extraction de candidats termes dans des corpus bruts de langues non identifiées par étiquetage mot vide - mot plein Jacques Vergne GREYC - Université de Caen http://www.info.unicaen.fr/~jvergne
Introduction : différents cadres des TAL • les Industries de la Langue traduction automatique synthèse vocale, reconnaissance vocale indexation automatique, extraction de termes correction orthographique moteurs de recherche ? traitements de texte ? • recherches en TAL nouveaux traitements, meilleures propriétés calculatoires traiter plusieurs langues en même temps utiliser peu ou pas de ressources (dictionnaires, grammaires) • recherches en linguistique en utilisant des TAL connaissances nouvelles en linguistique : propriétés générales ? l'ordinateur comme outil expérimental pour valider des hypothèses sur corpus comme outil d'observation fine de corpus 5/11/2004 © Jacques Vergne conférence IdL -
Introduction : élargir le champ des TAL à partir de leurs fonctions : appelons TAL tout traitement qui analyse ou/et produit du texte ou de la parole direction du processus : en réception, en émission forme du matériau linguistique : écrite ou orale y compris les traitements sans dictionnaire ni grammaire texte parole en réception analyse reconnaissance vocale en émission génération synthèse vocale 5/11/2004 © Jacques Vergne conférence IdL -
Distinguer TAL explicite et TAL implicite • traitements explicitement linguistiques correction grammaticale, traduction automatique, ... avec dictionnaires, grammaires, mono- ou multilingues des propriétés linguistiques sont explicitées dans ces ressources (seuls ces traitements sont habituellement appelés TAL) • traitements implicitement linguistiques tout traitement qui opère sur du matériau linguistique aucune propriété linguistique n'est explicitée dans les ressources ou les algorithmes mais des propriétés linguistiques très générales sont exploitées, implicitement correction orthographique, moteurs de recherche, indexation full text, … ---> inclure les TAL implicites dans les TAL 5/11/2004 © Jacques Vergne conférence IdL -
un TAL dans un espace à 2 dimensions niveau de grain dans une hiérarchie de grains internet site web document zone de texte paragraphe phrase proposition chunk mot caractère segmenter en phrases segmenter en mots regrouper les mots (analyse syntaxique montante) langues allemand français anglais turc coréen 5/11/2004 © Jacques Vergne conférence IdL -
Des traitements "alingues" et endogènes • notre perspective : explorer des traitements implicitement linguistiques (c'est-à-dire des traitements d'un matériau linguistique, sans dictionnaire, ni grammaire) • méthodes d’analyse exploitant des propriétés très générales des langues des propriétés communes à un groupe de langues ---> traitements "alingues" on n'a pas besoin d'identifier les langues du corpus traité • traitements linguistiques sans autre ressource que le texte à analyser ---> traitements endogènes 5/11/2004 © Jacques Vergne conférence IdL -
Un exemple de traitement alingue et endogène • extraction de candidats termes dans des corpus bruts de langues alphabétiques non identifiées (aspect alingue) • une méthode d'étiquetage mot vide - mot plein par calcul local (aspect endogène) • exploiter les propriétés des différences de longueur et de fréquence des mots contigus 5/11/2004 © Jacques Vergne conférence IdL -
Pourquoi extraire des termes de documents ? • un terme : un mot ou un groupe de mots (souvent une expression nominale) extrait d'un document • un terme répété, ou fréquent peut servir de clé d'accès à un document, pour le retrouver dans une grande collection (internet) • l'index d'une collection de documents est une table à 2 colonnes : 1 terme <--> les identifiants des documents contenant ce terme • indexer un document = extraire les termes (fréquents?) 5/11/2004 © Jacques Vergne conférence IdL -
Mots vides et mots pleins (1) • une typologie des mots venant de Lucien Tesnière (1969) • mots pleins : "chargés d'une fonction sémantique" noms verbes adjectifs adverbes • mots vides : "simples outils grammaticaux" tous les autres : déterminants, prépositions, pronoms, ... le nombre des lycéens préparant un baccalauréat 5/11/2004 © Jacques Vergne conférence IdL -
Mots vides et mots pleins (2) mots pleins mots vides mots lexicaux mots grammaticaux content words function words longs : plusieurs syllabes mono- bisyllabiques dans un dictionnaire : grandes classes ouvertes petites classes closes dans les textes : peu fréquents très fréquents à l'oral : toniques atones 5/11/2004 © Jacques Vergne conférence IdL -
Des propriétés linguistiques très générales • Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont des mots vides • Saussure : "dans la langue, il n'y a que des différences" • => se servir des différences de longueur et d'effectif entre mots contigus • un mot vide entre deux mots pleins est plus court et plus fréquent que ses voisins (calcul local --> attribut local) 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL Un exemple sur corpus effectifs longueurs 189 2 le 41 6 nombre 384 3 des 10 7 lycéens 5 9 préparant 75 2 un 21 12 baccalauréat vide ou Plein ? P v P v 5/11/2004 © Jacques Vergne conférence IdL -
Algorithme de validation d'un motif vide-Plein 1 41 6 nombre (effectif longueur) 2 384 3 des • motif PvP invalidé : pas de différence Plein - vide sur les mots 0 1, car 2<6 (sur les longueurs) • validation du motif vPv : . coupe entre Pleins et vides définie sur les effectifs = moyenne géométrique (41 ; 384) = 125,46 41 (P) < 125.46 < 189 (v) < 384 (v) . coupe entre Pleins et vides définie sur les longueurs = moyenne géométrique (6 ; 2) = 3,46 6 (P) > 3.46 > 3 (v) > 2 (v) le motif vPv est donc validé => vide - Plein - vide : 0 189 2 v le 1 41 6 P nombre 2 384 3 v des 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL Un pavage déterministe ---PP-P P est imposé par la graphie (si longueur > 6) vPv motifs .PvP validés ..vPPv au cours du pavage ....PvP vPvPPvP résultat du pavage => catégorie locale pour chaque occ. de mot 0 189 2 v le 1 41 6 P nombre 2 384 3 v des 3 10 7 P lycéens 4 5 9 P préparant 5 75 2 v un 6 21 12 P baccalauréat complexité de l’algorithme : linéaire en temps selon le nombre de mots du corpus 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL Un calcul local sur les différences (1) 27 4 v like ici, “like” est calculé mot vide 1 6 P bamboo 1 6 P shoots 11 5 v after 252 1 v a 1 6 P spring 1 4 P rain 33 3 v But 37 2 v we 27 4 P like ici, “like” est calculé mot plein 289 2 v to 4 3 P buy 16 5 - those occurrence indéterminée 8 10 P businesses 249 2 v in 252 1 v a 1 10 P contrarian 1 7 P fashion 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL Un calcul local sur les différences (2) 12 10 P ACTUALITES 201 1 v à 323 2 v la 119 3 P une ici, «une» est calculé mot plein 273 3 v les 3 8 P Français 1 11 P rencontrent 15 6 v samedi bruit sur les mots vides 119 3 v une ici, «une» est calculé mot vide 1 6 P équipe 140 2 v du 3 6 P Canada 117 1 v a 1 6 P priori 201 1 v à 16 2 v sa 2 6 P portée 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL Un calcul local sur les différences (3) 144 3 v Die 2 6 P zweite 1 8 P Vorrunde 234 3 v der 1 19 P Ausscheidungsrennen 20 3 v zum 1 12 P diesjährigen 3 7 P America 13 1 v s 4 3 P Cup 39 3 v ist 66 2 v zu 7 4 P Ende 3 8 P gegangen 5/11/2004 © Jacques Vergne conférence IdL -
Évaluation de l'étiquetage des mots vides • taux global de détermination = 1 - (nb d’occ. de mots non étiquetées / nb total d’occ.) • précision = 1 - bruit = 1 - (nb d’occ. de mot plein étiquetées vides / nb d’occ. de mot vide extraites) • rappel = 1 - silence = 1 - (nb d’occ. de mot vide non étiquetées vides / nb total d’occ. de mot vide) 5/11/2004 © Jacques Vergne conférence IdL -
Centrer les termes candidats sur des mots pleins le nombre des lycéens préparant un baccalauréat selon les motifs : P+ nombre lycéens préparant baccalauréat lycéens préparant P+ v+P+ nombre des lycéens nombre des lycéens préparant lycéens préparant un baccalauréat préparant un baccalauréat P+ v+P+ v+P+ nombre des lycéens préparant un baccalauréat 5/11/2004 © Jacques Vergne conférence IdL -
Produire des termes dans quelles tâches ? • indexer des documents (grain = document) • indexer des sites web (grain = site) • choisir le grain dans lequel on compte les mots --> espace de l'étiquetage vide - plein • choisir le grain dans lequel on compte les termes --> grain indexé = grain recherché 5/11/2004 © Jacques Vergne conférence IdL -
un TAL dans un espace à 2 dimensions niveau de grain dans une hiérarchie de grains site web document zone de texte "sans ponctuation" candidat terme mot télécharger les documents segmenter en zones de texte zones de texte hapax sur le site segmenter en "sans ponctuation" segmenter en mots générer les candidats termes langues allemand français anglais turc coréen 5/11/2004 © Jacques Vergne conférence IdL -
Des zones de texte hapax sur le site • zone de texte = grain <td> ........ </td> (cellule de tableau) ou grain <a> ........ </a> (texte d'ancre d'hyperlien) • les zones répétées : sur chaque page du site --> navigation non informatives les termes de ces zones ne sont pas des clés d'accès • les zones non répétées, uniques sur le site (hapax sur le site) informatives les termes de ces zones sont des clés d'accès • clés d'accès : candidats extraits des zones hapax répétés dans l'ensemble de ces zones (on indexe le site) ou dans les zones de chaque document (on indexe chaque document) 5/11/2004 © Jacques Vergne conférence IdL -
Limites sur l'axe des langues • propriété sur les différences de longueurs des mots langues à écriture alphabétique langues où il existe des mots vides et non pas des morphèmes agglutinés les langues très agglutinantes sont exclues finnois, basque, turc?, hongrois?, ... 5/11/2004 © Jacques Vergne conférence IdL -
Méthodes courantes d'extraction de termes • étiquetage des mots • analyse morphosyntaxique (Bourigault, 2002), • «anti-dictionnaire» des mots vides (ou stop-list) pour pouvoir sélectionner les segments fréquents qui ne sont pas des mots vides (Salem, 1987 ; Salton et al., 1993 ; Ahonen-Myka, 1999) • corpus supposé monolingue et langue supposée identifiée 5/11/2004 © Jacques Vergne conférence IdL -
Méthode d'indexation des moteurs de recherche • grain indexé : le document • indexation "full text" : tous les mots du document sont indexés sauf les petits mots très fréquents • une stop-list est nécessaire • la langue doit être identifiée 5/11/2004 © Jacques Vergne conférence IdL -
quelques exemples sur corpus 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL vos questions ? 5/11/2004 © Jacques Vergne conférence IdL -
© Jacques Vergne conférence IdL 5/11/2004 © Jacques Vergne conférence IdL