Jacques Vergne GREYC - Université de Caen

Slides:



Advertisements
Présentations similaires
Comment annoter un texte
Advertisements

Réaliser par : AYOUB EL MOUDEN SAID BAYT AZIZ AMCHTAL TARIK DAROUACHI
Les formateurs en documentation Rectorat de Lille Maîtrise de linformation au collège Compétences informationnelles et disciplines partenaires.
Prof. Assist. Dr Penphan THIPKONG
Les outils pour améliorer la dictée vocale
Olivier Kraif, Agnès Tutin LIDILEM
Préparé par: Mme Nada FAQIR
Colloque Traitement et Analyse de séquences : compte-rendu
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Apprendre à lire.
Indexation textuelle : Systèmes de recherche d’informations
Reconnaissance de la parole
Cordial, le TAL et les aides à la rédaction
L’observation réfléchie de la langue au cycle 3
Introduction à l'informatique linguistique
Interfaces de recherche usager
Pour un système formel de description linguistique
La prévention des difficultés d’écriture
17 octobre 2012 Grégory Petit
Guide d'utilisation de Microsoft Weft Il s'agit de convertir un ou des fichiers Police de caractères (font) généralement de type.ttf en un ou des fichiers.eot.
Bases de données lexicales
Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.
Licence 1 Sappuyer sur des connaissances antérieurs Consolider Avancer Préparer les années suivantes Préparer lexamen.
SOCLE COMMUN LIRE ET COMPRENDRE
Académie de Versailles - Inspection pédagogique régionale de lettres
Mamadou Dieye, Mohamed Rafik Doulache,
Reconnaissance Vocale
Introduction à la recherche en science politique
Algorithme pour le web Géraldine Schneider
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
OUTILEX Présentation des résultats
Démonstrateur Lingway
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Systeme Question-Reponse SQR
Jura.be, Jurisquare Des outils complémentaires ?
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
Recherche par mots-clés vs recherche en langue naturelle.
Les techniques des moteurs de recherche
La monarchie absolue en France
La veille numérique : un outil pour s'informer intelligemment &
l'information sur Internet
Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen TALN 2003 atelier.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
L’enseignement des compétences grammaticales
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet Jacques Vergne GREYC - Université de Caen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Découverte de connaissances
TEXT MINING Fouille de textes
Examen de la Nouvelle-Écosse : Français 10
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Thème du projet: Noël franco-hispano-germanique Faire ensemble: Niveau : 5èmes – 4èmes.
Progression/Programmation – Français (1/3)
Dreamweaver Séance 1.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Jacques Vergne GREYC - Université de Caen Un exemple de traitement "alingue" endogène : extraction de candidats termes dans des corpus bruts de langues non identifiées par étiquetage mot vide - mot plein Jacques Vergne GREYC - Université de Caen http://www.info.unicaen.fr/~jvergne

Introduction : différents cadres des TAL • les Industries de la Langue traduction automatique synthèse vocale, reconnaissance vocale indexation automatique, extraction de termes correction orthographique moteurs de recherche ? traitements de texte ? • recherches en TAL nouveaux traitements, meilleures propriétés calculatoires traiter plusieurs langues en même temps utiliser peu ou pas de ressources (dictionnaires, grammaires) • recherches en linguistique en utilisant des TAL connaissances nouvelles en linguistique : propriétés générales ? l'ordinateur comme outil expérimental pour valider des hypothèses sur corpus comme outil d'observation fine de corpus 5/11/2004 © Jacques Vergne conférence IdL -

Introduction : élargir le champ des TAL à partir de leurs fonctions : appelons TAL tout traitement qui analyse ou/et produit du texte ou de la parole direction du processus : en réception, en émission forme du matériau linguistique : écrite ou orale y compris les traitements sans dictionnaire ni grammaire texte parole en réception analyse reconnaissance vocale en émission génération synthèse vocale 5/11/2004 © Jacques Vergne conférence IdL -

Distinguer TAL explicite et TAL implicite • traitements explicitement linguistiques correction grammaticale, traduction automatique, ... avec dictionnaires, grammaires, mono- ou multilingues des propriétés linguistiques sont explicitées dans ces ressources (seuls ces traitements sont habituellement appelés TAL) • traitements implicitement linguistiques tout traitement qui opère sur du matériau linguistique aucune propriété linguistique n'est explicitée dans les ressources ou les algorithmes mais des propriétés linguistiques très générales sont exploitées, implicitement correction orthographique, moteurs de recherche, indexation full text, … ---> inclure les TAL implicites dans les TAL 5/11/2004 © Jacques Vergne conférence IdL -

un TAL dans un espace à 2 dimensions niveau de grain dans une hiérarchie de grains internet site web document zone de texte paragraphe phrase proposition chunk mot caractère segmenter en phrases segmenter en mots regrouper les mots (analyse syntaxique montante) langues allemand français anglais turc coréen 5/11/2004 © Jacques Vergne conférence IdL -

Des traitements "alingues" et endogènes • notre perspective : explorer des traitements implicitement linguistiques (c'est-à-dire des traitements d'un matériau linguistique, sans dictionnaire, ni grammaire) • méthodes d’analyse exploitant des propriétés très générales des langues des propriétés communes à un groupe de langues ---> traitements "alingues" on n'a pas besoin d'identifier les langues du corpus traité • traitements linguistiques sans autre ressource que le texte à analyser ---> traitements endogènes 5/11/2004 © Jacques Vergne conférence IdL -

Un exemple de traitement alingue et endogène • extraction de candidats termes dans des corpus bruts de langues alphabétiques non identifiées (aspect alingue) • une méthode d'étiquetage mot vide - mot plein par calcul local (aspect endogène) • exploiter les propriétés des différences de longueur et de fréquence des mots contigus 5/11/2004 © Jacques Vergne conférence IdL -

Pourquoi extraire des termes de documents ? • un terme : un mot ou un groupe de mots (souvent une expression nominale) extrait d'un document • un terme répété, ou fréquent peut servir de clé d'accès à un document, pour le retrouver dans une grande collection (internet) • l'index d'une collection de documents est une table à 2 colonnes : 1 terme <--> les identifiants des documents contenant ce terme • indexer un document = extraire les termes (fréquents?) 5/11/2004 © Jacques Vergne conférence IdL -

Mots vides et mots pleins (1) • une typologie des mots venant de Lucien Tesnière (1969) • mots pleins : "chargés d'une fonction sémantique" noms verbes adjectifs adverbes • mots vides : "simples outils grammaticaux" tous les autres : déterminants, prépositions, pronoms, ... le nombre des lycéens préparant un baccalauréat 5/11/2004 © Jacques Vergne conférence IdL -

Mots vides et mots pleins (2) mots pleins mots vides mots lexicaux mots grammaticaux content words function words longs : plusieurs syllabes mono- bisyllabiques dans un dictionnaire : grandes classes ouvertes petites classes closes dans les textes : peu fréquents très fréquents à l'oral : toniques atones 5/11/2004 © Jacques Vergne conférence IdL -

Des propriétés linguistiques très générales • Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont des mots vides • Saussure : "dans la langue, il n'y a que des différences" • => se servir des différences de longueur et d'effectif entre mots contigus • un mot vide entre deux mots pleins est plus court et plus fréquent que ses voisins (calcul local --> attribut local) 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL Un exemple sur corpus effectifs longueurs 189 2 le 41 6 nombre 384 3 des 10 7 lycéens 5 9 préparant 75 2 un 21 12 baccalauréat vide ou Plein ? P v P v 5/11/2004 © Jacques Vergne conférence IdL -

Algorithme de validation d'un motif vide-Plein 1 41 6 nombre (effectif longueur) 2 384 3 des • motif PvP invalidé : pas de différence Plein - vide sur les mots 0 1, car 2<6 (sur les longueurs) • validation du motif vPv : . coupe entre Pleins et vides définie sur les effectifs = moyenne géométrique (41 ; 384) = 125,46 41 (P) < 125.46 < 189 (v) < 384 (v) . coupe entre Pleins et vides définie sur les longueurs = moyenne géométrique (6 ; 2) = 3,46 6 (P) > 3.46 > 3 (v) > 2 (v) le motif vPv est donc validé => vide - Plein - vide : 0 189 2 v le 1 41 6 P nombre 2 384 3 v des 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL Un pavage déterministe ---PP-P P est imposé par la graphie (si longueur > 6) vPv motifs .PvP validés ..vPPv au cours du pavage ....PvP vPvPPvP résultat du pavage => catégorie locale pour chaque occ. de mot 0 189 2 v le 1 41 6 P nombre 2 384 3 v des 3 10 7 P lycéens 4 5 9 P préparant 5 75 2 v un 6 21 12 P baccalauréat complexité de l’algorithme : linéaire en temps selon le nombre de mots du corpus 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL Un calcul local sur les différences (1) 27 4 v like ici, “like” est calculé mot vide 1 6 P bamboo 1 6 P shoots 11 5 v after 252 1 v a 1 6 P spring 1 4 P rain 33 3 v But 37 2 v we 27 4 P like ici, “like” est calculé mot plein 289 2 v to 4 3 P buy 16 5 - those occurrence indéterminée 8 10 P businesses 249 2 v in 252 1 v a 1 10 P contrarian 1 7 P fashion 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL Un calcul local sur les différences (2) 12 10 P ACTUALITES 201 1 v à 323 2 v la 119 3 P une ici, «une» est calculé mot plein 273 3 v les 3 8 P Français 1 11 P rencontrent 15 6 v samedi bruit sur les mots vides 119 3 v une ici, «une» est calculé mot vide 1 6 P équipe 140 2 v du 3 6 P Canada 117 1 v a 1 6 P priori 201 1 v à 16 2 v sa 2 6 P portée 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL Un calcul local sur les différences (3) 144 3 v Die 2 6 P zweite 1 8 P Vorrunde 234 3 v der 1 19 P Ausscheidungsrennen 20 3 v zum 1 12 P diesjährigen 3 7 P America 13 1 v s 4 3 P Cup 39 3 v ist 66 2 v zu 7 4 P Ende 3 8 P gegangen 5/11/2004 © Jacques Vergne conférence IdL -

Évaluation de l'étiquetage des mots vides • taux global de détermination = 1 - (nb d’occ. de mots non étiquetées / nb total d’occ.) • précision = 1 - bruit = 1 - (nb d’occ. de mot plein étiquetées vides / nb d’occ. de mot vide extraites) • rappel = 1 - silence = 1 - (nb d’occ. de mot vide non étiquetées vides / nb total d’occ. de mot vide) 5/11/2004 © Jacques Vergne conférence IdL -

Centrer les termes candidats sur des mots pleins le nombre des lycéens préparant un baccalauréat selon les motifs : P+ nombre lycéens préparant baccalauréat lycéens préparant P+ v+P+ nombre des lycéens nombre des lycéens préparant lycéens préparant un baccalauréat préparant un baccalauréat P+ v+P+ v+P+ nombre des lycéens préparant un baccalauréat 5/11/2004 © Jacques Vergne conférence IdL -

Produire des termes dans quelles tâches ? • indexer des documents (grain = document) • indexer des sites web (grain = site) • choisir le grain dans lequel on compte les mots --> espace de l'étiquetage vide - plein • choisir le grain dans lequel on compte les termes --> grain indexé = grain recherché 5/11/2004 © Jacques Vergne conférence IdL -

un TAL dans un espace à 2 dimensions niveau de grain dans une hiérarchie de grains site web document zone de texte "sans ponctuation" candidat terme mot télécharger les documents segmenter en zones de texte zones de texte hapax sur le site segmenter en "sans ponctuation" segmenter en mots générer les candidats termes langues allemand français anglais turc coréen 5/11/2004 © Jacques Vergne conférence IdL -

Des zones de texte hapax sur le site • zone de texte = grain <td> ........ </td> (cellule de tableau) ou grain <a> ........ </a> (texte d'ancre d'hyperlien) • les zones répétées : sur chaque page du site --> navigation  non informatives les termes de ces zones ne sont pas des clés d'accès • les zones non répétées, uniques sur le site (hapax sur le site)  informatives les termes de ces zones sont des clés d'accès • clés d'accès : candidats extraits des zones hapax répétés dans l'ensemble de ces zones (on indexe le site) ou dans les zones de chaque document (on indexe chaque document) 5/11/2004 © Jacques Vergne conférence IdL -

Limites sur l'axe des langues • propriété sur les différences de longueurs des mots langues à écriture alphabétique langues où il existe des mots vides et non pas des morphèmes agglutinés les langues très agglutinantes sont exclues finnois, basque, turc?, hongrois?, ... 5/11/2004 © Jacques Vergne conférence IdL -

Méthodes courantes d'extraction de termes • étiquetage des mots • analyse morphosyntaxique (Bourigault, 2002), • «anti-dictionnaire» des mots vides (ou stop-list) pour pouvoir sélectionner les segments fréquents qui ne sont pas des mots vides (Salem, 1987 ; Salton et al., 1993 ; Ahonen-Myka, 1999) • corpus supposé monolingue et langue supposée identifiée 5/11/2004 © Jacques Vergne conférence IdL -

Méthode d'indexation des moteurs de recherche • grain indexé : le document • indexation "full text" : tous les mots du document sont indexés sauf les petits mots très fréquents • une stop-list est nécessaire • la langue doit être identifiée 5/11/2004 © Jacques Vergne conférence IdL -

quelques exemples sur corpus 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL vos questions ? 5/11/2004 © Jacques Vergne conférence IdL -

© Jacques Vergne conférence IdL 5/11/2004 © Jacques Vergne conférence IdL