Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet ENST/TSI et CNRS-LTCI 46 rue Barrault PARIS cedex
2 Plan Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction dinformations spatiales Traitements Linguistiques bas niveaux Perspectives
3 Accès, Communication Désir daccéder à linformation à travers le téléphone sur INTERNET Besoin de communiquer messagerie
4 «MAJORDOME» messagerie unifiée intelligente Projet Eureka no 2340 EDFHolistique G. Chollet, K. Hallouli, J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon
5 Quest-ce quun Majordome ? messages entrants vocalmèl télécopies serveurtraitement des messages accès aux messages téléphone terminal authentification, dialogue, routage, résumés, mises a jour, agenda pager PDA
6 Le Majordome individuel
7 Adaptation à lutilisateur Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur Capacité didentifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.) Capacité dauthentifier lutilisateur lors de laccès à sa messagerie Fournir à lutilisateur des paramètres personnels (carnet dadresses, agenda …)
8 Adaptation au canal daccès Accès par le web : le contenu de la boîte aux lettres « unifiée » peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans leur mode naturel Accès par téléphone : nécessité de condenser linformation, même lors de la lecture de la liste des messages nécessité de résumer les messages importants
9 Adaptation à la modalité des messages Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin
10 Traitements
11 Traitement des Télécopies Recherche dinformations ciblées : consultation du message adaptée au medium de communication Objectif : routage, transmission dinformations-clés Recherche du nom de lexpéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères P. Vaillant, L. Likforman
12 Expéditeu r Destinataire Mots clés Télécopies
13 Analyse spatiale Repérage de la zone NOM EXPEDITEUR Extraction tolérante de mots clés par classe Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/
14 Analyse spatiale : critères perceptifs
15 Traitement Linguistique Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp. phonétique) relève de la reconnaissance de lécrit (resp. de la parole) Applications : extraction automatique dinformations-clés (expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages
16 Techniques danalyse linguistique Objectif de Majordome : traiter les messages en temps réel Pas dutilisation extensive des techniques coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et efficaces : repérage de formes grammaires locales outils statistiques
17 Repérage de composants-clés Repérage des noms propres (1) Indices internes : majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …
18 Repérage de composants-clés Repérage des noms propres (2) : Indices externes : présence, dans le contexte local du mot, de marqueurs didentité (« M. », « Mme », « Dr. » …) présence, dans le contexte de la phrase, dindices grammaticaux, comme lapposition du GN (« le député RPR Thierry Mariani […] ») présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)
19 Repérage de composants-clés Repérage de mots-clés : mots apparaissant dans le contexte dune ligne « Objet » ou « Titre » … mots de fréquence relative élevée (fréquence relative = fréquence dans le document analysé / fréquence dans un corpus général de la langue)
20 Résumé automatique Mesure pour chaque phrase dun « score » de représentativité (% de mots-clés) Extraction des phrases ayant leur score au-dessus dun seuil donné Concaténation des phrases choisies Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible (étude réalisée par Aude Acoulon)
21 Catégorisation de textes Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.) Méthode : mesure dun certain nombre de ces caractéristiques dans des corpus dapprentissage max. variance + régression linéaire discriminateurs
22 Techniques utilisées (1) Techniques de représentation de lexiques à accès rapide : Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage dun lexique avec infos sur les entrées temps daccès réduit (log 2, taille du lexique) Tries (graphes acycliques directs), une lettre par arc temps daccès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le parcours)
23 Techniques utilisées (2) Techniques statistiques : calcul de fréquences doccurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots Calcul de fréquences de co-occurrences Ex. fréquence doccurrence de 2 mots dans une fenêtre contextuelle de n mots
24 Techniques utilisées (3) Application de règles de grammaires locales Contexte très réduit : Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de prénoms Chaîne2 est en capitales Chaîne2 est un nom de famille
25 Fusion données spatiales et textuelles Création dun tableau de paires (mot, zone) N.B. Certaines zones (smears) nont pas de mot (ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage dinformations obtenues par des traitements sur limage (ex. zone expéditeur) et dinformations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection
26 Résultats