Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet ENST/TSI et CNRS-LTCI.

Slides:



Advertisements
Présentations similaires
12 règles d’ergonomie web
Advertisements

Ministère de l’Economie, des Finances et de l’Emploi Parcours 3  - « Interface Offre de formation » Story-board Version 0.1 Micropole – Univers.
Les T.I.C. au service de l’organisation du directeur
Chap. 4 Recherche en Table
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
Classe : …………… Nom : …………………………………… Date : ………………..
Utilisation ou copie interdites sans citation Rémi Bachelet – Ecole Centrale de Lille 1 CentraleWiki : fonctionnement Image : SourceSource École Centrale.
De la mise en page à la mise en écran : le cas des colonnes
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
Reconnaissance de la parole
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
Reconnaissance Automatique de la Parole
Story-board version 1.1 Statut : à valider Rédacteur : Nicole Djuissi
ACCES AUX RESSOURCES RESEAU INTERNET
Comment choisir une solution technologique de veille sur le marché ?
JXDVDTEK – Une DVDthèque en Java et XML
Présentation I-Prof Ecrans d ’accueil Dossier d ’un enseignant
Présentation Mars 2007 Organet II: service de gestion du déroulement des épreuves dans les établissements centres d’examen Organet II est un produit pour.
Webex.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Titre conférence lundi 27 mars 2017
Travaux pratiques sur Nooj
Gestion de la communication par établissement sur le site ville
Service aux personnes assurées
Initiation au système d’information et aux bases de données
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Développement d’applications web
Construire une base de données bibliographiques Elaborer un site web
Présentation générale de MapBruit
Formation au module Structure de ZENTO
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Vue générale de Sharpdesk
Classification Multi Source En Intégrant La Texture
Solution e-Media Présentation Générale Direction du Système d’Information Opérateur Informatique ERDF Mars 2012.
Traitements &Suppléments
Recherche Documentaire et traitement de l’information
Les relations clients - serveurs
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SYSTEMES D’INFORMATION
Le courrier de l’écrit à l’électronique
1. SITE WEB DU SERVICE INFORMATIQUE DU RECTORAT
Name Event Date Name Event Date 1 Effets danimation Conseils pour créer des : Animations de fin Animations de fin Animations dévolution Animations dévolution.
Le courrier électronique
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D., ing. Chapitre 4 Syntaxe des commandes, documentation standard,
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
Service Informatique du Rectorat
COURS DE PROGRAMMATION ORIENTEE OBJET :
Sommaire Euro Web : 2 activités ActiveMobility en quelques mots Nos solutions métier Focus sur l'application MobiliSales Le reporting.
Gestion Electronique des Documents et de l’Information
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
1 GPA435 Systèmes d’exploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 8 Filtres UNIX.
Bienvenue sur CAUTIONET l'outil On Line de gestion de caution
Introduction.
Biologie – Biochimie - Chimie
Gestion des fichiers et dossiers
Guide n° 1 Formation initiale Primaire
Tirer le meilleur parti d’Office /10/ Vincent Bippus IT/OIS 07 octobre 2014.
Rédaction d’un dossier SVT 3eme.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Qu'est-ce que la messagerie unifiée?
L’essentiel à retenir BUDI - Vision partenaires. Qu’est ce que BUDI ? 2 Base Unique de Documentation et d’Information de Pôle emploi, BUDI centralise.
MES STRATÉGIES DE LECTURE
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
Les ateliers l’environnement numérique de travail en Midi-Pyrénées L’ENT MIDI-PYRÉNÉES EST SOUTENU PAR les services personnels - CLIQUEZ POUR CONTINUER.
Transcription de la présentation:

Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet ENST/TSI et CNRS-LTCI 46 rue Barrault PARIS cedex

2 Plan Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction dinformations spatiales Traitements Linguistiques bas niveaux Perspectives

3 Accès, Communication Désir daccéder à linformation à travers le téléphone sur INTERNET Besoin de communiquer messagerie

4 «MAJORDOME» messagerie unifiée intelligente Projet Eureka no 2340 EDFHolistique G. Chollet, K. Hallouli, J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

5 Quest-ce quun Majordome ? messages entrants vocalmèl télécopies serveurtraitement des messages accès aux messages téléphone terminal authentification, dialogue, routage, résumés, mises a jour, agenda pager PDA

6 Le Majordome individuel

7 Adaptation à lutilisateur Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur Capacité didentifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.) Capacité dauthentifier lutilisateur lors de laccès à sa messagerie Fournir à lutilisateur des paramètres personnels (carnet dadresses, agenda …)

8 Adaptation au canal daccès Accès par le web : le contenu de la boîte aux lettres « unifiée » peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans leur mode naturel Accès par téléphone : nécessité de condenser linformation, même lors de la lecture de la liste des messages nécessité de résumer les messages importants

9 Adaptation à la modalité des messages Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin

10 Traitements

11 Traitement des Télécopies Recherche dinformations ciblées : consultation du message adaptée au medium de communication Objectif : routage, transmission dinformations-clés Recherche du nom de lexpéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères P. Vaillant, L. Likforman

12 Expéditeu r Destinataire Mots clés Télécopies

13 Analyse spatiale Repérage de la zone NOM EXPEDITEUR Extraction tolérante de mots clés par classe Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/

14 Analyse spatiale : critères perceptifs

15 Traitement Linguistique Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp. phonétique) relève de la reconnaissance de lécrit (resp. de la parole) Applications : extraction automatique dinformations-clés (expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages

16 Techniques danalyse linguistique Objectif de Majordome : traiter les messages en temps réel Pas dutilisation extensive des techniques coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et efficaces : repérage de formes grammaires locales outils statistiques

17 Repérage de composants-clés Repérage des noms propres (1) Indices internes : majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …

18 Repérage de composants-clés Repérage des noms propres (2) : Indices externes : présence, dans le contexte local du mot, de marqueurs didentité (« M. », « Mme », « Dr. » …) présence, dans le contexte de la phrase, dindices grammaticaux, comme lapposition du GN (« le député RPR Thierry Mariani […] ») présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)

19 Repérage de composants-clés Repérage de mots-clés : mots apparaissant dans le contexte dune ligne « Objet » ou « Titre » … mots de fréquence relative élevée (fréquence relative = fréquence dans le document analysé / fréquence dans un corpus général de la langue)

20 Résumé automatique Mesure pour chaque phrase dun « score » de représentativité (% de mots-clés) Extraction des phrases ayant leur score au-dessus dun seuil donné Concaténation des phrases choisies Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible (étude réalisée par Aude Acoulon)

21 Catégorisation de textes Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.) Méthode : mesure dun certain nombre de ces caractéristiques dans des corpus dapprentissage max. variance + régression linéaire discriminateurs

22 Techniques utilisées (1) Techniques de représentation de lexiques à accès rapide : Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage dun lexique avec infos sur les entrées temps daccès réduit (log 2, taille du lexique) Tries (graphes acycliques directs), une lettre par arc temps daccès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le parcours)

23 Techniques utilisées (2) Techniques statistiques : calcul de fréquences doccurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots Calcul de fréquences de co-occurrences Ex. fréquence doccurrence de 2 mots dans une fenêtre contextuelle de n mots

24 Techniques utilisées (3) Application de règles de grammaires locales Contexte très réduit : Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de prénoms Chaîne2 est en capitales Chaîne2 est un nom de famille

25 Fusion données spatiales et textuelles Création dun tableau de paires (mot, zone) N.B. Certaines zones (smears) nont pas de mot (ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage dinformations obtenues par des traitements sur limage (ex. zone expéditeur) et dinformations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection

26 Résultats