II. Nouvelles tendances en RI

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
La recherche documentaire
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Discours et TAL TAL et discours
Indexation textuelle : Systèmes de recherche d’informations
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
La Recherche en Ligne.
Reconnaissance de la parole
Situations d’apprentissage et d’évaluation
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Laboratoire Sciences Pour l’Environnement
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Des ressources pour l'enseignement en langue des signes aux élèves sourds Patrice DALLE • IRIT-UPS (Toulouse 3) •
Initiation à la conception de systèmes d'information
Pensons aux preuves vs. Comment savons-nous ce que nous savons?
Annotations sémantiques pour le domaine des biopuces
Méthode des k plus proches voisins
Le Travail Collaboratif ...
Colloque IC-2012– Montréal 6-7 juin 2012
Reconnaissance Vocale
Présentation du mémoire
La méthodologie expérimentale Fondements et bases d’application
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Cours de Base de Données & Langage SQL
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Jura.be, Jurisquare Des outils complémentaires ?
VOUS ALLEZ ASSISTER A UNE DEMONSTRATION DU FONCTIONNEMENT DE LA BASE DE DONNEES DIPOUEST OUBLIEZ SOURIS ET CLAVIER ET LAISSEZ-VOUS GUIDER.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Interprétation automatique
Les techniques des moteurs de recherche
La veille numérique : un outil pour s'informer intelligemment &
1 Un dérivé de l’Extraction d’Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction)
Compétences des enseignants
GSD langue française - Boumerdès 19 et 30 avril 2013
LA GESTION DOCUMENTAIRE BTS Assistant de direction 2e année, Janvier 2007.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
23 Nov. 2005Colloque Médiathèques1 Nouvelles méthodes d’accès assisté à l’information Approches sémantiques Documents textuels et multimédia Patrice Enjalbert.
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Management de la qualité
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Premiers cours : démarrer
INTRODUCTION AUX BASES DE DONNEES
Initiation aux bases de données et à la programmation événementielle
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
Démarche d’enseignement de l’APL : analyser
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
+ Recherche documentaire & Voyage d’étude AA: Recherche documentaire.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Nouvelles méthodes d ’accès assisté à l’information : recherche / extraction / restitution…

II. Nouvelles tendances en RI Des analyses (limitées) du « contenu » Méthodes sémantiques d ’Indexation (expansion de requêtes…) Combinaison EI-RI - (RI structurée) Systèmes de Question/Réponse Résumé, Navigation inter/intradocumentaire Documents multimédia : texte / audio / vidéo

B Synonyme de A : Sens équivalent 1. Méthodes sémantiques d ’Indexation : Indexer les documents dans un « espace sémantique » plutôt que « de termes » (mots-formes) Approche 1. Exploiter les relations lexicales B Synonyme de A : Sens équivalent B Hyperonyme (Hyponyme)de A : Désigne une sur-classe (une sous-classe) B Méronyme de A : Désigne une partie de A Navire ≈ Bateau hyper/hyponyme voile hélice gouvernail voilier cargo paquebot méronyme dériveur 3 mats

Expansion de requête Etendre la requête à des mots sémantiquement proches De la forme « matérielle » (mot) au concept Problème : limiter le bruit. Où s ’arrêter dans les similitudes entre mots ? navire voilier xxx yyy zzz ttt … comparaison bateau ttt xxx uuu … cargo Porte cochère

Ressources lexicales Généralistes : Wordnet http://www.cogsci.princeton.edu/~wn/, Eurowordnet http://www.illc.uva.nl/EuroWordNet/, Balkanet http://www.ceid.upatras.gr/Balkanet/ Sémiographe (Mémodata) http://www.memodata.com Spécialisées : expansions de ces ressources généralistes pour un domaine technique Dictionnaires de terminologie Dictionnaires de synonymes Dictionnaires de langue …

Approche 2 : « Espace sémantique » : concepts, entités, thèmes… Exemple : Moteur de recherche Intuition Sté Sinequa http://www.sinequa.com (cf aussi Sté Lingway : http://www.lingway.com) Combinaison de plusieurs méthodes Stemming (racinication), lemmatisation Dictionnaire « thématique » Entités nommées Concepts (‘ terminologie ’) Classification multiple des documents

Dictionnaire « thématique » L’idée consiste à répartir “ l’univers des mots ” sur un espace avec un nombre de dimensions fixe :environ 800 dimensions (1 dimension = un ensemble de mots). Un mot peut appartenir à plusieurs dimensions à la fois. Par exemple, le mot avocat appartiendra à la dimension justice/juridique, mais également à la dimension fruit/aliment. Chaque document est converti en un vecteur sémantique à 800 composantes. Le poids attribué à chaque dimension dépend principalement du nombre de termes trouvés dans le document. Une désambiguïsation locale est effectuée pour renforcer le poids attribué à une dimension lorsqu’un mot appartient à plusieurs d’entre elles.

Désambiguisation locale Requête 1 Requête 2 Requête 3 avocat avocat à la Cour récolte des avocats Désambiguisation locale justice justice justice fruit fruit fruit

Entités nommées Reconnaissance par automates (transducteurs) Noms de personnes (Jacques Chirac, George W. Bush, Messier…) Différents types Sociétés/Organisations (Canal +, ONU, Dupont Corp…), Lieux (Paris, Allemagne, Rhône-Alpes…), Temporel (12 décembre 99, samedi soir, 1997…), Chiffres (12 %, 30 K¤, 30 milliards de dollars…). Normalisation : Blair, Tony Blair, T. Blair… Visualisation L’affaire de l’arsenal irakien déstabilise Bush et Blair Aux Etats-Unis et en Grande-Bretagne, la polémique sur les armes de destruction massive (ADM) irakiennes prend un tour de plus en plus embarrassant pour le président américain, George W. Bush, et pour le premier ministre britannique, Tony Blair…

« Concepts » Extraction de « termes-concepts » = groupes nominaux minimaux (1-3 mots) (automates) Liens entre « concepts » obtenus par cooccurrence dans un corpus large => réseau de concepts Indexation d ’un document par ces termes-concepts Le moteur retourne, en plus des documents eux-mêmes, les concepts les plus pertinents Calcul de pertinence : termes de fréquence (pondérée : type tf.idf) maximale dans l ’échantillon retourné.

Exemple : Concepts liés à la requête licenciement licenciement économique procédures de licenciement plans de licenciements plans sociaux contrats de travail prud'hommes motif économique indemnités de licenciement CDD lettre de licenciement Exemple : Concepts liés à la requête licenciement

Résultat : indexation multiple (plusieurs « espaces sémantiques ») « Dimensions » de la langue Entités nommées Concepts … Pour une requête donnée : pondération de différents critère d ’adéquation entre document et requête Dispositifs de visualisation de documents retournés (« enrichis »): entités nommées, concepts associés

2. Recherche d’information « structurée » Un croisement RD-EI Objectif - Analyser la structure de la requête, identifier « l ’information » (concept) cherché - Trouver dans le texte cette information (et non seulement « des mots de la requête ») : analyse locale, matching de « structures informationnelle » - Retourner les passages concerné (1) « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro »

Exemple 1 : "FACILE : Classifying Texts Integrating Pattern Matching and Information Extraction", IJCAI 99 - F. Ciravegna et al. (Trente, Vienne, Milan, Manchester) Exemple de requête : « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro » Documents : articles et dépêches économiques Méthode : RD pour une première sélection de documents + trouver des passages « homogènes » EI pour un matching « fin » des requêtes sur le texte. On cherche à instancier une « Micro fiche ». Exemple : un EVT de type TRANSACTION associé à une ENTITE LIEU de valeur 'Europe' et une ENTITE MONTANT de valeur supérieure à la valeur donnée de 1 Meuro.

Exemple 2 (GéoSem : GREYC, ERSS, EPFL…) « Trouver les passages qui parlent de la sécurité maritime dans la Manche » «  Trouver les passages qui parlent des difficultés scolaires dans l ’Ouest dans les années 1980 » Retour : - passages textuels indexés par Thème + Temps + Espace (+ cartes) - Espace et Temps : analyse syntagmatique - Thème : Indexation par des termes-concepts (cf. Lingway, Sinéqua)

3. Questions/Réponses (Question Answering / Answer Extraction) Une tâche ambitieuse Exemples de Requêtes (1) « Qui est l’auteur du ‘ Dernier tango à Paris ’, Quels autres films a-t-il réalisé récemment ? » (2) « Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ » Corpus Documents sur le Web / Manuels techniques (ou autre docs spécialisés) Résultat de l ’analyse - La « réponse » (question answering): B. Bertollucci : Little Budha, Besieged, The Dreamers… - ou : Des phrases ou passages contenant la réponse (answer extraction)

Différents types de requêtes Simples : QUI/OU/QUAND Où est le Taj Mahal ? Quelle est la population actuelle de Tucson ? Qui était le premier secrétaire d'Etat de Nixon ? Listes Nommer 30 personnes ayant participé au cabinet de R. Reagan. Quels sont les acteurs du film Z ? Nommer 4 pays producteurs de diamants.

Biographie résumée de Colin Powell (personnage public) ? Ouvertes Biographie résumée de Colin Powell (personnage public) ? nom, surnoms, adresse, date de naissance, formation… Que savons nous de la société Y ? structures organisationnelle, lignes de produits, dirigeants… Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ « Contexte » Quelle cépage est utilisé dans le Château Petrus ? combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ? quel domaine possède-t-il en Califormie ? Combien existe-t-il d'espèces d'araignées ? combien sont venimeuses ? quel pourcentage de piqûres sont fatales ?

Méthodes Deux types (± combinées éventuellement) : - type EI : compréhension assez complète de la question et analyse linguistique du texte - type RD : appariement basé sur de cooccurrence de mots

Exemple 1 : Méthodes de RD + analyse simple de la question « A question answering System Supported by Information Extraction », R. Srihari, W. Li « Who won the 1998 Peace Nobel Prize » Pattern : Asking point : PERSON Key words : {won, 1998, Peace,Nobel Prize} Repérage dans le texte d’un entité PERSON dans un contexte contenant les mots-clés.

Motif à reconnaître dans le texte Exemple 2 : Analyse plus structurelle de la question et du texte - Reconnaissance de motifs QUALC (B. Grau, LIMSI) Qui a réalisé le Dernier Tango à Paris ? Entité : Personne Connecteur ≈‘ réaliser ’ « Dernier Tango à Paris » Motif à reconnaître dans le texte

Exemple 3 : Méthodes proches de la compréhension automatique «  Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs : D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich) - Manuels techniques. P. ex. Man Unix : « Comment fait-on pour changer les droits d’accès? que fait la commande ‘cp’ » - Analyse sémantique du texte cp copies files holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2) - Appariement « logique » avec la question Does cp coies files ? ?- evt(copy,e1,[X,Y]) & object(cp,X) & object(file,Y)

4. Résumé et navigation dans des bases de données documentaires I. Résumé : Une autre manière d ’extraire/restituer de l ’information Méthodes 1) Par « extraction » (Type RD +) : Repérage de segments représentatifs de l ’ensemble d’un document. Retour de ces segments comme résumé. Critères de type lexical/statistique : présence « concentrée » des termes les plus fréquents (tf.idf) indices linguistiques : « en résumé », « en conclusion », « dans cet article nous…  » (Tous textes) Vocabulaire spécifique (Domaine ciblé, profil utilisateur…)

Bla bla Dans ce texte… Truc machin truc bidule… bla bla. Chose machin bidule truc… En conclusion… Termes représentatifs : truc, bidule, machin, chose

Repérage de segments pertinents (cf méthode 1) 2) Par « compréhension » (type EI) : Repérage de segments pertinents (cf méthode 1) Analyse linguistique produisant une représentation sémantique ou « conceptuelle » Génération multilingue Problème : analyse sémantique Textes techniques ciblés Exemple : projet MUSI (brevets)

2. Navigation inter-intra-documentaire Analyse orientée par une requête de l ’utilisateur Sélection de passages dans le (les) document(s) Visualisation / navigation dans le corpus par des dispositifs de visualisation Exemple : projet Régal (ou Géosem…) Peut être couplé avec du résume = même type de techniques, présentation différente ou complémentaire

Conclusions / Discussion : Accès assisté à l’Information Des tâches ambitieuses, impliquant une analyse «fine », du « contenu » des documents Bien au delà de la « recherche documentaire » classique. Grande variété de tâches possibles (et combinables) Faisabilité : Une idée reçue « Seuls les traitements numériques et ‘de surface’ peuvent être suffisamment efficaces » Pas sur le « corpus-web » (probablement) Pour des fonds documentaires spécialisés (ou après filtrage) Formes et connaissances spécifiques « fortes » exploitables Utilisateurs avertis et exigeants

II. L’exemple du document géographique Pourquoi ? Usage social (collectivités, grandes entreprises…) Etudes locales (Collab. Informatique-Géographie) Des caractéristiques fortes : Macro structuration de l’information Documents (souvent) longs Composite : texte + cartes (et autres graphiques) Projet GéoSem Programme pluridiscip. « Société de l’Information » GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.) Etape d ’un projet à long terme : Sémantique/TALN

Structuration de l’Information Géographique Associe : Un phénomène (P) Quoi ? Un espace (E) Où ? (souvent) Un temps (T) Quand ? Se repère immédiatement sur des documents

La féminisation du corps enseignant du premier degré est très variable selon les départements: un instituteur pour deux institutrices dans le Pas‑de‑Calais, en Ariège et en Lozère, mais un pour quatre, voire pour cinq, dans les départements parisiens. En règle assez générale, la féminisation du premier degré est d'autant plus grande que l'urbanisation est importante, les vieilles régions industrielles et le Languedoc faisant exception.

… Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire

Objectifs du projet Interrogation multidimensionnelle Retard scolaire dans l ’Ouest dans les années 1950 Politiques de sécurité maritime dans la Manche Evolution du vote FN dans l’Ouest entre 97 et 2002 Contrastes/similarités électorales entre Normandie et Bretagne Retour : segments du document Passages de texte Cartes Problématique de document long et composite

Facettes de l’analyse 1. Sémantique locale :Expressions spatiales et temporelles 2. Sémantique textuelle : Segmentation discursive 3. Extraction de connaissance : Structuration du domaine 4. Sémiologie des cartes et liens avec le texte

1. Expressions spatiales et temporelles Syntagmes nominaux et prépositionnels complexes Jusqu’au milieu des années 1980 Dans les départements ouvriers du nord de la France Méthodes « de surface » (suites de mots) impraticables ! Analyse Grammaires syntagmatiques « locales » En Prolog (DCG) Sémantique compositionnelle Produit des « structures de traits » interprétables en contexte.

Exemple : « Au milieu des années 1980 » Sémantique abstraite en terme d ’ « opérateurs  » + Calcul de la référence Type : complexe temporel Opérateur : milieu Type : complexe Opérateur : années Opérande : Opérande : Type : date Grain : an Valeur : 1980 Référence : [1982,1987]

Expressions spatiales En Bretagne Au Nord d ’une ligne Bordeaux-Genève Dans les départements les plus urbanisé de l’Ouest Mêmes méthodes - Plus complexe - Diffcultés : sémantique spatiale pour le ‘requêtage’ (en cours). Faut-il « matcher » : Nord de Paris avec Le 18ème ? Le 93 ? Lille ? Dans le Calvados avec Caen ? En Normandie Quel degré de pertinence ?

2. Segmentation discursive (1) : Lien P-S-T Problème : faire le lien entre le Quoi, le Où et le Quand Méthode : Compléments circonstanciels : approché par cooccurrence dans un phrase. Exploitation de lien syntaxiques et de la théorie des « cadres de discours » (Charolles) Résultat : Indexation « Multi-thème » de segments documentaires

T = 1945-1986 P = ‘retard scolaire’ … Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire... T = 1945-1980 P = ‘retard scolaire’ E = Aveyron, Paris…

2. Segmentation discursive (2) : Analyse rhétorique Modèles de structuration du « raisonnement géographique » détectables (?) : - Loi/Observation générale - Instanciation comparative dans l ’espace, le temps… - Synthèse Modèle textuel : - Structure énumérative - Amorce / conclusion Applications : - Interrogation sur contrastes/similarités : « comparaison des situations électorales entre Normandie et Bretagne » Similaire à EI, mais au niveau textuel  - Résumé : exploitation des amorces/synthèses

3. Structuration du domaine (P) Détection automatique d ’axes « structurants » Domaine scolaire : Ecole élémentaire, Collège, Lycée, Université… / Privé, Public / Filière technique, générale… Politique : Ext.G., Gauche, Centre… / Elections municipales, régionales, législatives… Méthodes : Apprentissage sur corpus vaste et homogène Extraction de composantes potentielles (SN complexes) Collecte d ’indices contextuels : Titres / Introducteurs de cadres / Positions thématique (préverbal) /… Hypothèse : les termes « structurants » ont plus de chance de se trouver dans ces positions remarquables

4. Cartes Repérage des titres et légendes et analyse linguistique  Indexation et interrogation en composantes P-S-T (même format que le texte) Analyse d ’image : regroupements perceptifs  contrastes et similarité, requêtes relationnelles Modèle de la carte : représentation, sémiologie, interprétation…