Nouvelles méthodes d ’accès assisté à l’information : recherche / extraction / restitution…
II. Nouvelles tendances en RI Des analyses (limitées) du « contenu » Méthodes sémantiques d ’Indexation (expansion de requêtes…) Combinaison EI-RI - (RI structurée) Systèmes de Question/Réponse Résumé, Navigation inter/intradocumentaire Documents multimédia : texte / audio / vidéo
B Synonyme de A : Sens équivalent 1. Méthodes sémantiques d ’Indexation : Indexer les documents dans un « espace sémantique » plutôt que « de termes » (mots-formes) Approche 1. Exploiter les relations lexicales B Synonyme de A : Sens équivalent B Hyperonyme (Hyponyme)de A : Désigne une sur-classe (une sous-classe) B Méronyme de A : Désigne une partie de A Navire ≈ Bateau hyper/hyponyme voile hélice gouvernail voilier cargo paquebot méronyme dériveur 3 mats
Expansion de requête Etendre la requête à des mots sémantiquement proches De la forme « matérielle » (mot) au concept Problème : limiter le bruit. Où s ’arrêter dans les similitudes entre mots ? navire voilier xxx yyy zzz ttt … comparaison bateau ttt xxx uuu … cargo Porte cochère
Ressources lexicales Généralistes : Wordnet http://www.cogsci.princeton.edu/~wn/, Eurowordnet http://www.illc.uva.nl/EuroWordNet/, Balkanet http://www.ceid.upatras.gr/Balkanet/ Sémiographe (Mémodata) http://www.memodata.com Spécialisées : expansions de ces ressources généralistes pour un domaine technique Dictionnaires de terminologie Dictionnaires de synonymes Dictionnaires de langue …
Approche 2 : « Espace sémantique » : concepts, entités, thèmes… Exemple : Moteur de recherche Intuition Sté Sinequa http://www.sinequa.com (cf aussi Sté Lingway : http://www.lingway.com) Combinaison de plusieurs méthodes Stemming (racinication), lemmatisation Dictionnaire « thématique » Entités nommées Concepts (‘ terminologie ’) Classification multiple des documents
Dictionnaire « thématique » L’idée consiste à répartir “ l’univers des mots ” sur un espace avec un nombre de dimensions fixe :environ 800 dimensions (1 dimension = un ensemble de mots). Un mot peut appartenir à plusieurs dimensions à la fois. Par exemple, le mot avocat appartiendra à la dimension justice/juridique, mais également à la dimension fruit/aliment. Chaque document est converti en un vecteur sémantique à 800 composantes. Le poids attribué à chaque dimension dépend principalement du nombre de termes trouvés dans le document. Une désambiguïsation locale est effectuée pour renforcer le poids attribué à une dimension lorsqu’un mot appartient à plusieurs d’entre elles.
Désambiguisation locale Requête 1 Requête 2 Requête 3 avocat avocat à la Cour récolte des avocats Désambiguisation locale justice justice justice fruit fruit fruit
Entités nommées Reconnaissance par automates (transducteurs) Noms de personnes (Jacques Chirac, George W. Bush, Messier…) Différents types Sociétés/Organisations (Canal +, ONU, Dupont Corp…), Lieux (Paris, Allemagne, Rhône-Alpes…), Temporel (12 décembre 99, samedi soir, 1997…), Chiffres (12 %, 30 K¤, 30 milliards de dollars…). Normalisation : Blair, Tony Blair, T. Blair… Visualisation L’affaire de l’arsenal irakien déstabilise Bush et Blair Aux Etats-Unis et en Grande-Bretagne, la polémique sur les armes de destruction massive (ADM) irakiennes prend un tour de plus en plus embarrassant pour le président américain, George W. Bush, et pour le premier ministre britannique, Tony Blair…
« Concepts » Extraction de « termes-concepts » = groupes nominaux minimaux (1-3 mots) (automates) Liens entre « concepts » obtenus par cooccurrence dans un corpus large => réseau de concepts Indexation d ’un document par ces termes-concepts Le moteur retourne, en plus des documents eux-mêmes, les concepts les plus pertinents Calcul de pertinence : termes de fréquence (pondérée : type tf.idf) maximale dans l ’échantillon retourné.
Exemple : Concepts liés à la requête licenciement licenciement économique procédures de licenciement plans de licenciements plans sociaux contrats de travail prud'hommes motif économique indemnités de licenciement CDD lettre de licenciement Exemple : Concepts liés à la requête licenciement
Résultat : indexation multiple (plusieurs « espaces sémantiques ») « Dimensions » de la langue Entités nommées Concepts … Pour une requête donnée : pondération de différents critère d ’adéquation entre document et requête Dispositifs de visualisation de documents retournés (« enrichis »): entités nommées, concepts associés
2. Recherche d’information « structurée » Un croisement RD-EI Objectif - Analyser la structure de la requête, identifier « l ’information » (concept) cherché - Trouver dans le texte cette information (et non seulement « des mots de la requête ») : analyse locale, matching de « structures informationnelle » - Retourner les passages concerné (1) « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro »
Exemple 1 : "FACILE : Classifying Texts Integrating Pattern Matching and Information Extraction", IJCAI 99 - F. Ciravegna et al. (Trente, Vienne, Milan, Manchester) Exemple de requête : « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro » Documents : articles et dépêches économiques Méthode : RD pour une première sélection de documents + trouver des passages « homogènes » EI pour un matching « fin » des requêtes sur le texte. On cherche à instancier une « Micro fiche ». Exemple : un EVT de type TRANSACTION associé à une ENTITE LIEU de valeur 'Europe' et une ENTITE MONTANT de valeur supérieure à la valeur donnée de 1 Meuro.
Exemple 2 (GéoSem : GREYC, ERSS, EPFL…) « Trouver les passages qui parlent de la sécurité maritime dans la Manche » « Trouver les passages qui parlent des difficultés scolaires dans l ’Ouest dans les années 1980 » Retour : - passages textuels indexés par Thème + Temps + Espace (+ cartes) - Espace et Temps : analyse syntagmatique - Thème : Indexation par des termes-concepts (cf. Lingway, Sinéqua)
3. Questions/Réponses (Question Answering / Answer Extraction) Une tâche ambitieuse Exemples de Requêtes (1) « Qui est l’auteur du ‘ Dernier tango à Paris ’, Quels autres films a-t-il réalisé récemment ? » (2) « Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ » Corpus Documents sur le Web / Manuels techniques (ou autre docs spécialisés) Résultat de l ’analyse - La « réponse » (question answering): B. Bertollucci : Little Budha, Besieged, The Dreamers… - ou : Des phrases ou passages contenant la réponse (answer extraction)
Différents types de requêtes Simples : QUI/OU/QUAND Où est le Taj Mahal ? Quelle est la population actuelle de Tucson ? Qui était le premier secrétaire d'Etat de Nixon ? Listes Nommer 30 personnes ayant participé au cabinet de R. Reagan. Quels sont les acteurs du film Z ? Nommer 4 pays producteurs de diamants.
Biographie résumée de Colin Powell (personnage public) ? Ouvertes Biographie résumée de Colin Powell (personnage public) ? nom, surnoms, adresse, date de naissance, formation… Que savons nous de la société Y ? structures organisationnelle, lignes de produits, dirigeants… Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ « Contexte » Quelle cépage est utilisé dans le Château Petrus ? combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ? quel domaine possède-t-il en Califormie ? Combien existe-t-il d'espèces d'araignées ? combien sont venimeuses ? quel pourcentage de piqûres sont fatales ?
Méthodes Deux types (± combinées éventuellement) : - type EI : compréhension assez complète de la question et analyse linguistique du texte - type RD : appariement basé sur de cooccurrence de mots
Exemple 1 : Méthodes de RD + analyse simple de la question « A question answering System Supported by Information Extraction », R. Srihari, W. Li « Who won the 1998 Peace Nobel Prize » Pattern : Asking point : PERSON Key words : {won, 1998, Peace,Nobel Prize} Repérage dans le texte d’un entité PERSON dans un contexte contenant les mots-clés.
Motif à reconnaître dans le texte Exemple 2 : Analyse plus structurelle de la question et du texte - Reconnaissance de motifs QUALC (B. Grau, LIMSI) Qui a réalisé le Dernier Tango à Paris ? Entité : Personne Connecteur ≈‘ réaliser ’ « Dernier Tango à Paris » Motif à reconnaître dans le texte
Exemple 3 : Méthodes proches de la compréhension automatique « Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs : D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich) - Manuels techniques. P. ex. Man Unix : « Comment fait-on pour changer les droits d’accès? que fait la commande ‘cp’ » - Analyse sémantique du texte cp copies files holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2) - Appariement « logique » avec la question Does cp coies files ? ?- evt(copy,e1,[X,Y]) & object(cp,X) & object(file,Y)
4. Résumé et navigation dans des bases de données documentaires I. Résumé : Une autre manière d ’extraire/restituer de l ’information Méthodes 1) Par « extraction » (Type RD +) : Repérage de segments représentatifs de l ’ensemble d’un document. Retour de ces segments comme résumé. Critères de type lexical/statistique : présence « concentrée » des termes les plus fréquents (tf.idf) indices linguistiques : « en résumé », « en conclusion », « dans cet article nous… » (Tous textes) Vocabulaire spécifique (Domaine ciblé, profil utilisateur…)
Bla bla Dans ce texte… Truc machin truc bidule… bla bla. Chose machin bidule truc… En conclusion… Termes représentatifs : truc, bidule, machin, chose
Repérage de segments pertinents (cf méthode 1) 2) Par « compréhension » (type EI) : Repérage de segments pertinents (cf méthode 1) Analyse linguistique produisant une représentation sémantique ou « conceptuelle » Génération multilingue Problème : analyse sémantique Textes techniques ciblés Exemple : projet MUSI (brevets)
2. Navigation inter-intra-documentaire Analyse orientée par une requête de l ’utilisateur Sélection de passages dans le (les) document(s) Visualisation / navigation dans le corpus par des dispositifs de visualisation Exemple : projet Régal (ou Géosem…) Peut être couplé avec du résume = même type de techniques, présentation différente ou complémentaire
Conclusions / Discussion : Accès assisté à l’Information Des tâches ambitieuses, impliquant une analyse «fine », du « contenu » des documents Bien au delà de la « recherche documentaire » classique. Grande variété de tâches possibles (et combinables) Faisabilité : Une idée reçue « Seuls les traitements numériques et ‘de surface’ peuvent être suffisamment efficaces » Pas sur le « corpus-web » (probablement) Pour des fonds documentaires spécialisés (ou après filtrage) Formes et connaissances spécifiques « fortes » exploitables Utilisateurs avertis et exigeants
II. L’exemple du document géographique Pourquoi ? Usage social (collectivités, grandes entreprises…) Etudes locales (Collab. Informatique-Géographie) Des caractéristiques fortes : Macro structuration de l’information Documents (souvent) longs Composite : texte + cartes (et autres graphiques) Projet GéoSem Programme pluridiscip. « Société de l’Information » GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.) Etape d ’un projet à long terme : Sémantique/TALN
Structuration de l’Information Géographique Associe : Un phénomène (P) Quoi ? Un espace (E) Où ? (souvent) Un temps (T) Quand ? Se repère immédiatement sur des documents
La féminisation du corps enseignant du premier degré est très variable selon les départements: un instituteur pour deux institutrices dans le Pas‑de‑Calais, en Ariège et en Lozère, mais un pour quatre, voire pour cinq, dans les départements parisiens. En règle assez générale, la féminisation du premier degré est d'autant plus grande que l'urbanisation est importante, les vieilles régions industrielles et le Languedoc faisant exception.
… Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire
Objectifs du projet Interrogation multidimensionnelle Retard scolaire dans l ’Ouest dans les années 1950 Politiques de sécurité maritime dans la Manche Evolution du vote FN dans l’Ouest entre 97 et 2002 Contrastes/similarités électorales entre Normandie et Bretagne Retour : segments du document Passages de texte Cartes Problématique de document long et composite
Facettes de l’analyse 1. Sémantique locale :Expressions spatiales et temporelles 2. Sémantique textuelle : Segmentation discursive 3. Extraction de connaissance : Structuration du domaine 4. Sémiologie des cartes et liens avec le texte
1. Expressions spatiales et temporelles Syntagmes nominaux et prépositionnels complexes Jusqu’au milieu des années 1980 Dans les départements ouvriers du nord de la France Méthodes « de surface » (suites de mots) impraticables ! Analyse Grammaires syntagmatiques « locales » En Prolog (DCG) Sémantique compositionnelle Produit des « structures de traits » interprétables en contexte.
Exemple : « Au milieu des années 1980 » Sémantique abstraite en terme d ’ « opérateurs » + Calcul de la référence Type : complexe temporel Opérateur : milieu Type : complexe Opérateur : années Opérande : Opérande : Type : date Grain : an Valeur : 1980 Référence : [1982,1987]
Expressions spatiales En Bretagne Au Nord d ’une ligne Bordeaux-Genève Dans les départements les plus urbanisé de l’Ouest Mêmes méthodes - Plus complexe - Diffcultés : sémantique spatiale pour le ‘requêtage’ (en cours). Faut-il « matcher » : Nord de Paris avec Le 18ème ? Le 93 ? Lille ? Dans le Calvados avec Caen ? En Normandie Quel degré de pertinence ?
2. Segmentation discursive (1) : Lien P-S-T Problème : faire le lien entre le Quoi, le Où et le Quand Méthode : Compléments circonstanciels : approché par cooccurrence dans un phrase. Exploitation de lien syntaxiques et de la théorie des « cadres de discours » (Charolles) Résultat : Indexation « Multi-thème » de segments documentaires
T = 1945-1986 P = ‘retard scolaire’ … Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire... T = 1945-1980 P = ‘retard scolaire’ E = Aveyron, Paris…
2. Segmentation discursive (2) : Analyse rhétorique Modèles de structuration du « raisonnement géographique » détectables (?) : - Loi/Observation générale - Instanciation comparative dans l ’espace, le temps… - Synthèse Modèle textuel : - Structure énumérative - Amorce / conclusion Applications : - Interrogation sur contrastes/similarités : « comparaison des situations électorales entre Normandie et Bretagne » Similaire à EI, mais au niveau textuel - Résumé : exploitation des amorces/synthèses
3. Structuration du domaine (P) Détection automatique d ’axes « structurants » Domaine scolaire : Ecole élémentaire, Collège, Lycée, Université… / Privé, Public / Filière technique, générale… Politique : Ext.G., Gauche, Centre… / Elections municipales, régionales, législatives… Méthodes : Apprentissage sur corpus vaste et homogène Extraction de composantes potentielles (SN complexes) Collecte d ’indices contextuels : Titres / Introducteurs de cadres / Positions thématique (préverbal) /… Hypothèse : les termes « structurants » ont plus de chance de se trouver dans ces positions remarquables
4. Cartes Repérage des titres et légendes et analyse linguistique Indexation et interrogation en composantes P-S-T (même format que le texte) Analyse d ’image : regroupements perceptifs contrastes et similarité, requêtes relationnelles Modèle de la carte : représentation, sémiologie, interprétation…