Recherche d’information et TAL

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Distance inter-locuteur
LA NOTATION SELON LE GENRE FORMATION INTER-AGENCES Facilitators name and title.
INSTITUT DE VEILLE SANITAIRE
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
1. Les caractéristiques de dispersion. 11. Utilité.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Etienne Bertaud du Chazaud
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Application des algorithmes génétiques
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
L’Heure Telling Time.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Zone de rejet et scoring
Karin Lundgren-Cayrol
Classification Multi Source En Intégrant La Texture
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Tableaux de distributions
Tableaux de distributions
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 7 : Les méthodes de conception.
Logiciel gratuit à télécharger à cette adresse :
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Systeme Question-Reponse SQR
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
1. Présentation générale du système
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Discussion autour du référentiel
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Recherche d’information
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Recherche d’information et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

Plan Principes généraux en RI L’évaluation en RI Schéma global d’une application de RI Quelle place et quels résultats pour un traitement « linguistique » ? L’évaluation en RI Principes Programmes Internationaux Critique de l’évaluation globale Vers un traitement adaptatif : projet ARIEL

Présentation générale de la RI

La RI en quelques mots Étant donné : Une collection de documents Un besoin exprimé (requête) Retrouver les documents correspondants à ce besoin Le plus précisément et le plus exhaustivement possible

Schéma général Représentation Indexation Requête Mise en cor- respondance

Caractéristiques du modèle dominant Représentation des documents et requêtes par « sac de mots » Modèle vectoriel avec pondération Fréquence relative Mots vides Quelques variations Critères de position Syntagmes ou assimilés au lieu de mots simples

Place(s) pour la linguistique Extraction des unités pertinentes (docs+requêtes) Segmentation (mots / syntagmes) Normalisation des formes (orthographe, morphologie, syntaxe) Expansion de requêtes Ajout de termes à ceux de la requête initiale E.g. : morphologie dérivationnelle, utilisations de ressources sémantiques, etc. « La linguistique doit aider au repérage du sens »

La RI pour le TAL des linguistes La RI comme valorisation des ressources produites par le TAL Lexiques, grammaires, réseaux sémantiques, etc. Slogan classique de fin d’article : « Application à la recherche d’information » Sans doute utile, mais pas de véritable évaluation de l’impact sur des chaînes de RI

Bilan mitigé (pour le moins) De Loupy 2001 : « Les expériences publiées dans la littérature ne font pas apparaître clairement que les systèmes utilisant des connaissances linguistiques obtiennent de meilleures performances. » Voorhes 1999 : « Currently, the most succesful general purpose retrieval systems are statistical methods that treat text as little more than a bag of words. However, attempts to improve retrieval performance through more sophisticated linguistic processing have been largely unsuccessful. »

Quelques explications… Méthodologie de l’évaluation Évaluation globale d’un système Coût des calculs supplémentaires Temps de réponse du système plus important que la pertinence Types de documents traités Bases documentaires généralistes Exigence de l’utilisateur Modèle du Web

Présentation générale de la RI Problématique de l’évaluation

L’évaluation en RI Coût énorme de la définition d’un banc de test Communauté scientifique mobilisée très tôt pour la mise en commun de ressources Text REtrieval Conference (TREC), 1992 Langue anglaise exclusivement Cross-Language Evaluation Forum (CLEF), 2000 Autres langues européennes et recherche d’information trans-langue NII-Nacsis Test Collections for Information Retrieval (NTCIR), 1998 Langues asiatiques Passages obligés pour tout système de RI

Évaluation « à la TREC » Plusieurs tâches Chaque campagne (annuelle) Adhoc, WEB, Hard, QA, Terabyte, SPAM, Novelty, etc. Collections de documents (presse, Web, mails, etc.) Collection de requêtes (« topics »), 50 par tâche par an Texte de la requête (plus ou moins structuré) Liste des documents « pertinents » Chaque campagne (annuelle) Définition de la collection Distribution des requêtes Exécution des recherches par le système évalué (différents paramètres possibles, ou « runs ») Retour des résultats et évaluation du « run »

Exemple de requête (topic 35, 2003) Title: NATO, Poland, Czech Republic, Hungary Descriptive: Accession of new NATO members: Poland, Czech Republic, Hungary, in 1999. Narrative: Identity of current and newly-invited members, statements of support for and opposition to NATO enlargement and steps in the accession process and related special events are relevant. Impact on the new members, i.e., requirements they must satisfy, and their expectations regarding the implications for them are relevant. Progress in the ratification process is relevant. Future plans for NATO expansion, identification of nations admitted on previous occasions, and comments on future NATO structure or strategy are not relevant.

Notion de pertinence Décision humaine pour chaque requête « Pooling method » : les juges ne se basent que sur un sous-ensemble de documents Uniquement ceux ramenés par au moins un système Pas de méthodologie claire ni de classement pour les documents pertinents

Critères d’évaluation Précision (documents pertinents parmi ceux retrouvés) Rappel (documents retrouvés parmi ceux pertinents) F-mesure : 2xPxR/(P+R) Système parfait : P=R=1 Tous les documents sont retrouvés : R=1, P~0 Aucun document n’est retrouvé : P=1, R~0 Différents seuils de mesure (5, 10, 20… premiers documents ramenés)

Scores et évaluation Courbes rappel/précision Préférence pour les scores de précision

Évaluation « globale » Plusieurs scores globaux (moyenne) pour chaque « run » Classement des systèmes sur cette base Le score pour chaque requête est disponible, mais pas utilisé Uniquement une moyenne sur les requêtes En moyenne, très peu de différences entre les « bons » systèmes Même si des variations importantes peuvent exister d’une requête à l’autre

Conséquences Peu de visibilité des difficultés rencontrées par les systèmes Pas de prise en compte de l’efficacité par rapport à une requête « difficile » Pas de retour précis sur les techniques utilisées Peu d’information sur les caractéristiques des systèmes de toute façon

Présentation générale de la RI Evaluation « locale »

Études locales souhaitables Observer le comportement d’un système par rapport à une requête particulière Évaluer un traitement linguistique « sur site » Permettre un jugement plus fin des méthodes employées En voir les faiblesses et les avantages en fonction des données traitées Pouvoir conjuguer des méthodes spécifiques Adapter le traitement aux données

Quelques études locales « For most IR algorithms, we do not sufficiently understand the reason for retrieval variability well enough to be able to predict whether the algorithm will succeed or fail on a topic » Buckley & Harman 2003 Workshop RIA « Where can IR go from here? » 6 semaines de test locaux de plusieurs systèmes Étude de la variabilité topics-systèmes-documents Typologie des problèmes rencontrés Termes, relations sémantiques, orthographes, etc. Concentration sur le paramétrage des techniques statistiques Réinjection de pertinence aveugle (blind feedback) Pondération des termes réinjectés Pas de lien direct avec des ressources linguistiques

Présentation générale Le projet ARIEL Présentation générale

Le projet ARIEL Adaptation d’une chaîne de Recherche d’Information à l’Expression des besoins sur la base de traitements Linguistiques IRIT / ERSS – J. Mothe – 2005-06 Utilisation de la plateforme RFIEC (IRIT) Observatoire de l’impact de traitements linguistiques Repérage des contextes favorables et défavorables pour chaque méthode Vers un système adaptatif ?

Traitements envisagés Étude sur le français et l’anglais Indexation des documents et requêtes Lemmatisation Stemmatisation (troncation) Expansion de requêtes Morphologie dérivationnelle (Dictionnaires de synonymes) Voisins distributionnels

Traitements morphologiques Normalisation des formes : Troncation : « déterminons -> détermi » 5, 6 ou 7 caractères pour le français Lemmatisation : « déterminons -> déterminer » Retour à la forme de citation Nécessite un étiquetage morphosyntaxique (TreeTagger) Expansion de requêtes par BD morphologique : « déterminer -> détermination » Verbaction : couples N/V Nécessite une lemmatisation

Traitements sémantiques Dictionnaires de synonymes Déterminer -> entraîner, provoquer, pousser, susciter, occasionner… Voisins distributionnels Déterminer -> correspondre, indiquer, définir, s’interroger, ignorer, préciser… Morphosynonymie Déterminer -> arrêter, décider, fixer, préciser, caractériser, délimiter, estimer… Expansion de requêtes Après lemmatisation

Travaux préliminaires Le projet ARIEL Travaux préliminaires

Première étape : étude de l’existant Problèmes de développement de la plateforme d’expérimentation État des lieux des variations de résultats d’une requête à l’autre Étude des résultats passés des campagnes TREC et CLEF Pour quelques systèmes bien décrits, étude détaillée des différences locales

Typologie naïve des requêtes Première approche : requête « faciles » vs « difficiles » Étude des runs passés de TREC (5 années, 250 requêtes) Scores de précision, rappel et F-mesure de tous les systèmes et pour toutes les requêtes Analyses statistiques Classification hiérarchique ascendante Christment et al. (2004)

Requêtes faciles vs. difficiles

Typologie des systèmes Différences de performances en fonction des requêtes Identification de deux groupes de systèmes Analyse factorielle Individus = requêtes Variables = scores des runs

Classification des systèmes Groupe 1 de systèmes Groupe 2 de systèmes

Premiers résultats Comportements variés entre les requêtes Requêtes difficiles et faciles Comportement variés entre les systèmes Efficacité variable d’une requête à l’autre Première utilisation : adaptation aveugle Pour chaque requête, un type de système plus approprié Fusion de systèmes : « mixer » les résultats de deux systèmes orthogonaux MAIS : pas d’ « explication » de la difficulté ni de la variation

Typologie linguistique des requêtes Le projet ARIEL Typologie linguistique des requêtes

Typologie linguistique des requêtes Principe : définition de traits linguistiques génériques « À la Biber » Définition de profils de requêtes Études : Quel est l’impact des caractéristiques linguistiques sur les performances des systèmes ? Peut-on associer ces caractéristiques aux variations d’efficacité de différents traitements ?

Traits linguistiques des requêtes Une trentaine de traits définis, répartis en trois niveaux Lexique : Complexité lexicale (taille des mots, suffixation, rareté, répétition, etc.) Syntaxe : Complexité syntaxique (subordonnées, négation, profondeur, etc.) Sémantique : Polysémie des termes de la requête

Concrètement… Pour chaque requête : étiquetage morpho-syntaxique (TreeTagger) et analyse syntaxique (Syntex) Profilage : Calculs de caractéristiques (numériques) Construction d’un vecteur pour chaque requête (n=30) Au total, une matrice avec En colonnes, les valeurs des traits + les scores obtenus En ligne, les requêtes EXEMPLE Grande complexité du problème : Méthodes d’indexation, type de tâche, année, traits linguistiques, mesures d’évaluation, parties de la requête prises en compte

Quelques traits particuliers Polysémie Utilisation de ressources génériques Anglais : Wordnet Nombre de synsets différents par item lexical Français : TLFi Nombre d’entrées par item Complexité syntaxique : deux approches complémentaires

Complexité syntaxique : profondeur NP PP Syntactic Depth 5 NP NP PP NP Term limitations for members of the US congress Syntactic Links Span 10/7 = 1.43

Complexité syntaxique : distance syntaxique NP Syntactic Depth 4 PP PP NP NP NP NP Use of mutual funds in an individual 's retirement strategy Syntactic Links Span 19/9 = 2.11

Méthodes Statistiques descriptives Première approche : corrélations Traits linguistiques : variables explicatives Scores des runs : variables dépendantes Première approche : corrélations Mesure de l’existence d’une relation linéaire entre deux variables E.g. : plus la requête est longue, plus elle contient de mots Corrélations significatives Corrélations positives ou négatives

Notion de corrélation

Résultats Phénomène connu (Mandl & Womser 2004): les noms propres Corrélation significativement positive Confirmé sur TREC et CLEF Phénomènes nouveaux (Mothe & Tanguy 2005, Vergez 2005) : « Distance syntaxique » : négative Polysémie moyenne : négative Présence de mots suffixés : négative Détecteur de requêtes difficiles Utilisation envisageable : interaction avec l’utilisateur pour reformulation

Évaluation de techniques linguistiques Le projet ARIEL Évaluation de techniques linguistiques

Premier lien avec les méthodes utilisées Exemple (rare) : les runs de l’Université d’Amsterdam en 2002 3 versions du même système, seule variation : lemmatisation (TreeTagger) / stemmatisation (Porter) / les deux traitements cumulés Extraction de règles de décisions par apprentissage Plateforme Weka : divers algos d’apprentissage Si (% de prépositions > X) Alors Préférer la troncation Fusion de systèmes requête par requête

Évaluation de différentes méthodes Utilisation de la plateforme RFIEC Différentes méthodes d’indexation (documents/requêtes) et d’expansion Calcul des scores globaux Calcul des scores pour chaque requête Corrélations entre traits des requêtes et variation de performance M. Vergez & A. Picton, 2005

Normalisation des formes : résultats globaux Lemmatisation vs. troncation vs. formes de surface Lemmatisation > troncation > formes de surface Bilan net pour la lemmatisation, étude novatrice pour le français Nombreuses erreurs de traitement dans les expériences précédentes… Lemmatisation vs. formes : Tendance lourde pour la lemmatisation : pluriels de noms, formes verbales, etc.

Normalisation des formes : explications locales Lemmatisation vs. troncation : Flexion de mots courts (loi/lois) : +Lemm, - Tronc Formes proches non apparentées (information /informatique) : -Tronc, +Lemm Morphologie dérivationnelle (ménopausique/ménopause/ménopausé) : +Tronc –Lemm Problèmes de lemmatisation de certaines formes : accouché (Adj) / accoucher (V)

Normalisation des formes : traits linguistiques liés Corrélé positivement avec un gain positif en faveur de la lemmatisation : Longueur de la requête (Nb de mots) Nombre de mots suffixés !!!! Résultats contre-intuitifs ? Danger de la dérivation non contrôlée : Information / informatique Danger accru avec le nombre de mots Moralité : l’assimilation abusive de la troncation est bien son handicap principal

Expansion morphologique de requêtes Base Verbaction (Hathout et al.) 9000 couples N/V validés manuellement TLF + acquisition sur le Web Intervention lors de l’indexation de la requête après lemmatisation Double sens : N->V et V->N Base MorphoSyn (Hathout tout seul) Cf. la semaine prochaine Besoin de paramétrage plus fin…

Bilan global Lemmatisation + Verbaction vs. Lemmatisation seule Globalement pas d’amélioration Certaines requêtes reçoivent un gain énorme (+135%) Lemmatisation + Verbaction vs Troncation Globalement très positif (+10%)

Phénomènes linguistiques locaux Bruit induit par Verbaction Problèmes de catégorisation : égaler/également (N vs. Adv) Polysémie des dérivés : faire/faction, faire/facture, faire/façon Gain de Verbaction : Bon couples dans les deux sens (N-V et V-N) Investir/investissement, adhésion/adhérer, union/unir, etc. Insuffisance de Verbaction (vs. troncation) : Liens morphologiques autres que N/V : ménopausique/ménopause (Adj/N)

Traits linguistiques corrélés Traits positivement corrélés avec un gain de Verbaction : Taux de verbes Profondeur syntaxique Type/Token Ratio Explications : Profondeur syntaxique : présence de SN imbriqués (N de N de N de N) -> déverbaux en tête TTR : besoin d’expansion criant !

Conclusions

Bilan jusqu’ici Démonstration du gain de méthodes linguistiques Méthodes simples Bien contrôlées et articulées Avantage aux ressources limitées mais validées Encouragement pour leur développement Extension de la couverture

Perspectives à court terme Construction d’un classifieur de requêtes Par apprentissage sur les traits pertinents Application et validation sur plus de campagnes Participation à TREC/CLEF avec un système adaptatif

Perspectives à long terme Affinement des traits descriptifs Étude des documents et pas seulement des requêtes Contrôle local des expansions plus acrobatiques