Recherche d’information et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL
Plan Principes généraux en RI L’évaluation en RI Schéma global d’une application de RI Quelle place et quels résultats pour un traitement « linguistique » ? L’évaluation en RI Principes Programmes Internationaux Critique de l’évaluation globale Vers un traitement adaptatif : projet ARIEL
Présentation générale de la RI
La RI en quelques mots Étant donné : Une collection de documents Un besoin exprimé (requête) Retrouver les documents correspondants à ce besoin Le plus précisément et le plus exhaustivement possible
Schéma général Représentation Indexation Requête Mise en cor- respondance
Caractéristiques du modèle dominant Représentation des documents et requêtes par « sac de mots » Modèle vectoriel avec pondération Fréquence relative Mots vides Quelques variations Critères de position Syntagmes ou assimilés au lieu de mots simples
Place(s) pour la linguistique Extraction des unités pertinentes (docs+requêtes) Segmentation (mots / syntagmes) Normalisation des formes (orthographe, morphologie, syntaxe) Expansion de requêtes Ajout de termes à ceux de la requête initiale E.g. : morphologie dérivationnelle, utilisations de ressources sémantiques, etc. « La linguistique doit aider au repérage du sens »
La RI pour le TAL des linguistes La RI comme valorisation des ressources produites par le TAL Lexiques, grammaires, réseaux sémantiques, etc. Slogan classique de fin d’article : « Application à la recherche d’information » Sans doute utile, mais pas de véritable évaluation de l’impact sur des chaînes de RI
Bilan mitigé (pour le moins) De Loupy 2001 : « Les expériences publiées dans la littérature ne font pas apparaître clairement que les systèmes utilisant des connaissances linguistiques obtiennent de meilleures performances. » Voorhes 1999 : « Currently, the most succesful general purpose retrieval systems are statistical methods that treat text as little more than a bag of words. However, attempts to improve retrieval performance through more sophisticated linguistic processing have been largely unsuccessful. »
Quelques explications… Méthodologie de l’évaluation Évaluation globale d’un système Coût des calculs supplémentaires Temps de réponse du système plus important que la pertinence Types de documents traités Bases documentaires généralistes Exigence de l’utilisateur Modèle du Web
Présentation générale de la RI Problématique de l’évaluation
L’évaluation en RI Coût énorme de la définition d’un banc de test Communauté scientifique mobilisée très tôt pour la mise en commun de ressources Text REtrieval Conference (TREC), 1992 Langue anglaise exclusivement Cross-Language Evaluation Forum (CLEF), 2000 Autres langues européennes et recherche d’information trans-langue NII-Nacsis Test Collections for Information Retrieval (NTCIR), 1998 Langues asiatiques Passages obligés pour tout système de RI
Évaluation « à la TREC » Plusieurs tâches Chaque campagne (annuelle) Adhoc, WEB, Hard, QA, Terabyte, SPAM, Novelty, etc. Collections de documents (presse, Web, mails, etc.) Collection de requêtes (« topics »), 50 par tâche par an Texte de la requête (plus ou moins structuré) Liste des documents « pertinents » Chaque campagne (annuelle) Définition de la collection Distribution des requêtes Exécution des recherches par le système évalué (différents paramètres possibles, ou « runs ») Retour des résultats et évaluation du « run »
Exemple de requête (topic 35, 2003) Title: NATO, Poland, Czech Republic, Hungary Descriptive: Accession of new NATO members: Poland, Czech Republic, Hungary, in 1999. Narrative: Identity of current and newly-invited members, statements of support for and opposition to NATO enlargement and steps in the accession process and related special events are relevant. Impact on the new members, i.e., requirements they must satisfy, and their expectations regarding the implications for them are relevant. Progress in the ratification process is relevant. Future plans for NATO expansion, identification of nations admitted on previous occasions, and comments on future NATO structure or strategy are not relevant.
Notion de pertinence Décision humaine pour chaque requête « Pooling method » : les juges ne se basent que sur un sous-ensemble de documents Uniquement ceux ramenés par au moins un système Pas de méthodologie claire ni de classement pour les documents pertinents
Critères d’évaluation Précision (documents pertinents parmi ceux retrouvés) Rappel (documents retrouvés parmi ceux pertinents) F-mesure : 2xPxR/(P+R) Système parfait : P=R=1 Tous les documents sont retrouvés : R=1, P~0 Aucun document n’est retrouvé : P=1, R~0 Différents seuils de mesure (5, 10, 20… premiers documents ramenés)
Scores et évaluation Courbes rappel/précision Préférence pour les scores de précision
Évaluation « globale » Plusieurs scores globaux (moyenne) pour chaque « run » Classement des systèmes sur cette base Le score pour chaque requête est disponible, mais pas utilisé Uniquement une moyenne sur les requêtes En moyenne, très peu de différences entre les « bons » systèmes Même si des variations importantes peuvent exister d’une requête à l’autre
Conséquences Peu de visibilité des difficultés rencontrées par les systèmes Pas de prise en compte de l’efficacité par rapport à une requête « difficile » Pas de retour précis sur les techniques utilisées Peu d’information sur les caractéristiques des systèmes de toute façon
Présentation générale de la RI Evaluation « locale »
Études locales souhaitables Observer le comportement d’un système par rapport à une requête particulière Évaluer un traitement linguistique « sur site » Permettre un jugement plus fin des méthodes employées En voir les faiblesses et les avantages en fonction des données traitées Pouvoir conjuguer des méthodes spécifiques Adapter le traitement aux données
Quelques études locales « For most IR algorithms, we do not sufficiently understand the reason for retrieval variability well enough to be able to predict whether the algorithm will succeed or fail on a topic » Buckley & Harman 2003 Workshop RIA « Where can IR go from here? » 6 semaines de test locaux de plusieurs systèmes Étude de la variabilité topics-systèmes-documents Typologie des problèmes rencontrés Termes, relations sémantiques, orthographes, etc. Concentration sur le paramétrage des techniques statistiques Réinjection de pertinence aveugle (blind feedback) Pondération des termes réinjectés Pas de lien direct avec des ressources linguistiques
Présentation générale Le projet ARIEL Présentation générale
Le projet ARIEL Adaptation d’une chaîne de Recherche d’Information à l’Expression des besoins sur la base de traitements Linguistiques IRIT / ERSS – J. Mothe – 2005-06 Utilisation de la plateforme RFIEC (IRIT) Observatoire de l’impact de traitements linguistiques Repérage des contextes favorables et défavorables pour chaque méthode Vers un système adaptatif ?
Traitements envisagés Étude sur le français et l’anglais Indexation des documents et requêtes Lemmatisation Stemmatisation (troncation) Expansion de requêtes Morphologie dérivationnelle (Dictionnaires de synonymes) Voisins distributionnels
Traitements morphologiques Normalisation des formes : Troncation : « déterminons -> détermi » 5, 6 ou 7 caractères pour le français Lemmatisation : « déterminons -> déterminer » Retour à la forme de citation Nécessite un étiquetage morphosyntaxique (TreeTagger) Expansion de requêtes par BD morphologique : « déterminer -> détermination » Verbaction : couples N/V Nécessite une lemmatisation
Traitements sémantiques Dictionnaires de synonymes Déterminer -> entraîner, provoquer, pousser, susciter, occasionner… Voisins distributionnels Déterminer -> correspondre, indiquer, définir, s’interroger, ignorer, préciser… Morphosynonymie Déterminer -> arrêter, décider, fixer, préciser, caractériser, délimiter, estimer… Expansion de requêtes Après lemmatisation
Travaux préliminaires Le projet ARIEL Travaux préliminaires
Première étape : étude de l’existant Problèmes de développement de la plateforme d’expérimentation État des lieux des variations de résultats d’une requête à l’autre Étude des résultats passés des campagnes TREC et CLEF Pour quelques systèmes bien décrits, étude détaillée des différences locales
Typologie naïve des requêtes Première approche : requête « faciles » vs « difficiles » Étude des runs passés de TREC (5 années, 250 requêtes) Scores de précision, rappel et F-mesure de tous les systèmes et pour toutes les requêtes Analyses statistiques Classification hiérarchique ascendante Christment et al. (2004)
Requêtes faciles vs. difficiles
Typologie des systèmes Différences de performances en fonction des requêtes Identification de deux groupes de systèmes Analyse factorielle Individus = requêtes Variables = scores des runs
Classification des systèmes Groupe 1 de systèmes Groupe 2 de systèmes
Premiers résultats Comportements variés entre les requêtes Requêtes difficiles et faciles Comportement variés entre les systèmes Efficacité variable d’une requête à l’autre Première utilisation : adaptation aveugle Pour chaque requête, un type de système plus approprié Fusion de systèmes : « mixer » les résultats de deux systèmes orthogonaux MAIS : pas d’ « explication » de la difficulté ni de la variation
Typologie linguistique des requêtes Le projet ARIEL Typologie linguistique des requêtes
Typologie linguistique des requêtes Principe : définition de traits linguistiques génériques « À la Biber » Définition de profils de requêtes Études : Quel est l’impact des caractéristiques linguistiques sur les performances des systèmes ? Peut-on associer ces caractéristiques aux variations d’efficacité de différents traitements ?
Traits linguistiques des requêtes Une trentaine de traits définis, répartis en trois niveaux Lexique : Complexité lexicale (taille des mots, suffixation, rareté, répétition, etc.) Syntaxe : Complexité syntaxique (subordonnées, négation, profondeur, etc.) Sémantique : Polysémie des termes de la requête
Concrètement… Pour chaque requête : étiquetage morpho-syntaxique (TreeTagger) et analyse syntaxique (Syntex) Profilage : Calculs de caractéristiques (numériques) Construction d’un vecteur pour chaque requête (n=30) Au total, une matrice avec En colonnes, les valeurs des traits + les scores obtenus En ligne, les requêtes EXEMPLE Grande complexité du problème : Méthodes d’indexation, type de tâche, année, traits linguistiques, mesures d’évaluation, parties de la requête prises en compte
Quelques traits particuliers Polysémie Utilisation de ressources génériques Anglais : Wordnet Nombre de synsets différents par item lexical Français : TLFi Nombre d’entrées par item Complexité syntaxique : deux approches complémentaires
Complexité syntaxique : profondeur NP PP Syntactic Depth 5 NP NP PP NP Term limitations for members of the US congress Syntactic Links Span 10/7 = 1.43
Complexité syntaxique : distance syntaxique NP Syntactic Depth 4 PP PP NP NP NP NP Use of mutual funds in an individual 's retirement strategy Syntactic Links Span 19/9 = 2.11
Méthodes Statistiques descriptives Première approche : corrélations Traits linguistiques : variables explicatives Scores des runs : variables dépendantes Première approche : corrélations Mesure de l’existence d’une relation linéaire entre deux variables E.g. : plus la requête est longue, plus elle contient de mots Corrélations significatives Corrélations positives ou négatives
Notion de corrélation
Résultats Phénomène connu (Mandl & Womser 2004): les noms propres Corrélation significativement positive Confirmé sur TREC et CLEF Phénomènes nouveaux (Mothe & Tanguy 2005, Vergez 2005) : « Distance syntaxique » : négative Polysémie moyenne : négative Présence de mots suffixés : négative Détecteur de requêtes difficiles Utilisation envisageable : interaction avec l’utilisateur pour reformulation
Évaluation de techniques linguistiques Le projet ARIEL Évaluation de techniques linguistiques
Premier lien avec les méthodes utilisées Exemple (rare) : les runs de l’Université d’Amsterdam en 2002 3 versions du même système, seule variation : lemmatisation (TreeTagger) / stemmatisation (Porter) / les deux traitements cumulés Extraction de règles de décisions par apprentissage Plateforme Weka : divers algos d’apprentissage Si (% de prépositions > X) Alors Préférer la troncation Fusion de systèmes requête par requête
Évaluation de différentes méthodes Utilisation de la plateforme RFIEC Différentes méthodes d’indexation (documents/requêtes) et d’expansion Calcul des scores globaux Calcul des scores pour chaque requête Corrélations entre traits des requêtes et variation de performance M. Vergez & A. Picton, 2005
Normalisation des formes : résultats globaux Lemmatisation vs. troncation vs. formes de surface Lemmatisation > troncation > formes de surface Bilan net pour la lemmatisation, étude novatrice pour le français Nombreuses erreurs de traitement dans les expériences précédentes… Lemmatisation vs. formes : Tendance lourde pour la lemmatisation : pluriels de noms, formes verbales, etc.
Normalisation des formes : explications locales Lemmatisation vs. troncation : Flexion de mots courts (loi/lois) : +Lemm, - Tronc Formes proches non apparentées (information /informatique) : -Tronc, +Lemm Morphologie dérivationnelle (ménopausique/ménopause/ménopausé) : +Tronc –Lemm Problèmes de lemmatisation de certaines formes : accouché (Adj) / accoucher (V)
Normalisation des formes : traits linguistiques liés Corrélé positivement avec un gain positif en faveur de la lemmatisation : Longueur de la requête (Nb de mots) Nombre de mots suffixés !!!! Résultats contre-intuitifs ? Danger de la dérivation non contrôlée : Information / informatique Danger accru avec le nombre de mots Moralité : l’assimilation abusive de la troncation est bien son handicap principal
Expansion morphologique de requêtes Base Verbaction (Hathout et al.) 9000 couples N/V validés manuellement TLF + acquisition sur le Web Intervention lors de l’indexation de la requête après lemmatisation Double sens : N->V et V->N Base MorphoSyn (Hathout tout seul) Cf. la semaine prochaine Besoin de paramétrage plus fin…
Bilan global Lemmatisation + Verbaction vs. Lemmatisation seule Globalement pas d’amélioration Certaines requêtes reçoivent un gain énorme (+135%) Lemmatisation + Verbaction vs Troncation Globalement très positif (+10%)
Phénomènes linguistiques locaux Bruit induit par Verbaction Problèmes de catégorisation : égaler/également (N vs. Adv) Polysémie des dérivés : faire/faction, faire/facture, faire/façon Gain de Verbaction : Bon couples dans les deux sens (N-V et V-N) Investir/investissement, adhésion/adhérer, union/unir, etc. Insuffisance de Verbaction (vs. troncation) : Liens morphologiques autres que N/V : ménopausique/ménopause (Adj/N)
Traits linguistiques corrélés Traits positivement corrélés avec un gain de Verbaction : Taux de verbes Profondeur syntaxique Type/Token Ratio Explications : Profondeur syntaxique : présence de SN imbriqués (N de N de N de N) -> déverbaux en tête TTR : besoin d’expansion criant !
Conclusions
Bilan jusqu’ici Démonstration du gain de méthodes linguistiques Méthodes simples Bien contrôlées et articulées Avantage aux ressources limitées mais validées Encouragement pour leur développement Extension de la couverture
Perspectives à court terme Construction d’un classifieur de requêtes Par apprentissage sur les traits pertinents Application et validation sur plus de campagnes Participation à TREC/CLEF avec un système adaptatif
Perspectives à long terme Affinement des traits descriptifs Étude des documents et pas seulement des requêtes Contrôle local des expansions plus acrobatiques