La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi.

Présentations similaires


Présentation au sujet: "Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi."— Transcription de la présentation:

1 Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi 11 Octobre 2005 Aurélie Picton

2 2 Plan Contexte de lexpérimentation Outils Démarche et Résultats Discussion Perspectives

3 Contexte de lexpérimentation

4 4 Projet ARIEL ARIEL : Adaptation dune chaîne de Recherche dInformation à lExpression des besoins sur la base de traitements Linguistiques. Collaboration IRIT/ERSS Complémentarité des connaissances des domaines informatiques et linguistiques Étude de différentes techniques et ressources linguistiques pour la Recherche dInformation

5 5 Problématique (?) La requête = quelques mots clefs (moyenne = 2.21 selon Jansen, Spink et Saracevic, 2000) Ex : Révolte au Chiapas Problème : souvent incomplet ou inadéquat Traitement possible : lexpansion de requêtes

6 6 Définition lexpansion de requêtes : « A process of adding new terms to a given query in attempt to provide better contextualization (and hopefully retrieve documents which are more useful to the user) » (Baeza-Yates, Ribeiro-Neto, 1999, p449).

7 7 Objectif Mise en place dun premier contexte dexpérimentation dexpansion de requêtes par ressources linguistiques : Reproductible Ressources inédites : les « voisins distributionnels » Les données issues de lanalyse distributionnelle automatique sont-elles de bonnes candidates dans le cadre de lexpansion de requêtes?

8 Outils

9 9 Upery : outil danalyse distributionnelle automatique (1) Analyse Distributionnelle (Z.S. Harris) « On peut décrire toute langue par une structure distributionnelle, cest-à-dire par loccurrence des parties (et, en dernière analyse, des sons), relativement les unes aux autres, et cette description nexige pas que lon fasse appel à dautres caractéristiques, telles que lhistoire ou le sens. » (« La Structure Distributionnelle », 1952, repris par D. Maingueneau, 1991, p71).

10 10 Upery (2) Lanalyse distributionnelle automatique « Rapprochement des couples dunités retrouvées dans des contextes syntaxiques identiques » Analyse syntaxique dun gros corpus (LM10) avec Syntex (D. Bourigault et al., 2005) Prédicats qui se construisent avec les mêmes arguments et vice-versa Exemple : troupe/intervention : envoi des troupes en Tchétchénie, intervention en Tchétchénie, troupes russes, intervention russe

11 11 Plate-forme RFIEC Plate-forme RFIEC (Recherche dinformation, Filtrage dInformation, Extraction de Connaissances) Développée dans le cadre du projet ARIEL www.irit.fr/RFIEC Modules paramétrables Indexation de requêtes Recherche et Évaluation :: évaluation « à la TREC »

12 Démarche et Résultats

13 13 Données Corpus Corpus CLEF 2001 (français) Collection : 45000 documents Le Monde 94 50 requêtes CLEF associées 44 exploitables et exploitées 2 sources de voisins Adgc et Upery 4 Traitement (par défaut) Suppression des mots vides (liste par défaut) Troncation à 7 Suppression des accents Principalement sur les requêtes Titres

14 14 Exemple de requête expansée Requête 80 Totale : DF 20.10 80 Grèves de la faim Grèves de la faim Les documents contiendront des informations sur une grève de faim menée afin d'attirer l'attention pour une cause. Les documents contiendront des informations sur une grève de faim menée afin d'attirer l'attention pour une cause. Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté. Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté. reclamecommencpresentrefugieharceleobserve expulseneutralreserveeffectu

15 15 Démarche (1) Comparaison des résultats Précision à 5, 10, 15, 20, Moyenne P5-20 Recherche de base Blind Feedback (« Retour à laveugle ») Expansion à partir de t termes sélectionnés dans les n premiers textes ramenés lors dune recherche de base

16 16 Démarche (2) 3 Hypothèses : Hypothèse 1 : aucune sélection Adgc sans sélection Upery sans sélection Hypothèse 2 : sur bases linguistiques Upery sans V Upery sans A Hypothèse 3 : Feedback Distributionnel (DF) Expansion à partir de t voisins sélectionnés dans les n premiers textes ramenés lors dune recherche de base Upery V seuls Upery N seuls

17 17 Résultats (RequêtesTitre) (1) Blind Feedback Recherche de Base

18 18 Résultats (RequêtesTitre) (2) BFAdgc sans sélectionDF Nombre de requêtes améliorées10 Nombre de requêtes dégradées21 BFAdgc sans sélectionDF Valeur moyenne Gain0,1029 Valeur moyenne Perte-0,0623 BFAdgc sans sélectionDF Valeur maximale de gain0,2083 Valeur maximale de perte-0,2375 25 12 -0,1917 -0,1215 -0,6292-0,5042 5 11 0,0692 0,0663 0,1083 0,1667 Requêtes modifiées Moyennes de Gain/Perte Valeurs maximales de Gain/Perte

19 Discussion

20 20 Remarques générales Dégradation des performances MAIS Résultats sur la moyenne masquent certaines performances (C. De Loupy, 2000) Observation locale des requêtes pour trouver des comportements généralisables?

21 21 Observation locale Certaines requêtes sont améliorées/dégradées Pourquoi? Difficile à dire à ce stade : Pas assez de textes pertinents par requêtes Jeu de requêtes restreint

22 22 Analyse statistique Nombre de méthodes dexpansion qui entraînent une modification Ampleur de la modification Observation « statistique » : Analyse en Composantes Principales Pas dhomogénéité apparente Mise au jour de comportements isolés non généralisables

23 23 Expansion : quelques observations Des explications « ad hoc » Invasion des troupes russes en Tchéchénie = >Tchétchène Laffaire du sang contaminé => séropositif Le poids et éthique Catégories grammaticales Adjectifs : Intervention des troupes russes => israélien allemand italien américain chinois européen étranger britannique local français espagnol régional irakien anglais national bosniaque japonais occidental serbe iranien algérien palestinien belge militaire international indépendant tchétchène turque arabe croate indien africain serbe libanais, etc. Clonage

24 24 Sources dexpansion Répartition selon la source de lexpansion? Opposition des résultats Adgc et Upery sur certaines requêtes Appuyé par une Classification Ascendante Hiérarchique Mais toujours : Existe-t-il des caractéristiques généralisables au niveau des requêtes qui permettent de prédire lefficacité et dadapter lexpansion ?

25 Perspectives

26 26 Perspectives (1) De nouvelles données Vers des requêtes totales Premiers résultats encourageants sur DF Plus de requêtes, plus de textes De nouveaux voisins Évolution dUpery (D. Bourigault & E. Galy, 2005)

27 27 Perspectives (2) De nouvelles possibilités sur la plate- forme Lemmatisation, conservation des accents Vers des corrélations de traits Travaux de M. Vergez-Couret

28 28 Éléments bibliographiques BAEZA-YATES, R. & B. RIBEIRO-NETO (1999), Modern Information Retrieval, ACM Press, Addison Wesley, New York. BOURIGAULT, D. (2002) « UPERY : un outil danalyse distributionnelle étendue pour la consultation dontologies à partir de corpus », In Actes de la 9 ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp75- 84. BOURIGAULT, D. & E. GALY (2005) « Les Voisins de Le Monde : Une base lexicale distributionnelle du français construite à partir d'un gros corpus », Communication orale, In 4èmes Journées de Linguistique de corpus, Lorient,15-17 septembre 2005. BOURIGAULT D., FABRE C., FRÉROT C., JACQUES M.-P. & S. OZDOWSKA (2005) « Syntex, analyseur syntaxique de corpus », In Actes de la 12e conférence annuelle sur le Traitement Automatique des Langues (TALN 2005), Dourdan, 6-10 juin 2005. DE LOUPY, C. (2000), Évaluation de l'apport de connaissances linguistiques en désambiguïsation sémantique et recherche documentaire, Thèse de doctorat en informatique de l'Université d'Avignon et des Pays de Vaucluse. EFTHIMIADIS, E.N. (1996) « Query expansion », In Williams, M.E. (ed.), Annual Revieew of Information Systems and Technology (ARIST), volume 31, pp121-187. GREFENSTETTE, G. (1992) « Use of syntactic context to produce term association lists for information retrieval », In Actes de la 15ème Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche dInformation,(SIGIR), pages 8997. GREFENSTETTE, G. (1994), Exploration in Automatic Thesaurus Discovery, Kluwer Academic Publishers, Londres. HARRIS, Z.S. (1968) Mathematical Structures of Language, New-York, John Wiley & Sons. JANSEN, B.J., SPINK, A. & SARACEVIC, T. (2000) « Real Life, Real Users, and Real Needs : A Study and Analysis of User Queries on the Web », In Information Processing & Management, volume 36(2), pp207-227. SALTON, G. & C., BUCKLEY (1990) « Improving retrieval performance by relevance feedback », In Journal of the American Society for Information Sciences, volume 41(4), pp288-297. MAINGUENEAU, D. (1991) Lanalyse du discours : introduction aux lectures de larchive, Hachette, Paris. VOORHEES, E. (1993) « On expanding query vectors with lexically related words », In Donna K. Harman (ed.), TREC-2 (Text REtrieval Conference), pp223-231. VOORHEES, E.M. (1994) « Query expansion using lexical-semantic relations », In Actes de la 17ème Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche dInformation, Dublin, Irlande, pp61-69.


Télécharger ppt "Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi."

Présentations similaires


Annonces Google