Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Slides:



Advertisements
Présentations similaires
Le moteur
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Evaluation de la politique d’efficacité énergétique Cas de la Tunisie
Approche graphique du nombre dérivé
Fabrice Lauri, François Charpillet, Daniel Szer
Faculté des Sciences de la Santé
Sébastien Thomassey Janvier 2005
Une politique axée sur les résultats L’évaluation et les indicateurs
Classe : …………… Nom : …………………………………… Date : ………………..
Test statistique : principe
Direction de lévaluation et de la prospective 1 La R&D en France: résultats 2003 et estimations 2004 – Présentation du 21 septembre Présentation.
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
ACTIVITES Le calcul littéral (3).
Les Prepositions.
Service Géologique Régional Aquitaine
Marie-Florence de Mascarel 22 Juin 2009
Le dépistage du cancer de la prostate en médecine générale
Simplification et abstraction de dessins au trait
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Défi écriture BEF Couverture. Défi écriture BEF Page 1.
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Filière Informatique et Réseaux
Sélection automatique d’index et de vues matérialisées
ACCU 2010 Conférence annuelle des utilisateurs de Claroline 2010 Le site Claroline du Centre daide à la réussite (CAR) de lUQAR : Une « arrière-boutique.
Ne pas cliquer, défilement automatique
Présentation du SVI - DELSOL Mikaël
Chargée de projet: Joannie Poupart
2007 École de Santé Publique John Hopkins Bloomberg Section B Suivi des maladies et des décès liés au tabac.
Classification Multi Source En Intégrant La Texture
OLAP : Un pas vers la navigation
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS La qualité de lemploi en Suisse Silvia Perrenoud Journées suisses de la statistique.
Présentation du lundi 5 décembre PISA 2009 : objectifs et démarches 68 pays concernés en Suisse : jeunes de 15 ans et élèves de 9 ème mesure les.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 4 : Laide à la communication.
Paul-Marie Bernard Université Laval
TESTS D’UTILISABILITE DANS LES SERVICES PUBLICS
DOCUMENT UNIQUE D’EVALUATION DES RISQUES PROFESSIONNELS
Test bilan de calcul mental N°1 :
La Saint-Valentin Par Matt Maxwell.
SEMAINE DE LA RECHERCHE
Caisse de Pensions du CERN Emilie Clerc Service des Prestations.
Des indicateurs de performance pertinents et adéquats
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Comparaison de deux échantillons
Ecaterina Giacomini Pacurar
Notre calendrier français MARS 2014
Annexe 1 VISITE SUR
C'est pour bientôt.....
Veuillez trouver ci-joint
28/02/2013 JOURNEE DE FORMATION ACADEMIQUE - Un nouveau regard sur légalité des chances à lécole 1 Comparaison filles/garçons Après la 6ème.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
On cherche des renseignements sur p.
Conférence de presse du 21 août 2014 Perspectives démographiques à horizon 2040 Le Valais et ses régions Maurice Tornay Chef du Département des finances.
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
USAM BRIDGE H O W E L L -CLASSIQUE
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
9 paires séries de 3 étuis ( n° 1 à 27 )
Emploi des femmes et des travailleurs âgés Aspects statistiques
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Scénario de participation à TREC (1/2) 1. Motivation  illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (1/2) Topic 031 “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?

Scénario de participation à TREC (2/2) 1. Motivation  illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) Après 15 jours de dur labeur…  Seule différence : le nom du document 

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Mesurer l’efficacité des Systèmes de RI 2. Contexte & problématique  Biais des « ex aequo » G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997] Campagnes d’évaluation 1958 Cranfield UK 1992 TREC Text Retrieval Conference USA 1999 NTCIR NII Test Collection for IR Systems Japon 2001 CLEF Cross-Language Evaluation Forum Europe … Méthodologie « Cranfield » Tâche Collection de test Corpus Topics Qrels Mesures : MAP, P@X... [Voorhees, 2007]

Évaluer un run : réordonnancement de TREC 2. Contexte & problématique  Biais des « ex aequo » G. Cabanac et al. Évaluer un run : réordonnancement de TREC Qrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim, run_id pertinents [1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TREC qid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacité MAP, P@X, MRR…

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Conséquences du biais des ex aequo 3. Proposition  Stratégies de réordonnancement G. Cabanac et al. Conséquences du biais des ex aequo Mesures d’évaluation d’un SRI s RR(s,t) 1/rang pour le 1er document pertinent, pour le topic t P(s,t,d) précision au document d, pour le topic t AP(s,t) précision moyenne pour le topic t MAP(s) précision moyenne globale  Biais des ex aequo La collection Wall Street Journal serait-elle plus pertinente qu’Associated Press ?  Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t)  Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2)  Sensibles au rang des documents Ellen Chris

Réordonnancements alternatifs non biaisés 3. Proposition  Stratégies de réordonnancement G. Cabanac et al. Réordonnancements alternatifs non biaisés  Réordonnancement conventionnel (TREC) Ex aequo triés de Z à A qid asc, sim desc, docno desc  Réordonnancement réaliste Les pertinents en dernier qid asc, sim desc, rel asc, docno desc  Réordonnancement optimiste Les pertinents en premier qid asc, sim desc, rel desc, docno desc ex aequo ex aequo

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Impact du biais des ex aequo 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais des ex aequo Étude menée sur 4 tâches de TREC 22 éditions 1360 runs Évaluation de l’impact du biais des ex aequo Proportion des ex aequo dans les runs soumis  fréquence du biais Impact sur les valeurs des mesures Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 routing filtering web adhoc 3 Go de données issues de trec.nist.gov

Proportion des ex aequo dans les runs soumis 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité

Impact du biais sur Reciprocal Rank (RR) 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)

Impact du biais sur Average Precision (AP) 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Average Precision (AP)

Impact du biais sur Mean Average Precision (MAP) 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs (t de Kendall) non significative

Phénomène de « bourrage » des runs 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documents évalués non pertinents (sim = 0) ? ... ... ... Éventuellement pour grappiller des points ? Ellen ... ... ... Chris  Problème minimisé avec la stratégie de réordonnancement réaliste  pertinents en queue de liste gecrd2@adhoc-1993

Travaux connexes en évaluation de la RI 4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Travaux connexes en évaluation de la RI [Voorhees, 2007] Fiabilité du nombre de topics ? [Buckley & Voorhees, 2000]  25 [Voorhees & Buckley, 2002] tx erreur [Voorhees, 2009] n collections Fiabilité des qrels ? [Voorhees, 1998] qualité [Al-Maskari et al., 2008] TREC vs. TREC Fiabilité du pooling ? [Zobel, 1998] approximation  [Sanderson & Joho, 2004] manuel [Buckley et al., 2007] adapt. taille Fiabilité des mesures ? [Buckley & Voorhees, 2000] MAP  [Sakai, 2008] ‘system biais’ [Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance [Cabanac et al., 2010] biais des ex aequo

Plan Motivation scénario de participation à TREC Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Conclusions et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives Contexte : évaluation de la RI TREC et autres campagnes basées sur trec_eval  Identification du biais des ex aequo Facteur chance  mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier Impact significatif du biais des ex aequo  Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP Corrélation forte, mais différence statistiquement significative  Pas de différence significative sur les rangs issus de la MAP ( de Kendall) Perspectives : étude du bourrage, mesures sans réordonnement

CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie Merci