Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMarine Dumont Modifié depuis plus de 10 années
1
Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment
CORIA’10: Conférence en Recherche d’Information et Applications mars, Sousse, Tunisie Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment
2
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
3
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
4
Scénario de participation à TREC (1/2)
1. Motivation illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (1/2) Topic “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?
5
Scénario de participation à TREC (2/2)
1. Motivation illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) Après 15 jours de dur labeur… Seule différence : le nom du document
6
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
7
Mesurer l’efficacité des Systèmes de RI
2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997] Campagnes d’évaluation 1958 Cranfield UK 1992 TREC Text Retrieval Conference USA 1999 NTCIR NII Test Collection for IR Systems Japon 2001 CLEF Cross-Language Evaluation Forum Europe … Méthodologie « Cranfield » Tâche Collection de test Corpus Topics Qrels Mesures : MAP, [Voorhees, 2007]
8
Évaluer un run : réordonnancement de TREC
2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al. Évaluer un run : réordonnancement de TREC Qrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim, run_id pertinents [1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TREC qid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacité MAP, MRR…
9
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
10
Conséquences du biais des ex aequo
3. Proposition Stratégies de réordonnancement G. Cabanac et al. Conséquences du biais des ex aequo Mesures d’évaluation d’un SRI s RR(s,t) 1/rang pour le 1er document pertinent, pour le topic t P(s,t,d) précision au document d, pour le topic t AP(s,t) précision moyenne pour le topic t MAP(s) précision moyenne globale Biais des ex aequo La collection Wall Street Journal serait-elle plus pertinente qu’Associated Press ? Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t) Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2) Sensibles au rang des documents Ellen Chris
11
Réordonnancements alternatifs non biaisés
3. Proposition Stratégies de réordonnancement G. Cabanac et al. Réordonnancements alternatifs non biaisés Réordonnancement conventionnel (TREC) Ex aequo triés de Z à A qid asc, sim desc, docno desc Réordonnancement réaliste Les pertinents en dernier qid asc, sim desc, rel asc, docno desc Réordonnancement optimiste Les pertinents en premier qid asc, sim desc, rel desc, docno desc ex aequo ex aequo
12
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
13
Impact du biais des ex aequo
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Impact du biais des ex aequo Étude menée sur 4 tâches de TREC 22 éditions 1360 runs Évaluation de l’impact du biais des ex aequo Proportion des ex aequo dans les runs soumis fréquence du biais Impact sur les valeurs des mesures Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 routing filtering web adhoc 3 Go de données issues de trec.nist.gov
14
Proportion des ex aequo dans les runs soumis
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité
15
Impact du biais sur Reciprocal Rank (RR)
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)
16
Impact du biais sur Average Precision (AP)
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Average Precision (AP)
17
Impact du biais sur Mean Average Precision (MAP)
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs (t de Kendall) non significative
18
Phénomène de « bourrage » des runs
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documents évalués non pertinents (sim = 0) ? Éventuellement pour grappiller des points ? Ellen Chris Problème minimisé avec la stratégie de réordonnancement réaliste pertinents en queue de liste
19
Travaux connexes en évaluation de la RI
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Travaux connexes en évaluation de la RI [Voorhees, 2007] Fiabilité du nombre de topics ? [Buckley & Voorhees, 2000] 25 [Voorhees & Buckley, 2002] tx erreur [Voorhees, 2009] n collections Fiabilité des qrels ? [Voorhees, 1998] qualité [Al-Maskari et al., 2008] TREC vs. TREC Fiabilité du pooling ? [Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel [Buckley et al., 2007] adapt. taille Fiabilité des mesures ? [Buckley & Voorhees, 2000] MAP [Sakai, 2008] ‘system biais’ [Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance [Cabanac et al., 2010] biais des ex aequo
20
Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives
21
Conclusions et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives Contexte : évaluation de la RI TREC et autres campagnes basées sur trec_eval Identification du biais des ex aequo Facteur chance mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier Impact significatif du biais des ex aequo Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP Corrélation forte, mais différence statistiquement significative Pas de différence significative sur les rangs issus de la MAP ( de Kendall) Perspectives : étude du bourrage, mesures sans réordonnement
22
CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie
Merci
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.