Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment
CORIA’10: Conférence en Recherche d’Information et Applications mars, Sousse, Tunisie Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Plan Motivation scénario de participation à TREC
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan Motivation scénario de participation à TREC Contexte évaluer l’efficacité des SRI Problématique biais des ex aequo influençant les résultats Proposition stratégies de réordonnancement Expérimentation impact du biais des ex aequo Conclusion et perspectives

Scénario de participation à TREC (1/2)
1. Motivation  illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (1/2) Topic “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?

Scénario de participation à TREC (2/2)
1. Motivation  illustration du biais des « ex aequo » G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) Après 15 jours de dur labeur…  Seule différence : le nom du document 

Mesurer l’efficacité des Systèmes de RI
2. Contexte & problématique  Biais des « ex aequo » G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997] Campagnes d’évaluation 1958 Cranfield UK 1992 TREC Text Retrieval Conference USA 1999 NTCIR NII Test Collection for IR Systems Japon 2001 CLEF Cross-Language Evaluation Forum Europe … Méthodologie « Cranfield » Tâche Collection de test Corpus Topics Qrels Mesures : MAP, [Voorhees, 2007]

Évaluer un run : réordonnancement de TREC
2. Contexte & problématique  Biais des « ex aequo » G. Cabanac et al. Évaluer un run : réordonnancement de TREC Qrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim, run_id pertinents [1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TREC qid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacité MAP, MRR…

Conséquences du biais des ex aequo
3. Proposition  Stratégies de réordonnancement G. Cabanac et al. Conséquences du biais des ex aequo Mesures d’évaluation d’un SRI s RR(s,t) 1/rang pour le 1er document pertinent, pour le topic t P(s,t,d) précision au document d, pour le topic t AP(s,t) précision moyenne pour le topic t MAP(s) précision moyenne globale  Biais des ex aequo La collection Wall Street Journal serait-elle plus pertinente qu’Associated Press ?  Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t)  Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2)  Sensibles au rang des documents Ellen Chris

Réordonnancements alternatifs non biaisés
3. Proposition  Stratégies de réordonnancement G. Cabanac et al. Réordonnancements alternatifs non biaisés  Réordonnancement conventionnel (TREC) Ex aequo triés de Z à A qid asc, sim desc, docno desc  Réordonnancement réaliste Les pertinents en dernier qid asc, sim desc, rel asc, docno desc  Réordonnancement optimiste Les pertinents en premier qid asc, sim desc, rel desc, docno desc ex aequo ex aequo

Impact du biais des ex aequo
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais des ex aequo Étude menée sur 4 tâches de TREC 22 éditions 1360 runs Évaluation de l’impact du biais des ex aequo Proportion des ex aequo dans les runs soumis  fréquence du biais Impact sur les valeurs des mesures Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 routing filtering web adhoc 3 Go de données issues de trec.nist.gov

Proportion des ex aequo dans les runs soumis
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité

Impact du biais sur Reciprocal Rank (RR)
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)

Impact du biais sur Average Precision (AP)
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Average Precision (AP)

Impact du biais sur Mean Average Precision (MAP)
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs (t de Kendall) non significative

Phénomène de « bourrage » des runs
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documents évalués non pertinents (sim = 0) ? Éventuellement pour grappiller des points ? Ellen Chris  Problème minimisé avec la stratégie de réordonnancement réaliste  pertinents en queue de liste

Travaux connexes en évaluation de la RI
4. Expérimentation  Impact du biais des ex aequo G. Cabanac et al. Travaux connexes en évaluation de la RI [Voorhees, 2007] Fiabilité du nombre de topics ? [Buckley & Voorhees, 2000]  25 [Voorhees & Buckley, 2002] tx erreur [Voorhees, 2009] n collections Fiabilité des qrels ? [Voorhees, 1998] qualité [Al-Maskari et al., 2008] TREC vs. TREC Fiabilité du pooling ? [Zobel, 1998] approximation  [Sanderson & Joho, 2004] manuel [Buckley et al., 2007] adapt. taille Fiabilité des mesures ? [Buckley & Voorhees, 2000] MAP  [Sakai, 2008] ‘system biais’ [Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance [Cabanac et al., 2010] biais des ex aequo

Conclusions et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives Contexte : évaluation de la RI TREC et autres campagnes basées sur trec_eval  Identification du biais des ex aequo Facteur chance  mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier Impact significatif du biais des ex aequo  Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP Corrélation forte, mais différence statistiquement significative  Pas de différence significative sur les rangs issus de la MAP ( de Kendall) Perspectives : étude du bourrage, mesures sans réordonnement

CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie
Merci

Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Présentations similaires

Présentation au sujet: "Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Présentations similaires

Présentation au sujet: "Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back