La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Impact du « biais des ex aequo » dans les évaluations de Recherche dInformation Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment CORIA10:

Présentations similaires


Présentation au sujet: "Impact du « biais des ex aequo » dans les évaluations de Recherche dInformation Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment CORIA10:"— Transcription de la présentation:

1 Impact du « biais des ex aequo » dans les évaluations de Recherche dInformation Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment CORIA10: Conférence en Recherche dInformation et Applications mars, Sousse, Tunisie

2 2 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

3 3 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

4 4 Scénario de participation à TREC (1/2) 1. Motivation illustration du biais des « ex aequo » G. Cabanac et al. 5 documents pertinents Topic 031 satellite launch contracts ChrisEllen la seule différence Pourquoi de telles différences ? malchanceuxchanceux

5 5 Scénario de participation à TREC (2/2) 1. Motivation illustration du biais des « ex aequo » G. Cabanac et al. ChrisEllen la seule différence Seule différence : le nom du document Après 15 jours de dur labeur…

6 6 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

7 7 Mesurer lefficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997] Campagnes dévaluation 1958CranfieldUK 1992TRECText Retrieval ConferenceUSA 1999NTCIRNII Test Collection for IR SystemsJapon 2001CLEFCross-Language Evaluation ForumEurope … Méthodologie « Cranfield » Tâche Collection de test Corpus Topics Qrels Mesures : MAP, 2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al. [Voorhees, 2007]

8 8 Évaluer un run : réordonnancement de TREC Qrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim, run_id Réordonnancement de TREC qid asc, sim desc, docno desc Mesure defficacité MAP, MRR… 2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al.

9 9 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

10 10 Conséquences du biais des ex aequo Mesures dévaluation dun SRI s RR(s,t)1/rang pour le 1 er document pertinent, pour le topic t P(s,t,d)précision au document d, pour le topic t AP(s,t)précision moyenne pour le topic t MAP(s)précision moyenne globale Biais des ex aequo La collection Wall Street Journal serait-elle plus pertinente quAssociated Press ? Problème 1 comparaison de 2 systèmes AP(s 1, t) vs. AP(s 2, t) Problème 2 comparaison de 2 topics AP(s, t 1 ) vs. AP(s, t 2 ) Chris Ellen 3. Proposition Stratégies de réordonnancement G. Cabanac et al. Sensibles au rang des documents

11 11 Réordonnancements alternatifs non biaisés Réordonnancement conventionnel (TREC) Ex aequo triés de Z à Aqid asc, sim desc, docno desc Réordonnancement réaliste Les pertinents en dernierqid asc, sim desc, rel asc, docno desc Réordonnancement optimiste Les pertinents en premierqid asc, sim desc, rel desc, docno desc 3. Proposition Stratégies de réordonnancement G. Cabanac et al. ex aequo

12 12 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

13 13 Impact du biais des ex aequo Étude menée sur 4 tâches de TREC 22 éditions 1360 runs Évaluation de limpact du biais des ex aequo Proportion des ex aequo dans les runs soumis fréquence du biais Impact sur les valeurs des mesures Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral routing web filtering adhoc Go de données issues de trec.nist.gov 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

14 14 Proportion des ex aequo dans les runs soumis 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. En moyenne 10,6 docs par groupe de similaritéEn moyenne 25,2 % dun run = docs ex aequo

15 15 Impact du biais sur Reciprocal Rank (RR) 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

16 16 Impact du biais sur Average Precision (AP) 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

17 17 Impact du biais sur Mean Average Precision (MAP) 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. Différence en terme de rangs ( de Kendall) non significative

18 18 Phénomène de « bourrage » des runs Chris Ellen 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al Pourquoi restituer des documents évalués non pertinents (sim = 0) ? Éventuellement pour grappiller des points ? réaliste Problème minimisé avec la stratégie de réordonnancement réaliste pertinents en queue de liste

19 19 Travaux connexes en évaluation de la RI 4. Expérimentation Impact du biais des ex aequo G. Cabanac et al. [Voorhees, 2007] Fiabilité du nombre de topics ? [Buckley & Voorhees, 2000] 25 [Voorhees & Buckley, 2002]tx erreur [Voorhees, 2009]n collections Fiabilité des qrels ? [Voorhees, 1998]qualité [Al-Maskari et al., 2008]TREC vs. TREC Fiabilité des mesures ? [Buckley & Voorhees, 2000]MAP [Sakai, 2008]system biais [Moffat & Zobel, 2008]nouvelles mesures [Mothe et al., 2010]redondance Fiabilité du pooling ? [Zobel, 1998]approximation [Sanderson & Joho, 2004]manuel [Buckley et al., 2007]adapt. taille [Cabanac et al., 2010]biais des ex aequo

20 20 Plan 1.Motivationscénario de participation à TREC 2.Contexteévaluer lefficacité des SRI Problématiquebiais des ex aequo influençant les résultats 3.Propositionstratégies de réordonnancement 4.Expérimentationimpact du biais des ex aequo 5.Conclusion et perspectives Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

21 21 Conclusions et perspectives Contexte : évaluation de la RI TREC et autres campagnes basées sur trec_eval Identification du biais des ex aequo Facteur chance mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier Impact significatif du biais des ex aequo Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP Corrélation forte, mais différence statistiquement significative Pas de différence significative sur les rangs issus de la MAP ( de Kendall) Perspectives : étude du bourrage, mesures sans réordonnement Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

22 Merci CORIA10: Conférence en Recherche dInformation et Applications mars, Sousse, Tunisie


Télécharger ppt "Impact du « biais des ex aequo » dans les évaluations de Recherche dInformation Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment CORIA10:"

Présentations similaires


Annonces Google