Indexation automatique par assignation de mots-clés Jean-François Chartier Dominic Forest Université de Montréal EBSI
Qu’est-ce que l’indexation? Décrire le contenu d’un document à l’aide de mots-clés et ce en vue d’une recherche ultérieure d’information Jean-François Chartier
Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’indexation de documents des grandes bibliothèques scientifiques numériques Web of Science = 90 millions de notices SCOPUS = 55 millions Pascal et Francis = 14 millions INSPEC = 17 millions MEDLINE = 23 millions Jean-François Chartier
L’accumulation s’accélère, les coûts explosent Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’accumulation s’accélère, les coûts explosent 9.40$/notice Jean-François Chartier
L’importance croissantes des méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’importance croissantes des méthodes d’indexation automatique LENS: (claims:("keyphrase extraction") || claims:("keyword extraction") || claims:("keyterm extraction") || claims:("keyphrase assignment") || claims:("keyterm assignment") || claims:("keyword assignment")) SCOPUS: (title-abs-key("keyphrase extraction") or title-abs-key("keyword extraction") or title-abs-key("keyterm extraction") or title-abs-key("keyphrase assignment") or title-abs-key("keyword assignment") or title-abs- key("keyterm assignment")) Jean-François Chartier
Types de méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion Types de méthodes d’indexation automatique Algorithme non-supervisé Algorithme supervisé Méthode d’extraction Tri des mots présents dans un document. Classification binaire des mots présents dans un document. Méthode d’assignation Tri des mots-clés d’un vocabulaire contrôlé présent dans un document. Classification multi- étiquettes des documents avec vocabulaire contrôlé Les besoins des bibliothèques Jean-François Chartier
Les défis de l’indexation par assignation supervisée Contexte Problématique Méthode Résultats Analyse résidu Conclusion Les défis de l’indexation par assignation supervisée L’assignation est plus complexe que l’extraction 𝐝 𝑖 , 𝐲 𝑗 ∈ ℝ 𝑛 × {1,−1} 𝑘 vs 𝐭 ij ,𝑦 ∈ ℝ 𝑚 ×{1,−1} Qualité des indexations beaucoup plus faibles ≈30% vs ≈80% Peu de recherche ≈4% des publications Jean-François Chartier
Hypothèse: Espace vectoriel de mots-clés Contexte Problématique Méthode Résultats Analyse résidu Conclusion Hypothèse: Espace vectoriel de mots-clés Terme 1 Terme 2 Terme 3 … Terme m Mot-clé 1 𝐶ℎ𝑖2 1,1 𝐶ℎ𝑖2 1,2 𝐶ℎ𝑖2 1,3 𝐶ℎ𝑖2 1,𝑚 Mot-clé 2 𝐶ℎ𝑖2 2,1 Mot-clé 3 𝐶ℎ𝑖2 3,1 ⁞ Mot-clé n 𝐶ℎ𝑖2 𝑛,1 𝐶ℎ𝑖2 𝑛,𝑚 Jean-François Chartier
Caractéristiques des 4 corpus d’expérimentation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Caractéristiques des 4 corpus d’expérimentation Corpus Caractéristiques LING INFO ARCHEO CHIMIE Nombre de notices 715 706 718 782 Nombre moyen de mots (titre et résumé) 140.69 108.27 199.07 95.65 Nombre moyen de mots-clés par notice 8.66 8.51 16.55 12.69 % de mots-clés contrôlés 92.51 87.9 80.59 85.32 % de mots-clés contrôlés absents 64.66 67.37 47.84 68.22 Jean-François Chartier
Comparaison avec d’autres méthodes d’indexation par assignation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Comparaison avec d’autres méthodes d’indexation par assignation Latent Semantic Indexing (LSI) (Landauer & al. 1998) Log likelihood Ratio (LLR) (Plaut & Norgard 1999) PubMed (MTI) (Aronson & al. 2004) KEA++ (Medelyan and Witten 2006) Les participants au DEFT-2016 Jean-François Chartier
F-Mesures (moyennes) sur les 4 corpus Contexte Problématique Méthode Résultats Analyse résidu Conclusion F-Mesures (moyennes) sur les 4 corpus Jean-François Chartier
Variation de la F-Mesure par document test Contexte Problématique Méthode Résultats Analyse résidu Conclusion Variation de la F-Mesure par document test Jean-François Chartier
Facteurs corrélés aux erreurs de prédiction Contexte Problématique Méthode Résultats Analyse résidu Conclusion Facteurs corrélés aux erreurs de prédiction Jean-François Chartier
Prédire les erreurs (régression) Contexte Problématique Méthode Résultats Analyse résidu Conclusion Prédire les erreurs (régression) F_Mesure_observée = 0.0047 * Prevalence_tag + -0.3473 * Compact_Doc + 2.1884 * Prox_Doc_Tag + 0.0847 r=0.65 Jean-François Chartier
Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? Contexte Problématique Méthode Résultats Analyse résidu Conclusion Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? L’accord inter-indexeurs = [25%-40%] (Funk and Reid 1983; Medelyan and Witten 2006a; Plaunt and Norgard 1998) 2. Peut-on faire confiance aux méthodes d’indexation automatique? Certains documents sont plus difficiles à indexer Prédire cette incertitude 3. Comment augmenter les performances prédictives? Besoin de corpus beaucoup plus volumineux Jean-François Chartier