La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation automatique par assignation de mots-clés

Présentations similaires


Présentation au sujet: "Indexation automatique par assignation de mots-clés"— Transcription de la présentation:

1 Indexation automatique par assignation de mots-clés
Jean-François Chartier Dominic Forest Université de Montréal EBSI

2 Qu’est-ce que l’indexation?
Décrire le contenu d’un document à l’aide de mots-clés et ce en vue d’une recherche ultérieure d’information Jean-François Chartier

3 Contexte Problématique Méthode Résultats Analyse résidu Conclusion
L’indexation de documents des grandes bibliothèques scientifiques numériques Web of Science = 90 millions de notices SCOPUS = 55 millions Pascal et Francis = 14 millions INSPEC = 17 millions MEDLINE = 23 millions Jean-François Chartier

4 L’accumulation s’accélère, les coûts explosent
Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’accumulation s’accélère, les coûts explosent 9.40$/notice Jean-François Chartier

5 L’importance croissantes des méthodes d’indexation automatique
Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’importance croissantes des méthodes d’indexation automatique LENS: (claims:("keyphrase extraction") || claims:("keyword extraction") || claims:("keyterm extraction") || claims:("keyphrase assignment") || claims:("keyterm assignment") || claims:("keyword assignment")) SCOPUS: (title-abs-key("keyphrase extraction") or title-abs-key("keyword extraction") or title-abs-key("keyterm extraction") or title-abs-key("keyphrase assignment") or title-abs-key("keyword assignment") or title-abs- key("keyterm assignment")) Jean-François Chartier

6 Types de méthodes d’indexation automatique
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Types de méthodes d’indexation automatique Algorithme non-supervisé Algorithme supervisé Méthode d’extraction Tri des mots présents dans un document. Classification binaire des mots présents dans un document. Méthode d’assignation Tri des mots-clés d’un vocabulaire contrôlé présent dans un document. Classification multi- étiquettes des documents avec vocabulaire contrôlé Les besoins des bibliothèques Jean-François Chartier

7 Les défis de l’indexation par assignation supervisée
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Les défis de l’indexation par assignation supervisée L’assignation est plus complexe que l’extraction 𝐝 𝑖 , 𝐲 𝑗 ∈ ℝ 𝑛 × {1,−1} 𝑘 vs 𝐭 ij ,𝑦 ∈ ℝ 𝑚 ×{1,−1} Qualité des indexations beaucoup plus faibles ≈30% vs ≈80% Peu de recherche ≈4% des publications Jean-François Chartier

8 Hypothèse: Espace vectoriel de mots-clés
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Hypothèse: Espace vectoriel de mots-clés Terme 1 Terme 2 Terme 3 Terme m Mot-clé 1 𝐶ℎ𝑖2 1,1 𝐶ℎ𝑖2 1,2 𝐶ℎ𝑖2 1,3 𝐶ℎ𝑖2 1,𝑚 Mot-clé 2 𝐶ℎ𝑖2 2,1 Mot-clé 3 𝐶ℎ𝑖2 3,1 Mot-clé n 𝐶ℎ𝑖2 𝑛,1 𝐶ℎ𝑖2 𝑛,𝑚 Jean-François Chartier

9 Caractéristiques des 4 corpus d’expérimentation
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Caractéristiques des 4 corpus d’expérimentation Corpus   Caractéristiques  LING INFO ARCHEO CHIMIE Nombre de notices 715 706 718 782 Nombre moyen de mots (titre et résumé) 140.69 108.27 199.07 95.65 Nombre moyen de mots-clés par notice 8.66 8.51 16.55 12.69 % de mots-clés contrôlés 92.51 87.9 80.59 85.32 % de mots-clés contrôlés absents 64.66 67.37 47.84 68.22 Jean-François Chartier

10 Comparaison avec d’autres méthodes d’indexation par assignation
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Comparaison avec d’autres méthodes d’indexation par assignation Latent Semantic Indexing (LSI) (Landauer & al. 1998) Log likelihood Ratio (LLR) (Plaut & Norgard 1999) PubMed (MTI) (Aronson & al. 2004) KEA++ (Medelyan and Witten 2006) Les participants au DEFT-2016 Jean-François Chartier

11 F-Mesures (moyennes) sur les 4 corpus
Contexte Problématique Méthode Résultats Analyse résidu Conclusion F-Mesures (moyennes) sur les 4 corpus Jean-François Chartier

12 Variation de la F-Mesure par document test
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Variation de la F-Mesure par document test Jean-François Chartier

13 Facteurs corrélés aux erreurs de prédiction
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Facteurs corrélés aux erreurs de prédiction Jean-François Chartier

14 Prédire les erreurs (régression)
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Prédire les erreurs (régression) F_Mesure_observée = * Prevalence_tag + * Compact_Doc + * Prox_Doc_Tag + 0.0847 r=0.65 Jean-François Chartier

15 Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée?
Contexte Problématique Méthode Résultats Analyse résidu Conclusion Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? L’accord inter-indexeurs = [25%-40%] (Funk and Reid 1983; Medelyan and Witten 2006a; Plaunt and Norgard 1998) 2. Peut-on faire confiance aux méthodes d’indexation automatique? Certains documents sont plus difficiles à indexer Prédire cette incertitude 3. Comment augmenter les performances prédictives? Besoin de corpus beaucoup plus volumineux Jean-François Chartier


Télécharger ppt "Indexation automatique par assignation de mots-clés"

Présentations similaires


Annonces Google