Indexation automatique par assignation de mots-clés

Slides:



Advertisements
Présentations similaires
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
Advertisements

Caractérisation dimensionnelle de défauts par thermographie infrarouge stimulée. Contrôles et Mesures Optiques pour l’Industrie novembre
Possibilités d’identification des médicaments Problématique en sciences forensiques Drug Identification Catherine Evéquoz, Isabelle Montani, Mélanie Zufferey.
Voiture 6x6 (Wild Thumper) Projet Sciences de l’Ingénieur Aernout Axel TS1 Année
La question sur corpus.
L’AP EN COURS DE LANGUE VIVANTE ETRANGERE Compétences transversales et disciplinaires.
Etat de l’art et recherche bibliographique L3EEA 3ème année – 2016.
Pour plus de modèles : Modèles Powerpoint PPT gratuitsModèles Powerpoint PPT gratuits Page 1Free Powerpoint Templates.
Normes et échanges de données : où en est-on ?
Présentation des projets interdisciplinaires
Plate-forme d’ENT pour les DES de Gynécologie-Obstétrique
LOG2420 – Automne 2016 Chargé de cours : Mathieu Laprise
Continuum d’autodétermination
Un projet piloté par l’IDRRIM
Rechercher des articles et des sites web
MOT Éditeur de modèles de connaissances par objets typés
Caractéristiques des projets d’ingénierie
Communication scientifique
Analyse Performance Chaine Energie + Problématique
04/06/2018 École de bibliothéconomie et des sciences de l'information
T.I.P.E. Association des Professeurs de Physique Des
Plans d’expériences: Plans factoriels.
Inégalité et autopsie fœtale au Québec
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
E.DUVELSON, Y. BOUNOUARA, D. LEGROS
Les hélices des protéines transmembranaires
Épreuve de mise en situation professionnelle
Le logiciel HYPERBASE-LATIN :
THE CANAL COHORT STUDY Facteurs de risque de développement d’inhibiteur en fonction du type de facteur VIII. Recombinant versus plasma-derived factor VIII.
Titre du projet scientifique
La Course d’Orientation
Prévisions des analystes financiers et incorporels : Les IAS/ifrs apportent-elles une amélioration ? G. Lenormand et L. Touchais CREM - Université.
Preuve la plus probante Méta-analyse confirmant le succès clinique de la surface TiUnite® Karl M, Albrektsson T. Int J Oral Maxillofac Implants 2017;32(4):717–734.
Evaluations cP.
Exploiter le Web Etape 2.
Techniques du Data Mining
Sciences de la nature Profil technoscientifique
Les fondamentaux de la Data Science Théorie
VERSION PUBLIQUE Problématiques et défis de l’hôtellerie valaisanne Analyse des résultats d’une enquête auprès des membres de l’Association hôtelière.
Résultats PISA 2006 Quelques éléments
VERSION PUBLIQUE Problématiques et défis de l’hôtellerie valaisanne Analyse des résultats d’une enquête auprès des membres de l’Association hôtelière.
Les cartes de crédit Les dettes.
A l’aide du triangle pédagogique de Jean Houssaye
Présenté devant le jury formé de:
Simulation de fautes dans un environnement de communication sans fil
Consignes pour une communication orale
VITROLLES VENDREDI 13 OCTOBRE 2017 Fiche Projet
Présentation des outils de recherche d’informations scientifiques
Méru - Bernadette Aubry
Les indices simples Définition
Séquence pédagogique Nom séquence Prénom NOM 06/12/2018.
Catherine Cyrot - bibliothèques numériques - Cours 5
L’écriture d’un article scientifique
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Fiche de lecture Éléments de cadrage
TP Mécanique Nom du système Prénom NOM 17/02/2019.
Jean-Sébastien Provençal
Par François Guay-Fleurent Membre de l’équipe-choc pédagogique
LUNDI ________________ RITUEL : Le livreur de nouvelles
Design, innovation et créativité
Mise en situation professionnelle
Design, innovation et créativité Sciences de l’ingénieur 1ère et Tale
LA MÉTHODE SCIENTIFIQUE
Enseignement de Spécialité (EdS) classes de Première et Terminale
Nom des auteurs (Prénom Nom) Cégep de Sainte-Foy, Québec, Canada
Présentation de Mon Hôpital Numérique –
MOT Éditeur de modèles de connaissances par objets typés
spécialité mathématiques Première
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Indexation automatique par assignation de mots-clés Jean-François Chartier Dominic Forest Université de Montréal EBSI

Qu’est-ce que l’indexation? Décrire le contenu d’un document à l’aide de mots-clés et ce en vue d’une recherche ultérieure d’information Jean-François Chartier

Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’indexation de documents des grandes bibliothèques scientifiques numériques Web of Science = 90 millions de notices SCOPUS = 55 millions Pascal et Francis = 14 millions INSPEC = 17 millions MEDLINE = 23 millions Jean-François Chartier

L’accumulation s’accélère, les coûts explosent Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’accumulation s’accélère, les coûts explosent 9.40$/notice Jean-François Chartier

L’importance croissantes des méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’importance croissantes des méthodes d’indexation automatique LENS: (claims:("keyphrase extraction") || claims:("keyword extraction") || claims:("keyterm extraction") || claims:("keyphrase assignment") || claims:("keyterm assignment") || claims:("keyword assignment")) SCOPUS: (title-abs-key("keyphrase extraction") or title-abs-key("keyword extraction") or title-abs-key("keyterm extraction") or title-abs-key("keyphrase assignment") or title-abs-key("keyword assignment") or title-abs- key("keyterm assignment")) Jean-François Chartier

Types de méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion Types de méthodes d’indexation automatique   Algorithme non-supervisé Algorithme supervisé Méthode d’extraction Tri des mots présents dans un document. Classification binaire des mots présents dans un document. Méthode d’assignation Tri des mots-clés d’un vocabulaire contrôlé présent dans un document. Classification multi- étiquettes des documents avec vocabulaire contrôlé Les besoins des bibliothèques Jean-François Chartier

Les défis de l’indexation par assignation supervisée Contexte Problématique Méthode Résultats Analyse résidu Conclusion Les défis de l’indexation par assignation supervisée L’assignation est plus complexe que l’extraction 𝐝 𝑖 , 𝐲 𝑗 ∈ ℝ 𝑛 × {1,−1} 𝑘 vs 𝐭 ij ,𝑦 ∈ ℝ 𝑚 ×{1,−1} Qualité des indexations beaucoup plus faibles ≈30% vs ≈80% Peu de recherche ≈4% des publications Jean-François Chartier

Hypothèse: Espace vectoriel de mots-clés Contexte Problématique Méthode Résultats Analyse résidu Conclusion Hypothèse: Espace vectoriel de mots-clés Terme 1 Terme 2 Terme 3 … Terme m Mot-clé 1 𝐶ℎ𝑖2 1,1 𝐶ℎ𝑖2 1,2 𝐶ℎ𝑖2 1,3 𝐶ℎ𝑖2 1,𝑚 Mot-clé 2 𝐶ℎ𝑖2 2,1 Mot-clé 3 𝐶ℎ𝑖2 3,1 ⁞ Mot-clé n 𝐶ℎ𝑖2 𝑛,1 𝐶ℎ𝑖2 𝑛,𝑚 Jean-François Chartier

Caractéristiques des 4 corpus d’expérimentation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Caractéristiques des 4 corpus d’expérimentation Corpus   Caractéristiques  LING INFO ARCHEO CHIMIE Nombre de notices 715 706 718 782 Nombre moyen de mots (titre et résumé) 140.69 108.27 199.07 95.65 Nombre moyen de mots-clés par notice 8.66 8.51 16.55 12.69 % de mots-clés contrôlés 92.51 87.9 80.59 85.32 % de mots-clés contrôlés absents 64.66 67.37 47.84 68.22 Jean-François Chartier

Comparaison avec d’autres méthodes d’indexation par assignation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Comparaison avec d’autres méthodes d’indexation par assignation Latent Semantic Indexing (LSI) (Landauer & al. 1998) Log likelihood Ratio (LLR) (Plaut & Norgard 1999) PubMed (MTI) (Aronson & al. 2004) KEA++ (Medelyan and Witten 2006) Les participants au DEFT-2016 Jean-François Chartier

F-Mesures (moyennes) sur les 4 corpus Contexte Problématique Méthode Résultats Analyse résidu Conclusion F-Mesures (moyennes) sur les 4 corpus Jean-François Chartier

Variation de la F-Mesure par document test Contexte Problématique Méthode Résultats Analyse résidu Conclusion Variation de la F-Mesure par document test Jean-François Chartier

Facteurs corrélés aux erreurs de prédiction Contexte Problématique Méthode Résultats Analyse résidu Conclusion Facteurs corrélés aux erreurs de prédiction Jean-François Chartier

Prédire les erreurs (régression) Contexte Problématique Méthode Résultats Analyse résidu Conclusion Prédire les erreurs (régression) F_Mesure_observée = 0.0047 * Prevalence_tag + -0.3473 * Compact_Doc + 2.1884 * Prox_Doc_Tag + 0.0847 r=0.65 Jean-François Chartier

Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? Contexte Problématique Méthode Résultats Analyse résidu Conclusion Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? L’accord inter-indexeurs = [25%-40%] (Funk and Reid 1983; Medelyan and Witten 2006a; Plaunt and Norgard 1998) 2. Peut-on faire confiance aux méthodes d’indexation automatique? Certains documents sont plus difficiles à indexer Prédire cette incertitude 3. Comment augmenter les performances prédictives? Besoin de corpus beaucoup plus volumineux Jean-François Chartier