Indexation automatique par assignation de mots-clés

Slides:

Advertisements

Présentations similaires

Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.

Advertisements

Caractérisation dimensionnelle de défauts par thermographie infrarouge stimulée. Contrôles et Mesures Optiques pour l’Industrie novembre

Possibilités d’identification des médicaments Problématique en sciences forensiques Drug Identification Catherine Evéquoz, Isabelle Montani, Mélanie Zufferey.

Voiture 6x6 (Wild Thumper) Projet Sciences de l’Ingénieur Aernout Axel TS1 Année

La question sur corpus.

L’AP EN COURS DE LANGUE VIVANTE ETRANGERE Compétences transversales et disciplinaires.

Etat de l’art et recherche bibliographique L3EEA 3ème année – 2016.

Pour plus de modèles : Modèles Powerpoint PPT gratuitsModèles Powerpoint PPT gratuits Page 1Free Powerpoint Templates.

Normes et échanges de données : où en est-on ?

Présentation des projets interdisciplinaires

Plate-forme d’ENT pour les DES de Gynécologie-Obstétrique

LOG2420 – Automne 2016 Chargé de cours : Mathieu Laprise

Continuum d’autodétermination

Un projet piloté par l’IDRRIM

Rechercher des articles et des sites web

MOT Éditeur de modèles de connaissances par objets typés

Caractéristiques des projets d’ingénierie

Communication scientifique

Analyse Performance Chaine Energie + Problématique

04/06/2018 École de bibliothéconomie et des sciences de l'information

T.I.P.E. Association des Professeurs de Physique Des

Plans d’expériences: Plans factoriels.

Inégalité et autopsie fœtale au Québec

TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?

TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?

E.DUVELSON, Y. BOUNOUARA, D. LEGROS

Les hélices des protéines transmembranaires

Épreuve de mise en situation professionnelle

Le logiciel HYPERBASE-LATIN :

THE CANAL COHORT STUDY Facteurs de risque de développement d’inhibiteur en fonction du type de facteur VIII. Recombinant versus plasma-derived factor VIII.

Titre du projet scientifique

La Course d’Orientation

Prévisions des analystes financiers et incorporels : Les IAS/ifrs apportent-elles une amélioration ? G. Lenormand et L. Touchais CREM - Université.

Preuve la plus probante Méta-analyse confirmant le succès clinique de la surface TiUnite® Karl M, Albrektsson T. Int J Oral Maxillofac Implants 2017;32(4):717–734.

Evaluations cP.

Exploiter le Web Etape 2.

Techniques du Data Mining

Sciences de la nature Profil technoscientifique

Les fondamentaux de la Data Science Théorie

VERSION PUBLIQUE Problématiques et défis de l’hôtellerie valaisanne Analyse des résultats d’une enquête auprès des membres de l’Association hôtelière.

Résultats PISA 2006 Quelques éléments

VERSION PUBLIQUE Problématiques et défis de l’hôtellerie valaisanne Analyse des résultats d’une enquête auprès des membres de l’Association hôtelière.

Les cartes de crédit Les dettes.

A l’aide du triangle pédagogique de Jean Houssaye

Présenté devant le jury formé de:

Simulation de fautes dans un environnement de communication sans fil

Consignes pour une communication orale

VITROLLES VENDREDI 13 OCTOBRE 2017 Fiche Projet

Présentation des outils de recherche d’informations scientifiques

Méru - Bernadette Aubry

Les indices simples Définition

Séquence pédagogique Nom séquence Prénom NOM 06/12/2018.

Catherine Cyrot - bibliothèques numériques - Cours 5

L’écriture d’un article scientifique

Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.

Fiche de lecture Éléments de cadrage

TP Mécanique Nom du système Prénom NOM 17/02/2019.

Jean-Sébastien Provençal

Par François Guay-Fleurent Membre de l’équipe-choc pédagogique

LUNDI ________________ RITUEL : Le livreur de nouvelles

Design, innovation et créativité

Mise en situation professionnelle

Design, innovation et créativité Sciences de l’ingénieur 1ère et Tale

LA MÉTHODE SCIENTIFIQUE

Enseignement de Spécialité (EdS) classes de Première et Terminale

Nom des auteurs (Prénom Nom) Cégep de Sainte-Foy, Québec, Canada

Présentation de Mon Hôpital Numérique –

MOT Éditeur de modèles de connaissances par objets typés

spécialité mathématiques Première

Séquence 1:Analyse du système d’information comptable

Transcription de la présentation:

Indexation automatique par assignation de mots-clés Jean-François Chartier Dominic Forest Université de Montréal EBSI

Qu’est-ce que l’indexation? Décrire le contenu d’un document à l’aide de mots-clés et ce en vue d’une recherche ultérieure d’information Jean-François Chartier

Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’indexation de documents des grandes bibliothèques scientifiques numériques Web of Science = 90 millions de notices SCOPUS = 55 millions Pascal et Francis = 14 millions INSPEC = 17 millions MEDLINE = 23 millions Jean-François Chartier

L’accumulation s’accélère, les coûts explosent Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’accumulation s’accélère, les coûts explosent 9.40$/notice Jean-François Chartier

L’importance croissantes des méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion L’importance croissantes des méthodes d’indexation automatique LENS: (claims:("keyphrase extraction") || claims:("keyword extraction") || claims:("keyterm extraction") || claims:("keyphrase assignment") || claims:("keyterm assignment") || claims:("keyword assignment")) SCOPUS: (title-abs-key("keyphrase extraction") or title-abs-key("keyword extraction") or title-abs-key("keyterm extraction") or title-abs-key("keyphrase assignment") or title-abs-key("keyword assignment") or title-abs- key("keyterm assignment")) Jean-François Chartier

Types de méthodes d’indexation automatique Contexte Problématique Méthode Résultats Analyse résidu Conclusion Types de méthodes d’indexation automatique Algorithme non-supervisé Algorithme supervisé Méthode d’extraction Tri des mots présents dans un document. Classification binaire des mots présents dans un document. Méthode d’assignation Tri des mots-clés d’un vocabulaire contrôlé présent dans un document. Classification multi- étiquettes des documents avec vocabulaire contrôlé Les besoins des bibliothèques Jean-François Chartier

Les défis de l’indexation par assignation supervisée Contexte Problématique Méthode Résultats Analyse résidu Conclusion Les défis de l’indexation par assignation supervisée L’assignation est plus complexe que l’extraction 𝐝 𝑖 , 𝐲 𝑗 ∈ ℝ 𝑛 × {1,−1} 𝑘 vs 𝐭 ij ,𝑦 ∈ ℝ 𝑚 ×{1,−1} Qualité des indexations beaucoup plus faibles ≈30% vs ≈80% Peu de recherche ≈4% des publications Jean-François Chartier

Hypothèse: Espace vectoriel de mots-clés Contexte Problématique Méthode Résultats Analyse résidu Conclusion Hypothèse: Espace vectoriel de mots-clés Terme 1 Terme 2 Terme 3 … Terme m Mot-clé 1 𝐶ℎ𝑖2 1,1 𝐶ℎ𝑖2 1,2 𝐶ℎ𝑖2 1,3 𝐶ℎ𝑖2 1,𝑚 Mot-clé 2 𝐶ℎ𝑖2 2,1 Mot-clé 3 𝐶ℎ𝑖2 3,1 ⁞ Mot-clé n 𝐶ℎ𝑖2 𝑛,1 𝐶ℎ𝑖2 𝑛,𝑚 Jean-François Chartier

Caractéristiques des 4 corpus d’expérimentation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Caractéristiques des 4 corpus d’expérimentation Corpus Caractéristiques LING INFO ARCHEO CHIMIE Nombre de notices 715 706 718 782 Nombre moyen de mots (titre et résumé) 140.69 108.27 199.07 95.65 Nombre moyen de mots-clés par notice 8.66 8.51 16.55 12.69 % de mots-clés contrôlés 92.51 87.9 80.59 85.32 % de mots-clés contrôlés absents 64.66 67.37 47.84 68.22 Jean-François Chartier

Comparaison avec d’autres méthodes d’indexation par assignation Contexte Problématique Méthode Résultats Analyse résidu Conclusion Comparaison avec d’autres méthodes d’indexation par assignation Latent Semantic Indexing (LSI) (Landauer & al. 1998) Log likelihood Ratio (LLR) (Plaut & Norgard 1999) PubMed (MTI) (Aronson & al. 2004) KEA++ (Medelyan and Witten 2006) Les participants au DEFT-2016 Jean-François Chartier

F-Mesures (moyennes) sur les 4 corpus Contexte Problématique Méthode Résultats Analyse résidu Conclusion F-Mesures (moyennes) sur les 4 corpus Jean-François Chartier

Variation de la F-Mesure par document test Contexte Problématique Méthode Résultats Analyse résidu Conclusion Variation de la F-Mesure par document test Jean-François Chartier

Facteurs corrélés aux erreurs de prédiction Contexte Problématique Méthode Résultats Analyse résidu Conclusion Facteurs corrélés aux erreurs de prédiction Jean-François Chartier

Prédire les erreurs (régression) Contexte Problématique Méthode Résultats Analyse résidu Conclusion Prédire les erreurs (régression) F_Mesure_observée = 0.0047 * Prevalence_tag + -0.3473 * Compact_Doc + 2.1884 * Prox_Doc_Tag + 0.0847 r=0.65 Jean-François Chartier

Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? Contexte Problématique Méthode Résultats Analyse résidu Conclusion Questions ouvertes 1. Est-ce qu’une F-Mesure de 30% est élevée? L’accord inter-indexeurs = [25%-40%] (Funk and Reid 1983; Medelyan and Witten 2006a; Plaunt and Norgard 1998) 2. Peut-on faire confiance aux méthodes d’indexation automatique? Certains documents sont plus difficiles à indexer Prédire cette incertitude 3. Comment augmenter les performances prédictives? Besoin de corpus beaucoup plus volumineux Jean-François Chartier