Citations Le traitement automatisé des citations au CERN Jean-Philippe Schmitt
Quelques définitions Citations –Références citées (exemple)exemple Corpus traité –Documents en texte intégral (preprints et rapports internes)
Pourquoi exploiter les citations ? Faciliter la navigation en améliorant l’intégration des ressources (grises et publiées)navigation Permettre une recherche dans les citationsrecherche Estimer l’importance d’un documentimportance –Pour un auteur, en général, pour la bib.
3 étapes I.Extraction des références a.Conversion des fichiers PDF b.Extraction de la zone des références c.Reconstruction de lignes corrompues II.Reconnaissance des citations a.Adresses Internet b.Numéros de rapports c.Périodiques Scientifiques III.Génération des liens
I/a. Conversion formats d’origine (LaTeX, PostScript, Word…) => PDF PDF => texte (pdftotext)PDFpdftotext
I/b. Extraction des références Titre de section / fin [1]…… [2]……
I/b. Extraction des références [9] Preparing the LaTeX List of Publications from the SPIRES BibTeX output. Page 8 Le Meur, JY et al. From Fulltext Documents to Structured Citations: the CERN Treatment [10] LIGHT project, Page 9 Le Meur, JY et al. From Fulltext Documents to Structured Citations: the CERN Treatment.
I/c. Reconstruction de lignes [9] I. Fruhwirth, J.M. Grimstrup, Z. Morsli, L. Popp, M. Schweda, hep- th/ [10] R. Jackiw, Nucl. Phys. Proc. Suppl. 108, 30 (2002); hep-th/ [11] Z. Guralnic, R. Jackiw, S.Y. Pi and A.P.Polychronakos, Phys. Lett. B 517, 450 (2001); hep-th/
II/a. Adresses Internet The CERN Web site Le script detecte en enregistre toutes les structures ftp://…, etc.
II/b. Numéros de rapports Racine(institut) + année + numéro –CERN-TH –SLAC-PUB-6100 –quant-ph/ –… Le script détecte des racines prédéfinies et répertoriées, puis les numéros sont traités et standardisés (CERN-TH/ => CERN-TH )
II/c. Périodiques scientifiques Reconnaissance du titre –Formes abrégées, mais non standardisées –Utilisation d’une base de connaissance (« knowledge base »). 800 titres, 1800 entréesknowledge base –Les titres reconnus sont remplacés par les titres conformes à la norme ISO 4
II/c. Périodiques scientifiques Reconnaissance de la « numération » –L’ordre et la forme varient. La numération est standardisée : –volume (année) page JHEP 12, 139 (2000) J. High Energy Phys. : 12 (2000) 139 –Ibid. : mention remplacée par le titre standard [2] W.H. Zureck, Phys. Rev. D 24, 1516 (1981); W.G. Unruh and W.H. Zureck, ibid. 40, 1071 (1989) devient… [2] W.H. Zureck, Phys. Rev., D : 24 (1981) 1516; W.G. Unruh and W.H. Zureck, Phys. Rev., D : 40 (1989) 1071.
III. Génération des liens « link manager » calcule les URL à partir des références extraites et standardisées Triplet titre, volume, page Autres paramètres : –Etats de coll. –Abonnements de la bib.
III. Génération des liens Exemple « GoDirect »GoDirect –Phys. Rev., D : 40 (1989) 1071 – DOI: /PhysRevD Nucl. Phys., B : 528 (1998) 185
Résultats Total No. Citations Total No. Recognitions = Internet Addresses + Report Numbers + Journal Titles %0.44%13.10%66.88% 18.6% ( )
Un peu de lecture… Jean-Blaise Claivaz, Jean-Yves Le Meur, Nicholas Robinson, "From Fulltext Documents to Structured Citations: CERN's automated Solution", High Energy Physics Library Webzine, issue 5, November