La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Citations Le traitement automatisé des citations au CERN Jean-Philippe Schmitt.

Présentations similaires


Présentation au sujet: "Citations Le traitement automatisé des citations au CERN Jean-Philippe Schmitt."— Transcription de la présentation:

1 Citations Le traitement automatisé des citations au CERN Jean-Philippe Schmitt

2 Quelques définitions Citations –Références citées (exemple)exemple Corpus traité –Documents en texte intégral (preprints et rapports internes)

3 Pourquoi exploiter les citations ? Faciliter la navigation en améliorant l’intégration des ressources (grises et publiées)navigation Permettre une recherche dans les citationsrecherche Estimer l’importance d’un documentimportance –Pour un auteur, en général, pour la bib.

4 3 étapes I.Extraction des références a.Conversion des fichiers PDF b.Extraction de la zone des références c.Reconstruction de lignes corrompues II.Reconnaissance des citations a.Adresses Internet b.Numéros de rapports c.Périodiques Scientifiques III.Génération des liens

5 I/a. Conversion formats d’origine (LaTeX, PostScript, Word…) => PDF PDF => texte (pdftotext)PDFpdftotext

6 I/b. Extraction des références Titre de section / fin [1]…… [2]……

7 I/b. Extraction des références [9] Preparing the LaTeX List of Publications from the SPIRES BibTeX output. http://www.slac.stanford.edu/spires/hep/bibliotex.html Page 8 Le Meur, JY et al. From Fulltext Documents to Structured Citations: the CERN Treatment [10] LIGHT project, http://light.cern.ch/. Page 9 Le Meur, JY et al. From Fulltext Documents to Structured Citations: the CERN Treatment.

8 I/c. Reconstruction de lignes [9] I. Fruhwirth, J.M. Grimstrup, Z. Morsli, L. Popp, M. Schweda, hep- th/0202092. [10] R. Jackiw, Nucl. Phys. Proc. Suppl. 108, 30 (2002); hep-th/0110057. [11] Z. Guralnic, R. Jackiw, S.Y. Pi and A.P.Polychronakos, Phys. Lett. B 517, 450 (2001); hep-th/0106044.

9 II/a. Adresses Internet http://www.cern.ch/public/ The CERN Web site Le script detecte en enregistre toutes les structures http://…, ftp://…, etc.

10 II/b. Numéros de rapports Racine(institut) + année + numéro –CERN-TH-2002-12 –SLAC-PUB-6100 –quant-ph/0204137 –… Le script détecte des racines prédéfinies et répertoriées, puis les numéros sont traités et standardisés (CERN-TH/2002-12 => CERN-TH- 2002-12)

11 II/c. Périodiques scientifiques Reconnaissance du titre –Formes abrégées, mais non standardisées –Utilisation d’une base de connaissance (« knowledge base »). 800 titres, 1800 entréesknowledge base –Les titres reconnus sont remplacés par les titres conformes à la norme ISO 4

12 II/c. Périodiques scientifiques Reconnaissance de la « numération » –L’ordre et la forme varient. La numération est standardisée : –volume (année) page JHEP 12, 139 (2000) J. High Energy Phys. : 12 (2000) 139 –Ibid. : mention remplacée par le titre standard [2] W.H. Zureck, Phys. Rev. D 24, 1516 (1981); W.G. Unruh and W.H. Zureck, ibid. 40, 1071 (1989) devient… [2] W.H. Zureck, Phys. Rev., D : 24 (1981) 1516; W.G. Unruh and W.H. Zureck, Phys. Rev., D : 40 (1989) 1071.

13 III. Génération des liens « link manager » calcule les URL à partir des références extraites et standardisées Triplet titre, volume, page Autres paramètres : –Etats de coll. –Abonnements de la bib.

14 III. Génération des liens Exemple « GoDirect »GoDirect –Phys. Rev., D : 40 (1989) 1071 –http://link.aps.org/abstract/PRD/v40/p1071 DOI: 10.1103/PhysRevD.40.1071 Nucl. Phys., B : 528 (1998) 185 http://www.elsevier.nl/IVP/05503213/528/185/

15 Résultats Total No. Citations Total No. Recognitions = Internet Addresses + Report Numbers + Journal Titles 2 896 5412 329 28612 684379 440 1 937 162 -80.42 %0.44%13.10%66.88% 18.6% (2000-2001)

16 Un peu de lecture… Jean-Blaise Claivaz, Jean-Yves Le Meur, Nicholas Robinson, "From Fulltext Documents to Structured Citations: CERN's automated Solution", High Energy Physics Library Webzine, issue 5, November 2001 http://library.cern.ch/HEPLW/5/papers/2/


Télécharger ppt "Citations Le traitement automatisé des citations au CERN Jean-Philippe Schmitt."

Présentations similaires


Annonces Google