Systèmes documentaires F. KOHLER
Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts Diminution du temps disponible pour rechercher Des Banques de références à l'information INFORMATION RETRIEVAL Question nuancée, décision incertaine, accès logique (lent) DATA RETRIEVAL Question directe, décision sûre, accès physique (rapide)
Principes d’un système documentaire La sélection est automatisée complètement Indexation et Requêtes sont guidées (au moins) Modalités d'utilisation : Profil ("selective dissemination") : être régulièrement tenu à jour sur un sujet Interrogation ponctuelle (rétrospective) : faire le point sur un sujet Document original Question Indexation LANGAGE Requête Document indexé Sélection Question indexée
Système documentaires et langage d’indexation UDC : Universal decimal Classification Un code dans un arbre Créé par l'internatinal bibliographic institute Avantage : Standardisation Inconvénients : Manipulation de grand chiffre (erreurs) Degré de précision insuffisant Insertion d'un item difficile 107
Système documentaires et langage d’indexation Full text Tout le texte est découpé automatiquement en chaîne de caractères Avantage : couvre tout Inconvénient : non intelligent Très utilisé dans l’indexation de l’Internet par les moteurs de recherche
Système documentaires et langage d’indexations Descripteurs : Mot-Clés Non pas un code mais un mot du vocabulaire Avantages : standardisation facile à manipuler bon degré de précision facile si multidisciplinaires Inconvénient : utiliser ce mot là et lui seul (liste figée) Thésaurus Non pas un mot mais un langage organisé : notion de synonymes, d'appartenance, de proximité... Avantages : idem descripteurs synonymes relations (hiérarchie...) exemple : MeSH (medical subject heading) Méta-thésaurus + réseau sémantique : UMLS (Unified Medical Langage System) 65 000 concepts, 200 000 termes uniques
Qualité d'un système Complétude : Description complète du domaine médical Non ambiguïté : Les termes ne doivent faireréférence qu'à un seul concept. Non redondance : Chaque concept ne doit pouvoir être exprimé que d'une seule façon. Existence de synonymes : Ce sont des termes intermédiaire qui font référence à un terme unique Existence de relation explicites : "est-un", "est cause de ", "associé à", "équivalent à", "est dans", "est avant"...
Critères de pertinence Taux de rappel : Documents pertinents retrouvés / Documents existants Silence : 100 - Tx de rappel Précision (relevance) : Documents pertinents retrouvés / Documents retrouvés / Bruit : 100 - Précision
Evaluation d'un système Domaine couvert Période concernée Nature des documents analysés Fréquence des mise à jour Richesse des éléments fournis Langage d'interrogation et disponibilité
Quelques exemples Bases bibliographiques : Banques d'informations National Library of Medicine (Betesda) MEDLINE (Medlars on line) CANCER LINE TOXILINE Centre National de la Recherche Scientifique PASCAL Institute for Scientific Information Current contents Autres sources BIOSIS CHEMABS ••• Banques d'informations Sur les médicaments BIAM THERIAQUE Sur la médecine en général ADM Sur la cancérologie PDQ
Accès : On LINE : Off LINE : Possibilité à la faculté de médecine : Réseau télématique de tous types : réseau privé, réseau publique (transpac), minitel, Internet... Nombreux serveurs : ESA, QUESTEL ... Off LINE : Livre : Index Medicus, Current contents CD : MEDLINE, PASCAL... Coût environ 10 000 Fr/an pour 4 CD /an. Interrogation gratuite si on possède le matériel et le CD. Possibilité à la faculté de médecine : Bibliothèque © SPI-EAO Faculté de médecine de Nancy 110
Interrogation on line Principes : Les bases de données bibliographiques Très nombreux prestataires (CNRS-INIST pour PASCAL, EDF pour EDF DOC, NLM pour MEDLINE, CANCERNET...) Accessible sur différents serveurs (QUESTEL, IRS...) Connexion à un serveur de base de données bibliographique par différents moyens : Minitel ou terminal passif Micro-ordinateur - Modem - Réseau téléphonique - Réseau informatique Micro-ordinateur - Réseau informatique (transpac, Internet ...) En général accès payant => le plus souvent contrat gratuit (donne un login et un pwd) et interrogation payante avec un tarif dépendant du serveur (10 € à 50 € de l'heure pour PASCAL suivant le serveur auquel s'ajoute un tarif par références bibliographiques imprimées. Langage d'interrogation documentaire spécifique du serveur. Très puissant mais nécessite un apprentissage. Possibilités de download et de commande des articles
Information Retrieval Service Service documentaire géré par l'agence spatiale européenne Plus de 150 "bases de données documentaires" en ligne dont pascal Couvre l'ensemble des domaines : médecine, agriculture, économie, informatique, banque,chimie,.... Pour chaque base de données : description du domaine couvert, du producteur, du contenu, des points d'accès, du coût....
Exemple : Fichier Pascal SUBJECT COVERAGE Physics Chemistry Life Sciences (Biology, Medicine, Psychology) Applied Sciences and Technology Information Sciences and Documentation Energy Metallurgy Welding and Brazing Civil Engineering Building and PublicWorks Earth Sciences Biotechnology Zoology of Invertebrates Agricultural Sciences Tropical Medicine
Pascal FILE CATEGORY Bibliographic file (reference file) FILE DESCRIPTION PASCAL is a multidisciplinary file covering the core of the world's scientific and technical literature. It is the online version of the print publication "Bibliographie Internationale." Languages: The titles in the PASCAL file are in their original language and are translated into French and/or English. The controlled terms are in French, English, and Spanish. German controlled terms are also provided in the area of metallurgy. Abstracts are in French or English (English especially from 1 990 on). FILE PRODUCER INIST (Institut de l'lnformation Scientifique et Technique) CNRS (Centre National de la Recherche Scientifique) 2, Allée du Parc de Brabois 54514 VANDOEUVRE-LES-NANCY Cedex France Tel.: 03 83 50 46 00 Fax: 03 83 50 46 50 SOURCES Sources include journal articles (about 92% of the file), theses (mainly French), conference proceedings, technical reports, books, and patents in biotechnology since 1984. The number of joumals scanned regularly is over 8500. Source materials are published in multiple languages: English 70%, French 10%, Russian 9%, Gemman 6%, other languages 5%. AVAILABILITY ON ESA-IRS Time Span .... 1984 to present File Size .... Approximately 4 700 000 references File Update .. Approximately 40 000 references monthly Search Language . . . ESA-QUEST, CCL or EasyQuest (menu-driven) Services ..... QUESTALERT available; QUESTORDER available
PDQ Banque d'information sur le cancer Permet d'obtenir non seulement des références mais directement les informations en particulier les protocoles thérapeutiques Exemple : This information is intended for use by doctors and other health care professionals. If you are a cancer patient, your doctor can explain how it applies to you, or you can call the Cancer Information Service at 1-800-422-6237. CancerNet also contains PDQ information for patients see the CancerNet Contents List for PDQ for more information. Adult Hodgkin's disease 208/00003 ** PROGNOSIS ** (A separate statement containing information on pregnancy and Hodgkin's disease is also available in PDQ.) More than 75% of all newly diagnosed patients with adult Hodgkin's disease are curable with modern radiation therapy and/or combination chemotherapy regimens. Since the selection of treatment is influenced by the stage, careful clinical and/or pathologic staging is essential. Treatment planning by a multidisciplinary team of cancer specialists is required to determine optimal treatment for patients with this disease. National mortality is falling more rapidly for adult Hodgkin's disease than for any other malignancy, largely due to excellent results achieved with modern radiation therapy and effective combination chemotherapy. For patients who have recurrent disease when...
UMLS Développé par la NLM Etablit le lien conceptuel entre le besoin d'une information exprimé par un utilisateur et différentes sources d'informations comme des base de données bibliographiques, des systèmes de gestion de dossiers médicaux ou des base de connaissances. Le métathésaurus contient environ 65 000 concepts et plus de 200 000 termes unique. Il regroupe (méta) les termes issus du MeSH de SNOMED, de l'CIM, du DSM, de la CPT, ainsi que les termes utilisé dans PDQ et d'autres base de connaissances Le réseau sémantique contient les relations existant entre certaines catégories sémantiques : "est identique à" "est une partie de" "peut causer" "forme" "présenté par" ... Incorporation des termes français par l'INSERM La compatibilité des codifications n'est pas toujours assurée, le transcodage pose habituellement des problèmes difficiles voire insolubles. La recherche d'une classification largement utilisée dont les révisions sont assurées au fil du temps par un organisme international reconnu doit être la règle. © SPI-EAO Faculté de médecine de Nancy 118