La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation.

Présentations similaires


Présentation au sujet: "Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation."— Transcription de la présentation:

1 Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation Chimique UMR 5076 Hétérochimie moléculaire et macromoléculaire École Nationale Supérieure de Chimie de Montpellier laurenco@enscm.fr ; http://sic.enscm.fr Laboratoire dInformatique, de Robotique et de Microélectronique de Montpellier UMR 5506 Université Montpellier II cl@lirmm.fr ; http://www.lirmm.fr

2 Un peu dhistoire

3 MEMEX Vannevar BUSH, "As We May Think" Atlantic Monthly, 1945 http://www.theatlantic.com/flashbks/bushf.htm The memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility.... Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.... The chemist, struggling with the synthesis of an organic compound, has all the chemical literature before him in his laboratory, with trails following the analogies of compounds, and side trails to their physical and chemical behavior....

4 Évolution de linformation chimique http://www.cas.org/EO/casstats.pdf

5 Évolution de linformation chimique

6 Quelques dates Années 60 –Producteurs dabstracts et dindex CAS, VINITI, ISI … –Sociétés industrielles ICI (Crossbow), Hoechst, BASF (IDC) … Années 70 –CA Search (1976) –Cambridge Structural Database (1977) –MDL (1978) -> MACCS (1979) http://www.chemheritage.org/explore/timeline/ELECTRON.HTM http://www.chemheritage.org/explore/timeline/CC1950.HTM

7 Quelques dates Années 80 –J. Med. Chem. (1980) –DARC (1981) –REACCS (1982) –CAS file (1983) –Beilstein Online (1988) Années 90 –ISIS ; Gmelin Database (1991) –Beilstein CrossFire (1994) –SciFinder (1995)

8 Sources dinformation chimique Sources primaires –Articles de journaux, actes de congrès, thèses, brevets, rapports … Sources secondaires –Index et résumés des sources primaires : Chemical Abstracts, Current Contents … Sources tertiaires –Information sélectionnée et évaluée : mises au point, livres, encyclopédies …

9 Comment accéder aux bases de données chimiques en France

10 Moyens daccès aux bases de données chimiques Moyens institutionnels –Serveur TITANE & INIST –SciFinder Scholar –COUPERIN Autres moyens –Abonnements online –Abonnements Inhouse –CD Rom –WEB

11 Serveur national TITANE Créé en 1995 par le dpt des Sciences Chimiques du CNRS dans le cadre du GDR « Traitement informatique de la connaissance en chimie organique » Installé à lUniversité Marseille III sous la responsabilité de A. Baldy Partenariat avec le Ministère de lÉducation Nationale Transféré à lINIST en 2002 Gestion par INIST-Diffusion Bases de données tertiaires ; requêtes structurales, sous- structurales, par mots clés, propriétés, références … analyse des résultats Formation à lutilisation des bases par LSIC-ENSCM http://www.inist.fr/titanesciences

12 Serveur national TITANE Système MDL®ISIS http://www.mdli.com/products –ISIS/Host ; client : ISIS/Base + ISIS/Draw –Bases de données de molécules Available Chemicals Directory (250 000) Comprehensive Medicinal Chemistry (8 000) Drug Data Report (132 000) National Cancer Institute Databases (213 000) Toxicity Database (158 000) Metabolite Database (40 000 + 64 000 transformations)

13 Serveur national TITANE Système MDL®ISIS http://www.mdli.com/products –ISIS/Host ; client : ISIS/Base + ISIS/Draw –Bases de données de réactions (chimie organique) ChemInform Reaction Lib. depuis 1992 (978 000) Reference Library 1900-1991 (209 000) Current Synthetic Methodology (75 300) Derwent Journal of Synthetic Methods (73 300) Solid-Phase Organic Reactions (17 500) ORGSYN Database (5 600)

14 Serveur national TITANE CrossFire (MDL http://www.mdli.com/products ) –Beilstein (ref. depuis 1771) 8 millions de composés organiques ; 9 millions de réactions 37 millions de propriétés physiques, chimiques et biologiques associées (350 champs) 750 000 abstracts et titres indexés de la littérature primaire de la chimie organique depuis 1980 500 000 molécules bioactives –Gmelin (ref. depuis 1772) 1,6 millions de composés organométalliques et inorganiques ; 1,3 millions de réactions Propriétés physiques et chimiques associées (800 champs) Recherche de catalyseurs et leurs activités

15 Serveur national TITANE Cambridge Structural Database Cambridge Crystallographic Data Centre : http://www.ccdc.cam.ac.uk –Information cristallographique sur 250 000 composés organiques et organométalliques –Interface graphique dinterrogation, visualisation 3D, calculs : analyses numériques, statistiques et graphiques

16 INIST-Bibliosciences Bases de données –PASCAL (INIST) multidisciplinaire, dont 5% de chimie = 775 000 références depuis 1987 –CURRENT CONTENTS Search (ISI/SilverPlatter) –SIGLE (EAGLE) multidisciplinaire ; couvre la littérature grise en Europe; 781 000 références depuis 1980 –INIS (AIEA) couvre le domaine des sciences et technologies nucléaires; 2,2 millions de références depuis 1970 ; chimie, matériaux, sciences de la Terre, de la vie et de lenvironnement, rayonnement, ingénierie et technologies, physique … http://www.inist.fr/bibliosciences

17 SciFinder Scholar Depuis 2002 –À linitiative du Ministère de lÉducation Nationale, en partenariat avec le dpt SC du CNRS –Gestion juridique et financière par lABES –Gestion locale par les BIU Interrogation croisée de 4 bases de données produites ou diffusées par CAS –CAplus –MEDLINE –CAS REGISTRY –CASREACT http://www.cas.org/SCIFINDER/SCHOLAR

18 SciFinder Scholar Bases de données bibliographiques –CAplus 23,6 millions denregistrements depuis 1907; analyse de 1500 journaux essentiels en chimie et surveillance de 9000 journaux ; actes de congrès ; rapports ; thèses ; brevets … Tous les domaines de la chimie et du génie chimique –MEDLINE (US National Library of Medecine) 13 millions de références depuis 1958 ; 3900 journaux du domaine biomédical Requêtes en langage naturel ; procédures de tri des résultats selon différents points de vue …

19 SciFinder Scholar Bases de données de molécules & de réactions –CAS REGISTRY 23 millions de substances organiques et inorganiques et 41 millions de bioséquences, depuis 1907 Structures 2D, noms CAS et autres, CAS RN, propriétés calculées –CASREACT (CAS, VINITI, ZIC, INPI) 7,7 millions de réactions organiques, mono et multi-étapes 426 000 publications Requêtes structurales et sous-structurales, par RN, par nom, par rôle …

20 COUPERIN COnsortium Universitaire de PERIodiques Numériques http://couperin.cines.fr Créé en 1999 pour : –Mutualiser les moyens des bibliothèques universitaires –Négocier avec les éditeurs de périodiques numériques Laccès aux journaux en ligne permet lutilisation des services –ChemPort dans SciFinder Scholar –LitLink dans ISIS (nest pas disponible actuellement sur TITANE)

21 Coûts daccès à linformation Facturation de lINIST en 2004 aux laboratoires ou groupes de laboratoires –Beilstein : 3450 HT pour 4 postes, 540 HT par poste supplémentaire –Gmelin : 1025 HT par poste –ISIS : 3125 HT pour 3 postes, 438 HT par poste supplémentaire –Y compris 10% de gestion par INIST-Diffusion Abonnement des BIU à SciFinder en 2004 –$ 57 712 HT moins 37 % de prise en charge par le Ministère et le CNRS soit : $ 36 358 HT pour 3 accès simultanés –$ 15 596 HT pour le passage de 3 à 5 accès simultanés

22 Chez nos voisins Grande Bretagne –Chemical Database Service (créé en 1992) Service analogue à TITANE En plus : –données spectroscopiques : SpecInfo/SpecSurf –Données physicochimiques : Detherm et ELYS –MIMAS Beilstein et Gmelin CrossFire ISI Web of knowledge –JISC = Joint Information Systems Commitee Libre accès pour les universitaires britanniques

23 Chez nos voisins Pays-Bas –Centre for Molecular and Biomolecular Informatics (créé en 1985) Service analogue à TITANE pour la chimie En plus : –Planification de synthèse : LHASA –Modélisation moléculaire –Chimie théorique –Moyens de visualisation des structures –Consortium de 10 universités néerlandaises –Libre accès pour les universitaires

24 Autres moyens daccès aux bases de données chimiques Abonnements Online –STN, Questel-Orbit, Dialog, SilverPlatter, THOMSON, Wiley, Thieme Verlag …. Abonnements Inhouse –Accelrys, Chemical Concepts, ADC/Labs … CD Rom –RSC, INRS Accès gratuit sur le WEB

25 STN International Scientific & Technical Information Network –FIZ, ACS, JST –Plus de 210 bases de données –Cluster chimie : 45 bases –Cluster métaux : 22 bases –Cluster brevets : 24 bases MARPAT recherche par formules de Markush STN Express et langage Messenger STN Easy, STN on the WEB Représenté en France par CAPADOC http://www.capadoc.com http://www.stn-international.de

26 THOMSON Derwent World Index http://thomsonderwent.com/products/ –Semble la base de données la plus complète sur les brevets dans tous les domaines –11 millions denregistrements ; 1,5 millions ajoutés par an –Recherche par structure de Markush –Accès par différentes voies : STN, Dialog, etc. ISI Web of Knowledge http://www.isinet.com –ISI Web of Science ( … Citation Index) plus ISI Chemistry (Reaction Center & Compound Center)

27 Thieme Verlag Science of Synthesis http://www.science-of-synthesis.com –Version électronique de Houben-Weyl –48 volumes, 39 000 pages –5 000 méthodes –15 000 schémas de réactions –150 000 exemples de réactions

28 Accelrys Protecting groups –Littérature depuis 1913 –Protection, déprotection et transprotection des groupes fonctionnels –Chemo et régio-sélectivité –39 000 réactions Failed reactions –14 000 réactions Systèmes ISIS et Accord http://www.accelrys.com

29 Chemical Concepts SpecInfo Inhouse, SpecInfo Internet –Bases de données de plus de 660 000 spectres de RMN, IR et Masse –Outils de élucidation de structures http://www.chemicalconcepts.com

30 ACD/Labs Bases de données spectrales Outils de prédiction ------------------------------------------------- Inventaire des bases de données spectrales http://www.lohninger.com/spectroscopy/dbsurvey.html http://www.acdlabs.com

31 Accès gratuit sur le Web Métabases de données –Université de Sheffield http://www.chemdex.org –Chemical Database Service http://cds.dl.ac.uk/cds/other_info_and_links/cheminf.html –Université de Liverpool, section chimie de la www.virtual Library : http://www.liv.ac.uk/Chemistry La page Chemical Databases pointe sur 107 URL –Répertoire Galaxy http://www.galaxy.com/Science/Chemistry –Université de Haute-Alsace http://www.scd.uha.fr/info_net_sciences.html –Bibliothèque Nationale de France http://www.bnf.fr/pages/liens/d3/chim-d3.html –URFIST de Lyon, répertoire des bases de données gratuites disponibles sur internet http://dadi.enssib.fr/ –ChemWeb http://www.chemweb.com IUPAC http://www.chem.qmul.ac.uk/iupac http://www.iupac.org –Glossaires, Gold Book ….

32 Accès gratuit sur le Web NIST (National Institute of Standards and Technology) –Portail donnant accès à plus de 80 bases de données http://www.nist.gov/srd/chemistry.html Données physico-chimiques : thermodynamique et cinétique chimiques, spectres dIR, de masse, dUV-visible, etc. Constantes physiques. Base IUPAC-NIST des solubilités (30 000 mesures, 1028 substances …) NCSM (National Center for Manufacturing Sciences) –SOLV-DB http://solvdb.ncms.org Propriétés physiques et chimiques, catégories, sécurité, risques, fournisseurs …. Brevets –Patent Information on the Internet http://www.chimia.ch/issues/toc/0005/Stauffer_Etscher_Litscher.pdf –Office européen des brevets http://ep.espacenet.com –http://www.delphion –http://www.uspto.gov/patft

33 Coût de la base de données Beilstein Réalisée par lInstitut Beilstein de 1983 à 1992 avec des fonds de lÉtat Fédéral Allemand (BMFT) = 31 M Base + infrastructure = 28,6 M 1ère implantation sur STN = 2,3 M E. Zass, J. Chem. Inf. Comput. Sci. 1996, 36, 942-948 R. Luckenbach, J. Chem. Inf. Comput. Sci. 1996, 36, 923-929

34 Bases de données chimiques réalisées en France

35 Bases de données chimiques françaises THERMODATA (avec INPG et UMS818 du CNRS TherMa) depuis 1974 http://thermodata.online.fr/thermafr/activite.html –5 bases de données thermochimiques et suite logicielle ThermoSuite permettant daccéder aux propriétés thermodynamiques de 5000 substances et deffectuer des calculs déquilibres de phases dans des systèmes complexes. Thermochemical Database Project (TDB) http://www.nea.fr/html/dbtdb –Agence pour lénergie nucléaire de lOCDE Common Thermodynamic Database Project (CTDP) http://ctdp.ensmp.fr –Ensmp, CEA, EDF, IFP, IRSN, TOTAL BASSIST base de données thermodynamiques (radionucléides), CEA

36 Bases de données chimiques françaises SXD (UMR 7551) http://ulpchim.u-strasbg.fr/~sxd/pub –Base de données expérimentales sur lextraction liquide- liquide des métaux Database of Palladium Chemistry –Réactions, cycles catalytiques, paramètres chimiques –Développée par J.-L. Malleron et A. Juin (Aventis Pharma) –Distribuée en CD Rom par Elsevier/Academic Press http://intl.elsevierhealth.com/catalogue Bases de données structurales sur les saccharides (CERMAV-CNRS) http://www.cermav.cnrs.fr

37 Bases de données chimiques françaises Chirbase (ENSSPICAMM-Université Marseille III) http://chirbase.u-3mrs.fr –Bases de données sur les séparations chirales dénantiomères par chromatographie (95 000 séparations, 30 000 structures moléculaires) –Système ISIS Diverses bases de données sur la gestion des produits chimiques –Voir Profil français pour évaluer les capacités nationales de gestion des produits chimiques http://www.industrie.gouv.fr/pratique/conseil/pdf/profil2000.pdf –Notamment l annexe 2 sur les bases de données (cf. bases de lINRS) http://www.industrie.gouv.fr/pratique/conseil/pdf/a2-prof2.pdf

38 Bases de données chimiques françaises Projet EuroSpec (INRA et partenaires européens) http://www.eurospec.org –Développer une base de données spectroscopiques issues de publications –Obtenir le soutien des éditeurs –Financement européen NMRShiftDB (Max-Planck-Institute) http://www.nmrshiftdb.org –Open-source & open-content database

39 Quelques défauts des bases de données de réactions Le modèle de la réaction chimique adopté est trop imprécis : les données sont hétérogènes car les schémas représentent indistinctement des réactions mono-étape et multi-étapes Le modèle nest pas hiérarchique : les données sont à plat et relatives à des réactions particulières Certains algorithmes sont défectueux ou inadaptés : notamment la détermination automatique du mapping Le contenu des bases reflète-t-il létat actuel des connaissances? Exhaustivité? Résultats négatifs? J. Coste, O. Gien, A. Dietz et C. Laurenço, LActualité Chimique (1999)

40 Quels progrès? Conception de nouveaux systèmes –ingénierie des connaissances : modèles, ontologies … –technologies Web –construction de bases de données à partir dexpérimentations programmées Amélioration des systèmes existants –modèles –extraction de connaissances à partir des bases de données ; organisation des données ; métadonnées

41 Extraction de connaissances à partir de bases de données base de données données cibles données pré-traitées données transformées modèles connaissances sélection pré-traitement transformation fouille de données interprétation/ évaluation analyste

42 Une (?) réaction dans une base de données ISIS

43

44 lexemple de la Chimiothèque Nationale du CNRS

45 La Chimiothèque Nationale « Groupement de Service » créé en juillet 2003 par une convention entre le CNRS et 17 établissements de l'enseignement supérieur et de la recherche publique Mission : fédérer et valoriser les collections de produits de synthèse et d'extraits de substances naturelles existants dans les laboratoires publics français Plus de 20.000 substances répertoriées mi-2003 http://chimiotheque-nationale.ujf-grenoble.fr/GDS/index.html

46 La Chimiothèque Nationale Objectifs rapidement : Diffusion via le web de la disponibilité des substances (requêtes structurales et sous- structurales) à terme : Enrichissement par des descripteurs structuraux Couplage chimiothèque- ciblothèque Criblage virtuel Etc.

47 La Chimiothèque Nationale système dinformation et flux de données Base de données nationale Traitement des requêtes Fichier log laboratoire serveur national Utilisateur Base de données locale 1 3 diffusion 4 5 7 2 Fusion des données 6 WEB Format Standard (SDF normalisé)

48 La Chimiothèque Nationale synthèse des solutions étudiées ORACLE Client Serveur Couche métier SGBD Plate-forme MDL Draw + devt à façon Windows Appl. Server Windows Server Accord Dev. Studio Pro Accord Grid Control Pro MDL Draw + devt à façon BEA Weblogic JSP Windows Server ou Solaris Apache + ASP Linux Redhat Solution MDL (licence par nb dutilisateurs nommés) Solution ACCELRYS (licence par nb dutilisateurs nommés) Solution ID-BS (licence par nb dutilisateurs nommés) MDL FrameWorkAccord EnterpriseActivity Base

49 SGBD pour la chimie : principales solutions commerciales Domaines couverts synthèse Analyse modélisation QSAR architecture autonome Client/Serveur API 1) Accord Enterprise (accelrys.com) 2) DS Accord for Excel (accelrys.com) 3) Chemfolder (acdlabs.com) 4) Web Librarian(acdlabs.com) 5) KnowItAll(knowitall.com) 6) ChemOffice(camsoft.com) 7) ChemOffice Ent. (camsoft.com) 8) JchemBase (chemaxon.com) 9) MOE Database (chemcomp.com) 10) SpecInfo (chemicalconcepts.com) 11) Hyperchem (chemistrysoftware.com) 12) MOLSEARCH (molsearch.com) 13) DayCart (daylight.com) 14) THOR / MERLIN (daylight.com) 15) ActivityBase (idbs.co.uk) 16) SciDex (lci-publisher.com) 17) Isentris (mdli.com) 18) ISIS/Desktop(mdli.com) 19) ISIS/Host(mdli.com) 20) C@rol (mol-net.de) 21) misearch toolkit (cheminspiration.com) 22) ChemTK (sageinformatics.com) 23) Ched (timtec.com) 2,3,5,6,9,11,12,18 25,26 1,4,7,8,9,10,15,16, 17,19,20,21,23 1,3,4,6,7,8,11,13, 14,15,16,17,18 1,2,3,4,6,7,8,13, 14,15,17,18,19,23 3,4,6,7,8,10,11,23 3,4,5,6,7,8,9,10,11, 20 1,2,4,5,6,7,8,9,11, 12,13,14,15,16,17, 18,19,20,21,22

50 Futur? Internet Interspace : infrastructure dinformation permettant de naviguer dun concept à un autre (plutôt que dun document à un autre) à travers des réseaux dentrepôts de données maintenus par des communautés scientifiques spécialisées dans des domaines plus ou moins restreints. R.B. Schatz, Computer, 2002, 54-62 Problème de linformation chimique –Production, diffusion, conservation, exploitation –Libre accès à linformation scientifique –Normalisation des données, développement dontologies de la chimie –Cahiers de laboratoire électroniques http://pubs.acs.org/hotartcl/ci/00/jan/inet.html –….

51 Remerciements à Ph. Jauffret & J. Coste


Télécharger ppt "Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation."

Présentations similaires


Annonces Google