La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Atelier ‘Bases de données’ du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes d’Information.

Présentations similaires


Présentation au sujet: "Atelier ‘Bases de données’ du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes d’Information."— Transcription de la présentation:

1 Atelier ‘Bases de données’ du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes d’Information Chimique UMR 5076 Hétérochimie moléculaire et macromoléculaire École Nationale Supérieure de Chimie de Montpellier ; Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier UMR 5506 Université Montpellier II ;

2 Un peu d’histoire

3 Vannevar BUSH, "As We May Think" Atlantic Monthly, 1945
MEMEX Vannevar BUSH, "As We May Think" Atlantic Monthly, 1945 The memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility .... Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified .... The chemist, struggling with the synthesis of an organic compound, has all the chemical literature before him in his laboratory, with trails following the analogies of compounds, and side trails to their physical and chemical behavior ....

4 Évolution de l’information chimique

5 Évolution de l’information chimique

6 Quelques dates Années 60 Années 70 Producteurs d’abstracts et d’index
Années 60 Producteurs d’abstracts et d’index CAS, VINITI, ISI … Sociétés industrielles ICI (Crossbow), Hoechst, BASF (IDC) … Années 70 CA Search (1976) Cambridge Structural Database (1977) MDL (1978) -> MACCS (1979)

7 Quelques dates Années 80 Années 90 J. Med. Chem. (1980) DARC (1981)
REACCS (1982) CAS file (1983) Beilstein Online (1988) Années 90 ISIS ; Gmelin Database (1991) Beilstein CrossFire (1994) SciFinder (1995)

8 Sources d’information chimique
Sources primaires Articles de journaux, actes de congrès, thèses, brevets, rapports … Sources secondaires Index et résumés des sources primaires : Chemical Abstracts, Current Contents … Sources tertiaires Information sélectionnée et évaluée : mises au point, livres, encyclopédies …

9 Comment accéder aux bases de données chimiques en France

10 Moyens d’accès aux bases de données chimiques
Moyens ‘institutionnels’ Serveur TITANE & INIST SciFinder Scholar COUPERIN Autres moyens Abonnements online Abonnements Inhouse CD Rom WEB

11 Serveur national TITANE
Créé en 1995 par le dpt des Sciences Chimiques du CNRS dans le cadre du GDR « Traitement informatique de la connaissance en chimie organique » Installé à l’Université Marseille III sous la responsabilité de A. Baldy Partenariat avec le Ministère de l’Éducation Nationale Transféré à l’INIST en 2002 Gestion par INIST-Diffusion Bases de données ‘tertiaires’ ; requêtes structurales, sous-structurales, par mots clés, propriétés, références … analyse des résultats Formation à l’utilisation des bases par LSIC-ENSCM

12 Serveur national TITANE
Système MDL®ISIS ISIS/Host ; client : ISIS/Base + ISIS/Draw Bases de données de molécules Available Chemicals Directory ( ) Comprehensive Medicinal Chemistry (8 000) Drug Data Report ( ) National Cancer Institute Databases ( ) Toxicity Database ( ) Metabolite Database ( transformations)

13 Serveur national TITANE
Système MDL®ISIS ISIS/Host ; client : ISIS/Base + ISIS/Draw Bases de données de réactions (chimie organique) ChemInform Reaction Lib. depuis 1992 ( ) Reference Library ( ) Current Synthetic Methodology (75 300) Derwent Journal of Synthetic Methods (73 300) Solid-Phase Organic Reactions (17 500) ORGSYN Database (5 600)

14 Serveur national TITANE
CrossFire (MDL ) Beilstein (ref. depuis 1771) 8 millions de composés organiques ; 9 millions de réactions 37 millions de propriétés physiques, chimiques et biologiques associées (350 champs) abstracts et titres indexés de la littérature primaire de la chimie organique depuis 1980 molécules bioactives Gmelin (ref. depuis 1772) 1,6 millions de composés organométalliques et inorganiques ; 1,3 millions de réactions Propriétés physiques et chimiques associées (800 champs) Recherche de catalyseurs et leurs activités

15 Serveur national TITANE
Cambridge Structural Database Cambridge Crystallographic Data Centre : Information cristallographique sur composés organiques et organométalliques Interface graphique d’interrogation, visualisation 3D, calculs : analyses numériques, statistiques et graphiques

16 INIST-Bibliosciences
Bases de données PASCAL (INIST) multidisciplinaire, dont 5% de chimie = références depuis 1987 CURRENT CONTENTS Search (ISI/SilverPlatter) SIGLE (EAGLE) multidisciplinaire ; couvre la littérature grise en Europe; références depuis 1980 INIS (AIEA) couvre le domaine des sciences et technologies nucléaires; 2,2 millions de références depuis 1970 ; chimie, matériaux, sciences de la Terre, de la vie et de l’environnement, rayonnement, ingénierie et technologies, physique …

17 SciFinder Scholar Depuis 2002
Depuis 2002 À l’initiative du Ministère de l’Éducation Nationale, en partenariat avec le dpt SC du CNRS Gestion juridique et financière par l’ABES Gestion locale par les BIU Interrogation croisée de 4 bases de données produites ou diffusées par CAS CAplus MEDLINE CAS REGISTRY CASREACT

18 SciFinder Scholar Bases de données bibliographiques
CAplus 23,6 millions d’enregistrements depuis 1907; analyse de 1500 journaux essentiels en chimie et surveillance de 9000 journaux ; actes de congrès ; rapports ; thèses ; brevets … Tous les domaines de la chimie et du génie chimique MEDLINE (US National Library of Medecine) 13 millions de références depuis 1958 ; 3900 journaux du domaine biomédical Requêtes en langage naturel ; procédures de tri des résultats selon différents points de vue …

19 SciFinder Scholar Bases de données de molécules & de réactions
CAS REGISTRY 23 millions de substances organiques et inorganiques et 41 millions de bioséquences, depuis 1907 Structures 2D, noms CAS et autres, CAS RN, propriétés calculées CASREACT (CAS, VINITI, ZIC, INPI) 7,7 millions de réactions organiques, mono et multi-étapes publications Requêtes structurales et sous-structurales, par RN, par nom, par rôle …

20 COnsortium Universitaire de PERIodiques Numériques
COUPERIN COnsortium Universitaire de PERIodiques Numériques Créé en 1999 pour : Mutualiser les moyens des bibliothèques universitaires Négocier avec les éditeurs de périodiques numériques L’accès aux journaux en ligne permet l’utilisation des services ChemPort dans SciFinder Scholar LitLink dans ISIS (n’est pas disponible actuellement sur TITANE)

21 Coûts d’accès à l’information
Facturation de l’INIST en 2004 aux laboratoires ou groupes de laboratoires Beilstein : 3450 € HT pour 4 postes, 540 € HT par poste supplémentaire Gmelin : 1025 € HT par poste ISIS : 3125 € HT pour 3 postes, 438 € HT par poste supplémentaire Y compris 10% de gestion par INIST-Diffusion Abonnement des BIU à SciFinder en 2004 $ HT moins 37 % de prise en charge par le Ministère et le CNRS soit : $ HT pour 3 accès simultanés $ HT pour le passage de 3 à 5 accès simultanés

22 Chez nos voisins Grande Bretagne
Chemical Database Service (créé en 1992) Service analogue à TITANE En plus : données spectroscopiques : SpecInfo/SpecSurf Données physicochimiques : Detherm et ELYS MIMAS Beilstein et Gmelin CrossFire ISI Web of knowledge JISC = Joint Information Systems Commitee Libre accès pour les universitaires britanniques

23 Chez nos voisins Pays-Bas
Centre for Molecular and Biomolecular Informatics (créé en 1985) Service analogue à TITANE pour la chimie En plus : Planification de synthèse : LHASA Modélisation moléculaire Chimie théorique Moyens de visualisation des structures Consortium de 10 universités néerlandaises Libre accès pour les universitaires

24 Autres moyens d’accès aux bases de données chimiques
Abonnements Online STN, Questel-Orbit, Dialog, SilverPlatter, THOMSON, Wiley, Thieme Verlag …. Abonnements Inhouse Accelrys, Chemical Concepts, ADC/Labs … CD Rom RSC, INRS Accès gratuit sur le WEB

25 STN International Scientific & Technical Information Network
Scientific & Technical Information Network FIZ, ACS, JST Plus de 210 bases de données Cluster chimie : 45 bases Cluster métaux : 22 bases Cluster brevets : 24 bases MARPAT recherche par formules de Markush STN Express et langage Messenger STN Easy, STN on the WEB Représenté en France par CAPADOC

26 THOMSON Derwent World Index http://thomsonderwent.com/products/
Semble la base de données la plus complète sur les brevets dans tous les domaines 11 millions d’enregistrements ; 1,5 millions ajoutés par an Recherche par structure de Markush Accès par différentes voies : STN, Dialog, etc. ISI Web of Knowledge ISI Web of Science ( … Citation Index) plus ISI Chemistry (Reaction Center & Compound Center)

27 Thieme Verlag Science of Synthesis http://www.science-of-synthesis.com
Version électronique de Houben-Weyl 48 volumes, pages 5 000 méthodes schémas de réactions exemples de réactions

28 Accelrys Protecting groups Failed reactions Systèmes ISIS et Accord
Protecting groups Littérature depuis 1913 Protection, déprotection et transprotection des groupes fonctionnels Chemo et régio-sélectivité réactions Failed reactions réactions Systèmes ISIS et Accord

29 Chemical Concepts SpecInfo Inhouse, SpecInfo Internet
SpecInfo Inhouse, SpecInfo Internet Bases de données de plus de spectres de RMN, IR et Masse Outils de élucidation de structures

30 -------------------------------------------------
ACD/Labs Bases de données spectrales Outils de prédiction Inventaire des bases de données spectrales

31 Accès gratuit sur le Web
Métabases de données Université de Sheffield Chemical Database Service Université de Liverpool, section chimie de la Library : La page ‘Chemical Databases’ pointe sur 107 URL Répertoire Galaxy Université de Haute-Alsace Bibliothèque Nationale de France URFIST de Lyon, répertoire des bases de données gratuites disponibles sur internet ChemWeb IUPAC Glossaires, Gold Book ….

32 Accès gratuit sur le Web
NIST (National Institute of Standards and Technology) Portail donnant accès à plus de 80 bases de données Données physico-chimiques : thermodynamique et cinétique chimiques, spectres d’IR, de masse, d’UV-visible, etc. Constantes physiques. Base IUPAC-NIST des solubilités ( mesures, 1028 substances …) NCSM (National Center for Manufacturing Sciences) SOLV-DB Propriétés physiques et chimiques, catégories, sécurité, risques, fournisseurs …. Brevets ‘Patent Information on the Internet’ Office européen des brevets

33 Coût de la base de données Beilstein
Réalisée par l’Institut Beilstein de 1983 à 1992 avec des fonds de l’État Fédéral Allemand (BMFT) = 31 M€ Base + infrastructure = 28,6 M€ 1ère implantation sur STN = 2,3 M€ E. Zass, J. Chem. Inf. Comput. Sci. 1996, 36, R. Luckenbach, J. Chem. Inf. Comput. Sci. 1996, 36,

34 Bases de données chimiques réalisées en France

35 Bases de données chimiques françaises
THERMODATA (avec INPG et UMS818 du CNRS ‘TherMa’) depuis 5 bases de données thermochimiques et suite logicielle ThermoSuite permettant d’accéder aux propriétés thermodynamiques de 5000 substances et d’effectuer des calculs d’équilibres de phases dans des systèmes complexes. Thermochemical Database Project (TDB) Agence pour l’énergie nucléaire de l’OCDE Common Thermodynamic Database Project (CTDP) Ensmp, CEA, EDF, IFP, IRSN, TOTAL BASSIST base de données thermodynamiques (radionucléides), CEA

36 Bases de données chimiques françaises
SXD (UMR 7551) Base de données expérimentales sur l’extraction liquide-liquide des métaux Database of Palladium Chemistry Réactions, cycles catalytiques, paramètres chimiques Développée par J.-L. Malleron et A. Juin (Aventis Pharma) Distribuée en CD Rom par Elsevier/Academic Press Bases de données structurales sur les saccharides (CERMAV-CNRS)

37 Bases de données chimiques françaises
Chirbase (ENSSPICAMM-Université Marseille III) Bases de données sur les séparations chirales d’énantiomères par chromatographie ( séparations, structures moléculaires) Système ISIS Diverses bases de données sur la gestion des produits chimiques Voir ‘Profil français pour évaluer les capacités nationales de gestion des produits chimiques’ Notamment l ’annexe 2 sur les bases de données (cf. bases de l’INRS)

38 Bases de données chimiques françaises
Projet EuroSpec (INRA et partenaires européens) Développer une base de données spectroscopiques issues de publications Obtenir le soutien des éditeurs Financement européen NMRShiftDB (Max-Planck-Institute) Open-source & open-content database

39 Quelques défauts des bases de données de réactions
Le modèle de la réaction chimique adopté est trop imprécis : les données sont hétérogènes car les schémas représentent indistinctement des réactions mono-étape et multi-étapes Le modèle n’est pas hiérarchique : les données sont ‘à plat’ et relatives à des réactions particulières Certains algorithmes sont défectueux ou inadaptés : notamment la détermination automatique du ‘mapping’ Le contenu des bases reflète-t-il l’état actuel des connaissances? Exhaustivité? Résultats négatifs? J. Coste, O. Gien, A. Dietz et C. Laurenço , L’Actualité Chimique (1999)

40 Quels progrès? Conception de nouveaux systèmes
ingénierie des connaissances : modèles, ontologies … technologies Web construction de bases de données à partir d’expérimentations programmées Amélioration des systèmes existants modèles extraction de connaissances à partir des bases de données ; organisation des données ; métadonnées

41 Extraction de connaissances à partir de bases de données
interprétation/ évaluation connaissances fouille de données transformation modèles pré-traitement données transformées sélection données pré-traitées données cibles analyste base de données

42 Une (?) réaction dans une base de données ISIS

43 Une (?) réaction dans une base de données ISIS

44 l’exemple de la Chimiothèque Nationale du CNRS

45 La Chimiothèque Nationale
« Groupement de Service » créé en juillet 2003 par une convention entre le CNRS et 17 établissements de l'enseignement supérieur et de la recherche publique Mission : fédérer et valoriser les collections de produits de synthèse et d'extraits de substances naturelles existants dans les laboratoires publics français Plus de substances répertoriées mi-2003

46 La Chimiothèque Nationale Objectifs
rapidement : Diffusion via le web de la disponibilité des substances (requêtes structurales et sous-structurales) à terme : Enrichissement par des descripteurs structuraux Couplage chimiothèque-ciblothèque Criblage virtuel Etc.

47 La Chimiothèque Nationale système d’information et flux de données
laboratoire Utilisateur 5 Base de données locale 1 WEB Traitement des requêtes 6 Format Standard (SDF normalisé) 2 Fusion des données Fichier log diffusion 4 7 Base de données nationale 3 serveur national

48 La Chimiothèque Nationale synthèse des solutions étudiées
Solution MDL (licence par nb d’utilisateurs nommés) Solution ACCELRYS (licence par nb d’utilisateurs nommés) Solution ID-BS (licence par nb d’utilisateurs nommés) MDL Draw + devt à façon Accord Dev. Studio Pro Accord Grid Control Pro MDL Draw + devt à façon Client Serveur Couche métier SGBD Plate-forme Windows Appl. Server BEA Weblogic JSP Apache + ASP MDL FrameWork Accord Enterprise Activity Base ORACLE Windows Server Windows Server ou Solaris Linux Redhat

49 SGBD pour la chimie : principales solutions commerciales
Domaines couverts architecture autonome 2,3,5,6,9,11,12,18 25,26 1,2,3,4,6,7,8,13, 14,15,17,18,19,23 synthèse Client/Serveur 1,4,7,8,9,10,15,16, 17,19,20,21,23 3,4,6,7,8,10,11,23 Analyse API 1,3,4,6,7,8,11,13, 14,15,16,17,18 3,4,5,6,7,8,9,10,11, 20 modélisation 1,2,4,5,6,7,8,9,11, 12,13,14,15,16,17, 18,19,20,21,22 QSAR 1) Accord Enterprise (accelrys.com) 2) DS Accord for Excel (accelrys.com) 3) Chemfolder (acdlabs.com) 4) Web Librarian (acdlabs.com) 5) KnowItAll (knowitall.com) 6) ChemOffice (camsoft.com) 7) ChemOffice Ent. (camsoft.com) 8) JchemBase (chemaxon.com) 9) MOE Database (chemcomp.com) 10) SpecInfo (chemicalconcepts.com) 11) Hyperchem (chemistrysoftware.com) 12) MOLSEARCH (molsearch.com) 13) DayCart (daylight.com) 14) THOR / MERLIN (daylight.com) 15) ActivityBase (idbs.co.uk) 16) SciDex (lci-publisher.com) 17) Isentris (mdli.com) 18) ISIS/Desktop (mdli.com) 19) ISIS/Host (mdli.com) 20) (mol-net.de) 21) misearch toolkit (cheminspiration.com) 22) ChemTK (sageinformatics.com) 23) Ched (timtec.com)

50 Futur? Internet  Interspace : infrastructure d’information permettant de naviguer d’un concept à un autre (plutôt que d’un document à un autre) à travers des réseaux d’entrepôts de données maintenus par des communautés scientifiques spécialisées dans des domaines plus ou moins restreints. R.B. Schatz, Computer, 2002, 54-62 Problème de l’information chimique Production, diffusion, conservation, exploitation Libre accès à l’information scientifique Normalisation des données, développement d’ontologies de la chimie Cahiers de laboratoire électroniques ….

51 Remerciements à Ph. Jauffret & J. Coste


Télécharger ppt "Atelier ‘Bases de données’ du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes d’Information."

Présentations similaires


Annonces Google