Manipulation et traitement de données massives

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Présentation Assistée par Ordinateur Visite guidée
Les technologies décisionnelles et le portail
Création de la base du SI Idée de départ : créer plusieurs couches de données avec chacune un intérêt propre et indépendante. Chaque couche doit pouvoir.
Les Excel Services de Office 2007
ACubeOLAP Client Olap en ACube.
Systèmes d Information : 12 Michel de Rougemont Université Paris II L ensemble Office.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Informatique en Biologie 2004, Institut Pasteur
Gscope Programmation - Architecture Conventions, trucs et astuces Projets Qui fait quoi...
Manipulation et traitement de données massives Scripts et Pertinence des données Raymond Ripp.
1 Exploitation des RN Évaluation des RN RappelRappel.
Une solution personnalisable et extensible
Modules Spécifiques Programme GENIE Atelier 2 Recherche, acquisition et adaptation des Ressources Numériques.
Utilisation de l’outil Firebug
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Design Pattern MVC En PHP5.
TP 3-4 BD21.
Logiciel de base de données
Connaître et utiliser l’environnement Windows
Interface Homme Machine IHM Pro
Comment fonctionne ?. Cest un site de synthèse de lavancement du projet au niveau national. Ce nest pas une base de donnée intégrale.
ACCEDER GMAO en SECTION MI et MEI
Bioinformatique =?? génomique protéomique
Contrôles d'accès aux données
LES LANGAGES DE PROGRAMMATIONS JAVASCRIPTH.T.M.LP.H.PS.Q.L Reynald Maréchal DI045.
Concevoir un diaporama avec Power Point.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.
Comprendre l’environnement Web
Lycée Louis Vincent Séance 1
ARCHOS CONSEIL Date : 24 – 03 – 2004 Portail National Synthèse du projet et piste de partenariat public / privé Nabil HAFFAD - Manager.
Le convertir avec Angène au format .edi
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
3. Spécifications fonctionnelles
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Conversion de fichiers
Intégration des TIC et nouveaux outils
Bases de données phénotypique et ontologie
FORMATION POWERPOINT 2007/2010
PHP & My SQL.
Organisation de l’entrepôt edot
Guillaume TORRENTE Marc BOUISSOU Recherche & Développement
Concepts. Procédures 1 EWS Excel Web Services. © Partouche David / 2007 version 0.1 Présentation des Excel Services Définition de base : Excel Services.
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
Gestion des fichiers et dossiers
Avancé du projet sur la refonte de maurepas.net et des Web Services Citoyens Maquette quasi définitive Transfert sur serveur Des différentes arborescences.
Rédaction d’un dossier SVT 3eme.
Dr Ph CARDI - Interfaces 27/09/2001 Configuration des logiciels par les Praticiens de Santé mythe ou réalité Copyright 2001 © Intensive Care View.
Quelques recommandations pour la présentation Vraie Vie : - Mettez en avant systématiquement votre expérience concrète : difficultés, leçons apprises lors.
Dossier n°1 Structure et Fonctionnement d'un micro-ordinateur.
1 Système d’enregistrement des visiteurs RUBIS 2002 Printemps, 13 juin 2002 Steffen Weigert, UIT
27/05/2008© 1 présente Les sites WEB Les premiers pas.
Initiation au JavaScript
Chapitre 1 : systèmes d’exploitation
Kapiat – Gestion Stocks
Présentation des outils de recherche d’informations scientifiques.
Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.
Mais d’abord rappelez-vous!!
Plan de la présentation Le langage HTML Dreamweaver MX Les premiers outils pour créer une page web :  Propriétés d’une page  Création de cadres  Création.
CHMI 4206 Bioinformatique appliquée
Découverte des objets.
De Arnault Chazareix :
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
1 CEC A.-CHAVANNE Sites Web et bases de données. 2 UNE BASE DE DONNÉES : POURQUOI ? Manipulation de grandes quantités d’information – représentation des.
Bio-Informatique Analyse de séquences nucléotidiques
DUT 1ère année Génie Biologique Paul-Antoine Bisgambiglia Année
FACTORY systemes Le module de gestion de fiches recettes FORMATION INTOUCH 7.0.
module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet
Transcription de la présentation:

Manipulation et traitement de données massives Scripts et Pertinence des données

Traiter beaucoup de données Ce n’est pas faisable manuellement trop long, trop compliqué risque d’erreurs (par ex. coupé-collé) Automatiser Trouver l’outil idéal … Utiliser les outils existants Tout faire soi-même

L’outil interactif Malheureusement beaucoup d’outils ne sont utilisables qu’à travers une interface graphique par ex. Seqlab de GCG sites web Pourquoi ? convivial actions prédéfinies interrogation … évite la fuite des données des sites web

Gérer soi-même les données Les trouver Les rapatrier en bloc à la volée Les traiter Les stocker Les rendre disponibles … faire un site web.

Bases de données vs Données « à plat » Une base de données « bien faite » permet un accès direct aux données niveau de précision (par ex pour une protéine) Texte en vrac de la séquence et des infos concernant fonction, organisme, biblio, etc. SequenceAA , TaxId, InterPro Relations avec d’autres information Localisation génomique, expression Facilité d’accès Interactif, requête SQL

Les formats des données « à plat » (hors « base de données ») Les données sont dans des fichiers rangés dans une arborescence Généralement un format de fichier est associé à une application Word .doc, Excell .xls, etc. Images .jpg, .tif, Sons .mp3, Vidéos Texte (Ascii) lisible par l’humain et la machine simple mais pas agréable pour l’oeil pas rapide ni précis Web .html, .xml Xml fédère tout le monde …

Format Fasta d’une séquence >PGS110 AaEcR-A Aedes aegypti Ecdysone receptor isoforme-A MYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGS GGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPST ATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIP SSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNE EWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYS PNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESG YHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKK CLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEI LPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQD GYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGL PAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDS YRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAEL VEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEM CFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSS SNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANG SGSGGGSNNNSSSGGVVPGLGMLDQVLV

Format Embl d’une séquence ID Q7UB09 PRELIMINARY; PRT; 391 AA. AC Q7UB09; DT 01-OCT-2003 (TrEMBLrel. 25, Created) DT DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update) DE Putative xylanase. GN YIEL OR S4034. OS Shigella flexneri. OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Shigella. OX NCBI_TaxID=623; DR EMBL; AE016991; AAP19014.1; -. DR GO; GO:0005975; P:carbohydrate metabolism; IEA. DR InterPro; IPR000379; Ser_estrs. DR Pfam; PF02922; Isoamylase_N; 1. KW Glycosidase; Hydrolase; Xylan degradation. SQ SEQUENCE 391 AA; 43049 MW; 0C6006A9977CFBC0 CRC64; MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV TQVNADNSVT FRYFAPGAKN VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF NVDGVRSIDT GTAMTKPQRQ TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD VVTGKDIAGL KTELEQKKIK FDYQEYPGLN HEMDVWRPAY AAFVQKFKIR H

Format Genbank 1/2 LOCUS NC_003071 19643621 bp DNA PLN 13-AUG-2001 DEFINITION Arabidopsis thaliana chromosome 2, complete sequence. ACCESSION NC_003071 SOURCE thale cress. ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; FEATURES Location/Qualifiers source 1..19643621 /organism="Arabidopsis thaliana" /cultivar="Columbia" /db_xref="taxon:3702" /chromosome="2" gene complement(64436..66139) /gene="At2g01040" /note="F23H14.1; pseudogene, disease resistance protein" /pseudo mRNA complement(<67337..>68884) gene complement(67337..68884) /gene="At2g01050" /note="F23H14.2; predicted by genscan" CDS complement(67337..68884)

Format Genbank 2/2 mRNA complement(join(<72279..72950,73073..73142,73240..73297, 73383..73425,73509..73585,73785..73907,74190..74340)) /gene="At2g01060" gene complement(67337..68884) /gene="At2g01050" /note="F23H14.2; predicted by genscan" CDS complement(67337..68884) /codon_start=1 /product="hypothetical protein" /db_xref="GeneID:At2g01050" /protein_id="NP_178215.1" /db_xref="GI:15226168" /translation="MLDVGEKGRPPGDPPDKLESWATKVKGSAGGGILKPEDVIDDEF VRERVGLEFPDGEDEEPVITIGEEVLEAMNGLWKKCMIVKVLGSQIPISVLNRKLREL WKPSGVMTVMDLPRQFFMIRFELEEEYMAALTGGPWRVLGNYLLVQDWSSRFDPLRDD IVTTPVWVRLSNIPYNYYHRCLLMEIARGLGRPLKVDMNTINFDKGRFARVCIEVNLA KPLKGTVLINGDRYFVAYEGLSKICSSCGIYGHLVHSCPRNVVVKVSAGAETVTDRAV VPVGMEGDDGFTVVQRTARRPAAPVQKMVFAVGASGGRSKQRLRELPKNQGVDLANRF GGLDGNGDLPDLREVAITEGPNKENEYHGRNVGKVMGVPLVKEARGSTQMEKGKGGSK GGFKWKRNGGMKALEPIGPKQKHGAANKPARGLIFGPTKDANSVPVGEDLLSNGKRLR VEQRDVGRPGGVYSSAMGSHAHEASFDLDSSSTLSQRFQREDLMSEIAVVSHEGSEVG NSSEGMA« gene complement(72279..74340) /note="F23H14.3; similar to transfactor GB:BAA75684 from (Nicotiana tabacum)" CDS complement(join(72456..72950,73073..73142,73240..73297,

… il n’y a pas que des séquences Blast Alignements Go Références bibliographiques Data mining

Où trouver les données ? Dans les banques de données Ramener la banque en entier Traiter les fichiers ainsi stockés sur le disque Chercher l’info pertinente … à la volée Faire une requête ciblée dans une banque de données SRS le permet …

Qu’est qu’un script ? C’est un programme. Qui enchaîne une suite de programmes (pris dans un boîte à outils) Écrit dans un langage sh, csh, tcsh, bash Perl, Tcl, Python, C, C++, VisualBasic, Fortran, Java …

Boîte à outils NCBI-toolbox Gcg Emboss Gscope …

Un exemple de traitement en local

Traitement à distance sur un site web … On simule par programme les actions répétitives de l’utilisateur Ce n’est pas toujours possible ce n’est pas fait pour ça il faut connaître l’organisation des données Le format des données est souvent difficile à exploiter Html, Xml, images Problèmes de connexion et de gestion des décrochages Attention aux mises à jour des sites