Manipulation et traitement de données massives

Manipulation et traitement de données massives
Scripts et Pertinence des données

Traiter beaucoup de données
Ce n’est pas faisable manuellement trop long, trop compliqué risque d’erreurs (par ex. coupé-collé) Automatiser Trouver l’outil idéal … Utiliser les outils existants Tout faire soi-même

L’outil interactif Malheureusement beaucoup d’outils ne sont utilisables qu’à travers une interface graphique par ex. Seqlab de GCG sites web Pourquoi ? convivial actions prédéfinies interrogation … évite la fuite des données des sites web

Gérer soi-même les données
Les trouver Les rapatrier en bloc à la volée Les traiter Les stocker Les rendre disponibles … faire un site web.

Bases de données vs Données « à plat »
Une base de données « bien faite » permet un accès direct aux données niveau de précision (par ex pour une protéine) Texte en vrac de la séquence et des infos concernant fonction, organisme, biblio, etc. SequenceAA , TaxId, InterPro Relations avec d’autres information Localisation génomique, expression Facilité d’accès Interactif, requête SQL

Les formats des données « à plat » (hors « base de données »)
Les données sont dans des fichiers rangés dans une arborescence Généralement un format de fichier est associé à une application Word .doc, Excell .xls, etc. Images .jpg, .tif, Sons .mp3, Vidéos Texte (Ascii) lisible par l’humain et la machine simple mais pas agréable pour l’oeil pas rapide ni précis Web .html, .xml Xml fédère tout le monde …

Format Fasta d’une séquence
>PGS110 AaEcR-A Aedes aegypti Ecdysone receptor isoforme-A MYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGS GGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPST ATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIP SSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNE EWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYS PNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESG YHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKK CLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEI LPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQD GYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGL PAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDS YRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAEL VEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEM CFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSS SNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANG SGSGGGSNNNSSSGGVVPGLGMLDQVLV

Format Embl d’une séquence
ID Q7UB PRELIMINARY; PRT; AA. AC Q7UB09; DT 01-OCT-2003 (TrEMBLrel. 25, Created) DT DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update) DE Putative xylanase. GN YIEL OR S4034. OS Shigella flexneri. OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Shigella. OX NCBI_TaxID=623; DR EMBL; AE016991; AAP ; -. DR GO; GO: ; P:carbohydrate metabolism; IEA. DR InterPro; IPR000379; Ser_estrs. DR Pfam; PF02922; Isoamylase_N; 1. KW Glycosidase; Hydrolase; Xylan degradation. SQ SEQUENCE AA; MW; 0C6006A9977CFBC0 CRC64; MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV TQVNADNSVT FRYFAPGAKN VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF NVDGVRSIDT GTAMTKPQRQ TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD VVTGKDIAGL KTELEQKKIK FDYQEYPGLN HEMDVWRPAY AAFVQKFKIR H

Format Genbank 1/2 LOCUS NC_003071 19643621 bp DNA PLN 13-AUG-2001
DEFINITION Arabidopsis thaliana chromosome 2, complete sequence. ACCESSION NC_003071 SOURCE thale cress. ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; FEATURES Location/Qualifiers source /organism="Arabidopsis thaliana" /cultivar="Columbia" /db_xref="taxon:3702" /chromosome="2" gene complement( ) /gene="At2g01040" /note="F23H14.1; pseudogene, disease resistance protein" /pseudo mRNA complement(< >68884) gene complement( ) /gene="At2g01050" /note="F23H14.2; predicted by genscan" CDS complement( )

Format Genbank 2/2 mRNA complement(join(< , , , , , , )) /gene="At2g01060" gene complement( ) /gene="At2g01050" /note="F23H14.2; predicted by genscan" CDS complement( ) /codon_start=1 /product="hypothetical protein" /db_xref="GeneID:At2g01050" /protein_id="NP_ " /db_xref="GI: " /translation="MLDVGEKGRPPGDPPDKLESWATKVKGSAGGGILKPEDVIDDEF VRERVGLEFPDGEDEEPVITIGEEVLEAMNGLWKKCMIVKVLGSQIPISVLNRKLREL WKPSGVMTVMDLPRQFFMIRFELEEEYMAALTGGPWRVLGNYLLVQDWSSRFDPLRDD IVTTPVWVRLSNIPYNYYHRCLLMEIARGLGRPLKVDMNTINFDKGRFARVCIEVNLA KPLKGTVLINGDRYFVAYEGLSKICSSCGIYGHLVHSCPRNVVVKVSAGAETVTDRAV VPVGMEGDDGFTVVQRTARRPAAPVQKMVFAVGASGGRSKQRLRELPKNQGVDLANRF GGLDGNGDLPDLREVAITEGPNKENEYHGRNVGKVMGVPLVKEARGSTQMEKGKGGSK GGFKWKRNGGMKALEPIGPKQKHGAANKPARGLIFGPTKDANSVPVGEDLLSNGKRLR VEQRDVGRPGGVYSSAMGSHAHEASFDLDSSSTLSQRFQREDLMSEIAVVSHEGSEVG NSSEGMA« gene complement( ) /note="F23H14.3; similar to transfactor GB:BAA75684 from (Nicotiana tabacum)" CDS complement(join( , , ,

… il n’y a pas que des séquences
Blast Alignements Go Références bibliographiques Data mining

Où trouver les données ? Dans les banques de données
Ramener la banque en entier Traiter les fichiers ainsi stockés sur le disque Chercher l’info pertinente … à la volée Faire une requête ciblée dans une banque de données SRS le permet …

Qu’est qu’un script ? C’est un programme.
Qui enchaîne une suite de programmes (pris dans un boîte à outils) Écrit dans un langage sh, csh, tcsh, bash Perl, Tcl, Python, C, C++, VisualBasic, Fortran, Java …

Boîte à outils NCBI-toolbox Gcg Emboss Gscope …

Un exemple de traitement en local

Traitement à distance sur un site web …
On simule par programme les actions répétitives de l’utilisateur Ce n’est pas toujours possible ce n’est pas fait pour ça il faut connaître l’organisation des données Le format des données est souvent difficile à exploiter Html, Xml, images Problèmes de connexion et de gestion des décrochages Attention aux mises à jour des sites

Manipulation et traitement de données massives

Présentations similaires

Présentation au sujet: "Manipulation et traitement de données massives"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Manipulation et traitement de données massives

Présentations similaires

Présentation au sujet: "Manipulation et traitement de données massives"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back