Formation Bio-informatique IRD 2013

Slides:



Advertisements
Présentations similaires
L’exemple du « run Auto SEQ-15 18 » correspond au séquençage d’un génome bactérien (environ 4Mb) sur une puce 316 (100Mb) et va servir de base à une présentation.
Advertisements

Module 5 : Implémentation de l'impression
Office 2007 – Développement client (5/5) OpenXML & Nouveautés de linterface Stéphane Crozatier Relation Technique Editeurs de Logiciels DPE - Microsoft.
Le séquençage à grande échelle au Genoscope
Génétique et évolution des systèmes de compatibilité de croisement dans le complexe d’espèces chêne sessile - chêne pédonculé ABADIE Pierre1, ROUSSEL Guy1,
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Bibliothèque J.N. Desmarais Comment exporter dans RefWorks janvier 2009.
ELEN0075: Electronique Analogique 2009
Analyse bioinformatique de données de séquençage NGS médicales
Logiciel de production des produits bovins
BIO1130 LAB 4 MICROÉVOLUTION.
Génétique adaptative des pathogènes
PROGRAMME ECOLE DE BIOINFORMATIQUE 14/18 JANVIER 2013 INITIATION AU TRAITEMENT DES DONNÉES DE GÉNOMIQUE OBTENUES PAR SÉQUENÇAGE À HAUT DÉBIT Dimanche.
Le centre de calcul de l'IN2P3 : une architecture pour le calcul intensif et le stockage de masse Pascal Calvat.
Formation Bio-informatique Apimet 2013
14/03/2011 United Nations Environment Programme World Conservation Monitoring Centre CCPAWA Knowledge management: Data portal and mapping tool Gestion.
Responsables P. Maury & R. Babilé
Bibliothèque J.N. Desmarais Comment exporter dans RefWorks septembre 2008.
TD Table traçante - Porte stylo Simulation d’injection plastique pour valider la conception MoldFlow Plastics Advisers version 8.0.
Identifier les composants structurels et fonctionnels encodés dans le génome humain.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.
Annotation de génomes complets
BIOS – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Vers une génération automatique du mapping de sources biomédicales
Des technologies variées et diverses :  Le support multimédia. Une association de l’écrit, de l’image fixe ou animée, de la vidéo et de l’audio (word,
Formation Bio-informatique IRD
Séquençage par hybridation
ELEN0075: Electronique Analogique 2009
La sélection assistée par marqueurs et
Formation Bio-informatique, 9 au 13 février 2015
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées, édition 2011 Comment le DwC-A a changé.
Introduction à la Pathologie Moléculaire du Gène
MISE EN PLACE D’UN PIPELINE DE TRAITEMENT
Un outil pour trouver les gènes et comprendre la pathologie moléculaire.
BENCHMARK JOBS Marie-Laure Rivier – January 2015.
Une nouvelle manière de visualiser le fichier de contrôle de System Automation LUDIWAC ® Helcia Conseil.
Analyse de données NGS par Galaxy
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
Auteur: Dr Clara BRICHANT-PETITJEAN
La génétique et la biométrie
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
Les banques de séquences nucléiques
Stabilité et Variabilité des génomes et Evolution
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
CHMI 4206 Bioinformatique appliquée
LES POLYMORPHISMES DU GENOME
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Biogéographie de poissons coralliens et de poissons dulçaquicoles de Cuba.
YOUR CENTRAL SOURCE FOR DATA EXCHANGE TranscenData Proprietary Confidential Support AP242 Solution d’Interopérabilité ITI TranscenData 26 Mars 2014 Vincent.
Apport de l’amplification multiplex puis séquençage NGS des 5 gènes majeurs de Cardiomyopathie Hypertrophique : Spectre des mutations et CNVs chez 1259.
Méthodes bioinformatiques pour l’analyse des mécanismes moléculaires associés à la résistance aux médicaments dans le cancer du sein.
Warwick Bailey Icodeon Ltd Cambridge, UK Icodeon SCORM 2004 Technologies Technologies Icodéon SCORM 2004 Warwick Bailey Icodéon SA Cambridge,
Décembre 2015 LSST-France Montpellier 7-8 décembre 2015.
La Génomique Présentation dans le cadre du cours BIN 6002
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
MDA ( Model Driven Architecture ). Introduction Model Driven Architecture ● Framework ● Développement de logiciels ● Object Management Group (OMG) ●
Master II BioInfo - Galaxy – Session Octobre 2017
Master II BioInfo - Galaxy – Session Décembre 2016
Master II BioInfo - Galaxy – Session Décembre 2016
Analyse de « l‘oligogénisme » dans le contexte des maladies rares.
Contexte Consortium Equipes impliquées Ref site web.
Formation Bio-informatique Apimet 2012
Ecriture de pipelines pour la recherche de néo-épitopes tumoraux
Transcription de la présentation:

Formation Bio-informatique IRD 2013 Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique IRD 2013

But du TP Short reads Solexa Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM Variations alléliques Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) Liste de SNP A/G 1998 T/C 2341 T/G Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes Assignation des génotypes Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, haplotypes) Design de puces Illumina Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode) Exploitation des données de polymorphismes

Formation Bio-informatique IRD 2013 Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy SouthGreen: FastQ Groomer PicardTools Mapping BWA GATK SAM assembly Add or Replace Groups BAM assembly including ReadGroups IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file Alexis Dereeper Formation Bio-informatique IRD 2013

Depth file Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) …. FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file 6 6

Formation Bio-informatique IRD 2013 Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique IRD 2013

Filtered VCF Depth file Phased VCF Fastq (RC1) Fastq (RC2) Fastq (RC3) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage ReadBackedPhasing VariantFiltration Phased VCF Filtered VCF VCF file Depth file 8 8

Formation Bio-informatique IRD 2013 Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique IRD 2013

Depth file Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) …. FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file 11 11

Charger fichier VCF, référence et fichier de profondeur Options de SNiPlay Cocher format VCF Charger fichier VCF, référence et fichier de profondeur Sélectionner génome du Riz La référence correspond aux mRNA 12 12

Cocher l’analyse de réseau d’haplotypes Options de SNiPlay Sélectionner Gevalt Cocher l’analyse de réseau d’haplotypes Cocher l’analyse d’arbre de distance 13 13

Formation Bio-informatique IRD 2013 Fichiers alléliques cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4 cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 Format PED Format DARwin @DARwin 5.0 - ALLELIC - 2 33 20 N° 50 50 122 122 218 218 245 245 261 261 290 290 356 1 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 1 1 3 3 1 3 4 4 2 2 2 3 1 1 1 1 3 3 3 3 4 4 2 2 2 4 1 1 1 1 3 3 3 3 4 4 2 2 2 Format .inp pour Phase Format pour TASSEL (génétique d’association) 33 10 P 49 121 217 244 260 289 SSSSSSSSSS #cARB A A G G T C C A T T #cSYR A A G A T C C A T C 33 10:2 50 122 218 245 261 290 356 461 467 560 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD 2013

Analyse de diversité Librairie SeqLib

Formation Bio-informatique IRD 2013 Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique IRD 2013

Formation Bio-informatique IRD 2013 Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique IRD 2013