Formation Bio-informatique, 9 au 13 février 2015

Slides:



Advertisements
Présentations similaires
L’exemple du « run Auto SEQ-15 18 » correspond au séquençage d’un génome bactérien (environ 4Mb) sur une puce 316 (100Mb) et va servir de base à une présentation.
Advertisements

Génétique et évolution des systèmes de compatibilité de croisement dans le complexe d’espèces chêne sessile - chêne pédonculé ABADIE Pierre1, ROUSSEL Guy1,
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
POLYMORPHISME GENETIQUE
External Communication Plan Energy Europe Division March 2009
BIO1130 LAB 4 MICROÉVOLUTION.
Génétique adaptative des pathogènes
PROGRAMME ECOLE DE BIOINFORMATIQUE 14/18 JANVIER 2013 INITIATION AU TRAITEMENT DES DONNÉES DE GÉNOMIQUE OBTENUES PAR SÉQUENÇAGE À HAUT DÉBIT Dimanche.
Formation Bio-informatique Apimet 2013
14/03/2011 United Nations Environment Programme World Conservation Monitoring Centre CCPAWA Knowledge management: Data portal and mapping tool Gestion.
How to solve biological problems with math Mars 2012.
Genotypic data: concepts and meanings
Girls and Boys, Women and Men - respecting differences, promoting equality and sharing responsibility Filles et garçons, femmes et hommes - respecter les.
Responsables P. Maury & R. Babilé
HAMM Flore HAXAIRE Cécile LISKA Claire MENDES Agnès
Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
1Philippe Bardou – Séminaire GA/GAP – Transcriptôme et Statistiques associées – 12 juin 2008 Gestion des données - BASE.
Lesson 07.04: Le verbe faire Lesson 07.05: Le négatif French 1 Segment 2.
Formation Bio-informatique IRD
La sélection assistée par marqueurs et
Introduction à la Pathologie Moléculaire du Gène
Déterminisme génétique des caractères quantitatifs :
MIGRATION DE BASE DE DONNÉES la méthode générale
Projet Gondola. Rationale The medical device sector accounts for $ 165 billion in worldwide revenues per year According to the FDA, there are more than.
GLOBE Software Global Oceanography and Bathymetry Explorer IFREMER
BENCHMARK JOBS Marie-Laure Rivier – January 2015.
Formation Bio-informatique IRD 2013
Interro: Chapitre 3 Choose the adjective that does not belong. 1. bruns blancs marrants blonds 2.noir gentil vert bleu 3.méchant sympa gentil génial.
D Pallin 5/03/ Réunion groupe ATLAS-LPC 9/03/2009.
Analyse de données NGS par Galaxy
Concepts fondamentaux: statistiques et distributions
Seismology with PICARD: first investigations P. Boumier ; T. Corbard Contribution or inputs from: T. Appourchaux,C. Dufour, C. Grec, A. Irbah, JP Marcovici,
La Vie Quotidienne CULTURE ASSIMILATOR 5 How do you get to school? What happens when you arrive late to school? Is it easy to leave school during the.
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Welcome everyone.
CROSSMARC The Cross-lingual Multi Agent Retail Comparison Edinburgh, March 2001.
Analyse Technique : application "semi-linéaire"
La génétique et la biométrie
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
EDHEC OPEN INNOVATION 2016 #OpenInno 2016 [Bus. Case title – Company] Company LOGO.
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
French 1 Chapter 2 Grammar 2
CHMI 4206 Bioinformatique appliquée
L’outil de suivi des incidents et des demandes
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Negative sentences Questions
Contractions with the Prepositions à and de. Differences and Similarities Faire du vélo Faire de la vidéo Jouer au golf Jouer aux cartes Each verb takes.
Biogéographie de poissons coralliens et de poissons dulçaquicoles de Cuba.
outLyzer Logiciel de détection des mutations à ratio allélique faible
YOUR CENTRAL SOURCE FOR DATA EXCHANGE TranscenData Proprietary Confidential Support AP242 Solution d’Interopérabilité ITI TranscenData 26 Mars 2014 Vincent.
Méthodes bioinformatiques pour l’analyse des mécanismes moléculaires associés à la résistance aux médicaments dans le cancer du sein.
Warwick Bailey Icodeon Ltd Cambridge, UK Icodeon SCORM 2004 Technologies Technologies Icodéon SCORM 2004 Warwick Bailey Icodéon SA Cambridge,
SCOR DATACAP Project Présentation club utilisateur 03/02/
COURS INTERMEDIAIRE LES TABLEAUX LES GRAPHIQUES ET LA VALIDATION DES DONNEES EXCEL 1 NSAIBIRNI ROBERT F. JR.
Resource allocation: what can we learn from HPC? 20 janvier 2011 Vincent Breton Crédit: Catherine Le Louarn.
Technology Module.  Technology is the application of knowledge and skills to make goods or to provide services.  It includes the tools and machines.
The imparfait can be translated several ways into English.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
Master II BioInfo - Galaxy – Session Décembre 2016
Master II BioInfo - Galaxy – Session Décembre 2016
Analyse de « l‘oligogénisme » dans le contexte des maladies rares.
Formation Bio-informatique Apimet 2012
High-Availability Linux Services And Newtork Administration Bourbita Mahdi 2016.
Transcription de la présentation:

Formation Bio-informatique, 9 au 13 février 2015 Exploitation des données de polymorphismes SNP A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire d’autres packages: SamTools, PicardTools, VCFtools, BEDtools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Global BAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Cutadapt Cutadapt Cutadapt Cutadapt …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group VCF file 4 4

Formation Bio-informatique, 9 au 13 février 2015 Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Format Pileup Autre format utilisé pour l’appel de variants (généré par les samtools) Décrit l’alignement par colonne (et non par lignes comme le format SAM) Utilisé par des logiciels comme VarScan (varscan pileup2snp) Utilisé davantage pour la recherche de variants rares, à faible fréquence (e.g. pop virales) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Projet Gigwa, pour la gestion des données massives de variants (GBS, RADSeq, WGRS) « With NGS arise serious computational challenges in terms of storage, search, sharing, analysis, and data visualization, that redefine some practices in data management. » - Based on NoSQL technology - Handles VCF files (Variant Call Format) and annotations - Supports multiple variant types: SNPs, InDels, SSRs, SV - Powerful genotyping queries - Easily scalable with MongoDB sharding - Transparent access - Takes phasing information into account when importing/exporting in VCF format Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. http://gigwa.southgreen.fr/gigwa/ A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Upload du fichier VCF dans SNiPlay Charger fichier VCF (+ référence si non disponible dans les génomes) Sélectionner génome du Riz La référence correspond aux mRNA 11 11

Formation Bio-informatique, 9 au 13 février 2015 Annotation des SNPs par le logiciel SnpEff A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Analyse de diversité Librairie EggLib

Formation Bio-informatique, 9 au 13 février 2015 Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 GWAS (Genome-Wide Association Studies) Permet d’estimer l’association entre un marqueur et un caractère phénotypique Manhattan plots: permettent d’afficher les tests statistiques GWAS (-log10 pvalue) le long des chromosomes Logiciels TASSEL, MLMM Faux-positifs du fait d’une structuration du panel étudié => Importance d’une correction par la structure de populations et la kinship A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Analyse de structure de populations Test different values of K (estimates of probability that samples are structured in K populations) For the best value of K, the application shows Q estimates for each individual (admixture percent) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 Analyse d’apparentement entre individus (matrice de kinship) Logiciel TASSEL et plink Mesure le degré d’apparentement entre individus par une matrice de distance A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015

Formation Bio-informatique, 9 au 13 février 2015 TD: Etude de caractères racinaires par GWAS chez le Riz japonica. Influence d’une correction par la structure et kinship A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015