Formation Bio-informatique, 9 au 13 février 2015 Exploitation des données de polymorphismes SNP A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire d’autres packages: SamTools, PicardTools, VCFtools, BEDtools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Global BAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Cutadapt Cutadapt Cutadapt Cutadapt …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group VCF file 4 4
Formation Bio-informatique, 9 au 13 février 2015 Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Format Pileup Autre format utilisé pour l’appel de variants (généré par les samtools) Décrit l’alignement par colonne (et non par lignes comme le format SAM) Utilisé par des logiciels comme VarScan (varscan pileup2snp) Utilisé davantage pour la recherche de variants rares, à faible fréquence (e.g. pop virales) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Projet Gigwa, pour la gestion des données massives de variants (GBS, RADSeq, WGRS) « With NGS arise serious computational challenges in terms of storage, search, sharing, analysis, and data visualization, that redefine some practices in data management. » - Based on NoSQL technology - Handles VCF files (Variant Call Format) and annotations - Supports multiple variant types: SNPs, InDels, SSRs, SV - Powerful genotyping queries - Easily scalable with MongoDB sharding - Transparent access - Takes phasing information into account when importing/exporting in VCF format Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. http://gigwa.southgreen.fr/gigwa/ A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Upload du fichier VCF dans SNiPlay Charger fichier VCF (+ référence si non disponible dans les génomes) Sélectionner génome du Riz La référence correspond aux mRNA 11 11
Formation Bio-informatique, 9 au 13 février 2015 Annotation des SNPs par le logiciel SnpEff A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Analyse de diversité Librairie EggLib
Formation Bio-informatique, 9 au 13 février 2015 Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 GWAS (Genome-Wide Association Studies) Permet d’estimer l’association entre un marqueur et un caractère phénotypique Manhattan plots: permettent d’afficher les tests statistiques GWAS (-log10 pvalue) le long des chromosomes Logiciels TASSEL, MLMM Faux-positifs du fait d’une structuration du panel étudié => Importance d’une correction par la structure de populations et la kinship A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Analyse de structure de populations Test different values of K (estimates of probability that samples are structured in K populations) For the best value of K, the application shows Q estimates for each individual (admixture percent) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 Analyse d’apparentement entre individus (matrice de kinship) Logiciel TASSEL et plink Mesure le degré d’apparentement entre individus par une matrice de distance A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique, 9 au 13 février 2015 TD: Etude de caractères racinaires par GWAS chez le Riz japonica. Influence d’une correction par la structure et kinship A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015