La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Formation Bio-informatique IRD

Présentations similaires


Présentation au sujet: "Formation Bio-informatique IRD"— Transcription de la présentation:

1 Formation Bio-informatique IRD
Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique IRD

2 But du TP Short reads Solexa Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM Variations alléliques Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) Liste de SNP A/G 1998 T/C 2341 T/G Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes Assignation des génotypes Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, DL) Design de puces Illumina Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode) Exploitation des données de polymorphismes

3 Formation Bio-informatique IRD
Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique IRD

4 FASTA alignments with IUPAC
Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file CountCovariates FASTA alignments with IUPAC TableRecalibration Pileup2snp UnifiedGenotyper SNP tabular file VCF file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique IRD

5 Formation Bio-informatique IRD
Varscan Logiciel de détection de SNP à partir de fichier Pileup : Pileup2snp Il existe aussi Pileup2indel mais non implémenté encore dans Galaxy SouthGreen Format Pileup Fichier texte décrivant pour chaque position: la base de la référence, la profondeur, les variations, la qualité seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<& seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+ seq1 274 T 23 ,.$....,,.,.,...,,,., <7;<;<<<<<<<<<=<;<;<<6 seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<< seq1 276 G T,,.,.,...,,,., ;+<<7=7<<7<&<<1;<<6< seq1 277 T ,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&< seq1 278 G ,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<< seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<< Alexis Dereeper Formation Bio-informatique IRD

6 Pour l’estimation de l’hétérozygotie
SamToFastaAlignments: Utilitaire SNiPlay permettant la gestion de données NGS Mapping: Format SAM Valeurs seuil par génotype Assemblage: Format Ace Profondeur Fréquence Profondeur CL1Contig1 génotype1 1 1 génotype2 4 0.3 2 génotype3 4 0.3 2 Seuils profondeur Seuil Profondeur Hétérozygotie Pour l’estimation de l’hétérozygotie Pour la position Pour chaque contig Rester prudent avec les transfert d’annotation d’espèces à espèces… Liste de positions hétérozygotes Stats: estimation de l’hétérozygotie moyenne par génotype Alignements Fasta avec code IUPAC + + CL1Contig1.align.fa A A Y T W + CL1Contig2.align.fa , CL2Contig1.align.fa … Alexis Dereeper Formation Bio-informatique IRD

7 Formation Bio-informatique IRD
GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique IRD

8 Global SAM with read group
Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam SAM with read group SAM with read group SAM with read group SAM with read group mergeSam Global SAM with read group SAM-to-BAM IndelRealigner CountCovariates TableRecalibration UnifiedGenotyper VCF file 8 8

9 Global SAM with read group
Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Fastq global FastQ Groomer Mapping BWA AddReadGroupIntoSam Global SAM with read group SAM-to-BAM IndelRealigner CountCovariates TableRecalibration UnifiedGenotyper VCF file 9 9

10 Formation Bio-informatique IRD
Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate= ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA NA00002 rs G A PASS NS=3;DP=14;AF=0.5;DB;H GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 T A q10 NS=3;DP=11;AF= GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique IRD

11 Formation Bio-informatique IRD
Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique IRD

12 Formation Bio-informatique IRD
SNiPlay: application Web pour l’analyse du polymorphisme Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique IRD

13 FASTA alignments with IUPAC
Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file CountCovariates FASTA alignments with IUPAC TableRecalibration Pileup2snp UnifiedGenotyper SNP tabular file VCF file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique IRD

14 Sélectionner génome du Riz
Options de SNiPlay Cocher format VCF Charger fichier VCF Charger référence Sélectionner génome du Riz 14

15 Formation Bio-informatique IRD
Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique IRD

16 Formation Bio-informatique IRD
Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique IRD

17 Formation Bio-informatique IRD
Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD

18 Formation Bio-informatique IRD
Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD

19 Formation Bio-informatique IRD
Fichiers alléliques cARB cSYR cARA Format PED Format DARwin @DARwin ALLELIC - 2 33 20 N° Format .inp pour Phase Format pour TASSEL (génétique d’association) 33 10 P SSSSSSSSSS #cARB A A G G T C C A T T #cSYR A A G A T C C A T C 33 10:2 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique IRD

20 Analyse de diversité Librairie SeqLib

21 Formation Bio-informatique IRD
Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique IRD

22 Formation Bio-informatique IRD
Alexis Dereeper Formation Bio-informatique IRD


Télécharger ppt "Formation Bio-informatique IRD"

Présentations similaires


Annonces Google