Formation Bio-informatique Apimet 2012

Slides:



Advertisements
Présentations similaires
Colloque Traitement et Analyse de séquences : compte-rendu
Advertisements

PROGRAMME ECOLE DE BIOINFORMATIQUE 14/18 JANVIER 2013 INITIATION AU TRAITEMENT DES DONNÉES DE GÉNOMIQUE OBTENUES PAR SÉQUENÇAGE À HAUT DÉBIT Dimanche.
Formation Bio-informatique Apimet 2013
Formation Bio-informatique IRD
Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique IRD 2013
Analyse de données NGS par Galaxy
Recherche heuristique dans les bases de données L’algorithme BLAST
Les banques de séquences nucléiques
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
MDA ( Model Driven Architecture ). Introduction Model Driven Architecture ● Framework ● Développement de logiciels ● Object Management Group (OMG) ●
Portage d'une application sur GPU CreditCruncher.
TEST D’HYPOTHESE POUR H->gg Tatiana Cervero, Francesco Polci.
Introduction La génétique initiée par Gregor Mendel (génétique mendelienne), a pour objectif: Comprendre le déterminisme et la transmission des caractères.
Master II BioInfo - Galaxy – Session Octobre 2017
Master II BioInfo - Galaxy – Session Décembre 2016
Mise en place d’un système de partage de fichiers
Module de gestion des tournées de livraison
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem
Duplication du génome du poisson teleost
Master II BioInfo - Galaxy – Session Décembre 2016
L'âge génomique? Une introduction à la génomique humaine
Les chromosomes Dr K Sifi Faculté de médecine UC3
Approches génomiques - TD 2 L3 – BCP ALIGNEMENTS ET PHYLOGENIE
Analyse de « l‘oligogénisme » dans le contexte des maladies rares.
METHODES DE DETECTION DES OGM DANS LES ALIMENTS
Séquençage d’une région ciblée en relation avec le développement musculaire dans la race bovine Limousine. Colloque ATC 2017.
D’où proviennent les nouveaux groupes et les nouvelles espèces ?
Contexte Consortium Equipes impliquées Ref site web.
Projet 1789 : Plateforme d'enseignement innovante
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Math: La semaine de Jan 15th
Technologies de l’intelligence d’affaires
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Technologies de l’intelligence d’affaires Séance 11
TP logiciel QGIS
Fonctionnement de la grille
Les répétitions en tandem et l ’étude des génomes
Technologies de l’intelligence d’affaires Séance 12
Chapitre 2 : La nature du vivant ADN et information génétique.
CeMEB La plateforme MBB
Global Tags Idées : Contient toutes les conditions du détecteur afin d’avoir une cohérence entre analyses de CMS (reproductibilité a 100%). Idéalement,
BCM3531- Outils Bio-informatiques
Note 1 : Tous les rapports de T. P
Logiciel De Visu INRP IFE ( ).
ACP Analyse en Composantes Principales
Pierre Dumouchel 20 juillet 2009
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Generating Random Genomic Sequences and Structures with GenRGenS
TP9 : LES EMPREINTES GENETIQUES Comparaison d’ADN
FENIX Aperçu GLOBAL DU Système
TGV Trigger Générique Vme Face avant Tri d’événements de physique
Modification de la diversité génétique au cours du temps.
Un outil pour découper les arbres ROOT
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Introduction aux Technologies de Transmission 5eme Année - IGE Communication Multimédia Mrs Rerbal & Djelti.
TITRE Développement d’une étude d’association du génome basée sur la diversité génétique et phénotypique du café Arabica d’Ethiopie Sous-titre:GWASCOA.
Programme d’appui à la gestion publique et aux statistiques
NGL-BI 09 Novembre avril 2019 CEA | 10 AVRIL 2012
Plate-forme Régionale de Biologie Innovante
Matrices.
Ecriture de pipelines pour la recherche de néo-épitopes tumoraux
Notions d'architecture client-serveur. Présentation de l'architecture d'un système client/serveur Des machines clientes contactent un serveur qui leur.
L’outil bio-informatique pour la génomique structurale
INTELLIGENCE ARTIFICIELLE
Journée 2ème: introduction
Implémentation de FTP Rappel sur FTP Relation entre un site Web et FTP
Comparaison des isotopes H− et D− par RX dans 7LiH et 7LiD
Création d une application pour la détection des personnage par les empreintes digitale 1.
Transcription de la présentation:

Formation Bio-informatique Apimet 2012 Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique Apimet 2012

But du TP Short reads Solexa Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM Variations alléliques Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) Liste de SNP A/G 1998 T/C 2341 T/G Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes Assignation des génotypes Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, DL) Design de puces Illumina Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode) Exploitation des données de polymorphismes

Formation Bio-informatique Apimet 2012 Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique Apimet 2012

FASTA alignments with IUPAC Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy SouthGreen: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file FASTA alignments with IUPAC UnifiedGenotyper Pileup2snp VCF file SNP tabular file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Varscan Logiciel de détection de SNP à partir de fichier Pileup : Pileup2snp Il existe aussi Pileup2indel mais non implémenté encore dans Galaxy SouthGreen Format Pileup Fichier texte décrivant pour chaque position: la base de la référence, la profondeur, les variations, la qualité seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<& seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+ seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6 seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<< seq1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6< seq1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&< seq1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<< seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<< Alexis Dereeper Formation Bio-informatique Apimet 2012

Pour l’estimation de l’hétérozygotie SamToFastaAlignments: Utilitaire SNiPlay permettant la gestion de données NGS Mapping: Format SAM Valeurs seuil par génotype Assemblage: Format Ace Profondeur Fréquence Profondeur CL1Contig1 génotype1 1 1 génotype2 4 0.3 2 génotype3 4 0.3 2 Seuils profondeur Seuil Profondeur Hétérozygotie Pour l’estimation de l’hétérozygotie Pour la position Pour chaque contig Rester prudent avec les transfert d’annotation d’espèces à espèces… Liste de positions hétérozygotes Stats: estimation de l’hétérozygotie moyenne par génotype Alignements Fasta avec code IUPAC + + CL1Contig1.align.fa A A Y T W + CL1Contig2.align.fa , CL2Contig1.align.fa … Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique Apimet 2012

Global SAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam SAM with read group SAM with read group SAM with read group SAM with read group mergeSam Global SAM with read group SAM-to-BAM IndelRealigner UnifiedGenotyper VCF file 8 8

Global SAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Fastq global FastQ Groomer Mapping BWA AddReadGroupIntoSam Global SAM with read group SAM-to-BAM IndelRealigner UnifiedGenotyper VCF file 9 9

Formation Bio-informatique Apimet 2012 Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique Apimet 2012

FASTA alignments with IUPAC Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file FASTA alignments with IUPAC UnifiedGenotyper Pileup2snp VCF file SNP tabular file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique Apimet 2012

Sélectionner génome du Riz Options de SNiPlay Cocher format VCF Charger fichier VCF Charger référence Sélectionner génome du Riz 14 14

Formation Bio-informatique Apimet 2012 Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2012

Formation Bio-informatique Apimet 2012 Fichiers alléliques cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4 cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 Format PED Format DARwin @DARwin 5.0 - ALLELIC - 2 33 20 N° 50 50 122 122 218 218 245 245 261 261 290 290 356 1 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 1 1 3 3 1 3 4 4 2 2 2 3 1 1 1 1 3 3 3 3 4 4 2 2 2 4 1 1 1 1 3 3 3 3 4 4 2 2 2 Format .inp pour Phase Format pour TASSEL (génétique d’association) 33 10 P 49 121 217 244 260 289 SSSSSSSSSS #cARB A A G G T C C A T T #cSYR A A G A T C C A T C 33 10:2 50 122 218 245 261 290 356 461 467 560 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique Apimet 2012

Analyse de diversité Librairie SeqLib

Formation Bio-informatique Apimet 2012 Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique Apimet 2012