Formation Bio-informatique IRD

Slides:



Advertisements
Présentations similaires
Gérer les besoins, attentes et exigences des consommateurs pour offrir un service Haut débit de qualité BROADBAND AFRICA SUMMIT 2009 Dakar, Sénégal 28,
Advertisements

« Leçon portant sur les programmes des collèges »
Le séquençage à grande échelle au Genoscope
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
La gestion électronique des documents
Serveur jeu Le serveur fait partie d'un logiciel de jeu en ligne multi joueur en architecture client serveur. Il répond à des demandes.
Génétique et évolution des systèmes de compatibilité de croisement dans le complexe d’espèces chêne sessile - chêne pédonculé ABADIE Pierre1, ROUSSEL Guy1,
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Le File Transfer Protocol
VI50 – TP3 Introduction à Virtools. Virtools Virtools Media Design 3DS, Maya, Lightwave… Sound Design wav, mp3… Texture, 2D interface jpg, bmp… Specific.
Introduction à Virtools
Référence directe non sécurisée à un objet
Analyse bioinformatique de données de séquençage NGS médicales
LI.E.T. Notre-Dame Charleroi LI.E.T. Notre-Dame Charleroi.
MODULE ER13 PROJET INFORMATIQUE DEVELOPPEMENT en EQUIPE
Formation Centra - GDE.
Service Commun Informatique
PROGRAMME ECOLE DE BIOINFORMATIQUE 14/18 JANVIER 2013 INITIATION AU TRAITEMENT DES DONNÉES DE GÉNOMIQUE OBTENUES PAR SÉQUENÇAGE À HAUT DÉBIT Dimanche.
Formation Bio-informatique Apimet 2013
par Bernard Maudhuit Anne-Marie Droit
Sommaire Objectif de Peakup Principes de fonctionnement
BERNARDIN Benoît Lycée Louis Pergaud
Travail Pratique – Conception et analyse d’algorithmes
Traitement de l'information chez les organismes vivants
Présentation du mémoire
IFT 6800 Atelier en Technologies d’information
Éditions. Permet d'accéder Aux divers journaux et documents comptables Aux éditions fiscales annuelles À une représentation graphique de l'ensemble de.
Spécification géométrique des produits
Calcul et analyse 3D de Tolérances dés l’Avant Projet
Le flux RSS Symbole du flux RSS..
Informatique et Internet
La souris danse Espace Régional Internet Citoyen.
Retour dexpérience Supportech INSA.NET Daniel Boteanu – Michaël Piffret.
RefWorks: gestionnaire de références bibliographiques Par Isabelle Lorrain, MSI Janvier 2005 Bibliothèque Saint-Jean.
CBGP Groupes de réflexion ► Taxonomie systématique et phylogénie
Ch 7 Travail et énergie 1 – Travail d’une force constante
CSC All Reserved, Usinor Leading to Succes with CSC in the Business Intelligence Projects BW Petit Bateau 28 février 2002.
Integration des pipelines d’analyse
La production informatique sécurisée et simplifiée
Troisième rencontre du club des utilisateurs du PICC
1.  Une stratégie pour quoi ?  Dans la peau d’un robot  Objectifs pour les semaines à venir  Application pratique sur des manipulations 2.
Micro Informatique au Cellier
La génétique et la biométrie
Plateforme Génomique du RSR du FRSQ Dirigée par Catherine Laprise, Ph.D.
0 Objectifs de la session n°1  Revenir sur toutes les bases théoriques nécessaires pour devenir un développeur Web,  Découvrir l’ensemble des langages.
Être programmeur(e)-analyste, c’est... Rencontrer plein de personnes...  Discuter, réfléchir et trouver des solutions seul ou en équipe...  Avoir un.
Utilisation de la tablette IPAD
Séquençage par hybridation
Formation Bio-informatique, 9 au 13 février 2015
Projet BAC Application d’orientation Chenus Cordonnier Perez Robert.
SMIL Synchronized Multimedia Integration Language
1 REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUPERIEURE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS.
Tableur 1.Concept : Un tableur permet de manipuler des données, de le présenter, de les trier et d'effectuer automatiquement des calculs sur des nombres.
Un outil pour trouver les gènes et comprendre la pathologie moléculaire.
Visualisation d’un entrepôt de données Pré soutenance technique
Formation Bio-informatique IRD 2013
Analyse de données NGS par Galaxy
But maîtriser les concepts programmation objets découvrir Java
Des outils d’aide à la différenciation
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Plan de la présentation Le langage HTML Dreamweaver MX Les premiers outils pour créer une page web :  Propriétés d’une page  Création de cadres  Création.
Office 2007 – Développement client (3/5) OpenXML & Nouveautés de l’interface Stéphane Crozatier Relation Technique Editeurs de Logiciels DPE - Microsoft.
Master II BioInfo - Galaxy – Session Octobre 2017
Master II BioInfo - Galaxy – Session Décembre 2016
Analyse de « l‘oligogénisme » dans le contexte des maladies rares.
Formation Bio-informatique Apimet 2012
Ecriture de pipelines pour la recherche de néo-épitopes tumoraux
Transcription de la présentation:

Formation Bio-informatique IRD Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique IRD

But du TP Short reads Solexa Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM Variations alléliques Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) Liste de SNP A/G 1998 T/C 2341 T/G Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes Assignation des génotypes Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, DL) Design de puces Illumina Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode) Exploitation des données de polymorphismes

Formation Bio-informatique IRD Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique IRD

FASTA alignments with IUPAC Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file CountCovariates FASTA alignments with IUPAC TableRecalibration Pileup2snp UnifiedGenotyper SNP tabular file VCF file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Varscan Logiciel de détection de SNP à partir de fichier Pileup : Pileup2snp Il existe aussi Pileup2indel mais non implémenté encore dans Galaxy SouthGreen Format Pileup Fichier texte décrivant pour chaque position: la base de la référence, la profondeur, les variations, la qualité seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<& seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+ seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6 seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<< seq1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6< seq1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&< seq1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<< seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<< Alexis Dereeper Formation Bio-informatique IRD

Pour l’estimation de l’hétérozygotie SamToFastaAlignments: Utilitaire SNiPlay permettant la gestion de données NGS Mapping: Format SAM Valeurs seuil par génotype Assemblage: Format Ace Profondeur Fréquence Profondeur CL1Contig1 génotype1 1 1 génotype2 4 0.3 2 génotype3 4 0.3 2 Seuils profondeur Seuil Profondeur Hétérozygotie Pour l’estimation de l’hétérozygotie Pour la position Pour chaque contig Rester prudent avec les transfert d’annotation d’espèces à espèces… Liste de positions hétérozygotes Stats: estimation de l’hétérozygotie moyenne par génotype Alignements Fasta avec code IUPAC + + CL1Contig1.align.fa A A Y T W + CL1Contig2.align.fa , CL2Contig1.align.fa … Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique IRD

Global SAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam AddReadGroupIntoSam SAM with read group SAM with read group SAM with read group SAM with read group mergeSam Global SAM with read group SAM-to-BAM IndelRealigner CountCovariates TableRecalibration UnifiedGenotyper VCF file 8 8

Global SAM with read group Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Fastq global FastQ Groomer Mapping BWA AddReadGroupIntoSam Global SAM with read group SAM-to-BAM IndelRealigner CountCovariates TableRecalibration UnifiedGenotyper VCF file 9 9

Formation Bio-informatique IRD Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique IRD

FASTA alignments with IUPAC Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy: 3 alternatives FastQ Groomer PicardTools Mapping BWA SamTools GATK SAM assembly VarScan AddReadGroupIntoSam SAM-to-BAM SNiPlay Utilities Generate Pileup SAM-to-BAM SamToFastaAlignments IndelRealigner Pileup file CountCovariates FASTA alignments with IUPAC TableRecalibration Pileup2snp UnifiedGenotyper SNP tabular file VCF file VCFToFastaAlignments Alexis Dereeper Formation Bio-informatique IRD

Sélectionner génome du Riz Options de SNiPlay Cocher format VCF Charger fichier VCF Charger référence Sélectionner génome du Riz 14

Formation Bio-informatique IRD Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Annotation des SNPs Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Fichiers alléliques cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4 cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 Format PED Format DARwin @DARwin 5.0 - ALLELIC - 2 33 20 N° 50 50 122 122 218 218 245 245 261 261 290 290 356 1 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 1 1 3 3 1 3 4 4 2 2 2 3 1 1 1 1 3 3 3 3 4 4 2 2 2 4 1 1 1 1 3 3 3 3 4 4 2 2 2 Format .inp pour Phase Format pour TASSEL (génétique d’association) 33 10 P 49 121 217 244 260 289 SSSSSSSSSS #cARB A A G G T C C A T T #cSYR A A G A T C C A T C 33 10:2 50 122 218 245 261 290 356 461 467 560 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique IRD

Analyse de diversité Librairie SeqLib

Formation Bio-informatique IRD Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Alexis Dereeper Formation Bio-informatique IRD