Formation Bio-informatique Apimet 2013

Slides:



Advertisements
Présentations similaires
New opportunities offered by APHLIS 3 Les nouvelles opportunities qui soffrent avec APHLIS 3 JRC.
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
1 La bibliométrie pour l'évaluation stratégique des institutions de recherche : usages et limites Indicators for strategic positioning of the research.
Le séquençage à grande échelle au Genoscope
Environmental Data Warehouse Cemagref, UR TSCF, TR MOTIVE 2011 – projet Miriphyque.
Quest-ce que léducation du patient ? Chap. 1 – Q1.2 – Séq. 3 : Jeu de la matrice.
L’outil bio-informatique pour la génomique structurale
Les numéros
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Les identités remarquables
Prepositions Lesson Objectives: In this lesson you will learn how to use prepositions and their meaning.
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
IST et VIH Les chiffres en 2011
interaction in the .LRN platform
1 U.S. Census Bureau International Programs Center Microcomputer Processing of Census and Surveys (using the Census and Survey Processing.
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
Status report SOLEIL April 2008
Une autre méthode de génomique inverse : TILLING (targeted induced local lesins in genomes, Comai, Henikoff, 2001) Applicable a tous organismes, produit.
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
1 La veille informationnelle en sciences de léducation Par Isabelle Lorrain, bibliothécaire Bibliothèque des sciences humaines.
Nom du module Date Lieu de la formation. 2 Genèse du projet Historique, partenaires, publics Pour qui ? Pourquoi ? Qui ? Comment ? Quand ?
Processworks / 3DQuikForm Présentation Denis AUGUSTE Lycée de Lorgues.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Defence R&D Canada R et D pour la défense Canada Novel Concepts for the COP of the Future Denis Gouin Alexandre Bergeron-Guyard DRDC Valcartier.
Quelques rappels et quelques nouveautés (BIO2 poly 1)
CONCOURS DE CONAISSANCE 4 Français I Mars Il ________ la géographie (to learn).
Frédéric MonneyElias Medawar Superviseurs: Houda Chabbi Drissi et François Kilchoer 3D-Rock.
10 Copyright © Oracle Corporation, Tous droits réservés. Autres concepts relatifs aux déclencheurs.
L’Heure Telling Time.
How to solve biological problems with math Mars 2012.
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
L article fondateur: Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M, Snyder M. (2008) The transcriptional landscape of the yeast genome defined.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
1. Les structures de documentation pour la division ST. 2. Les types de document dans la division ST. 3. Linterface informatique. Lundi 8 Mai 2000 ST Quality.
Systèmes mécaniques et électriques
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1 CSI 2532 Lab5 Installation de JDBC Février 13, 2012.
Le Standardized Work PSE Trainer-version 3 – sept 2004 Alain Prioul 29 Octobre 2004.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Marketing électronique Cours 5 La personnalisation.
Le Baromètre Zone Cours : un environnement pour la micro-évaluation de ressources pédagogiques* Jacques Raynauld Olivier Gerbé HEC Montréal, MATI Montréal.
1 INETOP
Les nombres.
Fabienne Boyer Laboratoire LIG (INRIA-UJF-INPG) Projet SARDES, INRIA Rhône-Alpes Usage.
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Réseaux de nouvelle génération et Internet : propositions pour le futur Alistair URIE Membre du Board d’ETSI Président du groupe de réflexion d’ETSI sur.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Leçons To attend Assister à 2. To fish.
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Nom:____________ Prénom: ___________
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
9 paires séries de 3 étuis ( n° 1 à 27 )
Formation Bio-informatique IRD
Formation Bio-informatique, 9 au 13 février 2015
Formation Bio-informatique IRD 2013
Analyse de données NGS par Galaxy
Master II BioInfo - Galaxy – Session Décembre 2016
Analyse de « l‘oligogénisme » dans le contexte des maladies rares.
Contexte Consortium Equipes impliquées Ref site web.
Formation Bio-informatique Apimet 2012
Transcription de la présentation:

Formation Bio-informatique Apimet 2013 Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique Apimet 2013

But du TP Short reads Solexa Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM Variations alléliques Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) Liste de SNP A/G 1998 T/C 2341 T/G Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes Assignation des génotypes Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, DL) Design de puces Illumina Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode) Exploitation des données de polymorphismes

Formation Bio-informatique Apimet 2013 Tablet Outil graphique de visualisation d’assemblage de données NGS Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 GATK (Genome Analysis ToolKit) Librairie logicielle pour l'analyse de données NGS. Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy SouthGreen: FastQ Groomer PicardTools Mapping BWA GATK SAM assembly Add or Replace Groups BAM assembly including ReadGroups IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file Alexis Dereeper Formation Bio-informatique Apimet 2013

Depth file Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) …. FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file 6 6

Formation Bio-informatique Apimet 2013 Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique Apimet 2013

Filtered VCF Depth file Phased VCF Fastq (RC1) Fastq (RC2) Fastq (RC3) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage ReadBackedPhasing VariantFiltration Phased VCF Filtered VCF VCF file Depth file 8 8

Formation Bio-informatique Apimet 2013 Autres fonctionalités GATK Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique Apimet 2013

Depth file Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) …. FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file 11 11

Charger fichier de profondeur Options de SNiPlay Cocher format VCF Charger fichier VCF Charger référence Charger fichier de profondeur Sélectionner génome du Riz 12 12

Formation Bio-informatique Apimet 2013 Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2013

Formation Bio-informatique Apimet 2013 Fichiers alléliques cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4 cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 Format PED Format DARwin @DARwin 5.0 - ALLELIC - 2 33 20 N° 50 50 122 122 218 218 245 245 261 261 290 290 356 1 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 1 1 3 3 1 3 4 4 2 2 2 3 1 1 1 1 3 3 3 3 4 4 2 2 2 4 1 1 1 1 3 3 3 3 4 4 2 2 2 Format .inp pour Phase Format pour TASSEL (génétique d’association) 33 10 P 49 121 217 244 260 289 SSSSSSSSSS #cARB A A G G T C C A T T #cSYR A A G A T C C A T C 33 10:2 50 122 218 245 261 290 356 461 467 560 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique Apimet 2013

Analyse de diversité Librairie SeqLib

Formation Bio-informatique Apimet 2013 Haplotypes fréquents Haplotype peu fréquent Distribution des groupes Au sein de cet haplotype Distance séparant les 2 haplotypes (nb de mutations) Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique Apimet 2013