Contexte biologique et données L'analyse de la qualité Les traitements

Slides:



Advertisements
Présentations similaires
1 Etude Statique sur l’axe horizontal du berce BB.
Advertisements

Volée 1316 S3 Cours No 2_3 : Le nombre en 1-2H. Les fonctions du nombre  Dénombrer, énumérer, décrire une collection. Aspect cardinal  Dater, classer,
Valeurs de toutes les différences observables sous H0
Exposé : Les arbres phylogénétiques
Inégalités culturelles Réalités et perceptions
Première partie : La droite de budget
Collège Lionel-Groulx
Ecriture collaborative d’une dissertation en classe
Division de la Planification et de la Recherche en Collecte
Plateforme CountrySTAT Aperçu global de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.
Reprise du cours ( ) Aujourd’hui :
Contribution: Revue des études, enquêtes et systèmes d’informations disponibles au niveau de l’INS, pour alimenter la méthode d’analyse et la cartographie.
Evaluation de la qualité en formation
Les cellules sexuelles
Direction Régionale Tanger- Tétouan مديــرية جهــة طنجــة – تطــوان
TP21 Bilan activité 1 : La Spécificité des Ac
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Mutations.
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
4ème séminaire annuel de CABRI
Anne Burban – Anne Szymczak
Les hélices des protéines transmembranaires
Stabilité et Variabilité des génomes et Evolution
Méthode Taguchy Analyse de la variance Anavar
Stabilité des porteurs horizontaux (Poutres)
Introduction aux statistiques Intervalles de confiance
Diaporamas à la carte Réalisée dans le cadre du réseau des spécialistes d’Inn’ovin, cette série de diaporamas a pour objectif de mettre à disposition.
Les chromosomes.
Pourquoi étudier la statistique ?
POL1803: Analyse des techniques quantitatives
LOG770 Annexe A Éléments de probabilité
Prévoir, décider, influencer
Chapitre 3 : Caractéristiques de tendance centrale
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
Notion de risque et mesures d’association
Programmation Android Première application Android
L1 Technique informatique
Thème Sujet à développer
Les Séquences et leurs Propriétés
L’EPISSAGE ALTERNATIF DE L’ARN
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Collège Lionel-Groulx
Clonage Moléculaire.
Explorer le monde Se repérer dans le temps et dans l'espace
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Comment identifier et délimiter le GS du verbe principal
Les historiques de cours
Jean-Sébastien Provençal
Reconnaissance de formes: lettres/chiffres
Logiciel de présentation
Conduite d’une autoévaluation
Technologie de l’ADN recombinant
Les Séquences et leurs Propriétés
Projet TranscriptoVac
Analyse des données et complémentarité des sources
Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.
L’analyse de la valeur des projets informatiques
Le D.R.P. - Quelques jours de fonctionnement
Design, innovation et créativité
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Sandrine Marchand- Académie de Grenoble
Pour en moduler l’ouverture et la complexité
Présentation projet de fin d’études
L’analyse d’ADN et la génomique
Activité 5 : Extraire des informations de documents et les interpréter pour comprendre l’universalité de l’ADN A partir des manipulations et documents.
Le marché en seconde et en première
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Projet MONOPOLY Mono ou Poly ovulation rôle évolutif du gène BMP15 chez les mammifères Contexte biologique et données L'analyse de la qualité Les traitements Alignement Recherche des gènes et transcrits Quantification Les résultats

Contexte biologique Présentation du matériel biologique Objectif : évaluation de l'impact de la molécule BMP 15 (Bone Morphogenetic Protein) sur l'ovaire. Molécule est naturellement synthétisée par l'ovule et elle régule le fait que l'animal soit polyovulant ou mono-ovulant. L'impact de cette molécule est connue chez le mouton. L'objectif de ce projet est de savoir comment comparer la vache (mono-ovulant) avec la truie (poly-ovulant), soient deux modèles extrêmes de mammifères. Pour mesurer cet impact, le gène cible (sur lequel BMP 15 agit) est recherché dans les cellules de la granulosa. Des cellules folliculaires sont donc mises en culture avec de la BMP 15 (humaine), in vitro pendant 48 H, pour cumuler des ARNm. Il y a ensuite extraction du matériel génétique (10 neg + 10 pos = 20 ARNm par espèce). Les animaux utilisés sont des animaux d'abattoirs jeunes donc impubères, avec des cellules de granulosa à maturité identique. Pour chaque espèce (vache et truie), il y a 10 réplicats, 2 ovaires. Des effets phénotypiques (d'étalement) ont été observés, mettant ainsi en évidence une variabilité entre animaux. De plus, comme il y a un animal par culture, cette expérience permet aussi de voir la variabilité individuelle. Séquençage PLAGE Création d’une banque (pour porc et pour bovins) à partir du séquençage du matériel génétique de chaque cellule Séquençage automatique (avec un robot) mais avec des kits différents → différences attendues inter-espèces mais pas intra-bovins ou intra-porcs, donc pas de différences pour la construction des banques. Les 20 échantillons tagués ont étés mélangés pour un séquençage sur 2 lanes indépendantes pour voir s'il y a un effet lane. Chaque jeu contient environ la moitié des séquences d'un individu. Les données devront donc être ensuite normalisées.

Les données Le plan d'expérience (mélange des échantillons dans les lanes) = Plage Les espèces Les lots Taille et contamination ng6

Taille des lots

Contamination (1/2) Pas de contamination E.Coli Profils de contamination comparables

Contamination (2/2) seq tot/phiX et seq tot/Yeast

Données disponibles sur NG6 http://ng6.toulouse.inra.fr/

Données MONOPOLY - 9 Juillet 2013 Principales étapes du traitement des données porc et bovin Accepted_hits.bam Données MONOPOLY - 9 Juillet 2013 8

FASTQC Report : les graphiques(1/6) Graphiques disponibles sur NG6 dans « Reads and quality statistics »

FASTQC Report : e-learning(2/6) Auto-formation en ligne sur http://sig-learning.toulouse.inra.fr/

FASTQC Report : Fail ou Warn(3/6) %GC content Dans une bibliothèque aléatoire, vous pouvez attendre qu'il y ait peu ou pas de différence entre les différentes bases d’un run, de sorte que la ligne tracée doit être à peu près horizontale. La teneur globale en GC doit refléter la teneur en GC du génome sous-jacent. Si vous observez un biais qui change pour les différentes bases, cela pourrait indiquer une séquence surreprésentée donc une contamination de votre bibliothèque. Un biais cohérent pour l’ensemble des positions indique soit que la bibliothèque d'origine était biaisée, soit qu'il y avait un problème systématique au cours du séquençage de la bibliothèque. Ce module a échoué car la teneur en GC s’écarte de plus de 10% de la teneur moyenne en GC. Il est tout à fait normal que le graphique soit toujours plat au démarrage de la séquence car il y a eu amplification avec des hexamers.

FASTQC Report : Fail ou Warn(4/6) Per position statistics / Per base content Chacune des 4 bases de l’ADN sont normalement retrouvées avec environ le même pourcentage (peu ou pas de différence entre les bases) au fur et à mesure de la lecture de la séquence. Par conséquent, les lignes du graphique devraient être parallèles les unes avec les autres. La quantité relative de chaque base devrait refléter le montant global de ces bases dans votre génome, mais en tout cas il ne doit pas y voir d’énormes déséquilibres les uns des autres. En cas de déséquilibre entre les différentes bases, cela indique généralement qu’une séquence est surreprésentée donc que votre bibliothèque est contaminée. Si ce biais est cohérent pour l’ensemble des bases, cela indique soit que la bibliothèque d'origine était biaisée, soit qu’il y a un problème systématique au cours du séquençage de la bibliothèque. Dans notre cas, ce module a échoué (FAIL) car la différence entre A et T, ou U et C est supérieure à 20% dans n'importe quelle position. La différence entre bases est importante vu la spécificité de séquence la polymérase et de par la présence de polyA et polyT des ARNm. De plus , les lectures commencent par un hexamère sur-représenté au début de la distribution.

FASTQC Report : Fail ou Warn(5/6) Duplication level Dans une bibliothèque diversifiée, la plupart des séquences ne se trouveront qu’une seule fois. Un faible niveau de duplication peut indiquer un niveau très élevé de couverture de la séquence cible, mais un niveau élevé de duplication est plus susceptible d'indiquer une sorte de biais d'enrichissement (par exemple par PCR sur l'amplification). Le taux de duplication est très lié au type de séquençage : - faible dans le cas de séquençage génomique (sauf génome très petit). - fort dans le cas de séquençage de transcriptome voire très fort pour certains tissus avec peu de transcrits très exprimés. Ce module compte le degré de chevauchement pour chaque séquence dans le set et crée un tracé représentant le nombre relatif de séquences avec différents degrés de chevauchement. Pour réduire les besoins en mémoire, le module analyse uniquement les 200.000 premières séquences. Chaque séquence est tracée à la fin du fichier pour donner un comptage représentatif du niveau général chevauchement. Pour réduire la quantité d'informations en fin de graphique, les séquences avec plus de 10 doublons sont placés dans la catégorie 10 doublons - il n'est donc pas rare de voir une légère hausse dans cette dernière catégorie. Si vous voyez une forte hausse dans cette dernière catégorie, cela signifie que vous avez un grand nombre de séquences avec des niveaux très élevés de duplication. Parce que la duplication exige une correspondance séquence exacte sur toute la longueur de la séquence, toutes les lectures de plus de 75 pb sont tronquées à 50 pb. Même si, plus de lectures sont plus susceptibles de contenir des erreurs de séquençage qui augmentent artificiellement la diversité observée et ont tendance à sous-représenter les séquences hautement dupliquées. Ce module a émis une erreur car les séquences dupliquées représentent plus de 50% du total. Comme il s'agit de données de transcriptome, les ARNm sont présents en de nombreuses copies.

FASTQC Report : Fail ou Warn(6/6) Per sequence statistics / Kmer profiles L'analyse des séquences surreprésentées montrera une augmentation des séquences dupliquées, mais cette analyse ne fonctionnera pas pour l’ensemble des problèmes. Si vous avez des séquences très longues de faible qualité, alors des erreurs de séquençage aléatoire réduira considérablement les comptages des séquences exactement dupliquées. Si vous avez une séquence partielle qui apparaît à plusieurs endroits au sein de votre séquence, alors ce ne sera pas vu, par l’analyse du contenu ou par l’analyse des doublons. Ce module compte l'enrichissement, tous les 5-mer, au sein de la banque. Il calcule le niveau attendu du k-mer et calcul le ratio : nombre réel observé / nombre de k-mer attendu. En plus de signaler une liste de hits, le graph trace les 6 premiers hits sur toute la longueur du read, pour montrer le modèle de l'enrichissement : général ou « ponctuel » (modèle de biais). Tout k-mer montrant plus de 5 fois un enrichissement global, ou 5 fois un enrichissement « ponctuel » sera signalé par ce module. Pour optimiser le temps d’exécution de ce module, seulement 20% de la bibliothèque est analysée. Les résultats sont ensuite extrapolés à l'ensemble de la bibliothèque. Dans notre cas, tout k-mer est enrichie de plus de 3 fois, ou plus de 5 fois à n'importe quelle position individuelle.

Les traitements Les références utilisées génome : transcriptome GTF : /bank2/bowtie2db/ensembl_sus_scrofa_genome /bank/bowtie2db/ensembl_bos_taurus_genome transcriptome GTF : ftp://ftp.ensembl.org/pub/release-70/gtf/sus_scrofa/ bos_taurus

L'alignement (tophat) Tophat replace les lectures sur le génome : Alignement des modèles Repérage De Novo Nombre d’alignements (accepted_hits.bam / porc /4 neg L002) : Nb reads mappées : ≈ 12 732 334 Nb reads non mappées : ≈ 4 233 452 soit 33 % Nombre total de lectures [smaman@genotoul:/work/sigenae/Project_MONOPOLY.222]$ samtools view -c 4-pos_GGCTAC_L002/unmapped.bam 3438176 (-c pour count) Nb total de lectures mappées (R 1 et R2 ??? Voir les flags de samtools flagstat) [smaman@genotoul:/work/sigenae/Project_MONOPOLY.222]$ samtools view -c -f64 4-pos_GGCTAC_L002/unmapped.bam 1693443 (-c pour count -f64 pour .? Fc flags de samtools flagstat) Flag 66 : nb de lectures mappées correctement: [smaman@genotoul:/work/sigenae/Project_MONOPOLY.222]$ samtools view -c -f66 4-pos_GGCTAC_L002/unmapped.bam [smaman@genotoul:/work/sigenae/Project_MONOPOLY.222]$ samtools view -c -f130 4-pos_GGCTAC_L002/unmapped.bam Calculer le nb de reads : zgrep -c '^+$' FASTQ/*R1.fastq.gz FASTQ/10-neg_CAGATC_L002_R1.fastq.gz:15205114 FASTQ/10-neg_CAGATC_L003_R1.fastq.gz:15480059 Calculer le nb de reads non mappées sur l’ensemble des jeux : samtools flagstat 1-4-neg_TTAGGC_L007/unmapped.bam 1576999 + 12704 in total (QC-passed reads + QC-failed reads) 0 + 0 duplicates 0 + 0 mapped (0.00%:0.00%) 1576999 + 12704 paired in sequencing 722959 + 660 read1 854040 + 12044 read2 0 + 0 properly paired (0.00%:0.00%) 0 + 0 with itself and mate mapped 0 + 0 singletons (0.00%:0.00%) 0 + 0 with mate mapped to a different chr 0 + 0 with mate mapped to a different chr (mapQ>=5) /work/sigenae/Project_MONOPOLY.222/FASTQ2>foreach i (`\ls */unmapped.bam`) foreach? samtools flagstat $i | grep ' in total (QC-passed' foreach? echo $i foreach? end 1762759 + 13633 in total (QC-passed reads + QC-failed reads) 1-1-neg_CAGATC_L007/unmapped.bam 1730559 + 10780 in total (QC-passed reads + QC-failed reads) 1-1-neg_CAGATC_L008/unmapped.bam 1471931 + 13650 in total (QC-passed reads + QC-failed reads) 1-1-pos_ACTTGA_L007/unmapped.bam 1407273 + 10581 in total (QC-passed reads + QC-failed reads) 1-1-pos_ACTTGA_L008/unmapped.bam 2363861 + 18042 in total (QC-passed reads + QC-failed reads) 1-2-neg_ACAGTG_L007/unmapped.bam 2331892 + 14086 in total (QC-passed reads + QC-failed reads) 1-2-neg_ACAGTG_L008/unmapped.bam 1550203 + 12437 in total (QC-passed reads + QC-failed reads) 1-2-pos_GCCAAT_L007/unmapped.bam 1490789 + 9636 in total (QC-passed reads + QC-failed reads) 1-2-pos_GCCAAT_L008/unmapped.bam 1576999 + 12704 in total (QC-passed reads + QC-failed reads) 1-4-neg_TTAGGC_L007/unmapped.bam 1536888 + 9728 in total (QC-passed reads + QC-failed reads) 1-4-neg_TTAGGC_L008/unmapped.bam 1660003 + 13105 in total (QC-passed reads + QC-failed reads) 1-4-pos_TGACCA_L007/unmapped.bam 1624435 + 10004 in total (QC-passed reads + QC-failed reads) 1-4-pos_TGACCA_L008/unmapped.bam 2057068 + 16946 in total (QC-passed reads + QC-failed reads) 1-6-neg_ATCACG_L007/unmapped.bam 2008659 + 13154 in total (QC-passed reads + QC-failed reads) 1-6-neg_ATCACG_L008/unmapped.bam 1533794 + 12902 in total (QC-passed reads + QC-failed reads) 1-6-pos_CGATGT_L007/unmapped.bam 1502475 + 10004 in total (QC-passed reads + QC-failed reads) 1-6-pos_CGATGT_L008/unmapped.bam 1666623 + 12060 in total (QC-passed reads + QC-failed reads) 1-neg_GTGGCC_L007/unmapped.bam 1666978 + 9263 in total (QC-passed reads + QC-failed reads) 1-neg_GTGGCC_L008/unmapped.bam 1572215 + 12041 in total (QC-passed reads + QC-failed reads) 1-pos_GTTTCG_L007/unmapped.bam 1544124 + 9383 in total (QC-passed reads + QC-failed reads) 1-pos_GTTTCG_L008/unmapped.bam 1972970 + 13852 in total (QC-passed reads + QC-failed reads) 2-neg_GTCCGC_L007/unmapped.bam 1978517 + 11054 in total (QC-passed reads + QC-failed reads) 2-neg_GTCCGC_L008/unmapped.bam 2269431 + 16505 in total (QC-passed reads + QC-failed reads) 2-pos_GTGAAA_L007/unmapped.bam 2262057 + 12653 in total (QC-passed reads + QC-failed reads) 2-pos_GTGAAA_L008/unmapped.bam 1557800 + 11470 in total (QC-passed reads + QC-failed reads) 3-neg_ATGTCA_L007/unmapped.bam 1535723 + 9018 in total (QC-passed reads + QC-failed reads) 3-neg_ATGTCA_L008/unmapped.bam 2205046 + 16422 in total (QC-passed reads + QC-failed reads) 3-pos_CCGTCC_L007/unmapped.bam 2183893 + 12993 in total (QC-passed reads + QC-failed reads) 3-pos_CCGTCC_L008/unmapped.bam 2047564 + 15461 in total (QC-passed reads + QC-failed reads) 5-neg_AGTCAA_L007/unmapped.bam 2016734 + 11967 in total (QC-passed reads + QC-failed reads) 5-neg_AGTCAA_L008/unmapped.bam 2035839 + 14685 in total (QC-passed reads + QC-failed reads) 5-pos_AGTTCC_L007/unmapped.bam 2042079 + 11394 in total (QC-passed reads + QC-failed reads) 5-pos_AGTTCC_L008/unmapped.bam 1616410 + 12126 in total (QC-passed reads + QC-failed reads) 6-neg_GGCTAC_L007/unmapped.bam 1617621 + 9504 in total (QC-passed reads + QC-failed reads) 6-neg_GGCTAC_L008/unmapped.bam 1429994 + 10699 in total (QC-passed reads + QC-failed reads) 6-pos_CTTGTA_L007/unmapped.bam 1412174 + 8142 in total (QC-passed reads + QC-failed reads) 6-pos_CTTGTA_L008/unmapped.bam 1504511 + 13008 in total (QC-passed reads + QC-failed reads) 8-neg_GATCAG_L007/unmapped.bam 1451054 + 9738 in total (QC-passed reads + QC-failed reads) 8-neg_GATCAG_L008/unmapped.bam 2033733 + 14832 in total (QC-passed reads + QC-failed reads) 8-pos_TAGCTT_L007/unmapped.bam 2013442 + 11586 in total (QC-passed reads + QC-failed reads) 8-pos_TAGCTT_L008/unmapped.bam

Recherche de gènes et transcrits (1/2) Modèle existant (GTF Ensembl) Nb gènes et nb transcrits Compléter ce modèle Merge Cufflinks (recherche des gènes et transcrits + production du nouveau GTF) Nb gènes et nb transcrits (voir graph suivant)

Recherche de gènes et transcrits (1/2)

Quantification Nouveau modèle Pour chaque condition production d'un fichier de quantification versus le modèle Fichier csv En colonnes : les échantillons En lignes : comptage global des gènes et des transcrits

Description des sorties GTF (liste des genes et des transcrits anciens et de novo) Fasta (annotation) Quantification (csv) Graphiques R (dendrogramme et corrélation graphique)

Données MONOPOLY - 9 Juillet 2013 Où trouver les données ? NG6 Les données Les statistiques FASTQC Report Les fichiers résultats (dont FPKM) Données MONOPOLY - 9 Juillet 2013 21

Les fichiers global_count*.csv Générés par l'outil sigcufflinks Issus d'un tri sur les fichiers raw_transcripts.tsv: gene_id    transcript_id    pairs    left_alignment right_alignement Ex:CUFF.6     CUFF.6.1    nb    nb   nb « nb » est un comptage brut du nombre de reads qui mappent sur chaque transcrit, par échantillon. « nb1 » pour les pairs, « nb2 » pour les forward, et « nb3 » pour les reverse. Seuls les « nb1 » pairs sont pris en compte pour les fichiers global_count* . Il ne s'agit pas de moyennes pondérées. La longueur de chaque transcrit n'est pas prise en compte. Puis, par espèce,  le fichier global_count_genes_rename.csv donne le nombre de gènes par échantillon. Par espèce, le fichier global_count_genes_transcripts_rename.csv donne le nombre de transcrits par échantillon. Données MONOPOLY - 9 Juillet 2013 22

Données MONOPOLY - 9 Juillet 2013 Dendogrammes porc vs bovin Données MONOPOLY - 9 Juillet 2013 23

Données MONOPOLY - 9 Juillet 2013 Corrélation graphique entre les échantillons porc Données MONOPOLY - 9 Juillet 2013 24 En cours de réflexion pour d’autres graphiques R

Données MONOPOLY - 24 Juillet 2013 Heatmap porcs Heatmap bovins Données MONOPOLY - 24 Juillet 2013 25

Statistiques sur la longueur des transcrits Pour chaque espèce : Script : /home/sigenae/bin/fasta_length.pl Fichier résultat : long_transcrits.txt Le script fasta_lenght.pl permet de calculer la longueur des transcrits à partir du FASTA issu de Cufflinks/Cuffmerge. Comme nous ne pouvons pas calculer la longueur d'un gène alors nous considérons que le plus long des transcrits nous indique la longueur du gène. A partir du fichier long_transcrits.txt, il faut prendre le plus long des transcrits pour chaque gène. Données MONOPOLY - 24 Juillet 2013 26

BAM mergés disponibles dans NG6 BAM pour chaque espèce : merge_bam_RG_neg_porc.bam merge_bam_RG_neg_porc.bam.bai merge_bam_RG_pos_porc.bam merge_bam_RG_pos_porc.bam.bai Procédure d’obtention de ces BAM : Ajout des RG (Reads Groups) avec GATK Samtools merge des accepted_hits.bam issus du mapping TOPHAT Regroupement des neg et des pos Visualisation dans IGV: Charger les BAM (File/Load from URL) Les .bai doivent être disponibles dans le même répertoire. Choisir le génome de référence Données MONOPOLY - 24 Juillet 2013 27

Recherche des orthologues Problème: Les nouveaux gènes et transcrits sont renommés par Cufflinks (TCONS pour les transcrits et XLOC pour les gènes). Le renommage est différent pour chaque espèce. Comment faire un lien entre chaque nouveau transcrit de chaque espèce pour produire un fichier de compatge global avec les anciens gènes et transcrits mais aussi les nouveaux gènes et transcrits identifiés pour chaque espèce. Méthodes proposées : Blastn : méthode abandonnée car longue et fastidieuse. De plus, il est préférable de travailler sur les séquences protéiques. Ensembl Compara : traduction des séquences nucléiques en séquences protéiques dans les 6 phases, chercher les ORF les plus longs, BBH (Bidirectional Best Blastp Hits) pour chercher les liens entre les transcrits. OrthoMCL : liens entre les transcrits les plus proches au sein de l’arbre phylogénique avec l’ensemble des contigs des deux espèces. Objectif : Trouver les orthologues et produire le fichier de comptage global Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 28

OrthoMCL par arbre phylogénique Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 29

Données MONOPOLY - 24 Juillet 2013 DEseq :Differential gene expression analysis based on the negative binomial distribution Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 30