La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Contexte biologique et données L'analyse de la qualité Les traitements

Présentations similaires


Présentation au sujet: "Contexte biologique et données L'analyse de la qualité Les traitements"— Transcription de la présentation:

1 Projet MONOPOLY Mono ou Poly ovulation rôle évolutif du gène BMP15 chez les mammifères
Contexte biologique et données L'analyse de la qualité Les traitements Alignement Recherche des gènes et transcrits Quantification Les résultats

2 Contexte biologique Présentation du matériel biologique
Objectif : évaluation de l'impact de la molécule BMP 15 (Bone Morphogenetic Protein) sur l'ovaire. Molécule est naturellement synthétisée par l'ovule et elle régule le fait que l'animal soit polyovulant ou mono-ovulant. L'impact de cette molécule est connue chez le mouton. L'objectif de ce projet est de savoir comment comparer la vache (mono-ovulant) avec la truie (poly-ovulant), soient deux modèles extrêmes de mammifères. Pour mesurer cet impact, le gène cible (sur lequel BMP 15 agit) est recherché dans les cellules de la granulosa. Des cellules folliculaires sont donc mises en culture avec de la BMP 15 (humaine), in vitro pendant 48 H, pour cumuler des ARNm. Il y a ensuite extraction du matériel génétique (10 neg + 10 pos = 20 ARNm par espèce). Les animaux utilisés sont des animaux d'abattoirs jeunes donc impubères, avec des cellules de granulosa à maturité identique. Pour chaque espèce (vache et truie), il y a 10 réplicats, 2 ovaires. Des effets phénotypiques (d'étalement) ont été observés, mettant ainsi en évidence une variabilité entre animaux. De plus, comme il y a un animal par culture, cette expérience permet aussi de voir la variabilité individuelle. Séquençage PLAGE Création d’une banque (pour porc et pour bovins) à partir du séquençage du matériel génétique de chaque cellule Séquençage automatique (avec un robot) mais avec des kits différents → différences attendues inter-espèces mais pas intra-bovins ou intra-porcs, donc pas de différences pour la construction des banques. Les 20 échantillons tagués ont étés mélangés pour un séquençage sur 2 lanes indépendantes pour voir s'il y a un effet lane. Chaque jeu contient environ la moitié des séquences d'un individu. Les données devront donc être ensuite normalisées.

3 Les données Le plan d'expérience (mélange des échantillons dans les lanes) = Plage Les espèces Les lots Taille et contamination ng6

4 Taille des lots

5 Contamination (1/2) Pas de contamination E.Coli
Profils de contamination comparables

6 Contamination (2/2) seq tot/phiX et seq tot/Yeast

7 Données disponibles sur NG6

8 Données MONOPOLY - 9 Juillet 2013
Principales étapes du traitement des données porc et bovin Accepted_hits.bam Données MONOPOLY - 9 Juillet 2013 8

9 FASTQC Report : les graphiques(1/6)
Graphiques disponibles sur NG6 dans « Reads and quality statistics »

10 FASTQC Report : e-learning(2/6)
Auto-formation en ligne sur

11 FASTQC Report : Fail ou Warn(3/6)
%GC content Dans une bibliothèque aléatoire, vous pouvez attendre qu'il y ait peu ou pas de différence entre les différentes bases d’un run, de sorte que la ligne tracée doit être à peu près horizontale. La teneur globale en GC doit refléter la teneur en GC du génome sous-jacent. Si vous observez un biais qui change pour les différentes bases, cela pourrait indiquer une séquence surreprésentée donc une contamination de votre bibliothèque. Un biais cohérent pour l’ensemble des positions indique soit que la bibliothèque d'origine était biaisée, soit qu'il y avait un problème systématique au cours du séquençage de la bibliothèque. Ce module a échoué car la teneur en GC s’écarte de plus de 10% de la teneur moyenne en GC. Il est tout à fait normal que le graphique soit toujours plat au démarrage de la séquence car il y a eu amplification avec des hexamers.

12 FASTQC Report : Fail ou Warn(4/6)
Per position statistics / Per base content Chacune des 4 bases de l’ADN sont normalement retrouvées avec environ le même pourcentage (peu ou pas de différence entre les bases) au fur et à mesure de la lecture de la séquence. Par conséquent, les lignes du graphique devraient être parallèles les unes avec les autres. La quantité relative de chaque base devrait refléter le montant global de ces bases dans votre génome, mais en tout cas il ne doit pas y voir d’énormes déséquilibres les uns des autres. En cas de déséquilibre entre les différentes bases, cela indique généralement qu’une séquence est surreprésentée donc que votre bibliothèque est contaminée. Si ce biais est cohérent pour l’ensemble des bases, cela indique soit que la bibliothèque d'origine était biaisée, soit qu’il y a un problème systématique au cours du séquençage de la bibliothèque. Dans notre cas, ce module a échoué (FAIL) car la différence entre A et T, ou U et C est supérieure à 20% dans n'importe quelle position. La différence entre bases est importante vu la spécificité de séquence la polymérase et de par la présence de polyA et polyT des ARNm. De plus , les lectures commencent par un hexamère sur-représenté au début de la distribution.

13 FASTQC Report : Fail ou Warn(5/6)
Duplication level Dans une bibliothèque diversifiée, la plupart des séquences ne se trouveront qu’une seule fois. Un faible niveau de duplication peut indiquer un niveau très élevé de couverture de la séquence cible, mais un niveau élevé de duplication est plus susceptible d'indiquer une sorte de biais d'enrichissement (par exemple par PCR sur l'amplification). Le taux de duplication est très lié au type de séquençage : - faible dans le cas de séquençage génomique (sauf génome très petit). - fort dans le cas de séquençage de transcriptome voire très fort pour certains tissus avec peu de transcrits très exprimés. Ce module compte le degré de chevauchement pour chaque séquence dans le set et crée un tracé représentant le nombre relatif de séquences avec différents degrés de chevauchement. Pour réduire les besoins en mémoire, le module analyse uniquement les premières séquences. Chaque séquence est tracée à la fin du fichier pour donner un comptage représentatif du niveau général chevauchement. Pour réduire la quantité d'informations en fin de graphique, les séquences avec plus de 10 doublons sont placés dans la catégorie 10 doublons - il n'est donc pas rare de voir une légère hausse dans cette dernière catégorie. Si vous voyez une forte hausse dans cette dernière catégorie, cela signifie que vous avez un grand nombre de séquences avec des niveaux très élevés de duplication. Parce que la duplication exige une correspondance séquence exacte sur toute la longueur de la séquence, toutes les lectures de plus de 75 pb sont tronquées à 50 pb. Même si, plus de lectures sont plus susceptibles de contenir des erreurs de séquençage qui augmentent artificiellement la diversité observée et ont tendance à sous-représenter les séquences hautement dupliquées. Ce module a émis une erreur car les séquences dupliquées représentent plus de 50% du total. Comme il s'agit de données de transcriptome, les ARNm sont présents en de nombreuses copies.

14 FASTQC Report : Fail ou Warn(6/6)
Per sequence statistics / Kmer profiles L'analyse des séquences surreprésentées montrera une augmentation des séquences dupliquées, mais cette analyse ne fonctionnera pas pour l’ensemble des problèmes. Si vous avez des séquences très longues de faible qualité, alors des erreurs de séquençage aléatoire réduira considérablement les comptages des séquences exactement dupliquées. Si vous avez une séquence partielle qui apparaît à plusieurs endroits au sein de votre séquence, alors ce ne sera pas vu, par l’analyse du contenu ou par l’analyse des doublons. Ce module compte l'enrichissement, tous les 5-mer, au sein de la banque. Il calcule le niveau attendu du k-mer et calcul le ratio : nombre réel observé / nombre de k-mer attendu. En plus de signaler une liste de hits, le graph trace les 6 premiers hits sur toute la longueur du read, pour montrer le modèle de l'enrichissement : général ou « ponctuel » (modèle de biais). Tout k-mer montrant plus de 5 fois un enrichissement global, ou 5 fois un enrichissement « ponctuel » sera signalé par ce module. Pour optimiser le temps d’exécution de ce module, seulement 20% de la bibliothèque est analysée. Les résultats sont ensuite extrapolés à l'ensemble de la bibliothèque. Dans notre cas, tout k-mer est enrichie de plus de 3 fois, ou plus de 5 fois à n'importe quelle position individuelle.

15 Les traitements Les références utilisées génome : transcriptome GTF :
/bank2/bowtie2db/ensembl_sus_scrofa_genome /bank/bowtie2db/ensembl_bos_taurus_genome transcriptome GTF : ftp://ftp.ensembl.org/pub/release-70/gtf/sus_scrofa/ bos_taurus

16 L'alignement (tophat) Tophat replace les lectures sur le génome :
Alignement des modèles Repérage De Novo Nombre d’alignements (accepted_hits.bam / porc /4 neg L002) : Nb reads mappées : ≈ Nb reads non mappées : ≈ soit 33 % Nombre total de lectures samtools view -c 4-pos_GGCTAC_L002/unmapped.bam (-c pour count) Nb total de lectures mappées (R 1 et R2 ??? Voir les flags de samtools flagstat) samtools view -c -f64 4-pos_GGCTAC_L002/unmapped.bam (-c pour count -f64 pour .? Fc flags de samtools flagstat) Flag 66 : nb de lectures mappées correctement: samtools view -c -f66 4-pos_GGCTAC_L002/unmapped.bam samtools view -c -f130 4-pos_GGCTAC_L002/unmapped.bam Calculer le nb de reads : zgrep -c '^+$' FASTQ/*R1.fastq.gz FASTQ/10-neg_CAGATC_L002_R1.fastq.gz: FASTQ/10-neg_CAGATC_L003_R1.fastq.gz: Calculer le nb de reads non mappées sur l’ensemble des jeux : samtools flagstat 1-4-neg_TTAGGC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) duplicates mapped (0.00%:0.00%) paired in sequencing read read properly paired (0.00%:0.00%) with itself and mate mapped singletons (0.00%:0.00%) with mate mapped to a different chr with mate mapped to a different chr (mapQ>=5) /work/sigenae/Project_MONOPOLY.222/FASTQ2>foreach i (`\ls */unmapped.bam`) foreach? samtools flagstat $i | grep ' in total (QC-passed' foreach? echo $i foreach? end in total (QC-passed reads + QC-failed reads) 1-1-neg_CAGATC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-1-neg_CAGATC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-1-pos_ACTTGA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-1-pos_ACTTGA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-2-neg_ACAGTG_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-2-neg_ACAGTG_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-2-pos_GCCAAT_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-2-pos_GCCAAT_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-4-neg_TTAGGC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-4-neg_TTAGGC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-4-pos_TGACCA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-4-pos_TGACCA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-6-neg_ATCACG_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-6-neg_ATCACG_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-6-pos_CGATGT_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-6-pos_CGATGT_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-neg_GTGGCC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-neg_GTGGCC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-pos_GTTTCG_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 1-pos_GTTTCG_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 2-neg_GTCCGC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 2-neg_GTCCGC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 2-pos_GTGAAA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 2-pos_GTGAAA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 3-neg_ATGTCA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 3-neg_ATGTCA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 3-pos_CCGTCC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 3-pos_CCGTCC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 5-neg_AGTCAA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 5-neg_AGTCAA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 5-pos_AGTTCC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 5-pos_AGTTCC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 6-neg_GGCTAC_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 6-neg_GGCTAC_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 6-pos_CTTGTA_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 6-pos_CTTGTA_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 8-neg_GATCAG_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 8-neg_GATCAG_L008/unmapped.bam in total (QC-passed reads + QC-failed reads) 8-pos_TAGCTT_L007/unmapped.bam in total (QC-passed reads + QC-failed reads) 8-pos_TAGCTT_L008/unmapped.bam

17 Recherche de gènes et transcrits (1/2)
Modèle existant (GTF Ensembl) Nb gènes et nb transcrits Compléter ce modèle Merge Cufflinks (recherche des gènes et transcrits + production du nouveau GTF) Nb gènes et nb transcrits (voir graph suivant)

18 Recherche de gènes et transcrits (1/2)

19 Quantification Nouveau modèle
Pour chaque condition production d'un fichier de quantification versus le modèle Fichier csv En colonnes : les échantillons En lignes : comptage global des gènes et des transcrits

20 Description des sorties
GTF (liste des genes et des transcrits anciens et de novo) Fasta (annotation) Quantification (csv) Graphiques R (dendrogramme et corrélation graphique)

21 Données MONOPOLY - 9 Juillet 2013
Où trouver les données ? NG6 Les données Les statistiques FASTQC Report Les fichiers résultats (dont FPKM) Données MONOPOLY - 9 Juillet 2013 21

22 Les fichiers global_count*.csv
Générés par l'outil sigcufflinks Issus d'un tri sur les fichiers raw_transcripts.tsv: gene_id    transcript_id    pairs    left_alignment right_alignement Ex:CUFF.6     CUFF.6.1    nb    nb   nb « nb » est un comptage brut du nombre de reads qui mappent sur chaque transcrit, par échantillon. « nb1 » pour les pairs, « nb2 » pour les forward, et « nb3 » pour les reverse. Seuls les « nb1 » pairs sont pris en compte pour les fichiers global_count* . Il ne s'agit pas de moyennes pondérées. La longueur de chaque transcrit n'est pas prise en compte. Puis, par espèce,  le fichier global_count_genes_rename.csv donne le nombre de gènes par échantillon. Par espèce, le fichier global_count_genes_transcripts_rename.csv donne le nombre de transcrits par échantillon. Données MONOPOLY - 9 Juillet 2013 22

23 Données MONOPOLY - 9 Juillet 2013
Dendogrammes porc vs bovin Données MONOPOLY - 9 Juillet 2013 23

24 Données MONOPOLY - 9 Juillet 2013
Corrélation graphique entre les échantillons porc Données MONOPOLY - 9 Juillet 2013 24 En cours de réflexion pour d’autres graphiques R

25 Données MONOPOLY - 24 Juillet 2013
Heatmap porcs Heatmap bovins Données MONOPOLY - 24 Juillet 2013 25

26 Statistiques sur la longueur des transcrits
Pour chaque espèce : Script : /home/sigenae/bin/fasta_length.pl Fichier résultat : long_transcrits.txt Le script fasta_lenght.pl permet de calculer la longueur des transcrits à partir du FASTA issu de Cufflinks/Cuffmerge. Comme nous ne pouvons pas calculer la longueur d'un gène alors nous considérons que le plus long des transcrits nous indique la longueur du gène. A partir du fichier long_transcrits.txt, il faut prendre le plus long des transcrits pour chaque gène. Données MONOPOLY - 24 Juillet 2013 26

27 BAM mergés disponibles dans NG6
BAM pour chaque espèce : merge_bam_RG_neg_porc.bam merge_bam_RG_neg_porc.bam.bai merge_bam_RG_pos_porc.bam merge_bam_RG_pos_porc.bam.bai Procédure d’obtention de ces BAM : Ajout des RG (Reads Groups) avec GATK Samtools merge des accepted_hits.bam issus du mapping TOPHAT Regroupement des neg et des pos Visualisation dans IGV: Charger les BAM (File/Load from URL) Les .bai doivent être disponibles dans le même répertoire. Choisir le génome de référence Données MONOPOLY - 24 Juillet 2013 27

28 Recherche des orthologues
Problème: Les nouveaux gènes et transcrits sont renommés par Cufflinks (TCONS pour les transcrits et XLOC pour les gènes). Le renommage est différent pour chaque espèce. Comment faire un lien entre chaque nouveau transcrit de chaque espèce pour produire un fichier de compatge global avec les anciens gènes et transcrits mais aussi les nouveaux gènes et transcrits identifiés pour chaque espèce. Méthodes proposées : Blastn : méthode abandonnée car longue et fastidieuse. De plus, il est préférable de travailler sur les séquences protéiques. Ensembl Compara : traduction des séquences nucléiques en séquences protéiques dans les 6 phases, chercher les ORF les plus longs, BBH (Bidirectional Best Blastp Hits) pour chercher les liens entre les transcrits. OrthoMCL : liens entre les transcrits les plus proches au sein de l’arbre phylogénique avec l’ensemble des contigs des deux espèces. Objectif : Trouver les orthologues et produire le fichier de comptage global Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 28

29 OrthoMCL par arbre phylogénique
Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 29

30 Données MONOPOLY - 24 Juillet 2013
DEseq :Differential gene expression analysis based on the negative binomial distribution Merci pour votre écoute Données MONOPOLY - 24 Juillet 2013 30


Télécharger ppt "Contexte biologique et données L'analyse de la qualité Les traitements"

Présentations similaires


Annonces Google