La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jai fait séquencer mes petits ARN. Et Maintenant ? Introduction à lanalyse des données de séquençage à haut débit en génomique.

Présentations similaires


Présentation au sujet: "Jai fait séquencer mes petits ARN. Et Maintenant ? Introduction à lanalyse des données de séquençage à haut débit en génomique."— Transcription de la présentation:

1 Jai fait séquencer mes petits ARN. Et Maintenant ? Introduction à lanalyse des données de séquençage à haut débit en génomique fonctionnelle. 28 mars 2012, 15:30 – 17:00

2 Les trois principales classes de petits ARNs chez la drosophile met Hen1 Produits des snoRNA, tRNA, rRNA. 2S Droso (30nt) +

3 20-30nt RNA gel purification small RNA deep sequencing (Biases) Library Bar coding

4 Que Puis-je Faire avec mes séquences de petits ARN ? Annotation Annotation Visualisation Visualisation Découverte de loci Découverte de loci Quantification dexpression Quantification dexpression Analyse structurale des précurseurs, signatures, … Analyse structurale des précurseurs, signatures, … Mise en évidence de « visiteurs » (virus, …) Mise en évidence de « visiteurs » (virus, …) … Informatique Bioinformatique

5 Matériel Un fichier de séquence au format fastq Un fichier de séquence au format fastq Un ordinateur avec ~ 8 Mo RAM Un ordinateur avec ~ 8 Mo RAM Un « Operating System Unix compliant » Un « Operating System Unix compliant » Un maniement confortable de cet OS Un maniement confortable de cet OS Quelques logiciels génériques très utiles Quelques logiciels génériques très utiles Un « vrai » éditeur de texte (TextWrangler, etc..) Un « vrai » éditeur de texte (TextWrangler, etc..) R, Gnuplot R, Gnuplot … Une bonne connaissance du web Une bonne connaissance du web Le maniement niveau Débutant ++ dun langage de programmation Le maniement niveau Débutant ++ dun langage de programmation Perl Perl Python Python

6 Que contient le gros fichier fastq que jai téléchargé (et décompressé) ? * Limite max pour ouvrir un gros fichier texte (~1.2 Go) Terminal Unix. Naviguer dans le dossier qui contient le fichier Taper la commande more lbcd-05:GKG13demo deepseq$ more TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA +HWIEAS210R_0028:2:1:3019:1114#AGAAGA/1 TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC +HWIEAS210R_0028:2:1:3925:1114#AGAAGA/1 TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA +HWIEAS210R_0028:2:1:6220:1114#AGAAGA/1 TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC +HWIEAS210R_0028:2:1:6252:1115#AGAAGA/1 TNAATGCACTATCTGGTACGACTGTAGGCACCATCAAT +HWIEAS210R_0028:2:1:6534:1114#AGAAGA/1 GNGGACTGAAGTGGAGCTGTAGGCACCATCAATAGATC +HWIEAS210R_0028:2:1:8869:1114#AGAAGA/1 aBaaaeeeeehhhhhhhhhhhhfgfhhgfhhhhgga^^ … … …

7 Combien de séquences dans mon fichier ? Terminal Unix. Naviguer dans le dossier qui contient le fichier Taper la commande wc - l lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq GKG-13.fastq >>> / séquences

8 Mes séquences contiennent-elles le bon adaptateur ? Taper la commande cat | grep CTGTAGG | wc -l lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq | grep CTGTAGG | wc -l sur séquences Pas mal Séquence de mon adaptateur: CTGTAGGCACCATCAAT lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq | grep ATCTCGT| wc -l 308 A contrario

9 Quelle est la qualité de mes séquences ?

10 Comment retirer ladaptateur ? deepseq$ fastq_to_fasta -r –n -i GKG-13.fastq -o GKG-13.fasta Séquence de mon adaptateur: CTGTAGGCACCATCAAT deepseq$ more GKG-13.fasta >1 AATGGCACTGGAAGAATTCACCTGTAGGCACCATCAAT >2 TCTCGGTAGAACCTCCACTGTAGGCACCATCAATAGAT >3 TTTGTGACCGACACTAACGGGTACTGTAGGCACCATCA >4 TGGAATGTAAAGAAGTATGGAGCTGTAGGCACCATCAA >5 GTCAGCAACTTGATTCCAGCAATCTGTAGGCACCATCA >6 AATGGCACTGGAAGAATTCACGGGCTGTAGGCACCATC >7 TGGAAGACTAGTGATTTTGTTCTGTAGGCACCATCAAT >8 TGAACACAGCTGGTGGTATCCCTGTAGGCACCATCAAT deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -i GKG-13.fasta -o GKG-13_clipped.fasta deepseq$ more GKG-13_clipped.fasta >18 AATGGCACTGGAAGAATTCAC >20 TTTGTGACCGACACTAACGGGTA >21 TGGAATGTAAAGAAGTATGGAG >22 GTCAGCAACTTGATTCCAGCAAT >23 AATGGCACTGGAAGAATTCACGGG >24 TGGAAGACTAGTGATTTTGTT >25 TGAACACAGCTGGTGGTATCC >26 TAAGTACTAGTGCCGCAGGA >27 TGAACACAGCTGGTGGTATC >28 TAGGAACTTCATACCGTGCTCT deepseq$ fastq_to_fasta -r -n -i GKG-13.fastq | fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -o GKG-13_clip-pipe.fasta

11 Jutilise fastx_clipper et fastQC pour visualiser la distribution de taille de mes séquences deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 0 -i GKG-13.fastq -o GKG-13_clipped.fastq deepseq$ more AATGGCACTGGAAGAATTCAC +HWIEAS210R_0028:2:1:1313:1120#AGAAGA/1 TCTCGGTAGAACCTCCA +HWIEAS210R_0028:2:1:1387:1119#AGAAGA/1 TTTGTGACCGACACTAACGGGTA +HWIEAS210R_0028:2:1:1849:1120#AGAAGA/1 hhhhhhhhhfhgfhhhhgehhha

12 Bowtie aligne des reads sur un génome de référence préalablement préparé Je télécharge Bowtie, je linstalle, et je lis le manuel Je télécharge mon génome au format FASTA Je prépare mon « index » Bowtie deepseq$ bowtie-build fasta_libraries/dmel-all-chromosome-r5.37.fasta dmel-r5.37 ~5 min deepseq$ ls –laht -rw-r--r-- 1 deepseq staff 49M Mar 24 17:24 dmel-r5.37.rev.1.ebwt -rw-r--r-- 1 deepseq staff 19M Mar 24 17:24 dmel-r5.37.rev.2.ebwt -rw-r--r-- 1 deepseq staff 49M Mar 24 17:20 dmel-r ebwt -rw-r--r-- 1 deepseq staff 19M Mar 24 17:20 dmel-r ebwt -rw-r--r-- 1 deepseq staff 331K Mar 24 17:16 dmel-r ebwt -rw-r--r-- 1 deepseq staff 39M Mar 24 17:16 dmel-r ebwt

13 deepseq$ bowtie ~/bin/bowtie/indexes/5.43_Dmel/5.43_Dmel -f GKG-13_clip-pipe.fasta -v 1 -k 1 -p 12 --al droso_matched_GKG-13.fa --un unmatched_GKG13.fa > GKG13_bowtie_output.tabulated Jaligne mes reads avec bowtie ~/bin/bowtie/indexes/5.43_Dmel/5.43_Dmel -f GKG-13_clip-pipe.fasta -v 1 -k 1 -p 12 --al droso_matched_GKG-13.fa --un unmatched_GKG13.fa > GKG13_bowtie_output.tabulated # reads processed: # reads with at least one reported alignment: (84.12%) # reads that failed to align: (15.88%) Reported alignments to 1 output stream(s)

14 … et je récupère deepseq$ ls -laht -rw-r--r-- 1 deepseq staff 351M Mar 24 17:46 GKG13_bowtie_output.tabulated -rw-r--r-- 1 deepseq staff 156M Mar 24 17:46 droso_matched_GKG-13.fa -rw-r--r-- 1 deepseq staff 28M Mar 24 17:46 unmatched_GKG13.fa deepseq$ more GKG13_bowtie_output.tabulated L TGGAATGTAAAGAAGTATGGAG L GTGAATTCTCCCAGTGCCAAG R TGAACACAGCTGGTGGTATCC L CCCGTGAATTCTTCCAGTGCCATT R TGAACACAGCTGGTGGTATC R TCCTGCGGCACTAGTACTTA L GTGAATTCTTCCAGTGCCATT R ATTGCTGGAATCAAGTTGCTGAC L TTTGTGACCGACACTAACGGGTA R TGGAAGACTAGTGATTTTGTT L TAGGAACTTCATACCGTGCTCT 35 + X CTTGTGCGTGTGACAGCGGCT RHet TGGCGACCGTGACAGGACCCG R TGAACACAGCTGGTGGTATCC deepseq$ more droso_matched_GKG-13.fa >21 TGGAATGTAAAGAAGTATGGAG >26 TAAGTACTAGTGCCGCAGGA >24 TGGAAGACTAGTGATTTTGTT >23 AATGGCACTGGAAGAATTCACGGG >27 TGAACACAGCTGGTGGTATC deepseq$ more unmatched_GKG13.fa >29 AGGGGGCTATTTCACTACTGGA >33 CGATGATGACGGTACCCGTAGA >37 GCTAGTCGGTACTTGAAAC >59 TGGTTGCAATAGCTTCTGGCGGA >61 GATGAGTGCTAGATGTAGGGA Un fichier dalignement Un fichier des séquences alignéesUn fichier des séquences non alignées

15 Sequence reads (fasta format) Bowtie Pre-miRNAs (miRBase) Unmatched reads Transposons Unmatched reads Genes Unmatched reads Remaining unmatched sequences Bowtie Non coding RNAs Bowtie Intergenic regions Viruses, transgenes, etc… hierarchical annotation of sequence datasets Un pipeline dannotations « génomiques » Matched reads (fasta) Read Count Matched reads (fasta) Read Count Matched reads (fasta) Read Count Matched reads (fasta) Read Count Matched reads (fasta) Read Count Matched reads (fasta) Read Count

16 Je veux visualiser mes reads dans un « Genome Browser » Un pipeline sommaire pour préparer un fichier de visualisation deepseq$ bowtie -v 1 -M 1 --best /Users/deepseq/bin/bowtie/indexes/5.37_Dmel -p 12 -f GKG-13_clip-pipe.fasta -S | samtools view -bS -o GKG-13_clip-pipe.fasta.bam - ; samtools sort GKG-13_clip-pipe.fasta.bam GKG-13_clip-pipe.fasta.bam.sorted ; samtools index GKG-13_clip-pipe.fasta.bam.sorted.bam 306K GKG-13_clip-pipe.fasta.bam.sorted.bam.bai 42M GKG-13_clip-pipe.fasta.bam.sorted.bam 80M GKG-13_clip-pipe.fasta.bam

17 Je veux visualiser mes reads dans un « Genome Browser » (2) Jupload mes fichiers bam et bai sur un serveur accessible Jindique lURL du fichier bam à Ensembl (Gbrowse, Modencode, etc..)

18 Je veux visualiser mes reads dans un « Genome Browser » (3) Je navigue dans les régions dintérêt, après avoir indiqué au Browser dinclure mon « track »

19 Je veux visualiser mes reads dans un « Genome Browser » (4) Encore un…

20 Un profiler maison pour les micros ARNs Sequence reads (fasta format) Bowtie Pre-miRNAs (miRBase) Indéxé pour Bowtie Bowtie Output Analyse textuelle Cartes des reads par miRNA Liste de comptage par miR_5p et miR_3p deepseq$ miRNA_bowtie_profiler.py GKG-13_clip-pipe.fasta ~/bin/bowtie/indexes/dme_miR_r17.1.ebwt # bowtie -v 1 -M 1 --best --strata -p 12 --norc --suppress 2,6,7,8 /Users/deepseq/bin/bowtie/indexes/dme_miR_r17 -f GKG-13_clip-pipe.fasta # reads processed: # reads with at least one reported alignment: (64.81%) # reads that failed to align: (34.36%) # reads with alignments sampled due to -M: (0.84%) Reported alignments to 1 output stream(s) # Parsing completed in 1 minutes and 36.7 seconds

21 miRNA_bowtie_profiler.py : Cartes des reads, par miR offsetscountssizes

22 miRNA_bowtie_profiler.py : Attribution des reads 5p et 3p 987 reads16003 reads = 16990, ~ reads + miRs « 5p »miRs « 3p » *

23 miRNA_bowtie_profiler.py : Liste de comptage des miRs

24 Analyse dexpression différentielle Sequence reads (fasta format) Bowtie Pre-miRNAs (miRBase) Indéxé pour Bowtie Bowtie Output Analyse textuelle Cartes des reads par miRNA Liste de comptage par miR_5p et miR_3p deepseq$ miRNA_bowtie_profiler.py GKG-13_clip-pipe.fasta ~/bin/bowtie/indexes/dme_miR_r17.1.ebwt DESeq Heatplus edgeR (Bioconductor)

25 days L3PFPF+12h Ecdysone titer Read count table Profiling des miRNAs durant la métamorphose de la drosophile

26 days L3PFPF+12h Clustering of miRNA read counts after normalization Ecdysone titer DESeq Heatplus

27 Analyse dexpression différentielle PFPF+12h Larva Metamorphosis Up-regulated27 Down_regulated27 Metamorphosis Up-regulated0 Down_regulated0 « Differential calling » avec le jeu complet de données « Differential calling » sans replicats Message: Le Deep Seq néchappe pas au tests statistiques Les réplicats sont nécessaires pour estimer le bruit biologique

28 Naive and primed murine pluripotent stem cells have distinct miRNA signatures ESC1ESC2EpiSC2EpiSC1EpiSC3 miR miR- 302/367 miR /40 M. Cohen-Tannoudji (Institut Pasteur) A.Jouneau (INRA Jouy en Josas) E. Heard (Institut Curie) C. Antoniewski (Institut Pasteur)

29 Normalized miR read count profiles 29/40

30 A lattice of miR read profiles for rapid, visual annotation 30/40

31 31/40

32 Stereo lattice reveals changes in miR biogenesis between ES and EpiSCsStereo lattice reveals changes in miR biogenesis between ES and EpiSCs % length ESCEpiSC 32/40

33 Small RNA signatures AUGCUUUCAUGGCAUCCUUAC UUUACGAAAGUACCGUAGGAA AUGCUUUCAUGGCAUCCUUAC UUUACGAAAGUACCGUAGGAA |||||||||||||||||||||

34 Signature piRNA UUGCUUUCAUGGCAUCCUUACCGAUC AGCUUCUUUACGAAACGAAAGUACCG ||||||||||||||||||||| P-element Cartographie des ARN de 24-26nt dovaires de drosophile

35 Signature piRNA UUGCUUUCAUGGCAUCCUUACCGAUC AGCUUCUUUACGAAACGAAAGUACCG ||||||||||||||||||||| P-element Cartographie des ARN de 24-26nt dovaires de drosophile


Télécharger ppt "Jai fait séquencer mes petits ARN. Et Maintenant ? Introduction à lanalyse des données de séquençage à haut débit en génomique."

Présentations similaires


Annonces Google