CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne Bioinformatique 3: Annotation de chromosomes. CHMI 4206F - Automne 2010
Annotation de chromosomes Suite au séquençage d’un chromosome, on doit procéder à l’étape suivant: identifier les morceaux de séquences importants du point de vue fonctionnel: Gènes: Implique la localisation des exons/introns Promoteurs Séquences répétées CHMI 4206F - Automne 2010
Structure des gènes eucaryotes CHMI 4206F - Automne 2010
Épissage L’épissage alternatif permet d’obtenir différentes saveurs de protéines en incluant/excluant des exons ou introns lors de l’épissage Le patron d’épissage alternatif est généralement spécifique au type cellulaire. CHMI 4206F - Automne 2010
Signaux d’épissage Séquence consensus bordant les introns/exons (R=purine; Y=pyrimidine; N=any nucleotide): On peut utiliser ces séquences pour nous aider à trouver des gènes parmi la séquence d’un chromosome INTRON 5’ EXON 3’ EXON 5’ AG/GUAAGU-(N)x-YNCURAC-Y9-NAG/G 3’ CHMI 4206F - Automne 2010
Quelques approches in silico pour l’annotation de chromosomes 1. Utilisation de logiciels reconnaissant les frontières exons/introns P.ex. GenomeScan 2. Utilisation de la séquence du chromosome pour faire une recherche BLAST dans des bases de données d’EST (expressed sequence tags). 3. Comparaison de séquence de chromosome appartenant à différentes espèces P.ex. PipMaker/MultiPipmaker Important: aucune de ces approches est parfaite. On doit confirmer les résultats obtenus avec une approche en utilisant une ou l’autre des deux autres approches (ou même les deux…). CHMI 4206F - Automne 2010
GenomeScan Exemple: structure du gène GADD153 humain 1) Localisation du chromosome encodant GADD153 Se fait aisément via un BLAST du génome humain avec l’ARNm de GADD153: NM_004083. Le résultat de Blast nous donne déjà un bon indice de la position des introns/exons! 2) Sélectionne la région du chromosome contenant la séquence de GADD153 3) Paste cette séquence dans la boîte appropriée de GenomeScan 4) Trouve le cadre de lecture ouvert de GADD153, convertir en format FASTA, et coller cette séquence dans la deuxième boîte de GenomeScan. CHMI 4206F - Automne 2010
CHMI 4206F - Automne 2010
CHMI 4206F - Automne 2010
CHMI 4206F - Automne 2010
CHMI 4206F - Automne 2010
57 910 000 57 914 500 CHMI 4206F - Automne 2010
CHMI 4206F - Automne 2010
Séquence chromosome 12 - Région contenant GADD153 CHMI 4206F - Automne 2010
Utilisation de « Blast 2 Sequences » (bl2seq) Permet de faire l’alignement entre 2 séquences; Ici, on choisis les 2 séquences suivante pous l’alignement: ARNm complet de GADD153 Format FASTA Obtenu à partir de Entrez Gene Portion du génome humain possèdant le gène GADD 153 Obtenu à partir d’un BLAST du génome humain CHMI 4206F - Automne 2010
Utilisation de « Blast 2 Sequences » (bl2seq) Gene mRNA CHMI 4206F - Automne 2010
Utilisation de « Blast 2 Sequences » (bl2seq) CHMI 4206F - Automne 2010
Utilisation de « Blast 2 Sequences » (bl2seq) Query = gène Subject = ARNm CHMI 4206F - Automne 2010
Utilisation de « Blast 2 Sequences » (bl2seq) 335 pb 109 pb ATG 49 pb 2663 pb 100 pb 594 pb 79 pb CHMI 4206F - Automne 2010
Confirmation par BLAST En utilisant la séquence du chromosome 12 contenant GADD153, on peut faire une recherche BLAST de bases de données d’EST. EST: Expressed sequence tags Base donnée de séquences anonymes d’ADNc issues de séquençage à grande échelle. CHMI 4206F - Automne 2010
Expressed Sequence Tags Transcriptase inverse Isolation ARNm Mélange d’ADNc (copies ADN de tous les ARNm du cerveau) Base de données de séquence d’EST Séquence des millions d’ADNc Clone le mélange d’ADNc dans des plasmides L’identité et la proportion relative (abondance) des EST dépend strictement de l’organe et de son état au moment de l’isolation de l’ARNm (développement, pathologie, stress, etc). CHMI 4206F - Automne 2010
Expressed Sequence Tags Utilité des bases de données de EST: Donne l’ensemble des ARNm exprimés dans un organe/tissu/cellule donné (donc: le transcriptome) au moment où les ARNm ont été isolés. Permet de détecter des formes d’ARNm jusqu’ici inconnues (p.ex. dû à un épissage alternatif). Permet de détecter l’expression de gènes inconnus jusqu’ici. CHMI 4206F - Automne 2010
Confirmation de l’organisation du gène GADD153 par BLAST CHMI 4206F - Automne 2010
Confirmation de l’organisation du gène GADD153 par BLAST CHMI 4206F - Automne 2010
Confirmation de l’organisation du gène GADD153 par BLAST CHMI 4206F - Automne 2010
Confirmation de l’organisation du gène GADD153 par BLAST CHMI 4206F - Automne 2010
Comparaison bl2seq et EST 335 pb 109 pb ATG 49 pb 2663 pb 100 pb 594 pb 79 pb EST 180 pb 264 pb ATG 49 pb 2743 pb 81 pb 588 pb La comparaison entre différentes méthodes permet d’identifier de nouvelles saveurs d’ARNm. CHMI 4206F - Automne 2010
Utilisation de MultiPipMaker - localisation du gène Ici, on va faire l’alignement de chromosomes de plusieurs espèces afin de déduire l’organisation du gène GADD153. Il faut donc en premier trouver les régions de chromosomes contenant GADD153 chez les espèces suivantes (BLAST des génomes avec ARNm de GADD153 humain): Souris Rat Chimpanzé Chien MultiPipmaker te permettra d’obtenir les informations suivantes: Présence d’ilôts de conservation de séquence en nucléotide entre toutes ces espèces (donc: indication de la présence possible d’un gène) Un fichier montrant l’alignement entre les génomes et les similarités de séquence. CHMI 4206F - Automne 2010
Utilisation de MultiPipMaker - localisation du gène CHMI 4206F - Automne 2010
Utilisation de MultiPipMaker - localisation du gène CHMI 4206F - Automne 2010
Multipipmaker CHMI 4206F - Automne 2010
Multipipmaker Les régions rouges indiquent une bonne conservation de la séquence en nucléotide. Les régions vertes montrent un certain degré de conservation. Il existe seulement un seul ilôt de conservation parmi toutes les espèces, centré à ~3500 pb de la séquence humaine CHMI 4206F - Automne 2010
Multipipmaker Distribution des séquences conservées vs humain CHMI 4206F - Automne 2010
Multipipmaker -alignement des séquences CHMI 4206F - Automne 2010
Multipipmaker Exon1 / Intron1 Intron1 / Exon 2 CHMI 4206F - Automne 2010
Multipipmaker Identification d’éléments du promoteur Bout 5’ de l’ARNm TATA box CHMI 4206F - Automne 2010
Exercice 1– Annotation Vous avec obtenu la séquence d’une partie d’un chromosome de souris. La séquence est accessible au lien suivant: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NT_039302.6&from=3390566&to=3409909&view=fasta À l’aide de cette séquence répondez aux questions suivantes: 1) Trouvez le seul gène encodé par cette région de chromosome. 2) Donnez la position du gène sur le chromosome (carte cytogénétique). 3) Déterminez la structure complète (exon/intron) du gène. 4) Trouvez 500pb de la séquence promotrice de ce gène. Identifiez les régions potentiellement importantes pour l’expression de ce gène. CHMI 4206F - Automne 2010