Introduction à la Bioinformatique (2)

Slides:



Advertisements
Présentations similaires
Stabilité et Variabilité des génomes et Evolution
Advertisements

Éléments de correction du devoir novembre 2011
Un aperçu de la bioinformatique moléculaire
La génétique bactérienne cours 5
Innovations génétiques
Biologie Moléculaire des Hépatites Virales
Protéines fonctionnelles
Initiation à la bioinformatique
ADN.
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
LES BASES MOLÉCULAIRES DE L’HÉRÉDITÉ DU GÈNE À LA PROTÉINE
Synthèse des protéines
Rappels de 1èreS Rappelez la définition du génotype et celle du phénotype. Génotype : ensemble des gènes d’un individu existant sous leur forme allélique.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Institut Suisse de Bioinformatique
du génome aux protéomes « in silico »
CHAPITRE 19 - La génétique des populations
LA SYNTHÈSE DES PROTÉINES
ADN à ARN La synthèse des protéines étape 1
L’arbre du vivant.
L'information génétique
Introduction à la bioinformatique
Prédiction d’interactions protéine-protéine
Annotation de génomes complets
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Comment passer du gène (allèle): séquence spécifique de nucléotides
printemps des sciences
Introduction à la Bio-Informatique
Évolution génomique des gènes Hox
Génétique moléculaire
Construisez un arbre phylogénétique !
"POLYMORPHISME" Plusieurs Formes
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
Les nouvelles preuves de l’évolution: y accéder en classe PO 422
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
Intro et rappel pour Bio cell
Module 2 Biologie cellulaire, ADN et protéines
Resolution des excercises
CHP 2 : La synthèse des protéines
Anomalies des gènes et leur exploration
CHMI 2227F Biochimie I Expression des gènes
Le code génétique, clé de la vie
Alignement de séquences biologiques
Recherche par automates finis
Banques de données en bio-informatique
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
Introduction à la Bio-Informatique
Institut Universitaire de Technologie de Clermont-Ferrand
Révision ADN et protéines
Biodiversité génétique
Recherche heuristique dans les bases de données L’algorithme BLAST
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Chapitre 2 2ème partie Transcription et traduction titre.
Bio-Informatique Analyse de séquences nucléotidiques
De l’ADN à la Protéine : Transcription et Traduction
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
ADN : Acide désoxyribonucléique Santatra Ratsitohara RAZAFINDRASATA Interne des hôpitaux en Neurologie 1 er semestre – USFR Neurologie CHU/JRB FACULTE.
L’EPISSAGE ALTERNATIF DE L’ARN
Transcription de la présentation:

Introduction à la Bioinformatique (2) http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013 Marie-Claude.Blatter@isb-sib.ch SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013

Indispensible for bioinformatic studies Databases (free access on the web) Software tools Servers

Selected categories of life sciences databases Nucleotide sequences Genomics Mutation/polymorphism Protein sequences Protein domain/family Proteomics (2D gel, Mass Spectrometry) 3D structure Metabolism/Pathways Bibliography Others

Coding Sequence (CDS) Du génome (inclus les variants SNPs), à la protéine, 3D, fonction , …médicament

Indispensible for bioinformatic studies Databases (free access on the web) Software tools Servers

Analyse des séquences ADN et ARN

Assemblage d’un génome….un challenge…

Analyse des séquences ADN et ARN Prédiction de gène Détection des régions codant pour des protéines Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Analyse des sites de restriction (enzymes); Traduction ADN en protéine;

Analyse des séquences ADN et ARN Prédiction de gène Détection des régions codant pour des protéines Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Analyse des sites de restriction (enzymes); Traduction ADN en protéine;

Exemple: Genscan (http://genes.mit.edu/GENSCAN.html) Biais des codons, conservation des dicodons (hexamers) Exemple: Genscan (http://genes.mit.edu/GENSCAN.html)

Detect signals…. splicing Poly (A) tail Primary RNA transcript ATG AATAAA Terminator Codon for protein synthesis (TGA, TAA, TAG) Primary RNA transcript AUG Poly (A) tail Stop splicing Mature mRNA AUG Stop Poly (A) tail

Jigsaw prediction for the human genome (chromosome 1) http://cbcb.umd.edu/software/jigsaw/jigsaw_human.gtf

Prédiction de gène Détection des régions codant pour des protéines Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Analyse des sites de restriction (enzymes); Traduction ADN en protéine;

Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C..

Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C.. Frame 2: ..A TGG TAA CAT GGC Frame 3: .AT GGT AAC ATG GC. Reverse strand: Frame 4: GCC ATG TTA CCA T.. Frame 5: ..G CCA TGT TAC CAT Frame 6: .GC CAT GTT ACC AT.

Une séquence de protéine: Met -------- STOP: quelle est la bonne ?

Analyse des séquences de protéines

>seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

Caractérisation physicochimique (pI, pM, coefficient extinction…) Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques.

Ça me semble biologique …mais reste à le prouver ! Conclusion de l’analyse in silico d’une protéine inconnue Poids moléculaire: 126 kD; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble biologique …mais reste à le prouver !

Comparaison de séquences

MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution; MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants d’oiseaux)

Matrice de substitution (BLOSUM62)

Application : Recherche de similarité (BLAST) Basic Local Alignment Search Tool

Recherche de similarité (BLAST) Outil bioinformatique très efficace, permettant de trouver les séquences similaires à une séquence données (protéine ou nucléique) -> Compare une séquence ‘query’ avec toutes les séquences existantes dans les banques de données (UniProtKB: 26 mo d’entrées). Résultats: une liste d’entrées avec des scores de ‘similarité’

Probabilité de retrouver la même séquence par hasard… BLAST (www.uniprot.org) Est-ce qu’il existe une protéine similaire à l’hémoglobine humaine chez les plantes ? Séquence de l’hémoglobine humaine Probabilité de retrouver la même séquence par hasard…

Sur quel chromosome humain se situe le gène HBB ? Une séquence au hasard (ATGC) se retrouve-t-elle sur le génome ?

Probabilité de retrouver la même séquence par hasard…

Alignement multiple

Alignement multiple des séquences d’insuline Peptide signal Hélice alpha Hélice alpha clustalW, T coffee, muscle…

Alignement multiple ‘hémoglobine béta’ (HBB) @ UniProt

Application: Analyse phylogénétique

FIGURE 19.1. Phylogenetic trees of the three domains of cellular life (upper panel) and of the multicellular Eukarya (lower panel). The universal tree of life (upper panel) is inferred from maximum likelihood analysis of 1620 homologous nucleotide positions of small-subunit ribosomal RNA sequences from each organism. (The tree is redrawn, with permission, from Barns S.M. et al. 1996. Proc. Natl. Acad. Sci. 93: 9188–9193, ©National Academy of Sciences, U.S.A. The eukaryotic phylogeny is redrawn and modified, with permission, from Pollard T.D. et al. 2007. Cell Biology, 2nd Edition. Saunders, New York, ©Elsevier.) Common eukaryotic “model” organisms are indicated. Except for the sponge, all indicated species have had their genomes sequenced. (Gray dotted rings) Approximate time before present (mya = millions of years ago). Major groups are indicated by different colors and refer to specific chapters (see text for discussion). The unicellular alveolates (e.g., trypanosomes) and slime mold diverged more than 1 billion years ago. Thus, their branching points are not shown.

Il est possible de construire un arbre phylogénétique à partir de différents types de données: Les données morphologiques (écailles ou plumes, présence de certains os du crâne, forme des feuilles…). Il existe quelques centaines de caractères définis dans ce but par les spécialistes. Les caractères physiologiques (température corporelle…) Mais aussi… L’ordre des gènes (par exemple sur l’ADN des mitochondries) Les données moléculaires (séquences d’ADN ou de protéines). Des mutations modifient les séquences de l’ADN et par conséquent des protéines au cours de l’évolution. toutes les données existantes….(défi scientifique !)

http://www.unige.ch/450/expositions/genome/presentation/slogans.html

Le principe 1. Sélection: set de séquences de protéines ‘homologues’ 2. Comparaison: alignement multiple 3. Construction de l’arbre: ‘calculer les différences’ + quelques calculs statistiques…

? Actin-related protein 2 Les différentes espèces sont: ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE *:* :* ******** *** *** . **::****::*: . *::::**:***:* Les différentes espèces sont: Caenorhabditis briggsae Drosophila melanogaster Homo sapiens Mus musculus Schizosaccharomyces pombe Quelle séquence ‘appartient’ à quelle espèce ? ?

ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE *:* **:******** *** *** . ***:*****:*: :..**::***:***:* ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ********:* *************:*** ****::*****:*** .************:* ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ************************************************************ ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE ***:**:*:******************* ****::****:**:..*:*:**:******** *:* :* ******** *** .*** . **::*****:*: *.**::***:*****

Le principe 1. Sélection: set de séquences de protéines ‘homologues’ 2. Comparaison: alignement multiple 3. Construction de l’arbre: ‘calculer les différences’

http://www.phylogeny.fr/ www.phylogeny.fr

Cladrogramme obtenu à partir de l’analyse phylogénétique de l’alignement multiple des séquences d’insuline - Qui est le cousin de qui ? Qui a un ancêtre commun ? www.phylogeny.fr

http://education.expasy.org/cgi-bin/philophylo/philophylo.cgi

Application: meta-genomics analysis

Résumé: la bioinfo c’est… Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données; Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Conclusions Extraordinaire potentiel de la bioinformatique… mais ne elle ne remplace(ra) pas les expériences «wet lab» génomiques, protéomiques et autres, ni l’esprit critique humain (contexte biologique) …ni le besoin de savoir programmer un minimum ! La bioinfo fournit des outils performants aux chercheurs… mais elle ne peut pas encore tout faire…. Les données expérimentales des chercheurs permettent d’améliorer les programmes bioinformatiques (prédiction)…

Avant … Après …