Introduction à la Bioinformatique

Slides:



Advertisements
Présentations similaires
Un aperçu de la bioinformatique moléculaire
Advertisements

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
I. Recherche du gène correspondant aux séquences initiales.
Les données et les banques de données
Transcription de l’ADN
Outils chimiques pour l’étude des biomolécules
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Le remplacement moléculaire
Génomique et post-génomique végétale
Les bases de données biologiques au LBBE
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
Introduction à la Bioinformatique David Perret INSERM U564
Projet Génome Humain (HGP)
La Régulation génétique chez les Procaryotes
YASS : Recherche de similarités dans les séquences d'ADN
Yoann Beausse Journée Bioinformatique des Génopoles
University of Applied Sciences Solothurn Northwest Switzerland
1. L’ADN et l’information génétique
TP 5 Du génome au protéome
La phylogénie Définition :
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Département Génétique et Génomique Evolutives
Expression du Génome Le transcriptome.
La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)
LA SYNTHÈSE DES PROTÉINES
ADN à ARN La synthèse des protéines étape 1
Introduction à la bioinformatique
LA SYNTHÈSE DES PROTÉINES
Annotation de génomes complets
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
printemps des sciences
Introduction à la Bio-Informatique
Génétique moléculaire
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
Biologie cellulaire IUT du Havre HSE Morgane Gorria.
Module 2 Biologie cellulaire, ADN et protéines
Co-expression = fonction (Eisen et al., PNAS 1998)
Chapitre 3.
Formation Bio-informatique IRD
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
CHMI 2227F Biochimie I Expression des gènes
Banques de données en bio-informatique
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
Introduction à la Bio-Informatique
Institut Universitaire de Technologie de Clermont-Ferrand
Recherche heuristique dans les bases de données L’algorithme BLAST
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
Régulation de l’expression génétique: la traduction
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Aspects techniques des biotechnologies
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
L’histoire du gène depuis le début du 20 e siècle jusqu’à aujourd’hui Michel Morange, Centre Cavaillès, République des savoirs USR 3608, Ecole normale.
Transcription de la présentation:

Introduction à la Bioinformatique Alexis Dereeper Bruno Granouillac Burkina Faso, Bobo-dioulasso - 2012

1. Qu’est-ce que la Bioinformatique? Domaine multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

Les séquences d’ADN et de protéines La bioinformatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes.. Interactome Transcriptome Génome Protéome

Quelles sont les données ? Interactome Transcriptome Génome Protéome Structure 3D Evolution Données « haut débit »

2. Séquençage de génomes Analyser, comprendre et organiser une masse de données biologiques: Plus de 4000 génomes complètement séquencés et publiés, dont l’homme (23 paires de chrom.) et la souris (20 paires de chrom.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de milliers de procaryotes et eucaryotes http://www.genomesonline.org/

Séquençage de génomes 2006 2007 2009 2011 Préhistoire De La génomique 20 Mb/run 100 pb 200 000 R. 100 Mb/run 250 pb 400 000 R. 500 Mb/run 500 pb 1 000 000 R. 800 Mb/run 800 pb 1 500 000 R. 454 LifeScience E. coli 10X 22X 111X 266X H. sapiens 0,01X 0,03X 0,16X 0,4X 1.5 Gb/run 36 pb 40 000 000 R. 3 Gb/run 36 pb 80 000 000R. 10 Gb/run 36 pb 250 000 000 R. 25 Gb/run 100 pb 250 000 000 R. Solexa Illumina E. coli 320X 640X 2000X >5000X H. sapiens 0,5X 1X 3X 9X Mais aussi: Illumina HiSeq200 -> 3 Milliards de lectures (100pb) PacBio (Pacific Biosciences) -> X lectures (1000pb)

Défis de la bioinformatique Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier les introns et les exons (annotation structurale) Analyser les répétitions (SSR, TE…) dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

Assemblage de génome

3. Qu’est-ce qu’un génome? Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes

Taille des génomes Homme Colza Souris Blé Arabidopsis Levure Mais Bacterie Drosophile Riz

Gènes et éléments fonctionnels dans le génome H. sapiens Taille du génome : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ?

Structure de gènes eucaryotes promoteur exons introns site de polyadénylation TRANSCRIPTION MATURATION AAAAA ATG STOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AG GT point de branchement signaux d’épissage donneur accepteur ADN préARNm ARNm Protéine

Genome Browser

4. Les banques de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

Les banques de données de séquences biologiques Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spécialisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...

Structure d’une entrée de la banque de données Identification de la séquence ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxonomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs

Structure d’une entrée de la banque de données Annotation de la séquence Séquence FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6. FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...). FT VARIANT 32 32 P -> S. FT /FTId=VAR_013075. FT VARIANT 162 162 D -> V. FT /FTId=VAR_013076. FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY. FT MUTAGEN 204 204 S->P: 13% ACTIVITY. FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)

Les banques de données: accessibilité sur internet Banques généralistes : GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/ DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/ Banques spécialisées : ProSite : http://www.expasy.ch/prosite/ Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/ FlyBase : http://flybase.harvard.edu:7081/

Recherche dans les bases de données Tache courante d’un biologiste moléculaire Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

5. Alignement local et global Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de « différences » (insertion, suppression, substitution) Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) domaine ARNm gène

Alignement local: recherche de similarité dans les banques de séquences Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traiter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur

BLAST: Basic Local Alignment Tool Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).

BLAST: Choix du programme SEQUENCE BANQUE Protéique Nucléique T BLASTP BLASTN TBLASTX TBLASTN BLASTX

On choisit son BLAST La page d’entrée NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/

On entre la séquence à chercher

Choisir la banque de données dans laquelle on veut faire la recherche

On a soumis et on attend les résultats

Nombres de hits Répartition des hits en fonction du score

Comparaison de deux génomes

6. Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

Conservation de régions

Arbres de phylogénie Racine: Ancêtre commun Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution