Introduction à la Bioinformatique Alexis Dereeper Bruno Granouillac Burkina Faso, Bobo-dioulasso - 2012
1. Qu’est-ce que la Bioinformatique? Domaine multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.
Les séquences d’ADN et de protéines La bioinformatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes.. Interactome Transcriptome Génome Protéome
Quelles sont les données ? Interactome Transcriptome Génome Protéome Structure 3D Evolution Données « haut débit »
2. Séquençage de génomes Analyser, comprendre et organiser une masse de données biologiques: Plus de 4000 génomes complètement séquencés et publiés, dont l’homme (23 paires de chrom.) et la souris (20 paires de chrom.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de milliers de procaryotes et eucaryotes http://www.genomesonline.org/
Séquençage de génomes 2006 2007 2009 2011 Préhistoire De La génomique 20 Mb/run 100 pb 200 000 R. 100 Mb/run 250 pb 400 000 R. 500 Mb/run 500 pb 1 000 000 R. 800 Mb/run 800 pb 1 500 000 R. 454 LifeScience E. coli 10X 22X 111X 266X H. sapiens 0,01X 0,03X 0,16X 0,4X 1.5 Gb/run 36 pb 40 000 000 R. 3 Gb/run 36 pb 80 000 000R. 10 Gb/run 36 pb 250 000 000 R. 25 Gb/run 100 pb 250 000 000 R. Solexa Illumina E. coli 320X 640X 2000X >5000X H. sapiens 0,5X 1X 3X 9X Mais aussi: Illumina HiSeq200 -> 3 Milliards de lectures (100pb) PacBio (Pacific Biosciences) -> X lectures (1000pb)
Défis de la bioinformatique Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier les introns et les exons (annotation structurale) Analyser les répétitions (SSR, TE…) dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines
Assemblage de génome
3. Qu’est-ce qu’un génome? Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes
Taille des génomes Homme Colza Souris Blé Arabidopsis Levure Mais Bacterie Drosophile Riz
Gènes et éléments fonctionnels dans le génome H. sapiens Taille du génome : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ?
Structure de gènes eucaryotes promoteur exons introns site de polyadénylation TRANSCRIPTION MATURATION AAAAA ATG STOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AG GT point de branchement signaux d’épissage donneur accepteur ADN préARNm ARNm Protéine
Genome Browser
4. Les banques de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins
Les banques de données de séquences biologiques Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spécialisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...
Structure d’une entrée de la banque de données Identification de la séquence ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxonomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs
Structure d’une entrée de la banque de données Annotation de la séquence Séquence FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6. FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...). FT VARIANT 32 32 P -> S. FT /FTId=VAR_013075. FT VARIANT 162 162 D -> V. FT /FTId=VAR_013076. FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY. FT MUTAGEN 204 204 S->P: 13% ACTIVITY. FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)
Les banques de données: accessibilité sur internet Banques généralistes : GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/ DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/ Banques spécialisées : ProSite : http://www.expasy.ch/prosite/ Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/ FlyBase : http://flybase.harvard.edu:7081/
Recherche dans les bases de données Tache courante d’un biologiste moléculaire Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST
5. Alignement local et global Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de « différences » (insertion, suppression, substitution) Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) domaine ARNm gène
Alignement local: recherche de similarité dans les banques de séquences Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traiter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur
BLAST: Basic Local Alignment Tool Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).
BLAST: Choix du programme SEQUENCE BANQUE Protéique Nucléique T BLASTP BLASTN TBLASTX TBLASTN BLASTX
On choisit son BLAST La page d’entrée NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/
On entre la séquence à chercher
Choisir la banque de données dans laquelle on veut faire la recherche
On a soumis et on attend les résultats
Nombres de hits Répartition des hits en fonction du score
Comparaison de deux génomes
6. Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie
Conservation de régions
Arbres de phylogénie Racine: Ancêtre commun Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution