Télécharger la présentation
1
Introduction à la Bioinformatique
Alexis Dereeper Bruno Granouillac Burkina Faso, Bobo-dioulasso
2
1. Qu’est-ce que la Bioinformatique?
Domaine multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.
3
Les séquences d’ADN et de protéines
La bioinformatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes.. Interactome Transcriptome Génome Protéome
4
Quelles sont les données ?
Interactome Transcriptome Génome Protéome Structure 3D Evolution Données « haut débit »
5
2. Séquençage de génomes Analyser, comprendre et organiser une masse de données biologiques: Plus de 4000 génomes complètement séquencés et publiés, dont l’homme (23 paires de chrom.) et la souris (20 paires de chrom.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de milliers de procaryotes et eucaryotes
6
Séquençage de génomes 2006 2007 2009 2011 Préhistoire De La génomique
20 Mb/run 100 pb R. 100 Mb/run 250 pb R. 500 Mb/run 500 pb R. 800 Mb/run 800 pb R. 454 LifeScience E. coli 10X 22X 111X 266X H. sapiens 0,01X 0,03X 0,16X 0,4X 1.5 Gb/run 36 pb R. 3 Gb/run 36 pb R. 10 Gb/run 36 pb R. 25 Gb/run 100 pb R. Solexa Illumina E. coli 320X 640X 2000X >5000X H. sapiens 0,5X 1X 3X 9X Mais aussi: Illumina HiSeq200 -> 3 Milliards de lectures (100pb) PacBio (Pacific Biosciences) -> X lectures (1000pb)
7
Défis de la bioinformatique
Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier les introns et les exons (annotation structurale) Analyser les répétitions (SSR, TE…) dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines
8
Assemblage de génome
9
3. Qu’est-ce qu’un génome?
Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes
10
Taille des génomes Homme Colza Souris Blé Arabidopsis Levure Mais
Bacterie Drosophile Riz
11
Gènes et éléments fonctionnels dans le génome
H. sapiens Taille du génome : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ?
12
Structure de gènes eucaryotes
promoteur exons introns site de polyadénylation TRANSCRIPTION MATURATION AAAAA ATG STOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AG GT point de branchement signaux d’épissage donneur accepteur ADN préARNm ARNm Protéine
13
Genome Browser
14
4. Les banques de données bioinformatiques les plus utilisées
NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins
15
Les banques de données de séquences biologiques
Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spécialisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...
16
Structure d’une entrée de la banque de données
Identification de la séquence ID IL6_HUMAN STANDARD; PRT; AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxonomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs
17
Structure d’une entrée de la banque de données
Annotation de la séquence Séquence FT SIGNAL FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)
18
Les banques de données: accessibilité sur internet
Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase :
19
Recherche dans les bases de données
Tache courante d’un biologiste moléculaire Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST
20
5. Alignement local et global
Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de « différences » (insertion, suppression, substitution) Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) domaine ARNm gène
21
Alignement local: recherche de similarité dans les banques de séquences
Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traiter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur
22
BLAST: Basic Local Alignment Tool
Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).
23
BLAST: Choix du programme
SEQUENCE BANQUE Protéique Nucléique T BLASTP BLASTN TBLASTX TBLASTN BLASTX
24
On choisit son BLAST La page d’entrée NCBI BLAST
25
On entre la séquence à chercher
26
Choisir la banque de données dans laquelle on veut
faire la recherche
27
On a soumis et on attend les résultats
28
Nombres de hits Répartition des hits en fonction du score
31
Comparaison de deux génomes
32
6. Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie
33
Conservation de régions
35
Arbres de phylogénie Racine: Ancêtre commun
Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.