La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la Bioinformatique

Présentations similaires


Présentation au sujet: "Introduction à la Bioinformatique"— Transcription de la présentation:

1 Introduction à la Bioinformatique
Alexis Dereeper Bruno Granouillac Burkina Faso, Bobo-dioulasso

2 1. Qu’est-ce que la Bioinformatique?
Domaine multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

3 Les séquences d’ADN et de protéines
La bioinformatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes.. Interactome Transcriptome Génome Protéome

4 Quelles sont les données ?
Interactome Transcriptome Génome Protéome Structure 3D Evolution Données « haut débit »

5 2. Séquençage de génomes Analyser, comprendre et organiser une masse de données biologiques: Plus de 4000 génomes complètement séquencés et publiés, dont l’homme (23 paires de chrom.) et la souris (20 paires de chrom.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de milliers de procaryotes et eucaryotes

6 Séquençage de génomes 2006 2007 2009 2011 Préhistoire De La génomique
20 Mb/run 100 pb R. 100 Mb/run 250 pb R. 500 Mb/run 500 pb R. 800 Mb/run 800 pb R. 454 LifeScience E. coli 10X 22X 111X 266X H. sapiens 0,01X 0,03X 0,16X 0,4X 1.5 Gb/run 36 pb R. 3 Gb/run 36 pb R. 10 Gb/run 36 pb R. 25 Gb/run 100 pb R. Solexa Illumina E. coli 320X 640X 2000X >5000X H. sapiens 0,5X 1X 3X 9X Mais aussi: Illumina HiSeq200 -> 3 Milliards de lectures (100pb) PacBio (Pacific Biosciences) -> X lectures (1000pb)

7 Défis de la bioinformatique
Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier les introns et les exons (annotation structurale) Analyser les répétitions (SSR, TE…) dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

8 Assemblage de génome

9 3. Qu’est-ce qu’un génome?
Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes

10 Taille des génomes Homme Colza Souris Blé Arabidopsis Levure Mais
Bacterie Drosophile Riz

11 Gènes et éléments fonctionnels dans le génome
H. sapiens Taille du génome : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ?

12 Structure de gènes eucaryotes
promoteur exons introns site de polyadénylation TRANSCRIPTION MATURATION AAAAA ATG STOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AG GT point de branchement signaux d’épissage donneur accepteur ADN préARNm ARNm Protéine

13 Genome Browser

14 4. Les banques de données bioinformatiques les plus utilisées
NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

15 Les banques de données de séquences biologiques
Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spécialisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...

16 Structure d’une entrée de la banque de données
Identification de la séquence ID IL6_HUMAN STANDARD; PRT; AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxonomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs

17 Structure d’une entrée de la banque de données
Annotation de la séquence Séquence FT SIGNAL FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)

18 Les banques de données: accessibilité sur internet
Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase :

19 Recherche dans les bases de données
Tache courante d’un biologiste moléculaire Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

20 5. Alignement local et global
Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de « différences » (insertion, suppression, substitution) Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) domaine ARNm gène

21 Alignement local: recherche de similarité dans les banques de séquences
Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traiter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur

22 BLAST: Basic Local Alignment Tool
Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).

23 BLAST: Choix du programme
SEQUENCE BANQUE Protéique Nucléique T BLASTP BLASTN TBLASTX TBLASTN BLASTX

24 On choisit son BLAST La page d’entrée NCBI BLAST

25 On entre la séquence à chercher

26 Choisir la banque de données dans laquelle on veut
faire la recherche

27 On a soumis et on attend les résultats

28 Nombres de hits Répartition des hits en fonction du score

29

30

31 Comparaison de deux génomes

32 6. Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

33 Conservation de régions

34

35 Arbres de phylogénie Racine: Ancêtre commun
Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution


Télécharger ppt "Introduction à la Bioinformatique"

Présentations similaires


Annonces Google