La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la Bio-Informatique

Présentations similaires


Présentation au sujet: "Introduction à la Bio-Informatique"— Transcription de la présentation:

1 Introduction à la Bio-Informatique
Nadia El-Mabrouk

2 Plan de la présentation
Définition de la bioinformatique Défis de la biologie moléculaire Bases de données Analyse des séquences d’ADN, ARN et protéines Recherche dans les bases de données Alignement de deux séquences Alignement multiple Prédiction de gènes Prédiction de structures d’ARN et de protéines Théorie de l’évolution Expression des gènes, puces à ADN

3 1. Qu’est-ce que la Bio-Informatique?
Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour: Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

4 La Bio-Informatique s’applique à tout type de données biologiques:
Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités: Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes..

5 2. Défis de la biologie moléculaire
Analyser, comprendre et organiser une masse de données biologiques: Plus de 169 génomes complètement séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de plus de 400 procaryotes et 360 eucaryotes

6

7 Défis de la biologie moléculaire (suite)
Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

8 3. Les bases de données bioinformatiques les plus utilisées
NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

9 4. Intérêt des séquences La séquence nucléotidique d’un gène détermine la séquence d’AA de la protéine La séquence d’une protéine détermine sa structure et sa fonction Généralement, une similarité de séquence implique une similarité de structure et de fonction (l’inverse n’est pas toujours vrai) Évolution basée, en grande partie, sur la duplication suivie de modification. D’où, beaucoup de redondance dans les bases de données

10 4.1 Recherche dans les bases de données
Tache courante d’un biologiste Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

11 4.2 Alignement local et global
Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de ``différences’’ (insertion, suppression, substitutions) Alignement Global: C A G C A – C G T G G A T T C T C G G | | | | | | | | | | | T A T C A G C G T G G – C A C T A G C Alignement Local: CAGCAC T T – G G A T TCTCGG | | | | | TAGT T T A G G - T GGCAT Recherche: C A G C A – C T T G G A T T C T C G G | | | | | | C A G C G T G G

12

13 Comparaison de deux génomes

14 Signification de l’alignement de séquences
Modèle sous-jacent: Mutations ponctuelles Exemple: Substitition de caractère Séquence ancestrale inconnue G C G | | A C G ACG A B Séquences observées A G GCG ACG

15 Alignement pondéré Au lieu de compter le nombre de ``mutations’’, matrice de score pour les substitutions. Matrices empiriques basées sur des alignements de séquences ``homologues’’. Sensées refléter le taux de mutation d’un AA en un autre PAM250, BLOSUM62 les plus utilisées Exemple: Case (i,j) de PAM250: Fréquence avec laquelle Ai remplacée par Aj dans les séquences qui divergent de 250 PAM (taux d’évolution entre les séquences comparées) Case (i,j) de BLOSUM: Fréquence avec laquelle Ai est aligné avec Aj dans des alignements de la base de données BLOCKS

16 Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs

17 4.3 Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et le régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

18

19 5. Prédiction de gènes Étant donné une nouvelle séquence d’ADN, identifier les régions qui codent pour des protéines Trouver les ORF (open reading frame): suite de codons entre un START et un STOP. Tester 6 cadres de lecture 5'                                                   '    atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa  1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa     M   P   K   L   N   S   V   E   G   F   S   S   F   E   D   D   V   *   2  tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat      C   P   S   *   I   A   *   R   G   F  H   H   L   R   T   M   Y   3   gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata       A   Q   A   E   *   R   R   G   V  F   I   I   *   G   R   C   I   

20 Pour valider un ORF: Considérer la taille de l’ORF (assez long) Est-ce que l’usage des codons est similaire à celui des autres gènes du même organisme? Rechercher la séquence d’AA obtenue dans les bases de données. Permet également de localiser les exons

21 Programmes de prédiction de gènes
Considèrent: Caractéristiques des séquences d’introns, exons, sites d’épissage, sites de régulation Séquences conservées (régions promotrices, facteurs de transcription, fin de transcription) Caractéristiques spécifique à chaque espèce.

22 6. Prédiction de structures 2D et 3D d’ARN

23 Retrouver les nucléotides co-variants dans un alignement multiple
Minimiser l’énergie libre

24 Prédiction de structures de protéines
Retrouver des domaines conservés à partir d’un alignement d’AA Comparer avec la structure connue d’une protéine homologue Algorithmes d’apprentissages et de réseaux de neurones. Résultat dépend de l’ensemble d’entrainement Problème très difficile en pratique

25 7. Théorie de l’évolution
Tous les organismes vivants dérivent d’un ancêtre commun Diversité due à la spéciation (séparation d’une espèce en deux espèces) Pas d’information directe sur le passé. Reconstruction d’une phylogénie basée sur des modèles simplifiés utilisant des données incomplètes Modèles basés sur l’idée que les caractères sont transmis d’une génération à l’autre, et au cours de l’évolution subissent une suite de mutations

26 Arbres de phylogénie Racine: Ancêtre commun
Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution

27 Types de données et Méthodes
Séquences d’ADN Séquences de protéines Méthodes Alignement de séquence Calcul de distances Minimisation du nombre de mutations Approches probabilistes de maximum de vraisemblance

28

29 Réarrangements génomiques
Duplication Suppression Inversion Transposition Translocation réciproque

30 Comparaison de l’ordre des gènes
Réarrangements génomiques sur le chromosome X de l’homme et de la souris

31 8. Expression des gènes – Puces à ADN
Mesure les niveaux d’expressions des gènes. À partir de l’ARNm recueilli dans une cellule

32 Puce à ADN comparant contenant tous les gènes de la levure

33 Objectifs Classifier les gènes selon leur niveau de transcription
Retrouver des réseaux de régulation entre les gènes Déduire la fonction de gènes inconnus Étudier le comportement des gènes face à différents stimuli, à différents cycles de la cellule Trouver les gènes responsables de maladies

34 7. Projet du génome humain
ADN de deux individus similaire a 99.9% 0.1% restant: Spécificité génétique de chaque individu Single nucleotide polymorphisms (SNPs): Nucléotides qui diffèrent entre deux individus. Marqueurs de choix pour: Déterminer les allèles à l’origine des maladies mendéliennes rares Trouver les gènes responsables de maladies fréquentes Comprendre l’histoire des populations

35 Haplotypes fréquents pour dys44
Ancestral alleles C C G A T A C T T A C C T N G T A G G C A A G A C G T T N A C T C C G G . A T C D G B001 B003 B002 B004 B006 B008 B005 B011 B009 B016 B032 B013 B051

36 Haplotype Suite de sites polymorphes le long d’un segment d’ADN
Carte des haplotypes: Décrit la diversité génétique d’une population Chez l’homme, deux copies de chaque chromosome (à part X,Y) Génotype: …C A C G G A C G C… (mère) …C T C G G A G G C… (père) Génotypage: Trouver les haplotypes à partir des génotypes

37 (Japon, U.K., Canada, Chine, Nigéria, USA)
HapMap Projet international pour la construction de la carte des haplotypes (Japon, U.K., Canada, Chine, Nigéria, USA) Échantillon de 270 personnes. Théoriquement, suffisant pour retrouver la plupart des haplotypes fréquents (fréquence > 5%) En Novembre 2003: 13 million de génotypes à partir de 145,554 SNPs Un des objectifs de HapMap: Trouver quelques marqueurs qui caractérisent tous les haplotypes


Télécharger ppt "Introduction à la Bio-Informatique"

Présentations similaires


Annonces Google