Introduction à la Bio-Informatique

Slides:



Advertisements
Présentations similaires
Stabilité et Variabilité des génomes et Evolution
Advertisements

Un aperçu de la bioinformatique moléculaire
Sandrine Marchand- Académie de Grenoble
La génétique bactérienne cours 5
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Génétique Médicale L3 Hérédité mendélienne
Innovations génétiques
Traduction de l’information génétique
Les données et les banques de données
Phylogénie et distances génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Des Débuts de la Génétique aux Enjeux actuels des Biotechnologies
Initiation à la bioinformatique
Le remplacement moléculaire
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Analyse bioinformatique de données de séquençage NGS médicales
Module 4 – Génétique.
Analyse génétique des asques
Initiation à la conception de systèmes d'information
Partie 2: Du génotype au phénotype, relations avec l’environnement
BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:
Responsables P. Maury & R. Babilé
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Département Génétique et Génomique Evolutives
CHAPITRE 19 - La génétique des populations
Chapitre 3 - Les fondements chromosomiques de l'hérédité
Expression du Génome Le transcriptome.
L'information génétique
1.
II.2 La molécule d’ADN: le support chimique universel de l’information génétique > Activité 3-0 : une extraction de la molécule d’ADN.
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
LA SYNTHÈSE DES PROTÉINES
Annotation de génomes complets
Recherche heuristique dans les bases de données L’algorithme BLAST
Introduction à la Bio-Informatique
"POLYMORPHISME" Plusieurs Formes
La génétique et la biométrie
Introduction Matériels et méthodes Résultats
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Chapitre 4 3 ème partie Génétique et biotechnologie.
CHMI 2227F Biochimie I Expression des gènes
Le code génétique, clé de la vie
Alignement de séquences biologiques
Le code génétique I- Définition: ensemble de codons qui signifient un acide aminé ou une information génétique. II- Nombre de codons: 43 = 64 codons -61.
Codage et expression de l’information génétique
La génétique et la biométrie
Recherche heuristique dans les bases de données L’algorithme BLAST
Cartographie génomes entiers
Un segment peut contenir plusieurs gènes les gènes sont nombreux et/ou en interaction leurs effets sont inégaux et instables les mutations se fixent séquentiellement.
« Ecologie et dynamique des populations » Unité de Pathologie Végétale
L’information génétique et ses variations
Bin1002 – Automne 2015 Intégration biosciences/informatique
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Régulation de l’expression génétique: la transcription
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
CHMI 4206 Bioinformatique appliquée
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
Des protéines et des médicaments 19 avril 2016.
Expression du Génome Le transcriptome.
Programmation Raymond Ripp.
Transcription de la présentation:

Introduction à la Bio-Informatique Nadia El-Mabrouk

Plan de la présentation Définition de la bioinformatique Défis de la biologie moléculaire Bases de données Analyse des séquences d’ADN, ARN et protéines Recherche dans les bases de données Alignement de deux séquences Alignement multiple Prédiction de gènes Prédiction de structures d’ARN et de protéines Théorie de l’évolution Expression des gènes, puces à ADN

1. Qu’est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour: Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

La Bio-Informatique s’applique à tout type de données biologiques: Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités: Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes..

2. Défis de la biologie moléculaire Analyser, comprendre et organiser une masse de données biologiques: Plus de 169 génomes complètement séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de plus de 400 procaryotes et 360 eucaryotes

Défis de la biologie moléculaire (suite) Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

3. Les bases de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

4. Intérêt des séquences La séquence nucléotidique d’un gène détermine la séquence d’AA de la protéine La séquence d’une protéine détermine sa structure et sa fonction Généralement, une similarité de séquence implique une similarité de structure et de fonction (l’inverse n’est pas toujours vrai) Évolution basée, en grande partie, sur la duplication suivie de modification. D’où, beaucoup de redondance dans les bases de données

4.1 Recherche dans les bases de données Tache courante d’un biologiste Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

4.2 Alignement local et global Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de ``différences’’ (insertion, suppression, substitutions) Alignement Global: C A G C A – C G T G G A T T C T C G G | | | | | | | | | | | T A T C A G C G T G G – C A C T A G C Alignement Local: CAGCAC T T – G G A T TCTCGG | | | | | TAGT T T A G G - T GGCAT Recherche: C A G C A – C T T G G A T T C T C G G | | | | | | C A G C G T G G

Comparaison de deux génomes

Signification de l’alignement de séquences Modèle sous-jacent: Mutations ponctuelles Exemple: Substitition de caractère Séquence ancestrale inconnue G C G | | A C G ACG A B Séquences observées A G GCG ACG

Alignement pondéré Au lieu de compter le nombre de ``mutations’’, matrice de score pour les substitutions. Matrices empiriques basées sur des alignements de séquences ``homologues’’. Sensées refléter le taux de mutation d’un AA en un autre PAM250, BLOSUM62 les plus utilisées Exemple: Case (i,j) de PAM250: Fréquence avec laquelle Ai remplacée par Aj dans les séquences qui divergent de 250 PAM (taux d’évolution entre les séquences comparées) Case (i,j) de BLOSUM: Fréquence avec laquelle Ai est aligné avec Aj dans des alignements de la base de données BLOCKS

Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs

4.3 Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et le régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

5. Prédiction de gènes Étant donné une nouvelle séquence d’ADN, identifier les régions qui codent pour des protéines Trouver les ORF (open reading frame): suite de codons entre un START et un STOP. Tester 6 cadres de lecture 5'                                                   3'    atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa  1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa     M   P   K   L   N   S   V   E   G   F   S   S   F   E   D   D   V   *   2  tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat      C   P   S   *   I   A   *   R   G   F  H   H   L   R   T   M   Y   3   gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata       A   Q   A   E   *   R   R   G   V  F   I   I   *   G   R   C   I   

Pour valider un ORF: Considérer la taille de l’ORF (assez long) Est-ce que l’usage des codons est similaire à celui des autres gènes du même organisme? Rechercher la séquence d’AA obtenue dans les bases de données. Permet également de localiser les exons

Programmes de prédiction de gènes Considèrent: Caractéristiques des séquences d’introns, exons, sites d’épissage, sites de régulation Séquences conservées (régions promotrices, facteurs de transcription, fin de transcription) Caractéristiques spécifique à chaque espèce.

6. Prédiction de structures 2D et 3D d’ARN

Retrouver les nucléotides co-variants dans un alignement multiple Minimiser l’énergie libre

Prédiction de structures de protéines Retrouver des domaines conservés à partir d’un alignement d’AA Comparer avec la structure connue d’une protéine homologue Algorithmes d’apprentissages et de réseaux de neurones. Résultat dépend de l’ensemble d’entrainement Problème très difficile en pratique

7. Théorie de l’évolution Tous les organismes vivants dérivent d’un ancêtre commun Diversité due à la spéciation (séparation d’une espèce en deux espèces) Pas d’information directe sur le passé. Reconstruction d’une phylogénie basée sur des modèles simplifiés utilisant des données incomplètes Modèles basés sur l’idée que les caractères sont transmis d’une génération à l’autre, et au cours de l’évolution subissent une suite de mutations

Arbres de phylogénie Racine: Ancêtre commun Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution

Types de données et Méthodes Séquences d’ADN Séquences de protéines Méthodes Alignement de séquence Calcul de distances Minimisation du nombre de mutations Approches probabilistes de maximum de vraisemblance

Réarrangements génomiques Duplication Suppression Inversion Transposition Translocation réciproque

Comparaison de l’ordre des gènes Réarrangements génomiques sur le chromosome X de l’homme et de la souris

8. Expression des gènes – Puces à ADN Mesure les niveaux d’expressions des gènes. À partir de l’ARNm recueilli dans une cellule

Puce à ADN comparant contenant tous les gènes de la levure

Objectifs Classifier les gènes selon leur niveau de transcription Retrouver des réseaux de régulation entre les gènes Déduire la fonction de gènes inconnus Étudier le comportement des gènes face à différents stimuli, à différents cycles de la cellule Trouver les gènes responsables de maladies

7. Projet du génome humain ADN de deux individus similaire a 99.9% 0.1% restant: Spécificité génétique de chaque individu Single nucleotide polymorphisms (SNPs): Nucléotides qui diffèrent entre deux individus. Marqueurs de choix pour: Déterminer les allèles à l’origine des maladies mendéliennes rares Trouver les gènes responsables de maladies fréquentes Comprendre l’histoire des populations

Haplotypes fréquents pour dys44 Ancestral alleles C C G A T A C T T A C C T N G T A G G C A A G A C G T T N A C T C C G G . A T C D G B001 B003 B002 B004 B006 B008 B005 B011 B009 B016 B032 B013 B051

Haplotype Suite de sites polymorphes le long d’un segment d’ADN Carte des haplotypes: Décrit la diversité génétique d’une population Chez l’homme, deux copies de chaque chromosome (à part X,Y) Génotype: …C A C G G A C G C… (mère) …C T C G G A G G C… (père) Génotypage: Trouver les haplotypes à partir des génotypes

(Japon, U.K., Canada, Chine, Nigéria, USA) HapMap Projet international pour la construction de la carte des haplotypes (Japon, U.K., Canada, Chine, Nigéria, USA) Échantillon de 270 personnes. Théoriquement, suffisant pour retrouver la plupart des haplotypes fréquents (fréquence > 5%) En Novembre 2003: 13 million de génotypes à partir de 145,554 SNPs Un des objectifs de HapMap: Trouver quelques marqueurs qui caractérisent tous les haplotypes