Introduction à la Bio-Informatique

Slides:



Advertisements
Présentations similaires
Taxonomie bactérienne
Advertisements

Un aperçu de la bioinformatique moléculaire
Equipe Biosystème Membres de l’équipe: Mme. Hounaida Homri Thèse
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Variabilité nucléotidique du gène de l'acétyl coenzyme A carboxylase et Signature de sélection par un herbicide chez la plante Alopecurus myosuroides (Huds.)
Les données et les banques de données
Phylogénie et distances génétique
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Le remplacement moléculaire
Laurent Labarre AGC - UMR Génoscope
Un nouveau regard sur les données moléculaires
Les bases de données biologiques au LBBE
Bioinformatique =?? génomique protéomique
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
1. L’ADN et l’information génétique
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Présenté par Mathieu Almeida, Amine Ghozlane
Caricature IDF Dis, M'sieur le Moniteur de Biologie marine c'est quoi t'est-ce donc la classification phylogénétique ? Non ! Claude Duboc Professeur de.
Identifier les composants structurels et fonctionnels encodés dans le génome humain.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Département Génétique et Génomique Evolutives
La Bioinformatique à Nancy
CHAPITRE 19 - La génétique des populations
Expression du Génome Le transcriptome.
LA SYNTHÈSE DES PROTÉINES
Introduction à la bioinformatique
1.
Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.
Prédiction d’interactions protéine-protéine
Rappels- introduction Le vivant =
L’approche MAD* Par Sabrina Dubé-Morneau
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
printemps des sciences
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Chapitre 2 : l’expression du patrimoine génétique
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
CORRECTION DU TP 2 À partir de l’exploitation des données moléculaires proposées, confirmez l’appartenance de l’Homme au groupe des Primates et précisez.
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
TP 4 Correspondance gène/protéine.
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
La génétique et la biométrie
Module 2 Biologie cellulaire, ADN et protéines
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Co-expression = fonction (Eisen et al., PNAS 1998)
Séquençage par hybridation
Formation Bio-informatique IRD
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Alignement de séquences biologiques
Recherche par automates finis
Couche limite atmosphérique
Banques de données en bio-informatique
Soutenance de Stage DEA / DESS
Protéine.
Présenté par Mathieu Almeida, Amine Ghozlane
Introduction à la Bio-Informatique
Recherche heuristique dans les bases de données L’algorithme BLAST
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Bio-Informatique Analyse de séquences nucléotidiques
Transcription de la présentation:

Introduction à la Bio-Informatique Nadia El-Mabrouk

1. Qu’est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

Les séquences d’ADN et de protéines La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes..

2. Défis de la biologie moléculaire Analyser, comprendre et organiser une masse de données biologiques: Plus de 200 génomes complètement séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de plus de 500 procaryotes et 400 eucaryotes

Défis de la biologie moléculaire Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

3. Les bases de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

4. Intérêt des séquences La séquence nucléotidique d’un gène détermine la séquence d’acides aminés de la protéine La séquence d’une protéine détermine sa structure et sa fonction Généralement, une similarité de séquence implique une similarité de structure et de fonction (l’inverse n’est pas toujours vrai) Évolution basée, en partie, sur la duplication suivie de modification (« bricolage évolutif »). D’où, beaucoup de redondance dans les bases de données

4.1 Recherche dans les bases de données Tache courante d’un biologiste moléculaire Est-ce qu’une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d’autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

4.2 Alignement local et global Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de ``différences’’ (insertion, suppression, substitution) Alignement Global: C A G C A – C G T G G A T T C T C G G | | | | | | | | | | | T A T C A G C G T G G – C A C T A G C Alignement Local: CAGCAC T T – G G A T TCTCGG | | | | | TAGT T T A G G - T GGCAT Recherche: C A G C A – C T T G G A T T C T C G G | | | | | | C A G C G T G G

Signification de l’alignement de séquences Modèle sous-jacent: Mutations ponctuelles Exemple: Substitution de caractère Séquence ancestrale inconnue G C G | | A C G ACG A B Séquences observées A G GCG ACG

Comparaison de deux génomes

4.3 Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

Leishmaniose Leishmania (Kinetoplastida) Phlebotomus (Diptera) Sinclair Stammers/TDR/OMS http://www.md.ucl.ac.be/stages/hygtrop/arthropodes/protozoaires/leshdia4.html Phlebotomus (Diptera) http://www.vet.uga.edu/vpp/NSEP/Brazil2002/leishmania/Port/Leish03.htm

Phlébotomes Plus de 800 espèces différentes 1-3 millimètres

Comment reconnaitre un phlébotome http://cipa.snv.jussieu.fr/anat/abdomen.htm

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

La biodiversité

Classification naturelle = phylogénie

Combien existe-t-il d’arbres ? 3 espèces : 3 arbres D A B C 4 espèces : 5 * 3 arbres n espèces : (2n-3)(2n – 5) (2n – 7) … (3) (1) arbres 10 espèces : 34 106 50 espèces : 2 1076

Arbres de phylogénie Racine: Ancêtre commun Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d’évolution

Types de données et Méthodes Séquences d’ADN ou de protéines Présence/absence ou Ordre des gènes Méthodes Alignement de séquence Calcul de distances Minimisation du nombre de mutations Approches probabilistes de maximum de vraisemblance

Développement de l'Oursin Paracentrotus lividus http://www.uco-bn.fr/Galerie_Biologie/Photos/Embryologie/Oursin/

Réseau de régulation http://www.iephb.nw.ru/labs/lab38/spirov/hox_pro/urchi-net.html

Développement précoce du mésoderme d’oursin [Copyright: H. Bolouri & E. Davidson, <www.its.caltech.edu/~mirsky/endomeso.htm> (2001)]

Modélisation Une partie importante de la bioinformatique est la modélisation de systèmes complexes, comme les réseaux de régulations. Le but est d’avoir un système un peu moins compliqué dans le but de pourvoir l’analyser et possiblement prédire des phénomènes de régulation. MAIS COMMENT CHOISIR NOTRE MODÈLE: Buts Modèle Données

Modèles détaillés versus … Un modèle détaillé avec beaucoup de paramètres Peut représenter des phénomènes très précis du réseau - la concentration des protéines - les réactions cinétiques Par contre, demande un nombre très grand de données pour l’analyse du modèle et l’inférence de résultats

… modèles grossiers Un modèle grossier avec peu de paramètres Représenter des phénomènes grossiers du réseau - exemple: un gène est « on » ou « off » Requiert un petit nombre de données pour l’analyse du réseau Par contre, les résultats inférés peuvent être très loin de la réalité

Modèles discrets versus… Un modèle discret représente le réseau à un moment précis dans le temps Exemple: réseau booléen sommet : gène est « on » = 1 ou « off » = 0 arête : interaction entre deux gènes deux états: présente ou absente On peut ensuite modéliser les influences positives ou négatives des différents gènes par des fonctions booléennes Avantage: simplicité Inconvénient: trop restrictif -> réseau booléen probabiliste ??

… modèles continus Un modèle continu représente le réseau à travers le temps Dans ce cas, le réseau est modélisé par un système d’équations différentielles Les variables du système sont les concentrations à travers le temps Avantage : système représentant la réalité Inconvénient : dimension du système qui croît trop vite