Formation Bio-informatique IRD

Slides:



Advertisements
Présentations similaires
Taxonomie bactérienne
Advertisements

Cladogramme.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
Méthode de recherche de gènes orthologues
L’outil bio-informatique pour la génomique structurale
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
I. Recherche du gène correspondant aux séquences initiales.
Phylogénie et distances génétique
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
PhyloJava : une application de phylogénie sur la grille DATAGRID
TP2, Apparition de nouveaux gènes : les familles multigéniques
Etablissement de Phylogénie
Le remplacement moléculaire
Modélisation Bayésienne par chaines de Markov Monte Carlo
Un nouveau regard sur les données moléculaires
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
Les bases de données biologiques au LBBE
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
YASS : Recherche de similarités dans les séquences d'ADN
Alignement de séquences multiples
La phylogénomique sans alignement de séquences
PROJET AIRBUS A380 Scénario :
Alignement de séquences multiples
La phylogénie Définition :
Phylogenetik Conception, développement et tests d’un logiciel en java
Prédiction de la structure 3-D des protéines
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
1.
Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.
Prédiction d’interactions protéine-protéine
Rappels- introduction Le vivant =
Recherche heuristique dans les bases de données L’algorithme BLAST
Etat de l’art en Bioinformatique
Introduction à la Bio-Informatique
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Chapitre 3.
Introduction à la Phylogénie
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Sériation et traitement de données archéologiques
1 Étudiants: Professeur: Salamin Nicolas Assistante: Maryam Zaheri.
Module « Epidémiologie »
Alignement de séquences biologiques
Recherche de motifs par projections aléatoires
Inférence phylogénétique
Introduction à la Bio-Informatique
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
L’établissement des relations phylogénétiques
Réalisation d’un arbre phylogénique à partir d’un fragment de séquence
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
La phylogenèse Définition :
Introduction à la Bio-Informatique
CHMI 4206 Bioinformatique appliquée
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
Thème 5.4 La cladistique Idée Essentielle: l’ascendance de groupes d’espèces peut être déduite en comparant leurs séquences de bases ou d’acides aminés.
Bio-Informatique Analyse de séquences nucléotidiques
Analyse et comparaison des séquences biologiques
Classification évolutive Travaux pratiques et cas de la lignée verte Cours du 10/03/2016 Présentation: Hugo FONTES Conception : Hugo FONTES et Pierre CELLIER.
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive.
Algorithme de Needleman et Wunsch (programmation dynamique)
Approches génomiques - TD 2 L3 – BCP ALIGNEMENTS ET PHYLOGENIE
Analyse et comparaison des séquences biologiques
Transcription de la présentation:

Formation Bio-informatique IRD Recherche d'homologie et Phylogénie moléculaire Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD 1 Data selection 4 étapes pour une analyse phylogénétique 2 Sequence alignment Probabilistic methods Distance methods Method selection Bayesian Maximum likelihood Parsimony Calculate distance 3 Optimization Model? Calculate or estimate the better tree fitting the data 4 Test the reliability of the obtained tree Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Phylogeny.fr “The Phylogeny.fr platform transparently chains programs to automatically perform phylogenetic analysis tasks” Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie Qu’est-ce que l’homologie de séquence? Pas une notion quantitative (à différencier de similarité ou d’identité : 28%identité): on est homologue ou on ne l’est pas Homologues: gènes provenant d’un ancêtre commun Paralogues: gènes homologues issus d’un phénomène de duplication Orthologues: gènes homologues issues d’une spéciation Homologie et fonction: homologie ne signifie pas forcément même fonction. Orthologues rapprochés peuvent avoir la même fonction mais orthologues distants ont rarement le même rôle phénotypique (par contre même rôle dans une voie donnée) Paralogues acquièrent rapidement des fonctions différentes Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie Comment les séquences homologues se ressemblent-elles? De 100% à quelques aa/nt en commun Pas vraiment de règle, de limite. On se base sur la probabilité que 2 séquences soit similaires par le fruit du hasard (e-value): ADN: e-value < 10-6 et identité > 70% Protéine: e-value < 10-3 et identité > 25% Des séquences sans ressemblance apparente peuvent être homologues (ressemblance retrouvée au niveau 3D). Par contre, étant donné la dimension des séquences possibles, une ressemblance importante est généralement interprétée comme une homologie, et non comme une évolution convergente Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie Comment détecter une homologie? Par comparaison de séquences = alignement de séquences 1- Alignement local (ex:Blast) Conçu pour rechercher des régions similaires Alignement d’une séquence contre une banque de séquence (Swith &Waterman) 2- Alignement global (ex: ClustalW) Conçu pour comparer des séquences homolgues sur toute leur longueur (Needleman & Wunsh) Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie Sortie de Blast classique Evalue= indicatif de la fiabilité du score score Différents programmes Blast: BlastN (Query: DNA / Subject : DNA) BlastP (Query: protein/ Subject : protein) BlastX (Query: DNA / Subject : protein) TBlastN (Query: protein/ Subject : DNA) TBlastX (Query: DNA traduit / Subject : DNA traduit) Rester prudent avec les transfert d’annotation d’espèces à espèces… Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD Blast Explorer Permet une sélection assistée de séquences homologues selon différents critères Post-processing des résultats de Blast: Arbre guide (arbre de similarité) et sélection possible au niveau des branches Distribution des scores/evalues Représentation taxonomique des hits Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie Méthode BBMH (Best Blast Mutual Hits) ou RBH (Reciprocal Best Hit) Protéome Espèce1 Protéome Espèce2 Banques de séquences orthologues: Inparanoid (eucaryotes) HomoloGene (eucaryotes) OrthoMCL DB COG (Clusters of Ortholog Groups of proteins) (procaryotes et eucaryotes) GreenPhyl (plantes) Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape1 : Alignement multiple (alignement global) Logiciels d’alignement: ClustalW Muscle Tcoffee 3DCoffee (optimise l’alignement avec structure 3D) Mafft Formats d’alignement : Fasta, Clustal, Phylip, Nexus Logiciels de visualisation/édition d’alignement SeaView Jalview BioEdit rapides lents Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape2 : Nettoyage de l’alignement Elimination des régions divergentes et présentant peu de signal phylogénétiques (peu informatives) Ces régions peuvent ne pas être homologues ou avoir été saturées par des substitutions (ex: sites synonymes en régions codantes) => Alignement nettoyé plus adéquat pour une analyse phylogénétique Logiciels de curation d’alignement GBlocks Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape3 : Reconstruction phylogénétique Etape 3a: Choix d’une méthode de reconstruction 4 grandes familles de méthodes/algorithmes: Méthode des distances 2 à 2 (UPGMA, Neighbor Joining) FastDist, BIONJ, Neighbor Méthode du maximum de parcimonie DNAPars, TNT Méthode du maximum de vraisemblance (max likelihood) PhyML, PAML Inférence Bayesienne MrBayes, Beast Format de sortie : matrice de distance, format Newick Choisir le bon compromis vitesse/fiabilité Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape3 : Reconstruction phylogénétique Etape 3b: Choix des paramètres et modèles d’évolution Différents modèles d’évolution indiquant le taux de substitution d’aa ou nt: DNA Juke Cantor, Kimura, F81, HKY85, GTR protein JTT, WAG, Dayhoff Logiciels de test d’évolution: Test et sélection du modèle de substitution (et paramètres) le mieux adapté au jeu de donnée ProtTest, ModelTest (basé sur PhyML) Matrices liées à l’évolution (substitution des aa au cours de l’évolution) : différent selon le jeu de données utilisé pour calculer la matrice Dayhoff, PAM Matrices liées aux propriétés physico-chimiques (taille, hydrophobicité) Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape3 : Reconstruction phylogénétique Etape 3c: Estimation de la robustesse des branches Procédure Bootstrap 1- On rééchantillonne les séquences sur les colonnes: création d’un pseudo-alignement en tirant au hasard un certain nombre de sites puis recalcul de l’arbre. 2- On réitère le processus N fois. 3- Pour chaque branche de l’arbre initial, on regarde combien de fois on l’observe dans les arbres de bootstrap. Plus le nombre est elevé, plus la branche est fiable Test aLRT (approximate Likelihood Ratio Test) (Anisimova & Gascuel, Syst Biol, 2006) Intégré dans PhyML Beaucoup plus rapide (PhyML lancé qu’une seule fois) Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique Etape4 : Visualisation et édition de l’arbre phylogénétique Outils graphiques permettant l’affichage d’arbres à partir de format Newick: TreeDyn DrawGram, DrawTree ATV NJPlot Formats de sortie: PNG, SVG, PDF… Etape5 : Interprétation de l’arbre Alexis Dereeper Formation Bio-informatique IRD