Formation Bio-informatique IRD

Formation Bio-informatique IRD
Recherche d'homologie et Phylogénie moléculaire Alexis Dereeper Formation Bio-informatique IRD

1 Data selection 4 étapes pour une analyse phylogénétique 2 Sequence alignment Probabilistic methods Distance methods Method selection Bayesian Maximum likelihood Parsimony Calculate distance 3 Optimization Model? Calculate or estimate the better tree fitting the data 4 Test the reliability of the obtained tree Alexis Dereeper Formation Bio-informatique IRD

Phylogeny.fr “The Phylogeny.fr platform transparently chains programs to automatically perform phylogenetic analysis tasks” Alexis Dereeper Formation Bio-informatique IRD

Recherche d’homologie
Qu’est-ce que l’homologie de séquence? Pas une notion quantitative (à différencier de similarité ou d’identité : 28%identité): on est homologue ou on ne l’est pas Homologues: gènes provenant d’un ancêtre commun Paralogues: gènes homologues issus d’un phénomène de duplication Orthologues: gènes homologues issues d’une spéciation Homologie et fonction: homologie ne signifie pas forcément même fonction. Orthologues rapprochés peuvent avoir la même fonction mais orthologues distants ont rarement le même rôle phénotypique (par contre même rôle dans une voie donnée) Paralogues acquièrent rapidement des fonctions différentes Alexis Dereeper Formation Bio-informatique IRD

Comment les séquences homologues se ressemblent-elles? De 100% à quelques aa/nt en commun Pas vraiment de règle, de limite. On se base sur la probabilité que 2 séquences soit similaires par le fruit du hasard (e-value): ADN: e-value < 10-6 et identité > 70% Protéine: e-value < 10-3 et identité > 25% Des séquences sans ressemblance apparente peuvent être homologues (ressemblance retrouvée au niveau 3D). Par contre, étant donné la dimension des séquences possibles, une ressemblance importante est généralement interprétée comme une homologie, et non comme une évolution convergente Alexis Dereeper Formation Bio-informatique IRD

Comment détecter une homologie? Par comparaison de séquences = alignement de séquences 1- Alignement local (ex:Blast) Conçu pour rechercher des régions similaires Alignement d’une séquence contre une banque de séquence (Swith &Waterman) 2- Alignement global (ex: ClustalW) Conçu pour comparer des séquences homolgues sur toute leur longueur (Needleman & Wunsh) Alexis Dereeper Formation Bio-informatique IRD

Sortie de Blast classique Evalue= indicatif de la fiabilité du score score Différents programmes Blast: BlastN (Query: DNA / Subject : DNA) BlastP (Query: protein/ Subject : protein) BlastX (Query: DNA / Subject : protein) TBlastN (Query: protein/ Subject : DNA) TBlastX (Query: DNA traduit / Subject : DNA traduit) Rester prudent avec les transfert d’annotation d’espèces à espèces… Alexis Dereeper Formation Bio-informatique IRD

Blast Explorer Permet une sélection assistée de séquences homologues selon différents critères Post-processing des résultats de Blast: Arbre guide (arbre de similarité) et sélection possible au niveau des branches Distribution des scores/evalues Représentation taxonomique des hits Alexis Dereeper Formation Bio-informatique IRD

Méthode BBMH (Best Blast Mutual Hits) ou RBH (Reciprocal Best Hit) Protéome Espèce1 Protéome Espèce2 Banques de séquences orthologues: Inparanoid (eucaryotes) HomoloGene (eucaryotes) OrthoMCL DB COG (Clusters of Ortholog Groups of proteins) (procaryotes et eucaryotes) GreenPhyl (plantes) Alexis Dereeper Formation Bio-informatique IRD

Analyse phylogénétique
Etape1 : Alignement multiple (alignement global) Logiciels d’alignement: ClustalW Muscle Tcoffee 3DCoffee (optimise l’alignement avec structure 3D) Mafft Formats d’alignement : Fasta, Clustal, Phylip, Nexus Logiciels de visualisation/édition d’alignement SeaView Jalview BioEdit rapides lents Alexis Dereeper Formation Bio-informatique IRD

Etape2 : Nettoyage de l’alignement Elimination des régions divergentes et présentant peu de signal phylogénétiques (peu informatives) Ces régions peuvent ne pas être homologues ou avoir été saturées par des substitutions (ex: sites synonymes en régions codantes) => Alignement nettoyé plus adéquat pour une analyse phylogénétique Logiciels de curation d’alignement GBlocks Alexis Dereeper Formation Bio-informatique IRD

Etape3 : Reconstruction phylogénétique Etape 3a: Choix d’une méthode de reconstruction 4 grandes familles de méthodes/algorithmes: Méthode des distances 2 à 2 (UPGMA, Neighbor Joining) FastDist, BIONJ, Neighbor Méthode du maximum de parcimonie DNAPars, TNT Méthode du maximum de vraisemblance (max likelihood) PhyML, PAML Inférence Bayesienne MrBayes, Beast Format de sortie : matrice de distance, format Newick Choisir le bon compromis vitesse/fiabilité Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. Alexis Dereeper Formation Bio-informatique IRD

Etape3 : Reconstruction phylogénétique Etape 3b: Choix des paramètres et modèles d’évolution Différents modèles d’évolution indiquant le taux de substitution d’aa ou nt: DNA Juke Cantor, Kimura, F81, HKY85, GTR protein JTT, WAG, Dayhoff Logiciels de test d’évolution: Test et sélection du modèle de substitution (et paramètres) le mieux adapté au jeu de donnée ProtTest, ModelTest (basé sur PhyML) Matrices liées à l’évolution (substitution des aa au cours de l’évolution) : différent selon le jeu de données utilisé pour calculer la matrice Dayhoff, PAM Matrices liées aux propriétés physico-chimiques (taille, hydrophobicité) Alexis Dereeper Formation Bio-informatique IRD

Etape3 : Reconstruction phylogénétique Etape 3c: Estimation de la robustesse des branches Procédure Bootstrap 1- On rééchantillonne les séquences sur les colonnes: création d’un pseudo-alignement en tirant au hasard un certain nombre de sites puis recalcul de l’arbre. 2- On réitère le processus N fois. 3- Pour chaque branche de l’arbre initial, on regarde combien de fois on l’observe dans les arbres de bootstrap. Plus le nombre est elevé, plus la branche est fiable Test aLRT (approximate Likelihood Ratio Test) (Anisimova & Gascuel, Syst Biol, 2006) Intégré dans PhyML Beaucoup plus rapide (PhyML lancé qu’une seule fois) Alexis Dereeper Formation Bio-informatique IRD

Etape4 : Visualisation et édition de l’arbre phylogénétique Outils graphiques permettant l’affichage d’arbres à partir de format Newick: TreeDyn DrawGram, DrawTree ATV NJPlot Formats de sortie: PNG, SVG, PDF… Etape5 : Interprétation de l’arbre Alexis Dereeper Formation Bio-informatique IRD

Formation Bio-informatique IRD

Présentations similaires

Présentation au sujet: "Formation Bio-informatique IRD"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Formation Bio-informatique IRD

Présentations similaires

Présentation au sujet: "Formation Bio-informatique IRD"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back