Gene and genome history. Equipe Evolution Biologique Modélisation UMR 6632 http://www.up.univ-mrs.fr/evol/
Somes Concepts in evolutionary biology Informatisation
?? Metazoan Phylogeny ( Adoutte et al. 2000) ECDYSOZOANS Arthropods Gastrotrichs Nematodes Onychophorans Tardigrades Kinorhynchs Priapulids ECDYSOZOANS Molluscs Rotifers Annelids Gnathostomulids Sipunculans Nemerteans Pogonophorans Platyhelminthes Entoprocts Bryozoans Brachiopods Phoronids LOPHOTROCHOZOANS Vertebrates Cephalochordates Urochordates Hemichordates Echinoderms PROTOSTOMES DEUTEROSTOMES BILATERIA Ctenophorans Cnidarians Poriferans Urbilateria ?? Metazoan Phylogeny ( Adoutte et al. 2000)
URBILATERIA : The hypothetical Metazoan Ancestor Geoffroy de St Hilaire ( XIX th Century) URBILATERIA Genome evolved by the fixation of : Nucleotide substitution Gene loss Gene shuffling Genic duplication Gene duplication Genome region duplication Whole genome duplication Chromosomal rearrangement ……..
Ce que l’on veut Retracer l’histoire des gènes en prenant en compte tous les événements génétiques Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique Lier les mutations à un shift environnemental
Survol du génome Attention il n’y a pas que les séquences codantes.
De l’ADN à la protéine ORF 5’ 3’ préARNm ARNm Protéine intron1 intron2 Région promotrice +1 5’ 3’ intron1 intron2 intron3 transcription 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 Start stop préARNm GT AG GT AG GT AG Site donneur Site accepteur épissage ARNm AAAAAA traduction Protéine
Phylogénie Construite avec des modèles évolutifs basés sur les positions … Seules les mutations ponctuelles sont prises en compte Les gap sont éliminés Distance évolutive entre les séquences: détection des orthologues et paralogues Duplication Spéciation A B C A B C D A B C D d’autres événements génétiques existent support
Les autres événements Je n’en citerai que quelques uns Pour les autres on réfléchira ensemble
apparition d’un nouveau site accepteur AG ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG AG GT GT AG AG Épissage alternatif tissu spécifique Protéine isoforme2 Protéine isoforme1
Mutation ponctuelle sur site accepteur: perte d’exon ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG GT AG Perte de l’exon 2 Protéine isoforme2 Protéine isoforme1 ancestrale
Perte puis apparition d’un site donneur GT ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG GT AG GT Élongation d’exon ou stop
Perte du codon stop ORF 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 start stop GT AG GT AG GT AG stop stop Élongation d’exon
A HUMAN multigenic family DROSOPHILA multigenic family A2 A3’ A3” A1 Orthologs and paralogs HUMAN multigenic family DROSOPHILA multigenic family A2 A3’ A3” A1 A1 A2 A3 Duplication Speciation A1 A2 A3 URBILATERIA A1, A2, B Paralogs A1/2 A3 A
Retracer l’histoire des gènes
Retracer l’histoire des gènes Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique
Retracer l’histoire des gènes en prenant en compte tous les événements précédents Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique Lier les mutations à un shift environnemental
La phylogénie Reconstruction de l'histoire évolutive d'un gène (ou produit de gène) dans un ensemble d'espèces. Évolution du gène dans plusieurs lignées représentée par un arbre phylogénétique.
Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances : mesure de distance ou de similarité afin de regrouper (en anglais : clustering) des séquences proches. (ex: Neighbor Joining: minimise la longueur totale de l’arbre)
Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances Maximum Parcimonie: basée sur les caractères, recherche du meilleur arbre possible :
Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances Maximum Parcimonie Maximum de Vraisemblance:
Évolution des séquences Une fois l’arbre phylogénétique obtenu : Rajouter les autres événements pouvant se produire dans le génomes (duplications, exon shuffling, perte d’exon, élongation des introns, shift transcriptionnel…).
Comment se fixe les mutations Processus populationnel
From alleles to orthologs Points mutations I A B C D Population : POP 1 POP 1 split in 2 autonomous populations POP 1A POP 1B Allele A fixation and accumulation of new mutations A1 A2 B1 B2 Allele B fixation and accumulation of new mutations
From alleles to orthologs points mutations POP 1A POP 1B A1 A2 B1 B2 POP 1A1 POP 1A2 POP 1B1 POP 1B2 A11 A12 A21 A22 B11 B12 B21 B22 POP 1B split in 2 autonomous populations Allele A1 fixation and accumulation of new mutations POP 1A split in Allele A2 fixation and accumulation of new mutations Allele B1 fixation and accumulation of new mutations Allele B2 fixation and accumulation of new mutations
From alleles to orthologs B.1.1 B.1.2 B.2.1 B.2.2 Alleles Orthologs
From Gene History To Gene Function
Fonction: une notion imprécise. La façon dont les mutations se fixent peuvent renseigner sur la fonction.
A HUMAN Ancestral Function DROSOPHILA Ancestral Function A A Orhologs under purifying selection HUMAN Ancestral Function DROSOPHILA Ancestral Function A A Purifying Selection Purifying Selection Speciation A URBILATERIA
Discussion autour de la notion de fonction ancestrale
A HUMAN New Function ? DROSOPHILA Ancestral Function A2 A Speciation Ortholog functional switch HUMAN New Function ? DROSOPHILA Ancestral Function A2 A Positive selection Or relaxed Purifying Selection Speciation A URBILATERIA
A DROSOPHILA Ancestral Function HUMAN Sub-Function HUMAN Sub-Function Co-ortholog Sub Functionalization DROSOPHILA Ancestral Function HUMAN Sub-Function HUMAN Sub-Function A’ A” A Duplication Purifying Selection Speciation A URBILATERIA
A HUMAN Ancestral Function HUMAN New Function DROSOPHILA Co-ortholog Neo Functionalization HUMAN Ancestral Function HUMAN New Function DROSOPHILA Ancestral Function A A2 A Positive or relaxed selection Duplication Purifying Selection Purifying Selection Speciation A URBILATERIA
A1 HUMAN A1 DROSO A1/2 A2 HUMAN A2 DROSO A A3’ HUMAN A3” HUMAN A3 Orthology/ Paralogy A1 HUMAN Orthologs : 2 genes on different species Which come from a common ancestor and separated by a speciation event. A1 DROSO A1/2 A2 HUMAN Paralogs : 2 genes resulting from a duplication event in a genome. A2 DROSO A A3’ HUMAN A3” HUMAN Co-Orthologues A3 Duplication Speciation A3 DROSO
Evolutionary shift (due to positive or relaxed selection) could be linked to functional shift .
Detection of Positive selection and functional shift
Quelles sont les forces conduisant à de tels événements ? Example developed in our team : The lipase esterase FERULOYL ESTERASES A LIPASES Lignocellulolyse Metabolisme Cette famille possède deux types d’activité enzymatique malgrè un pourcentage de similarité de séquences élevé. Comment expliquer une telle divergence fonctionnelle au sein de cette famille ? & Quelles sont les forces conduisant à de tels événements ?
Tests PAML: détection de sélection positive
Lien entre changements évolutif et fonctionnel Sites sous sélection positive et implication fonctionnelle 1. Asp71 et Tyr80 dans la région du « clapet » (69-80) 2. Tyr100 et le site catalytique La mutagénèse dirigée permet de connecter les sites positivement sélectionnés au changement fonctionnel FaeA Aspergillus niger (1USW) Lien entre changements évolutif et fonctionnel
Detection of Evolutionary constraint relaxation and functional shift (Dykhuizen- Hartl effect" Kimura (1983))
A HUMAN Ancestral Function HUMAN New Function DROSOPHILA Co-ortholog Neo Functionalization HUMAN Ancestral Function HUMAN New Function DROSOPHILA Ancestral Function A A2 A Duplication Purifying Selection Purifying Selection Speciation A URBILATERIA
Paralogue replacement Constitutive proteasome β-subunits replacement after Interferon-γ stimulation Constitutive Proteasome Immuno-Proteasome Paralogue replacement PSMB8 (LMP 7) PSMB9 (LMP 2) PSMB10 (LMP Z) PSMB5 PSMB6 PSMB7 New function (specialization) (Specific size protein or peptide degradation – used by MHC system) Only found in vertebrates Ancestral function : Protein degradation Present in all Metazoans, therefore present in Urbilateria (Metazoan ancestor). Paralogue = duplicated gene
Immuno Proteasome Vertebrates Deutérostomata Proteasome Protostomata Large scale gene duplication in vertebrate lineage Amniota (Human) 360 450 Lisamphibia Vertebrates 528 Immuno Proteasome Actinopterygii (Zebrafish) Chondrichthyes (shark) 564 Deutérostomata Cephalaspidomorphi (lamprey) 751 Myxini (Hagfish) Proteasome >751 Céphalochordata (amphioxus) <833-993 Urochordata (Ciona) PROTEASOME Echinodermata Insects (Drosophila) 833-993 Protostomata Nématod (c. elegans)
PSMB7 Mus PSMB7 Ratt PSMB7 Bos PSMB7 Homo PSMB7 Gall PSMB7 Xeno PSMB7 Zebra PSMB7 Fugu PSMB10 Zebra PSMB10 Fugu PSMB10 Bos PSMB10 Mus PSMB10 Homo PSMB7/10 Bran PSMB7/10 Ci-zeta Cionai PSMB7/10 Bombyx PSMB7/10 Prosbeta2 PSMB7/10 CG18341 Drosophila 62 100 44 95 93 78 59 58 88 98 52 80 0.1 * 74 99 69 76 91 75 Duplication
The study genes and genomes HISTORY. Help to find evidences for gene FUNCTION.
On sait « bien modéliser » l’histoire des substitutions mais pas ou peu les autres événements (quelques travaux sur les indels par exemple)
Concepts in evolutionary biology Use of the concepts for Structural and functional annotation. Structural annotation (deciphering of gene structure). Functional annotation (especially the use of phylogeny to decipher proteins function). .
Functional annotation Biochemical and Biological process : Experimental approach : RNA Interference Tandem affinity purification and mass spectrometry In Silico
Functional Annotation Based on phylogeny. from experimentally annotated genes…
INTERLUDE FUNCTION A complex concept;
Function Prediction *Using orthology information (done) *Using the evolutionary shift Information. *Function prediction by Integrative phylogenomics (Engelhardt et al PLOS Computional biology 2005).
Textual Information Analysis Functional annotation Homologs with experimentally known function: how information can be found. Gene Ontology SwissProt GenBank MedLine Textual Information Analysis G.O. Standard
Gene Ontology Classification Functional annotation Gene Ontology Classification Biological process – biological process to which the gene or gene product contributes. Cell growth and maintenance; pyrimidine metabolism; … Molecular function – biochemical activity, including specific binding to ligands or structures, of a gene product. Enzyme, transporter; Toll receptor ligand, … Cellular component – place in the cell where a gene product is active. Cytoplasm, ribosome, … . Plus others classifications to develop: In particular evolutionary based ontology
Functional prediction: Using orthology information Small fraction correspond to known, well-characterized proteins. If the function is unknown : Phylogenetic analysis : Functional prediction: Using orthology information Using the evolutionary shift information by integrative Phylogenomics
Tumor necrosis factor family Phylogenetic tree : Orthologs identification GgaTNFSF10 DreTNFSF10 HsaTNFSF10 PolTNFSF11 HsaTNFSF11 XlaTNFSF11 GgaTNFSF5 HsaTNFSF5 BboTNFSF5 MmuTNFSF2 HsaTNFSF2 MmuTNFSF1 HsaTNFSF1 MmuTNFSF15 HsaTNFSF15 HsaTNFSF14 MmuTNFSF14 HsaTNFSF6 RnoTNFSF6 HsaTNFSF13 MmuTNFSF6 GgaTNFSF13 PolTNFSF13 MmuTNFSF7 HsaTNFSF7 HsaTNFSF8 MmuTNFSF8 HsaTNFSF9 MmuTNFSF9 EIGER (DmeTNF) 99 96 73 78 79 95 MmuTNFSF5 98 88 69 74 55 58 97 68 0,2 DF1 DF2 DF3 Atherosclerotic plaque formation ALPS - LPR/GLD Lympho proliferative syndrome Trends in Immunology (July 2003)
Gene function prediction: Using orthology information Small fraction correspond to known, well-characterized proteins. If the function is unknown : Phylogenetic analysis : Gene function prediction: Using orthology information Using the evolutionary shift information by integrative Phylogenomics
Un exemple de reconstruction phylogénétique
Recherche données fonctionnelles (expérimentales)
Intégration du shift évolutif pour l’annotation
evolutionary biology concepts for genome annotation Further reading Concepts, hypothesis and test. Danchin E.G.J, et al. The Major Histocompatibiliy Complex Origin Immunological reviews. 2004;198(1):216-232. Levasseur A, Danchin E, Orlando L, Bailly X, Pontarotti P. Conceptual bases for quantifying the role of the environment on genes evolution: the participation of positive selection and neutral evolution Biological review 2007 Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology BMC Evol Biol. 2006 Nov 8;6:92 BMC Evol Biol. 2006 Nov 8;6:92 Concepts for applied evolution Danchin E.G.J, Levasseur A, Lopez-Rascol V, Gouret P, Pontarotti P. The use of evolutionary biology concepts for genome annotation. J. Exp. Zoology Part B: Mol. and Dev. Evol. 2007 Jan 15;308(1):26-36.
Informatisation des concepts et connaissances Phylogénie Détection des gènes orthologues et paralogues Détection de changements évolutifs Prévision de fonctions
FIGENIX est une plate-forme logicielle multi-utilisateur dédiée aux taches d'annotation structurales et fonctionnelles: - Prédictions de gènes pour de grandes séquences d'ADN - Construction d'arbres phylogénétiques robustes - Détection automatique d'orthologues et de paralogues - Recherche automatique de données fonctionnelles sur les gènes disponibles à partir de bases de données « Web » - Filtrage et construction de bases de données protéiques (contigage d'EST) - Processus chainés (ex: Prédiction de gènes suivie d'études phylogénétiques pour chacun)
ETAPES DU PIPELINE de Phylogénie (1) Séquence protéique codée par un gène putatif Ensembl NR… BLAST + filtrage MUSCLE + purification + correction de biais PFAM Alignement multiple Recherche de domaines par HmmPFAM Conservation « repeats » monophylétiques Enumération domaines Construction Arbre de la Vie Alignement « repeats » fusionnés Existence « repeats »? O N Arbre de référence Test de composition par TREEPuzzle pour élim séq trop divergentes Création domaine « FIGENIX » (correctDomains) Conservation alignement complet
ETAPES DU PIPELINE de phylogénie (2) Détection « groupes de paralogie » + élim sites qui évol trop vites (« test de Gu ») Élim séq >30% « gaps » Construction Arbre de la Vie Élim domaines les + non congruents détectés par HomPart de PAUP Arbre de référence Test de saturation NJ Parcimonie Maximum de vraisemblance arbre arbre arbre Comparaison topologies par tests Templeton-Hasegawa Arbre NJ Topologies congruentes? Arbre consensus N O Détection orthologues I recherche de fonctions
Architecture de FIGENIX EST Agent MGI Agent GO Agent Functional Collector Agent Archiver RDBMS Expert System Genomic Data Annotation Engine Persistence Layer Repository Load Balancing, Security, ... Web Server Request Data exchange - plate-forme Intranet/Extranet -architecture 3 tiers (interface web/ serveurs “métier” / base de données)
1)
Further reading: about concepts informatisation Gouret et al.FIGENIX: intelligent automation of genomic annotation: expertise integration in a new software platform. BMC Bioinformatics. 2005 Aug 5;6:198 Balandraud et al. A rigorous method for multigenic families' functional annotation: the peptidyl arginine deiminase (PADs) proteins family example BMC Genomics 2005, 6:153
Further reading on FIGENIX utilisation Danchin et al . Eleven ancestral gene families lost in mammals and vertebrates while otherwise universally conserved in animals BMC Evolutionary Biology 2006, 6:5 Paillisson et al . Bromodomain testis-specific protein is expressed in mouse oocyte and evolves faster than its ubiquitously expressed paralogs BRD2, -3 and -4. Genomics. 2007 Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology 2007 Jan 15;308(1):26-36. Pierre et al. Structural characterization, genomic organization and phylogenic analysis of the eutherian Ndg1/DPPA5/ECAT1/COEP. Genomics 2007
Next Phylogenomics (genome Evolution) Phylopostgenomics (evolutionary system biology) - phylotranscriptomics - phylointeractomics …..
C.A.S.S.I.O.P.E Clever Agent System for Synteeny Inheritance and Other Phenomena in Evolution C.A.S.S.I.O.P.E permet de trouver des régions conservées entre les génomes.
Connaissances/concepts Observation : il existe des régions de synténies conservées entre espèce. Explication /concept : ces régions proviennent d’une région ancestrale qui a évoluée de manière indépendante après spéciation dans chaque lignée, mais pas assez pour perdre toute trace de conservation. A partir de cette connaissance et de cette prédiction que découle un ensemble de réflexion qui indique que les analyses des synténies conservées et la reconstruction de régions ancestrales sont intéressantes, d’un point de vu appliqué : assistance au clonage positionnel et d’un point de vue conceptuel : compréhension de l’évolution des génomes. 1/ des relations d’orthologie 2/ le regroupement des gènes orthologues doit être improbable sous l’hypothèse du hasard (le regroupement doit être significatif).
Formalisation de la question biologique Comment mettre en évidence les synténies conservées ? C’est aussi à ce moment que la conceptualisation prend toute sa place Si les synténies conservées proviennent vraiment d’une région ancestrale, les gènes dans ces régions doivent avoir ll faut donc avoir des programmes qui soient capables de mettre en évidence les relations d’orthologie, et de trouver des clusters significatifs et les intégrer dans des ystèmes informatiques
multi-agents framework Data from Web databases C.A.S.S.I.O.P.E Clever Agent System for Synteny Inheritance and Other Phenomena in Evolution Phylogeny Tasks Sequences + Localization + QTL, ... Ensembl by ENSJ API NCBI by Entrez Utilities JADE multi-agents framework RMI OMIM diseases ACL/SL ACL/SL ACL/SL PhyloGenomics Ontology Orthologs Detection Expert System Questions in SL language ACL/SL ACL/SL Ontology Persistance JENA library API BEAN generator plugin Protégé GUI POSTGRESQL RDBMS OWL
Bioanalyse Recherche automatique de synténies conservées. Dans le futur reconstruction et évolution de régions génomique Nouvelle connaissance et nouveaux concepts Application directe : aide au clonage positionnel Concepts/connaissance: Mise en évidence de regroupement fonctionnel
C.A.S.S.I.O.P.E.
Toward the ancestral genome reconstruction
Toward the ancestral genome reconstruction
Annexe Structural annotation
Gene finding and protein prediction Structural annotation Genome nucleotide-level Annotation : Mapping Finding genomic landmarks Gene finding and protein prediction Non-coding RNAs and regulatory regions Identifying repetitive elements Mapping segmental duplications Mapping variations (SNP, microsatellites, ….)
Available tools State of the Art Structural annotation Ab initio : Genscan Fgenesh Genie Etc … Based on statistical signals within the DNA. Coding propensity (hexamer signals). Splice Site Signals. Strengths : Easy and quick to run. Only need DNA as input. Weakness : High false positive rate. Similarity Based : Genewise Sim4 Est2genome Figenix Alignement programs that know about gene structure. Very accurate with strong sequence similarities Strengths : Accurate. Weakness : Need strong similarities, slow to run.
D M S A +
« FIGENIX SOFTWARE PLATFORM » Annotating method Structural annotation « FIGENIX SOFTWARE PLATFORM » Annotating method Structural Annotation combining together a statistical and homologous approach (similarities with known proteins). The process automation resulted in an expert system based on biological inference rules using gene history and ab-initio program. But yet not completely evolutionary biology based
région 1 région 2 segment ADN protéine A (meilleur hit région 1) protéine B (meilleur hit région 2) région 1 région 2 hsp: A1 hsp: A2 hsp: A3 hsp: B1 hsp:B2
Validation of structural annotation Protein = amino acid sequence Gene = nucleotidic sequence mRNA = nucleotidic sequence P Transcription Traduction Sequence Genscan : 31% HMMGene : 38% Protein Figenix : 87% The platform performances were validated on standard dataset (HMR195) see Guigò et al, 2000; Rogic et al, 2001.
CORRECT PROTEIN PREDICTION Structural annotation Accuracy versus Exon Type and Prediction 0.87 0.38 0.31 CORRECT PROTEIN PREDICTION 0.22 0.65 0.80 0.55 Genscan 0.05 0.95 0.92 0.91 Figenix 0.15 0.78 0.81 0.75 Hmmgen OVER PREDICTION Terminal (55) Internal (186) Initial EXON TYPE PROGRAMS The Mouse and Rat sequence from the HMR195 dataset was used on the human division of swissprot.
The next step for structural annotation : Is to take into account the gene evolutionary history