Gene and genome history. Equipe Evolution Biologique Modélisation

Slides:



Advertisements
Présentations similaires
EA 3781 Evolution Biologique
Advertisements

Anthony LEVASSEUR. Formation Phylogénomique- Décembre 2006
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
I. Recherche du gène correspondant aux séquences initiales.
Phylogénie et distances génétique
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Régulations post-transcriptionnelles de l'expression
Bioinformatique: prédiction de gènes
BIO1130 LAB 4 MICROÉVOLUTION.
How to solve biological problems with math Mars 2012.
Starting up an experience-based training process Commencer un processus de formation basé sur lexpérience ABVV - FGTB Belgium – Belgique.
Anthony LEVASSEUR. Formation Phylogénomique- Décembre 2006
Chapitre 4.
GESTION DE PARCS D’ORDINATEURS
Le code génétique Biologie 122.
Département « Ecologie Evolutive »
TP 5 Du génome au protéome
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
CHAPITRE 19 - La génétique des populations
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Introduction à la bioinformatique
1.
Annotation de génomes complets
BIOS – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
La banque UniprotKB et le logiciel Blast
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
La génétique et la biométrie
The ATD project is funded by the European Commission within its FP6 Programme, under the thematic area "Life sciences, genomics and biotechnology for health",
Évaluation des programmes de premier cycle/Evaluation of undergraduate programs Université d’Ottawa/ University of Ottawa 1 Auto-evaluation Report Objectives.
TILLING :Targeting Induced Local Lesions IN Genomes
Formation Bio-informatique IRD
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
1 Étudiants: Professeur: Salamin Nicolas Assistante: Maryam Zaheri.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
CHMI 2227F Biochimie I Expression des gènes
Cultural Comparison 1 minute for directions (in English and French, spoken consecutively): You will make an oral presentation to your class on a specific.
Alignement de séquences biologiques
Annual Best Practices Sessions / Ateliers annuels sur les pratiques exemplaires PERFORMANCE MONITORING, REPORTING AND EVALUATION: WHAT’S THE POINT OF.
2 Le Pronom « EN » Referring to people, places and things already mentioned La norme: –Communication 1.2 –Comparisons 4.1 * Les questions essentielles:
Annual Best Practices Sessions / Ateliers annuels sur les pratiques exemplaires PERFORMANCE MONITORING, REPORTING AND EVALUATION: WHAT’S THE POINT OF.
ECASA.org.uk Ecosystem approach for a sustainable aquaculture STREP (FP6, Priority 8)
1 de 24 Cours 11 - synchronisationMGL Witold Suryn Cours 11 – SQIM - synchronisation et gestion de changements 1 Ingénierie de la qualité du système.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
Tache 1 Construction d’un simulateur. Objectifs Disposer d’un simulateur d’une population présentant un déséquilibre de liaison historique, afin d’évaluer.
Welcome everyone.
Introduction à la Bio-Informatique
MobyleNet – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Warm Up le 5 mars Écrivez tout ce que tu sais pour la grammaire française Par exemple: DR MRS VANDERTRAMP utilise être L’Academie Française.
UNDP Regional Bureau for Africa MDG-based national Development Planning Training Workshop HIV/AIDS Assessments 10 March, 2006 Niger.
The Perfect Tense with être. Some General Rules Most verbs in French, when used in the past tense, need a part of the verb avoir J’ai Tu as Il a / Elle.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
-Transporter specifications sent for comments to Markus and Jean-Louis -We would like to have a mecanum transporter -Feedback from SEAQX: -For the same.
Réalisation d’un arbre phylogénique à partir d’un fragment de séquence
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
© 2015 SAMARES ENGINEERING – All rights reserved Raphaël Faudou Groupe de travail sur les exigences Paris – 9 Octobre.
Mais d’abord rappelez-vous!!
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Les avancées de la génétique Objectif: Comprendre les progrès de la science Parler du clonage.
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
ETUDE DE LA TRANSGRESSION Transgressive segregation, adaptation and speciation (Rieseberg et al., 1999) The genetic architecture necessary for transgressive.
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Transcription de la présentation:

Gene and genome history. Equipe Evolution Biologique Modélisation UMR 6632 http://www.up.univ-mrs.fr/evol/

Somes Concepts in evolutionary biology Informatisation

?? Metazoan Phylogeny ( Adoutte et al. 2000) ECDYSOZOANS Arthropods Gastrotrichs Nematodes Onychophorans Tardigrades Kinorhynchs Priapulids ECDYSOZOANS Molluscs Rotifers Annelids Gnathostomulids Sipunculans Nemerteans Pogonophorans Platyhelminthes Entoprocts Bryozoans Brachiopods Phoronids LOPHOTROCHOZOANS Vertebrates Cephalochordates Urochordates Hemichordates Echinoderms PROTOSTOMES DEUTEROSTOMES BILATERIA Ctenophorans Cnidarians Poriferans Urbilateria ?? Metazoan Phylogeny ( Adoutte et al. 2000)

URBILATERIA : The hypothetical Metazoan Ancestor Geoffroy de St Hilaire ( XIX th Century) URBILATERIA Genome evolved by the fixation of : Nucleotide substitution Gene loss Gene shuffling Genic duplication Gene duplication Genome region duplication Whole genome duplication Chromosomal rearrangement ……..

Ce que l’on veut Retracer l’histoire des gènes en prenant en compte tous les événements génétiques Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique Lier les mutations à un shift environnemental

Survol du génome Attention il n’y a pas que les séquences codantes.

De l’ADN à la protéine ORF 5’ 3’ préARNm ARNm Protéine intron1 intron2 Région promotrice +1 5’ 3’ intron1 intron2 intron3 transcription 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 Start stop préARNm GT AG GT AG GT AG Site donneur Site accepteur épissage ARNm AAAAAA traduction Protéine

Phylogénie Construite avec des modèles évolutifs basés sur les positions … Seules les mutations ponctuelles sont prises en compte Les gap sont éliminés Distance évolutive entre les séquences: détection des orthologues et paralogues Duplication Spéciation A B C A B C D A B C D d’autres événements génétiques existent support

Les autres événements Je n’en citerai que quelques uns Pour les autres on réfléchira ensemble

apparition d’un nouveau site accepteur AG ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG AG GT GT AG AG Épissage alternatif tissu spécifique Protéine isoforme2 Protéine isoforme1

Mutation ponctuelle sur site accepteur: perte d’exon ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG GT AG Perte de l’exon 2 Protéine isoforme2 Protéine isoforme1 ancestrale

Perte puis apparition d’un site donneur GT ORF 5’ 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 exon2 exon3 exon4 start stop préARNm GT AG GT AG GT AG GT Élongation d’exon ou stop

Perte du codon stop ORF 3’ intron1 intron2 intron3 5‘ UTR 3‘ UTR exon1 start stop GT AG GT AG GT AG stop stop Élongation d’exon

A HUMAN multigenic family DROSOPHILA multigenic family A2 A3’ A3” A1 Orthologs and paralogs HUMAN multigenic family DROSOPHILA multigenic family A2 A3’ A3” A1 A1 A2 A3 Duplication Speciation A1 A2 A3 URBILATERIA A1, A2, B Paralogs A1/2 A3 A

Retracer l’histoire des gènes

Retracer l’histoire des gènes Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique

Retracer l’histoire des gènes en prenant en compte tous les événements précédents Lier les mutations à un shift fonctionnel Biochimique, transcriptionnel Physiologique, anatomique Lier les mutations à un shift environnemental

La phylogénie Reconstruction de l'histoire évolutive d'un gène (ou produit de gène) dans un ensemble d'espèces. Évolution du gène dans plusieurs lignées représentée par un arbre phylogénétique.

Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances : mesure de distance ou de similarité afin de regrouper (en anglais : clustering) des séquences proches. (ex: Neighbor Joining: minimise la longueur totale de l’arbre)

Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances Maximum Parcimonie: basée sur les caractères, recherche du meilleur arbre possible :

Évolution des séquences (ADN ou protéines) Mutations ponctuelles (substitutions, indels): Méthodes: Distances Maximum Parcimonie Maximum de Vraisemblance:

Évolution des séquences Une fois l’arbre phylogénétique obtenu : Rajouter les autres événements pouvant se produire dans le génomes (duplications, exon shuffling, perte d’exon, élongation des introns, shift transcriptionnel…).

Comment se fixe les mutations Processus populationnel

From alleles to orthologs Points mutations I A B C D Population : POP 1 POP 1 split in 2 autonomous populations POP 1A POP 1B Allele A fixation and accumulation of new mutations A1 A2 B1 B2 Allele B fixation and accumulation of new mutations

From alleles to orthologs points mutations POP 1A POP 1B A1 A2 B1 B2 POP 1A1 POP 1A2 POP 1B1 POP 1B2 A11 A12 A21 A22 B11 B12 B21 B22 POP 1B split in 2 autonomous populations Allele A1 fixation and accumulation of new mutations POP 1A split in Allele A2 fixation and accumulation of new mutations Allele B1 fixation and accumulation of new mutations Allele B2 fixation and accumulation of new mutations

From alleles to orthologs B.1.1 B.1.2 B.2.1 B.2.2 Alleles Orthologs

From Gene History To Gene Function

Fonction: une notion imprécise. La façon dont les mutations se fixent peuvent renseigner sur la fonction.

A HUMAN Ancestral Function DROSOPHILA Ancestral Function A A Orhologs under purifying selection HUMAN Ancestral Function DROSOPHILA Ancestral Function A A Purifying Selection Purifying Selection Speciation A URBILATERIA

Discussion autour de la notion de fonction ancestrale

A HUMAN New Function ? DROSOPHILA Ancestral Function A2 A Speciation Ortholog functional switch HUMAN New Function ? DROSOPHILA Ancestral Function A2 A Positive selection Or relaxed Purifying Selection Speciation A URBILATERIA

A DROSOPHILA Ancestral Function HUMAN Sub-Function HUMAN Sub-Function Co-ortholog Sub Functionalization DROSOPHILA Ancestral Function HUMAN Sub-Function HUMAN Sub-Function A’ A” A Duplication Purifying Selection Speciation A URBILATERIA

A HUMAN Ancestral Function HUMAN New Function DROSOPHILA Co-ortholog Neo Functionalization HUMAN Ancestral Function HUMAN New Function DROSOPHILA Ancestral Function A A2 A Positive or relaxed selection Duplication Purifying Selection Purifying Selection Speciation A URBILATERIA

A1 HUMAN A1 DROSO A1/2 A2 HUMAN A2 DROSO A A3’ HUMAN A3” HUMAN A3 Orthology/ Paralogy A1 HUMAN Orthologs : 2 genes on different species Which come from a common ancestor and separated by a speciation event. A1 DROSO A1/2 A2 HUMAN Paralogs : 2 genes resulting from a duplication event in a genome. A2 DROSO A A3’ HUMAN A3” HUMAN Co-Orthologues A3 Duplication Speciation A3 DROSO

Evolutionary shift (due to positive or relaxed selection) could be linked to functional shift .

Detection of Positive selection and functional shift

Quelles sont les forces conduisant à de tels événements ? Example developed in our team : The lipase esterase FERULOYL ESTERASES A LIPASES Lignocellulolyse Metabolisme Cette famille possède deux types d’activité enzymatique malgrè un pourcentage de similarité de séquences élevé. Comment expliquer une telle divergence fonctionnelle au sein de cette famille ? & Quelles sont les forces conduisant à de tels événements ?

Tests PAML: détection de sélection positive

Lien entre changements évolutif et fonctionnel Sites sous sélection positive et implication fonctionnelle 1. Asp71 et Tyr80 dans la région du « clapet » (69-80) 2. Tyr100 et le site catalytique La mutagénèse dirigée permet de connecter les sites positivement sélectionnés au changement fonctionnel FaeA Aspergillus niger (1USW) Lien entre changements évolutif et fonctionnel

Detection of Evolutionary constraint relaxation and functional shift (Dykhuizen- Hartl effect" Kimura (1983))

A HUMAN Ancestral Function HUMAN New Function DROSOPHILA Co-ortholog Neo Functionalization HUMAN Ancestral Function HUMAN New Function DROSOPHILA Ancestral Function A A2 A Duplication Purifying Selection Purifying Selection Speciation A URBILATERIA

Paralogue replacement Constitutive proteasome β-subunits replacement after Interferon-γ stimulation Constitutive Proteasome Immuno-Proteasome Paralogue replacement PSMB8 (LMP 7) PSMB9 (LMP 2) PSMB10 (LMP Z) PSMB5 PSMB6 PSMB7 New function (specialization) (Specific size protein or peptide degradation – used by MHC system) Only found in vertebrates Ancestral function : Protein degradation Present in all Metazoans, therefore present in Urbilateria (Metazoan ancestor). Paralogue = duplicated gene

Immuno Proteasome Vertebrates Deutérostomata Proteasome Protostomata Large scale gene duplication in vertebrate lineage Amniota (Human) 360 450 Lisamphibia Vertebrates 528 Immuno Proteasome Actinopterygii (Zebrafish) Chondrichthyes (shark) 564 Deutérostomata Cephalaspidomorphi (lamprey) 751 Myxini (Hagfish) Proteasome >751 Céphalochordata (amphioxus) <833-993 Urochordata (Ciona) PROTEASOME Echinodermata Insects (Drosophila) 833-993 Protostomata Nématod (c. elegans)

PSMB7 Mus PSMB7 Ratt PSMB7 Bos PSMB7 Homo PSMB7 Gall PSMB7 Xeno PSMB7 Zebra PSMB7 Fugu PSMB10 Zebra PSMB10 Fugu PSMB10 Bos PSMB10 Mus PSMB10 Homo PSMB7/10 Bran PSMB7/10 Ci-zeta Cionai PSMB7/10 Bombyx PSMB7/10 Prosbeta2 PSMB7/10 CG18341 Drosophila 62 100 44 95 93 78 59 58 88 98 52 80 0.1 * 74 99 69 76 91 75 Duplication

The study genes and genomes HISTORY. Help to find evidences for gene FUNCTION.

On sait « bien modéliser » l’histoire des substitutions mais pas ou peu les autres événements (quelques travaux sur les indels par exemple)

Concepts in evolutionary biology Use of the concepts for Structural and functional annotation. Structural annotation (deciphering of gene structure). Functional annotation (especially the use of phylogeny to decipher proteins function). .

Functional annotation Biochemical and Biological process : Experimental approach : RNA Interference Tandem affinity purification and mass spectrometry In Silico

Functional Annotation Based on phylogeny. from experimentally annotated genes…

INTERLUDE FUNCTION A complex concept;

Function Prediction *Using orthology information (done) *Using the evolutionary shift Information. *Function prediction by Integrative phylogenomics (Engelhardt et al PLOS Computional biology 2005).

Textual Information Analysis Functional annotation Homologs with experimentally known function: how information can be found. Gene Ontology SwissProt GenBank MedLine Textual Information Analysis G.O. Standard

Gene Ontology Classification Functional annotation Gene Ontology Classification Biological process – biological process to which the gene or gene product contributes. Cell growth and maintenance; pyrimidine metabolism; … Molecular function – biochemical activity, including specific binding to ligands or structures, of a gene product. Enzyme, transporter; Toll receptor ligand, … Cellular component – place in the cell where a gene product is active. Cytoplasm, ribosome, … . Plus others classifications to develop: In particular evolutionary based ontology

Functional prediction: Using orthology information Small fraction correspond to known, well-characterized proteins. If the function is unknown : Phylogenetic analysis : Functional prediction: Using orthology information Using the evolutionary shift information by integrative Phylogenomics

Tumor necrosis factor family Phylogenetic tree : Orthologs identification GgaTNFSF10 DreTNFSF10 HsaTNFSF10 PolTNFSF11 HsaTNFSF11 XlaTNFSF11 GgaTNFSF5 HsaTNFSF5 BboTNFSF5 MmuTNFSF2 HsaTNFSF2 MmuTNFSF1 HsaTNFSF1 MmuTNFSF15 HsaTNFSF15 HsaTNFSF14 MmuTNFSF14 HsaTNFSF6 RnoTNFSF6 HsaTNFSF13 MmuTNFSF6 GgaTNFSF13 PolTNFSF13 MmuTNFSF7 HsaTNFSF7 HsaTNFSF8 MmuTNFSF8 HsaTNFSF9 MmuTNFSF9 EIGER (DmeTNF) 99 96 73 78 79 95 MmuTNFSF5 98 88 69 74 55 58 97 68 0,2 DF1 DF2 DF3 Atherosclerotic plaque formation ALPS - LPR/GLD Lympho proliferative syndrome Trends in Immunology (July 2003)

Gene function prediction: Using orthology information Small fraction correspond to known, well-characterized proteins. If the function is unknown : Phylogenetic analysis : Gene function prediction: Using orthology information Using the evolutionary shift information by integrative Phylogenomics

Un exemple de reconstruction phylogénétique

Recherche données fonctionnelles (expérimentales)

Intégration du shift évolutif pour l’annotation

evolutionary biology concepts for genome annotation Further reading Concepts, hypothesis and test. Danchin E.G.J, et al. The Major Histocompatibiliy Complex Origin Immunological reviews. 2004;198(1):216-232. Levasseur A, Danchin E, Orlando L, Bailly X, Pontarotti P. Conceptual bases for quantifying the role of the environment on genes evolution: the participation of positive selection and neutral evolution Biological review 2007 Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology BMC Evol Biol. 2006 Nov 8;6:92 BMC Evol Biol. 2006 Nov 8;6:92 Concepts for applied evolution Danchin E.G.J, Levasseur A, Lopez-Rascol V, Gouret P, Pontarotti P. The use of evolutionary biology concepts for genome annotation. J. Exp. Zoology Part B: Mol. and Dev. Evol. 2007 Jan 15;308(1):26-36.

Informatisation des concepts et connaissances Phylogénie Détection des gènes orthologues et paralogues Détection de changements évolutifs Prévision de fonctions

FIGENIX est une plate-forme logicielle multi-utilisateur dédiée aux taches d'annotation structurales et fonctionnelles: - Prédictions de gènes pour de grandes séquences d'ADN - Construction d'arbres phylogénétiques robustes - Détection automatique d'orthologues et de paralogues - Recherche automatique de données fonctionnelles sur les gènes disponibles à partir de bases de données « Web » - Filtrage et construction de bases de données protéiques (contigage d'EST) - Processus chainés (ex: Prédiction de gènes suivie d'études phylogénétiques pour chacun)

ETAPES DU PIPELINE de Phylogénie (1) Séquence protéique codée par un gène putatif Ensembl NR… BLAST + filtrage MUSCLE + purification + correction de biais PFAM Alignement multiple Recherche de domaines par HmmPFAM Conservation « repeats » monophylétiques Enumération domaines Construction Arbre de la Vie Alignement « repeats » fusionnés Existence « repeats »? O N Arbre de référence Test de composition par TREEPuzzle pour élim séq trop divergentes Création domaine « FIGENIX » (correctDomains) Conservation alignement complet

ETAPES DU PIPELINE de phylogénie (2) Détection « groupes de paralogie » + élim sites qui évol trop vites (« test de Gu ») Élim séq >30% « gaps » Construction Arbre de la Vie Élim domaines les + non congruents détectés par HomPart de PAUP Arbre de référence Test de saturation NJ Parcimonie Maximum de vraisemblance arbre arbre arbre Comparaison topologies par tests Templeton-Hasegawa Arbre NJ Topologies congruentes? Arbre consensus N O Détection orthologues I recherche de fonctions

Architecture de FIGENIX EST Agent MGI Agent GO Agent Functional Collector Agent Archiver RDBMS Expert System Genomic Data Annotation Engine Persistence Layer Repository Load Balancing, Security, ... Web Server Request Data exchange - plate-forme Intranet/Extranet -architecture 3 tiers (interface web/ serveurs “métier” / base de données)

1)

Further reading: about concepts informatisation Gouret et al.FIGENIX: intelligent automation of genomic annotation: expertise integration in a new software platform. BMC Bioinformatics. 2005 Aug 5;6:198 Balandraud et al. A rigorous method for multigenic families' functional annotation: the peptidyl arginine deiminase (PADs) proteins family example BMC Genomics 2005, 6:153     

Further reading on FIGENIX utilisation Danchin et al . Eleven ancestral gene families lost in mammals and vertebrates while otherwise universally conserved in animals BMC Evolutionary Biology 2006, 6:5 Paillisson et al . Bromodomain testis-specific protein is expressed in mouse oocyte and evolves faster than its ubiquitously expressed paralogs BRD2, -3 and -4. Genomics. 2007 Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology 2007 Jan 15;308(1):26-36. Pierre et al. Structural characterization, genomic organization and phylogenic analysis of the eutherian Ndg1/DPPA5/ECAT1/COEP. Genomics 2007  

Next Phylogenomics (genome Evolution) Phylopostgenomics (evolutionary system biology) - phylotranscriptomics - phylointeractomics …..

C.A.S.S.I.O.P.E Clever Agent System for Synteeny Inheritance and Other Phenomena in Evolution C.A.S.S.I.O.P.E permet de trouver des régions conservées entre les génomes.

Connaissances/concepts Observation : il existe des régions de synténies conservées entre espèce. Explication /concept : ces régions proviennent d’une région ancestrale qui a évoluée de manière indépendante après spéciation dans chaque lignée, mais pas assez pour perdre toute trace de conservation. A partir de cette connaissance et de cette prédiction que découle un ensemble de réflexion qui indique que les analyses des synténies conservées et la reconstruction de régions ancestrales sont intéressantes, d’un point de vu appliqué : assistance au clonage positionnel et d’un point de vue conceptuel : compréhension de l’évolution des génomes. 1/ des relations d’orthologie 2/ le regroupement des gènes orthologues doit être improbable sous l’hypothèse du hasard (le regroupement doit être significatif).

Formalisation de la question biologique Comment mettre en évidence les synténies conservées ? C’est aussi à ce moment que la conceptualisation prend toute sa place Si les synténies conservées proviennent vraiment d’une région ancestrale, les gènes dans ces régions doivent avoir ll faut donc avoir des programmes qui soient capables de mettre en évidence les relations d’orthologie, et de trouver des clusters significatifs et les intégrer dans des ystèmes informatiques

multi-agents framework Data from Web databases C.A.S.S.I.O.P.E Clever Agent System for Synteny Inheritance and Other Phenomena in Evolution Phylogeny Tasks Sequences + Localization + QTL, ... Ensembl by ENSJ API NCBI by Entrez Utilities JADE multi-agents framework RMI OMIM diseases ACL/SL ACL/SL ACL/SL PhyloGenomics Ontology Orthologs Detection Expert System Questions in SL language ACL/SL ACL/SL Ontology Persistance JENA library API BEAN generator plugin Protégé GUI POSTGRESQL RDBMS OWL

Bioanalyse Recherche automatique de synténies conservées. Dans le futur reconstruction et évolution de régions génomique Nouvelle connaissance et nouveaux concepts Application directe : aide au clonage positionnel Concepts/connaissance: Mise en évidence de regroupement fonctionnel

C.A.S.S.I.O.P.E.

Toward the ancestral genome reconstruction

Toward the ancestral genome reconstruction

Annexe Structural annotation

Gene finding and protein prediction Structural annotation Genome nucleotide-level Annotation : Mapping Finding genomic landmarks Gene finding and protein prediction Non-coding RNAs and regulatory regions Identifying repetitive elements Mapping segmental duplications Mapping variations (SNP, microsatellites, ….)

Available tools State of the Art Structural annotation Ab initio : Genscan Fgenesh Genie Etc … Based on statistical signals within the DNA. Coding propensity (hexamer signals). Splice Site Signals. Strengths : Easy and quick to run. Only need DNA as input. Weakness : High false positive rate. Similarity Based : Genewise Sim4 Est2genome Figenix Alignement programs that know about gene structure. Very accurate with strong sequence similarities Strengths : Accurate. Weakness : Need strong similarities, slow to run.

D M S A +

« FIGENIX SOFTWARE PLATFORM » Annotating method Structural annotation « FIGENIX SOFTWARE PLATFORM » Annotating method Structural Annotation combining together a statistical and homologous approach (similarities with known proteins). The process automation resulted in an expert system based on biological inference rules using gene history and ab-initio program. But yet not completely evolutionary biology based

région 1 région 2 segment ADN protéine A (meilleur hit région 1) protéine B (meilleur hit région 2) région 1 région 2 hsp: A1 hsp: A2 hsp: A3 hsp: B1 hsp:B2

Validation of structural annotation Protein = amino acid sequence Gene = nucleotidic sequence mRNA = nucleotidic sequence P Transcription Traduction Sequence Genscan : 31% HMMGene : 38% Protein Figenix  : 87% The platform performances were validated on standard dataset (HMR195) see Guigò et al, 2000; Rogic et al, 2001.

CORRECT PROTEIN PREDICTION Structural annotation Accuracy versus Exon Type and Prediction 0.87 0.38 0.31 CORRECT PROTEIN PREDICTION 0.22 0.65 0.80 0.55 Genscan 0.05 0.95 0.92 0.91 Figenix 0.15 0.78 0.81 0.75 Hmmgen OVER PREDICTION Terminal (55) Internal (186) Initial EXON TYPE PROGRAMS The Mouse and Rat sequence from the HMR195 dataset was used on the human division of swissprot.

The next step for structural annotation : Is to take into account the gene evolutionary history