Reconstitution partielle du génome codant d'un puceron (Acyrthosiphon pisum, Hémiptères) - Evolution d'une famille fortement multigénique (protéases) Claude Rispe – UMR BIO3P, Rennes/Le Rheu
Obtention d’une large collection de gènes à partir de transcrits identification de familles multigéniques – quantification de la duplication A- Méthodologie [ B- Analyse compositionnelle – codons synonymes] 2. Détection et étude de familles multigénique liées à l’adaptation alimentaire gènes candidats= cathepsines B (rôle présumé dans l’adaptation alimentaire)
Originalités du modèle puceron insecte sans métamorphose complète alimentation par la sève (phloème)- association symbiotique (Buchnera) acides aminés essentiels métabolites basiques polyphénisme - sexué/asexué - ailé/aptère - larves soldats génome séquencé - assemblage en cours - environ 500 Mb
Aspects phylogéné-tiques de la relation puceron-plante-hôte alternance d’hôte Aspects phylogéné-tiques de la relation puceron-plante-hôte Acyrthosiphon pisum Aulacorthum solani MACROSIPHINI Sitobion avenae Myzus persicae Pterocomma populeum PTEROCOMMATINI radiation évolutive conquêtes de nouvelles familles de plantes Toxoptera citricida APHIDINAE 3000 espèces Rhopalosiphum padi APHIDIDINI Aphis gossypii Tuberaphis sp. HORMAPHIDINAE EF1a / CoII von Dohlen et al., 2006, Mol.Phyl. Evol.
Etude du génome codant et de son expression ORF1 ADN génomique ARNm cDNA Séquences transcrites courtes (EST) Assemblage -> transcrits uniques M * cds Séquence transcrite non traduite (UTR) 5’ Séquence transcrite non traduite (UTR) 3’
Assemblage >>17 000 « transcrits uniques » (TU) 60.000 ESTs de A pisum Assemblage >>17 000 « transcrits uniques » (TU) Annotation (BlastX), comparaison avec génome D. melanogaster 36% des TU ont un hit dans uniprot (dont 80% chez D. melanogaster) collabs F. Legeai (URGI, INRA Evry) JP Gauthier (INRA Le Rheu) -Aphidbase
Identification des cds FrameD (T. Schiex et al.) (utilise similarités – BlastX et matrice A. pisum) UTR Automatisation (Perl/Bioperl) : « parsing » des Blasts – appel et parsing de FrameD – extraction du cds – composition en codons
Résultats 5900 cds reconstruits avec des critères stringents pas de multiples cds (évite chimères) pas de décalage de cadre de lecture taille minimale > 150 bp Détection de paralogues 4253 cds -> 3443 homologues présumés chez la drosophile ? environ 30 TU « homologues » à CG-10992 (cathepsine B)
Détection et étude de familles multigénique liées à l’adaptation alimentaire - Histoire évolutive des cathepsines B gènes candidats dans la recherche de gènes d’adaptation alimentaire spécifique (protéases digestives) – e.g. Shisostomatidés, Caenorhabditis sp. , Tribolium castaneum. gènes apparemment abondamment dupliqués chez A. pisum étude récente chez Tuberaphis : duplication de ce gène et expression spécifique aux larves-soldats (toxine) Kutsukake, Mayako et al. (2004) Proc. Natl. Acad. Sci. USA 101, 11338-11343
4 sources de séquences Banques de données: 2 séquences chez Tuberaphis sp., 1 chez M.persicae, 2 chez T. citricida - aucune très proche de CG-10992 Analyse des transcrits : identification de 14 copies différentes chez A. pisum (seq. souvent partielles) et d’orthologues présumés chez quelques espèces de pucerons (M. persicae, A.gossypii, T. citricida) Séquençage dessin d’amorces, extraction d’ARNm, PCR et séquençage pour 6 formes chez 7 espèces (A. pisum, A. solani...) – 27 obtenues Analyses génomiques programme de blast itératif / assemblage des traces modèles géniques établis pour 21 copies différentes chez A. pisum
2 familles de cathepsine B type « CG-10992 » type « CG-3074» NJ, séquences protéiques (partie mature uniquement) - MEGA3.1
21 copies de cathepsine B chez A. pisum (●) clades d’orthologues 16D Mp2 16 3098 84 1874 348 1418 2744 21 copies de cathepsine B chez A. pisum (●) 100 99 88 96 99 94 100 100 100 Arbre NJ, modèle Gamma, « pairwise deletion » - gène entier
Plusieurs épisodes de prolifération 100 duplications récentes 16D 99 duplications Aphidinae 88 duplications anciennes 16 96 99 94 100 Tuberaphis-N 100 100 Tuberaphis-S Arbre NJ, modèle Gamma, pairwise deleteion - gène entier
Scénario évolutif proposé duplication initiale: « 10992 » / « 3074 » (paralogues) duplication de « 3074 » « 3074 » Quelle origine des multiples formes « du type 10992 » chez les pucerons ? Hétérogénéité des taux d’évolution ? « 10992 » holométaboles (diptères, etc...) vertébrés hémiptères « 348 » (orthologue de CG-10992 ? )
Differents types de sélection ( KA / KS = dN / dS = ) dN / dS < 1 sélection « purifiante » (majorité des gènes) dN / dS =1 Neutralité (typique des pseudogènes) dN / dS > 1 sélection « positive » (ou « Darwinienne») identifiée sur le gène entier (e.g. toxines, immunité, etc...) ou bien sur des sites ou domaines spécifiques entre formes entre espèces entre sites Hétérogénéité des taux d’évolution des cathepsines ?
Estimations pairées des taux d’évolution entre M. persicae et A. pisum copies « rapides » copies « lentes » dN ET dS sont différents selon les gènes... et corrélés positivement dS dN << dS (sélection dite purifiante) dN
Hétérogénité des taux d’évolution (entre copies récentes) ? duplication spécifique A. pisum w=0.292 (3 NS) Une des deux copies dupliquées (chez A.pisum et M. persicae) connaît une accélération évolutive – sélection relâchée ? w=0.650 (23 NS) w=0.087 (3 NS) Clade « 16D » w=0.081 (8 NS) w=0.369 (39 NS) duplication spécifique M. persicae Analyse PAML, modèle « several ratios » Topologie fixée, longueurs de branches / dS Significativité / modèle M0: P=0.00003
Site actif modifié ...CGSCW... S,D,G,W 5 pertes indé-pendantes pseudogène Ap_16Dc4n 5 pertes indé-pendantes Site actif modifié ...CGSCW... S,D,G,W Quelles fonctions suite à la perte d’activité initiale ? Arbre NJ, modèle Gamma, pairwise deletion - gène entier
Quantification de l’expression différentielle (Q-RT-PCR) M. Kutsukake Dans le tube digestif (relativement), la forme 348 est très peu exprimée les autres formes sont très fortement exprimées
Conclusions – Directions futures Evolution des cathepsines B suit une dynamique d’expansion continue – divergence fonctionnelle - Quels mécanismes proximaux ? - Quels facteurs sélectifs ? Coévolution insecte-plante ? Dynamique des duplications dans le génome puceron (globale ? spécifique ?) Participation: Denis Tagu, Jean-Pierre Gauthier, Fabrice Legeai (Analyse des transcrits) Vincent Doublet, Sylvie Hudaverdian (Extraction ARN et séquençage) Mayako Kutsukake, Takema Fukatsu (RT-PCR quantitative)
ANNEXES
Phylogenetic relationship of soldier-specific and nonspecific cathepsin B genes from four Tuberaphis species S N duplication La forme « S » est exprimée uniquement par les soldats – elle évolue plus vite et sous sélection positive Kutsukake, Mayako et al. (2004) Proc. Natl. Acad. Sci. USA 101, 11338-11343 Copyright ©2004 by the National Academy of Sciences
Analyse compositionnelle taux de GC positions du codon le génome « puceron » est beaucoup plus riche en AT- troisièmes positions les plus affectées par les biais de composition
AFC sur l’utilisation des codons (RSCU) codons GC-riches codons AT-riches protéines ribosomique ou fort support EST protéines cuticulaires codons NNC+CGT
Composition en codons Forte hétérogénité intra-génomique du %GC3 (plus que chez D. melanogaster) Différenciation par le taux de %GC3 et l’utilisation de certains codons (NNG et CGT) Différenciation en partie liée au niveau d’expression présumé (mais moins fortement que chez D. melanogaster) Catégories atypiques (cuticulaires) >>> Sélection traductionnelle ??
Scénario évolutif proposé duplication primaire « 10992 » duplications secondaires holométaboles (diptères, etc...) vertébrés hémiptères « 348 » forte accélération évolutive post-duplication d’une des copies du type « 10992 »
Scénario évolutif ? duplication primaire de « 10992 » « 10992 » duplications secondaires x forte accélération évolutive holométaboles (diptères, etc...) vertébrés hémiptères « 348 » perte initiale ou pertes indépendantes
Scénario évolutif alternatif ? duplication primaire de « 10992 » « 10992 » x duplications secondaires x holométaboles (diptères, etc...) vertébrés hémiptères « 348 » pertes indépendantes
Modèles génomiques – sutructure et longueur des introns comparaison contigs de traces / contigs de transcrits par SIM4 vertébrés-(« 10992 ») « 348 » 73 77 2323 94 230 « 84 » 599 117 187 86 364 « Mpc2n » 1161 113 69 98 123 « 1874 » 81 0 997 1798 60 « 1674 » >9kb 103 62 117 99 « CG10992 » 76 146 508 Structure en 6 exons très conservée dans le groupe « 10992 » puceron Introns parfois extrêmement longs Présence d’un élément répété dans l’intron 1 et en 5’ et 3’ de différentes formes
Estimations des ratios w - Hétérogénéité entre sites ? (PAML, Yang. 1997) Modèle % ln L 2 D chi2 Forme « 348 » M0 w0 =0.101 100% -1286.23 P<10-5 M1 0=0.018 91.7% -1275.93 1=1.000 8.3% P=0.06 M2 0=0.060 76.8% -1273.12 1=1.000 23.2% 2 =5.072 2.1% Modèles de plus forte vraisemblance : mélange de sites neutres (w=1) et de sites sous sélection purifiante (w<<1) – pas de sélection positive