Michaël Bekaert Université Pierre et Marie Curie

Étude du décalage de phase de lecture dans le génome de Saccharomyces cerevisiæ
Michaël Bekaert Université Pierre et Marie Curie Directeur de thèse : Jean-Pierre Rousset Institut de Génétique et Microbiologie Bonjour, J’ai effectué ma thèse à l’Institut de Génétique et Microbiologie dans l’équipe de Génétique Moléculaire de la Traduction dirigé par Jean-Pierre Rousset. Mes travaux ont porté sur l’étude du décalage de phase de lecture dans le génome de Saccharomyces cerevisiae. Tant d’un point de vue du mécanisme que dans le but de rechercher des gènes régulé par ce phénomène.

La levure Saccharomyces cerevisiae
Les premières analyses génétiques sur Saccharomyces cerevisae remontent aux années 1930, et la détermination complète de son génome est établi depuis 1997. Ce qui m’a permis de réaliser des travaux très variés aussi bien in vivo qu’in silico sur cet organisme.

CAU AUG GAU UAC AUG GUC UAA GAU
La traduction Un messager, un polypeptide ARNt ribosome P A E ARNm CAU AUG GAU UAC AUG GUC UAA GAU La traduction, juste pour rappel, correspond au passage de l’information génétique contenue dans la molécule d‘ARNm, à une protéine correspondante. Cette transformation de l’ARN à la protéine est réalisée par le ribosome; les ARN de transfert, qui apportent un acide aminé, servant de molécule adaptatrice entre les deux chimies. (Bien sûr, sur ce schéma le ribosomes n’est pas à l’échelle, en fait il recouvre une trentaine de nucléotides sur l’ARNm.) La traduction commence à partir d'un codon d’initiation, (++++) suit alors un décodage trois nucléotides par trois nucléotide, definissant ainsi la phase de lecture, les ARNt passant successivement du site A, au site P, au site E du ribosome (++++) finalement la synthèse protéique s’arrête à un codon stop, le ribosome est ensuite recyclé, et le polypeptide libéré. La fidélité de la traduction est de l’ordre de 10-4 à 10-5 erreurs par cycle. Ainsi, un ARN messager donne un type polypeptide.

CAU AUG GAU UAC AUG GUC UAA GAU
La traduction Un messager, un polypeptide P A E CAU AUG GAU UAC AUG GUC UAA GAU

Le recodage Translecture Décalage de phase de lecture en -1
Par opposition à ce décodage canonique, plusieurs mécanismes permettent à la machinerie de traduction de lire l'information génétique de manières non-conventionnelles. Actuellement 4 type de mécanismes sont connus: Dans le cas de la translecture, un acide aminé est incorporé à la place d’un codon stop, ce qui permet la poursuite de la synthèse protéique jusqu’au codon stop suivant; Les décalages de phase de lecture. Les ARNt glissent d’un nucléotide 5’ et changement de phase de lecture, dans le cas du décalage en -1, ou en 3’ dans le cas du décalage en +1. Enfin le saut de ribosome. Dans le seul cas documenté, chez le bactériophage T4, le ribosome balaye 50 nucléotides sans les décoder avant de reprendre une traduction conventionnelle. Ces événements programmés sont appelés recodage et produisent jusqu’à 50% de forme recodée. Dans la plupart des cas, comme illustré sur cette diapositive, ils conduisent à la production de protéines plus longues, portant de nouveaux domaines fonctionnels. Cependant il existe des exceptions, par exemple pour le gène dnaX chez E. coli, le recodage conduit à la formation d’une protéine plus petite, les deux formes de la protéines donnant les sous-unité Tau et kapa de l’ADN polymease III. Le recodage permet donc la synthèse de 2 types de polypeptides à partir un seul ARN messager: l’espèce majoritaire correspondant au décodage canonique et l’espèce minoritaire étant obtenue par recodage. Saut de ribosome

Dépend de séquences et de structures sur l’ARNm
Le recodage Un messager, deux polypeptides Dépend de séquences et de structures sur l’ARNm Observé principalement dans des petits éléments génétiques autonomes (virus et transposons) Vestige d’un monde à ARN… Compacité des génomes Biais des analyses Pourquoi des virus et des transposons ? Le recodage a lieu spécifiquement sur certains messagers. C’est un événement induit à la fois par la séquence primaire et par la structure spatiale de l’ARNm. Jusqu’a présent, la majorité de gènes recodés a été trouvée chez les virus et les transposons et seulement quelques uns dans des gènes cellulaires. Plusieurs hypothèses peuvent être suggérées pour expliquer cette spécificité: vestige d’un monde à ARN (conservation des systèmes de régulations ancestrale); Nécessité de compacité des génomes; ou biais des analyses (ces éléments génétiquement automnes sont petit et ont été très bien étudié, lors que des génomes plus vaste n’ont pas été analysés aussi finement). C’est cette dernière explication que nous privilégions au laboratoire, mais ces hypothèses ne sont pas exclusives les unes des l’autres. La question de la généralisation de ces mécanismes est importante du point de vue de la connaissance fondamentale, mais aussi d’un point de vue médical, ces mécanismes peuvent-ils être ou pas des cibles thérapeutiques ?

Caractériser le décalage de phase de lecture en -1
Recherche de sites de décalage de phase de lecture dans les génomes Développer des outils d’identification d’événements de recodage eucaryote Caractériser le décalage de phase de lecture en -1 L’idée directrice de mes travaux a été de développer des outils d’identification d’événements de recodage eucaryote. Afin d’identifier de tels événements, il était également important de bien connaitre leur mécanisme. Une autre partie de mes travaux a donc consisté à caractériser les éléments responsables du décalage de phase de lecture en -1.

Le décalage de phase de lecture en -1
Virus HIV .. rev tat nef vif vpr vpu pol pro env gag LTR int ARNm Un des cas typique de décalage de phase de lecture en -1, est observé chez le virus HIV. Parmi les très nombreuses protéines de ce virus, celles nécessaires à la retro-transcription nécessitent en effet un décalage de phase en -1 pour etre exprimées.

gag pol Protéine Gag 95% Protéine Gag-Pol 5% Soit il y a traduction conventionnelle de l’ARN messager et il y a synthese de la protéine gag qui va participer a former la capside du virions… soit il a déphasage qui aboutit à la synthese d’une polyprotéine qui porte les activité necessaire a la replication du virus. La proportion entre les protéines gag et gag-pol est régulé par le décalage de phase de lecture en -1. Le controle de la stochiométrie par decalage de cadre est important pour la multiplication du virus, une trop grande ou trop petite proportion de protéine de fusion GAG-POL aboutisssant à la fabrication de virions non infectieux.

Site canonique de décalage de phase de lecture 1000 2000 3000 4000 +1 -1 Modèle Jacks et Varmus, 1985 et 1988 En 1985, le premier décalage de phase de lecture en -1 était décrit, chez un virus, par Jacks et Varmus qui ont ensuite établi le modèle de site de décalage de phase de lecture en -1 chez les eucaryotes. Ce modèle de site de décalage de site de lecture en -1 chez les eucaryotes se présente ainsi : un heptamère de type XXX YYY Z où les ARNt glissent d’un nucléotide en 5’, une structure secondaire (tige boucle, un pseudonœud) en 3’ et une région intermédiaire, l’espaceur. Des études systématiques de heptamère par l’équipe Brierly en 1993, principalement sur le site de décalage du coronavirus aviaire IBV, ont montré que tous les heptameres ne sont pas aussi efficaces. La composition en GC du site de décalage est le facteur essentiel qui dirige l’efficacité du glissement. L’élément critique dans ce modèle, est donc l’heptamere, sans lui les ARNt ne peuvent pas glisser, à lui seul il peux induire un décalage de 1%, alors que le taux d’erreur naturel de est de l’ordre de 1 pour La structure secondaire n’est pas suffisante pour induire à elle seule un décalagde de phase, elle a un role de stimulateur puisque en sa presence, le taux de déphasage peut atteindre plus de 20%. La taille de l’espaceur est un autre élément important, qui permet de positionner correctement la structure secondaire. Dans ce modèle la structure secondaire provoque une pause du ribosome permettant aux ARNt de déraper d’un nucléotide en 5’. X XXY YYZ Heptamère Brilerly, 1993

Impact de l’environnement
Les expériences Décalage de phase de lecture en -1 Nouveaux gènes Mécanisme Impact de l’environnement Virus Site E HMM Modélisation Similarité Espaceur Transposons Levure Afin de caractériser le décalage de phase de lecture en -1, j’ai exploré deux axes: l’identification de gènes régulés par décalage de phase de lecture en -1 et le mécanisme de ce phénomène. J’ai décliné ce travail en études in vivo et in silico, mais validé in vivo, chez S. cerevisiae, les virus et plus récemment les transposons.

Impact de l’environnement
Aujourd’hui Décalage de phase de lecture en -1 Mécanisme Impact de l’environnement Modélisation Espaceur Transposons Nouveaux gènes Levure Virus HMM Aujourd’hui, je ne vais présenté que la recherche de gène régulé par décalage de phase de lecture en -1 et comment cela m’a conduit à identifier un nouvel élément de séquence impliqué dans ce phénomène Similarité Site E

Recherche de sites de décalage de phase de lecture dans les génomes 1000 2000 3000 4000 +1 -1 Recherches à partir de ce modèle Hammell et al., 1999 Liphardt, 1999 A partir du modèle de Jacks et Varmus, plusieurs travaux ont été menés pour identifier des sites de décalage dans le génome nucléaire de la levure. Hammell en 1999 et Liphardt la même année dans sa thèse. Cependant, aucune de ces approches, basée sur la présence d’un heptamère et d’une tige (soit d’une tige boucle, soit la permière tige d’un pseudonœud) n’a permis d’identifier de site fonctionnel de décalage de phase de lecture chez S. cerevisiae.

Modèle pas assez précis (ou incomplet)
Le décalage de phase de lecture en -1 Deux approches complémentaires Modèle pas assez précis (ou incomplet) Affiner le modèle Modèle trop rigide (mécanismes différents ou dégénérés) Approche sans a priori sur le mécanisme On peut proposer deux explications non exclusives à ces echecs : Soit le modèle n’est pas assez précis pour permettre une recherche efficace. Je me suis attaché dans une première étape à affiner ce modèle. Soit, A l’inverse, le modèle est trop rigide : il peut exister d’autres moyens de faire du décalage de phase de lecture en -1, soit à partir d’ une structure plus « dégénérée », soit par des mécanismes qui ne repose pas sur ce type de modèle. Dns ce cadre, j’ai développé une approche sans a priori sur le mécanisme afin d’identifier des régions exprimées par un évnement de décalage de phase de lecture en -1 ne correspondant pas au modèle de Jacks et Varmus.

Identifier de nouveaux attributs
Le décalage de phase de lecture en -1 Affiner le modèle Identifier de nouveaux attributs Composition de l’espaceur Dissymétrie entre un appariement C-G et G-C (Bekaert et al., Bioinformatics, 2003) Nous avons développé une collaboration avec le Laboratoire de Recherche en Informatique afin de préciser ce modèle, à partir des sites connu de décalage de phase de lecture en -1. Nous nous somme basés sur des sites de virus utilisant un décalage de phase de lecture en -1, puis qu’ils représentaient la seul source de sites caractérisée. De plus ils utilisent la machinerie cellulaire de traduction pour produire leur protéines recodées. Ceci m’a permis dans un premier temps, de mettre en évidence le rôle de la composition nucléotidique de l’espaceur dans la régulation de décalage de phase de lecture en -1 chez les eucaryote. Ceci a été également montré chez les procaryote par l’equipe de Olivier Fayet. Mes résultats montrent que certain espaceur augmente de décalage de phage de lecture d’autres et c’est peu être le plus interssant l’inhibe. Un autre élément mis en évidance est l’existance d’une dissymétrie entre les appariements C-G et G-C de la 1ere tige du pseudonœud. Les virus utilisent plus souvant des tiges composé de G du côté 5’ et -C du coté 3’ que l’inverse. Cela a permit une modélisation informatique plus fine pour établir un meilleur modèle.

Recherche basée sur le modèle affiné X XXY YYZ P SP S1 L1 S2 L2 L’1 5’ 3’ Brievement, A partir du modèle simple de site de décalage de phase de lecture…

AUG N NNN NN XXX YYY Z Le décalage de phase de lecture en -1
Rechercher un heptemère AUG N NNN NN XXX YYY Z Un automate recherche les heptamere dans la bonne phase de lecture…

Rechercher un pseudonoeud puis dans un second temps la région en 3’ de heptamère est repliée afin de recherche un pseudonœud. (A cette étape la dissymétrie en CG et GC est prise en compte) Ensuite intervint une étape de classement a partir du modèle affiné, c’est-à-dire que plus la région candidate ressemble au modèle affiné mieux elle est classé… Cela prend en compte la composition de l’hepamère, mais aussi Taille de l'espaceur, le nombre de G dans la seconde tige, le nombre de U dans la seconde tige Je ne détaillerai pas plus ces résultats qui font l’objet de la thèse d’informatique de Jean-Paul Forest avec qui j’ai collaboré. Finalement 6 candidats ont été sélectionnés pour lesquels j’ai effectué une évaluation in vivo du décalage chez la levure. Je vous présenterai tout à l’heure les résultats obtenus.

Affiner le modèle X XXY YYZ P SP S1 L1 S2 L2 L’1 5’ 3’ Cependant l’un des problèmes qui est rapidement apparue à cette étape de modélisation est le faible nombre de séquences disponibles, pour affiner le modèle. En fait moins de 10 sites de décalage de phase de lecture étaient caractérisés et la majorité des séquences correspondaient à des mutants de ces dix sites viraux.

Valider des sites putatifs (Bekaert et al., Mol Cell, sous presse) Retrovirus Cucurbit aphid-borne yellows virus Turnip yellows virus Potato leafroll virus Cereal yellow dwarf virus-RPV Cocksfoot mottle virus Human T-cell lymphotropic virus 1 Simian T-cell lymphotropic virus 1 Bovine leukemia virus Mouse mammary tumor virus Enzootic nasal tumor virus Simian type D Rous sarcoma virus Visna virus Feline immunodeficiency virus Equine infectious anemia virus Human immunodeficiency virus 2 Simian immunodeficiency virus Simian retrovirus type 2 Human immunodeficiency virus 1 L-A virus Giardia virus Trichomonas vaginalis virus II Human astrovirus PRRSV Human coronavirus Murine hepatitis virus SARS Avian infectious bronchitis virus Red clover necrotic mosaic virus Barley yellow dwarf virus-PAS Carrot mottle mimic virus Groundnut rosette virus Pea enation mosaic virus 2 Human T-cell lymphotropic virus 2 Mason-Pfizer monkey virus Coronaviridae Coronavirus Arteriviridae Arterivirus Astroviridea Mamadtroviruss Tombusviridea Dianthovirus Umbravirus Luteoviridea Polerovirus Luteoviridae Luteovirus Retroviridea Deltaretrovirus Betaretrovirus Alpharetovirus Lentivirus Totiviridae Totivirus Giardiavirus Virus à ARN double brin Afin d’enrichir ce set de données, j’ai analysé les virus recensée par la base de donnée de référence, Recode. 35 virus sont répertoriés mais une dizaine seulement avaient été testé biologiquement et dans des systèmes très différent les un des autres, (comme je viens de vous le dire)… Afin d’évaluer le décalage de cadre induit par des sites viraux connus pour utiliser le décalage, j’ai élaboré un arbre a partir de la séquence de la polymérase (en rouge les rétrovirus, en bleu des virus ARN+, en vert les virus a ARN double brin). J’ai ensuite sélectionné au moins un virus par famille, afin d’être le plus représentatif possible et de garder la plus grande diversité de site possible. Virus à ARN positif

b-galactosidase-luciférase
Le décalage de phase de lecture en -1 pAC99 : évaluation in vivo b-galactosidase b-galactosidase-luciférase Région de décalage lacZ luc +1 -1 J’ai utilisé un vecteur double rapporteur. La région de décalage est insérée entre les gènes LacZ et Luc. Ainsi in vivo, chez S. cerevisiae, la b-galactosidase est toujours produite, alors que la luciférase nécessite un décalage de phase de lecture. La b-galactosidase est utilisé comme control interne. Le Rapport de l’activité Luc/b-gal permet d’estimer le taux de décalage de phase de lecture en -1 de la structure.

Plus de virus Virus Heptamère Décalage BChV .cC GGgAAAu gGa. 15,8%±2 BLV gag/pro .UC aaAAAAC Uaa. 8,1%±1 BWYV .UC GGgAAAC gGG. 12,0%±1 BYDV .gu GGguuuu UaG. 12,2%±1 CABYV .UC GGgAAAC gGG. 17,5%±1 EIAV .cC aaAAAAC gGG. 7,0%±1 FIV .UC GGgAAAC UGG. 9,0%±1 HIV1 .aa uuuuuua gGG. 6,0%±1 IBV .Ua uuuAAAC gGG. 19,3%±1 L-A .ca GGguuua gGa. 10,0%±1 L-BC .Uu GGauuuu cGu. 13,0%±2 LDV .gC uuuAAAC UGc. 13,1%±1 MMTV gag/pro .UC aaAAAAC UuG. 20,2%±2 PEMV1 .UC GGgAAAC gGa. 31,0%±2 PLRV .cC GGgAAAu gGG. 19,0%±1 20 virus ont été sélectionnées et leur sites de décalage évalués. A par un cas, ces structures induisent un taux élevé de décalage de phase de lecture. Le bruit de fond est d’environs 0,1% par cette méthode de mesure, ici les valeurs vont jusqu’à 31%. Ces taux valide l’utilisation de la levure comme systeme modèle pour étudié des sites tres varié de décalage de phase Ces structures ont put être ensuite utilisées pour affiner le modèle informatique. Parallèlement, aux vues des séquences ainsi caractérisées, il semblait qu’un biais de composition de la régions de décalage était suffisamment important établir un profil HMM et le rechercher dans d’autres génomes de virus. En effet dans la région, la composition de l’heptamère est très fortement contrainte comme ont l’a vue. De même pour l’espaceur. Enfin il semblait que la région en amont du l’heptamère était elle aussi non aléatoire. J’ai donc établi un profil HMM, c’est-à-dire un consensus généré à partir d'un alignement multiple de séquences, basé sur les probabilités d’apparition des nucléotides en fonction du nucléotides précédants. PLRV-W .cC uuuAAAu gGG. 17,8%±2 PRRSV .Ug uuuAAAC UGc. 15,7%±1 SARS .Uu uuuAAAC gGG. 10,3%±1 ScYLV .ca GGgAAAu gaG. 0,7%±0 SRV1 gag/pro .ca GGgAAAC gGa. 13,0%±2 Pseudo-consensus UC GGGAAAC GGG Profil HMM

1500 génomes 285 candidats 74 séquences
Le décalage de phase de lecture en -1 Identifier de nouveaux virus 1500 génomes profil HMM 285 candidats inspection manuelle pas dans la bonne phase pas de structure secondaire J’ai utilisé ce profil basée uniquement sur l’environnement de l’heptamère sur les 1500 séquences de virus entièrement séquencé disponible alors dans GenBank. Cela m’a permis d’identifier 285 régions candidates Une inspection manuelle, plus rapide que la mise au point d’un programme automatique, aux vues de l’hétérogenéité des annotations, m’a permis d’éliminer les motifs qui n’étaient pas dans la bonne phase de lecture, ou que n’était simplement pas suivit d’une structure secondaire. Finalement, j’ai identifié 74 virus. Ces virus se répartissent seulement dans 11 familles de virus. Tout les membres de ces familles utilisent un décalage de phase de lecture en -1! Sauf dans une exception, certain utilise un décalage de phase en +1! C’est le double de ce qui été dans Recode, c’est aussi suffisant pour analyser plus en détail les séquences retrouvés. 74 séquences

biais nucléotidique 20 40 60 80 -9/-10 -8/-9 -7/-8 -6/-7 -5/-6 -4/-5 -3/-4 -2/-3 -1/-2 dinucléotide Chi2 Ce graphique représente l’écart entre les fréquences théorique et les fréquences observé des dinucléotides en amont de l’heptamère. Le seuil de significativité à 1 pour 1000, est symbolisé par la barre rouge. La région en 5’ de l’heptamère présente bien un biais de composition du dinucléotide immédiatement avant l’heptamère.

Dinucléotide en amont du site glissant Si l’heptamère en ici sur fond rouge, le dinucléotide en question en ici. Quelle est la cause de ce biais? Comme cette observation correspond au cumul de séquences d’origines différentes, je me suis placé dans un contexte plus homogène pour analyser la cause de ce biais de composition. J’ai construit une série de sites de décalages de phase de lecture pour l’ensembles des dinucléotides possibles (16+témoins), à partir du site du coronavirus IBV. J’ai ensuite évalué le taux de décalage de phase induit par ces constructions in vivo chez la levure.

Dinucléotide en amont du site glissant 0% 5% 10% 15% 20% 25% AA AC UA UC UG UU AG AU CA CC CG CU GA GC GG GU Taux décalage de phase De manière inattendu, deux groupes de construction ont clairement été identifié. Le premier induisant un décalage de plus de 15%, l’autre un décalage de moins de 10%. La caractéristique commune à toutes les séquence induisant un fort taux de décalage est que l’ARNt utilisé pour décoder le codon composé de ce dinucléotide et du 1er nucléotide de l’heptamère posséde en position 39 une pseudouridine. Alors que cette modification était absente des ARNt utilisés par l’autre groupe de constructions. dinucléotide

Réaction catalysée par Pus3p
Le décalage de phase de lecture en -1 Propriété de Pus3p Y 38-39 Pus3p (Lecointe et al, 1998) Réaction catalysée par Pus3p uridine pseudouridine () H+ OH HOH N H O CH 2 OH P - 5 1 HN 180° La modification en position 39 des ARNt est une isomérisation de l’uridine en pseudourine. Cette modification est catalysé par l’enzyme Pus3p. Cette enzyme a été caractérisé par François Lecointe dans l’équipe de Henri Grosjent.

Effet de l’absence de pseudouridine en position 39 0% 5% 10% 15% 20% 25% CG GA UA UC WT pus3 taux de décalage de phase Si la modification en position 39 à un effet sur le décalage de phase de lecture, dans une souche sans activité pus3, donc sans peudouridine en position 39, le décalage de phase de lecture devrait réduit. J’ai donc repris deux constructions induisant un faible et un fort taux de décalage qui utilisait des ARNt sans modification ou avec modification respectivement. Et j’ai évalué de décalage de phase de lecture dans une souche de levure sauvage et délété pour l’enzyme de modification pus3. En effet le taux de décalage de phase de lecture en -1 est réduit d’un facteur 2 dans la souche defective pour pus3. Cela implique bien la pseudouridine en position 39. dinucléotide

P A E Le décalage de phase de lecture en -1 Et le site E ?
Comment une modification ponctuelle d’un ARNt régule de taux de décalage de phase de lecture chez la levure ? En fait l’ARNt incriminé correspond à un ARN qui décode le dernier codon avant l’heptamère glissant, c’est l’ARNt qui était au site E avant l’arrivé d’un ARNt au site A.

Influence de l’ARNt au site E sur la traduction
Pour illustrer la dynamique de la traduction, j’ai une animation, basé sur le ribosome procaryote, mais qui est pour le cycle site A->P->E reste applicable au ribosome eucaryote. Bien sûr ce n’est qu’un modeèle mais il illustre bien la dynamique du mécanisme Adapté de Frank et al., 1999

Influence de la pseudouridine sur le l’ARNt au site E
Le décalage de phase de lecture en -1 Un site de décalage de phase étendue… Influence de la pseudouridine sur le l’ARNt au site E L’ARNt est éjecté prématurément ? L’ARNt reste? Influence de l’ARNt au site E Influence la phase d’accommodation au site A ? Déstabilise l’ARNt au site P ? Finalement comment une modification en position 39 de certain ARNt module l’efficacité de décalage de phase de lecture en -1 ? Deux grandes hypothèses, l’une cinétique, l’autre plus statique. Soit cette modification produit une éjection prématuré de l’ARNt au site E ce qui modifie la phase d’accommodation de l’ARNt au site A par exemple en altérant le positionnement de l’ARNt ce qui aurai pour conséquence de facilité un glissement. Soit au contraire, l’ARNt reste « trop » longtemps au site E, ce qui aurai les même conséquence. Soit c’est une interaction entre les ARNt aux sites P et E qui serait modifier. Les boucles des anticodons sont tres proches dans ces régions et l’existence ou pas d’une modification pourrait déstabiliser l’ARNt au site P directement ou non.

Influence de la modification Y39 de l’ARNt au site E
Le décalage de phase de lecture en -1 Affiner le modèle : mécanisme Influence de la modification Y39 de l’ARNt au site E Impact sur la fidélité de la traduction Du point de vue mécanistique… Mes résultats indiquent que la modification d’un ARNt au site E influence le décalage de phase de lecture en -1. Et sont implication probable sur la fidélité de la traduction. Ce modèle est corroboré par les résultats récents de l’équipe de Nierhaus, qui ont montré l’implication du site E dans le décalage de phase de lecture en +1 de PFRb chez E. coli. Dans ce cas l’ARNt au site E est éjecté prématurément.

Identifier de nouveaux attributs
Le décalage de phase de lecture en -1 Affiner le modèle : bioinformatique Identifier de nouveaux attributs Composition de l’espaceur Dissymétrie entre un appariement C-G et G-C Site E / Dinucléotide en amont de l’hepamère D’un point de vue de la modélisation informatique, le travail que je viens d’exposer permet de mettre en lumière un nouvelle élément du site. A partir de ce modèle affiner, un nouveau modele informatique a été réalisé. Parallèlement, pour j’ai utilisé une approche sans a priori sur le mécanisme… C’est cette seconde approche que je vais vous présenté maintenant.

Regarder le décalage de phase sous un angle différent
Le décalage de phase de lecture en -1 Approches sans a priori sur le mécanisme Regarder le décalage de phase sous un angle différent sans a priori sur le site de décalage lui-même définition génomique Fonctionnel Linguistique/statistique Afin d’aborder le problème de l’identification de gènes régulés par décalage de phase de lecture en -1 sous un angle différent, sans a priori sur le site de décalage de phase lui-même, j’ai utilise une définition génomique du décalage de phase, à la fois d’un point de vue fonctionnel, et d’un point de plus statistique en collaboration avec Hugues Richard et Bernard Prum du Laboratoire de Statistique des Génomes. Comme on le verra, cette approche ne permet que de définir des régions subissant événements de décalage de phase de lecture, mais pas le mécanisme qui le produit. Identifier de nouveaux sites

Stockage des séquences
Le décalage de phase de lecture en -1 Implémentation Stockage des séquences Découpage du génome HMM Motifs RT-PCR Evaluation in vivo Classement Pour cette recherche, plusieurs étapes ont été nécessaires: - Le première consiste à extraire la séquence des bases de donnée et à la découper en régions susceptibles de présenter un décalage de phase. J’ai effectué ceci à l’aide de programmes spécifiquement développés. - Ensuite j’ai stocké les données dans une base de données elle aussi spécifique. - Deux approches in silico ont été réalisée parallèlement, une recherche de motifs et une étude linguistique fondée sur les probabilité d’apparition des codons dans les régions codante vs non codante - Enfin, j’ai validé in vivo les résultats de ces deux approches. D’abord en recherchant des ARNm, puis en évaluant la capacité de déphasage des régions candidates. Pour superviser l’avancement et les caractéristique des régions identifiés, une interphase graphique permet la visualisation.

(Bekaert et al., Bioinformatics, soumis)
Le décalage de phase de lecture en -1 Quelques outils L’exemple ici est la localisation des régions candidates sur les 16 chromosomes de la levure S. cerevisiae. On peut bien sur obtenir le détail de chaque éléments. L’interface est consultable en utilisant un navigateur WEB. (Bekaert et al., Bioinformatics, soumis)

Découpage START STOP1 STOP2 STOP3 phase 0 ORF0 ORF-1 phase -1 > 99 nt > 99 nt > 150 nt Pour découper en régions susceptibles de présenter un décalage de phase, j’ai utilisé la définition la plus simple d’un décalage de phase: deux phases ouvertes de lecture chevauchantes, l’une décalé en -1 par rapport à l’autre. La première allant d’un début de traduction à un stop, la seconde d’un stop à un stop, la traduction étant initiée dans la phase précédente. J’ai choisie les tailles minimales de 99 nucléotides pour chaque région et de 150 pour la structure complète. Ainsi, j’ai identifié régions qui répondent à ces critères dans le génome de la levure et 10 dans celui du virus LA, un virus naturel de la levure qui présente un site fonctionnel de décalage de phase en -1. régions chez S. cerevisiae Genbank – rel. 27/10/2002 10 régions chez le virus L-A Genbank – rel. 03/08/2002

Motifs START STOP1 STOP2 STOP3 ORF0 ORF-1 Motif protéique ? Motif protéique ? A partir de ces régions j’ utilisé deux approches différentes. La première repose sur l’idée que si une région présente dans les deux phases des motifs protéiques, cela augmente la probabilité que ces candidats soient biologiquement pertinants. (Bien sur cela nécessite que le motif existe dans ces banques). J’ai utilisé la banque de données Interpro qui regroupe des bases de données de motifs fonctionnelles, ou d’appartenances à des famille. 1 région chez L-A présente ces caractéristique et correspond u site de décalage de phase de lecture. ce qui valide l’approche. De la même façon j’ai identifié 84 régions sur les chez S.c. 84 régions chez S. cerevisiae 1 région chez le virus L-A Banques de motifs: Interpro 7.0 Application: GenRecode

Modèle de Markov -1 Parallèlement une étude linguistique fondée sur les probabilité d’apparition des codons a été réalisé sur les séquences candidates. A partir des ORF connues de la levures, considéré sans lien d’homologie, les probabilités d’apparition des codons ont été calculer définissant ainsi la linguistique du codant. En fait, dans le soucis d’avoir un modèle linguistique plus fin, nous avons définir 3 types de codants pour répondre aux différences significatives de linguistique entre les gènes dont le taux d’expression était différents. De même avec les régions non codante. A partir de ces linguistiques caractéristiques, nous avons rechercher les régions ou un changement de phase était possible afin d’estimer une probabilité de discontinuité du codant. Sur cette exemple, deux ORF au sens génomique se chevauchent, mais des régions présentant une linguistique de type codan ne se chevauchent pas, la probabilité de discontinuité est alors faible -1

Modèle de Markov -1 A l’inverse ici les deux ORF au sens génomique se chevauchent, et des régions présentant une linguistique codante se chevauchent, la probabilité de discontinuité est alors forte. -1

Classement 100 200 300 400 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 21000 ≥0.95 probabilité Nombre de régions 110 régions chez S. cerevisiae 1 région chez le virus L-A Probabilité de déphasage > 95% Les régions ont été évalué et classé en fonction de cette probabilité. Le graphique représente la répartition des séquences qui diminue de manière asymptotique. A 0,95 un pic apparaît clairement. C’est cette valeur que nous avons utilisé comme valeur seuil. 1 seule région le virus LA, la région présentant un site de déphase fonctionnel a put être identifiée. De même 110 régions présentent une probabilité de discontinuité supérieur à 0.95% chez S. cerevisiae.

Le site du virus L-A est retrouvé
Le décalage de phase de lecture en -1 Vers de nouveaux sites eucaryotes : synthèse HMM 79 5 105 Le site du virus L-A est retrouvé Identification de 189 régions chez S. cerevisiae Classement des candidats A l’issu de ces deux approches: - Le site du virus L-A est parfaitement retrouvé, validant les deux approches - 189 régions ont été identifié comme susceptibles de présenté du décalage de phase de lecture en -1 dont 5 sont communs au deux approches. - Pour des 110 candidats issu de la recherche HMM, un classement a put être établi. Après l’in silico, l’étape suivante est l’in vivo! De ces 189 régions candidats je n’ai put en tester que 50 faute de mains. J’ai donc choisi de tester 25 candidats issus de l’approche linguistique et 25 issus de l’approche par recherche de présence de motifs. Motifs

ARNm ADN ARNm AAAAAA 2 MM RT-PCR 4 3 5 6 7 8 9 10 11 12 13 16 1 17 14 15 18 1 kb 500 b Dans une premire etape, j’ai vérifié la séquence génomique, 5 différences entre la séquences des bases de données ont ete observees. Cependant je n’utilise pas la souche séquencée, il peut donc s’agir de polymorphisme naturel L’expression des régions candidates a été testé en recherchant les ARNm par RT-PCR couvrant la totalité de la région étudié. La réaction de transcription inverse étant réalisé a partir d’un oligonucléotide s’appariant sur la queue poly A de l’ARNm, j’ai réalisé ensuite les amplifications de PCR avec des oligonucléoide situé de part et d’autre de la structure. Ce gel est représentatif des résultats ainsi obtenus aprés des amplifications des régions d’intérêt. Dans mes conditions, 31 candidats ont exprimé un ARNm, dont 3 avait une taille inférieur à celle attendu. Les séquences des ADN complémentaire ont montré qu’il s’agissait de gènes dans lesquels un intron avait échappé à la détection. Ces régions sont donc exprimées!

b-galactosidase-luciférase
Le décalage de phase de lecture en -1 pAC99 : évaluation in vivo b-galactosidase b-galactosidase-luciférase Région de décalage lacZ luc +1 -1 J’ai évalué les 28 candidats restant pour le taux de décalage phase qu’il induisait. La région chevauchante a été inséré dans le meme vecteur rapporteur que precedemment

Décalage in vivo HMM 0% 2% 4% 6% 8% 10% 12% 14% 2 11 16 21 30 32 40 41 43 48 50 3 6 2 Taux décalage de phase 11 candidats présentent un taux de décalage de phase de lecture significatifs et 2 sont communs au deux approches. Dans les mêmes conditions le virus L-A présente un taux de décalage de phase de lecture en -1 de 10%. Ainsi, mes résultats identifie pour la première fois, des régions exprimé présentant des taux important de décalage de phase de lecture en -1 chez la levure S. cerevisiae. Motifs candidat

Stockage des séquences
Le décalage de phase de lecture en -1 De nouveaux sites eucaryotes ? Stockage des séquences Découpage du génome HMM Motifs RT-PCR Evaluation in vivo Classement 1 génome régions 110 candidats 84 candidats 28 ARNm /50 11 sites /28 Pour résumer…

Les 11 candidats fsORF % Sage Canonique ORF0 ORF-1 Notes 2 6% Oui heptamère SCO2 - SCO2 (involved in stability of Cox1p and Cox2p) 11 11% YDL038C PRM7 PRM7 (pheromone-regulated membrane protein) 16 9% AAD6 AAD16 AAD6 (high similarity with the AAD of P. chrysosporium) 21 13% Intergénique / PRF13 30 12% YKL033W-A 32 7% SRL3 SRL3 (Suppressor of Rad53 null Lethality) 40 5% YMR084W YMR085W putative glutamine--fructose-6-phosphate transaminase 41 ADE17 ADE17 (AICAR transformylase/IMP cyclohydrolase) 43 10% MRPL24 MRPL24 (Mitochondrial ribosomal protein) 48 STE4 STE4 (GTP-binding protein beta subunit of the pheromone pathway) 50 RAD17 RAD17 (DNA damage checkpoint control protein) Voici le détail des 11 candidats identifiés. Il n’y a pas de famille de fonction qui ressort. Certaine ORF sont identifié d’autre en orange sont putative, les autres sequences candidates se situent dans des régions intergeniques. Un candidat présente une région de décalage de type canonique, mais ne pouvais pas être identifié par les approches précédente, qui recherchait des extensions de gène connu, ici la région candidate est annoté « intergenique ». Deux autres candidats présentent un heptamère mais pas de structure secondaire stimulatrice reconnaissable. Les 8 autres ne peuvent pas être classé dans le modèle canonique et pourraient correspondre à un mécanisme différent. J’ai identifié 11 sites fonctionnels de décalage de phase de lecture en -1 chez la levure S. cerevisiae. Ils présentent à la fois des ARNm et un taux de décalage significatif. Cependant on ne peut pas exclure qu’il s’agisse de pseudo-gene non pertinant biologiquement ou même qu’aucune protéine ne soit exprimée. Chez la levure on a de très nombreux outils, pour répondre à la question: Tag, purif, et mes microséquensage pour vérifier le mécanisme.

Cette stratégie peut être appliquée à d’autres organismes.
Le décalage de phase de lecture en -1 Perspectives Cette stratégie peut être appliquée à d’autres organismes. Recherche dans d’autres levures Recherche dans des organismes plus complexes Applicable à d’autres types de recodage. Décalage de phase de lecture en +1 Translecture Les perspective de ce travail sont d’appliquée cette stratégie à d’autres organismes, d’abord, à d’autres levure et plus particulièrement au levures du programmes genoLevure afin de rechercher des régions conserver S.c. ou d’identifier des gènes régulés par décalage de phase de lecture propre à chacune de ces levures. A terme, cette approche pourrait etre étendue à des organismes plus complexes, mais actuellement, ceci est limité par la qualité des séquences et la difficulté d’identification des introns. Cette méthode peut aussi s’appliqué à d’autres type de recodage, comme le décalage de phase de lecture en +1 et la translecture. Enfin cette méthode peut permettre d’identifié d’autre type de recodage, puisqu’elle ne s’appuie pas sur le mécanisme lui-même mais seulement sur la conséquence de ce dernier. Nouveaux types de recodage

Analyse des génomes HMM 2 3 5 - 1 Motifs En conclusion, j’ai identifié 11 régions candidates par l’approche sans a priori sur le mécanisme. En parallèle, 3 séquences fonctionnelles ont ete identifieés par l’approche de modélisation développée par Jean-Paul Forest. Ces resultats suggère que le décalage de phase de lecture en -1 n’est pas un phénomène limité aux gènes viraux, mais pourrait être a l’heure actuelle sous évalué dans les génomes eucaryotes. Ceci cionstitue un problème dans l’analyse des génomes et dans l’identification des gène telle qu’elles sont effectué actuellement. Au mieux l’information codé par les génomes est sous-estimée, au pire des programmes de correction automatique rétablisse la phase et génère des informations erronées. Le décalage de phase de lecture en -1 n’est pas un phénomène limité aux gènes viraux, il pourrait être sous-évalué dans les génomes eucaryotes.

Modèle de site de décalage plus détaillé
Le décalage de phase de lecture en -1 Analyse des génomes Rôle du site E Modèle de site de décalage plus détaillé Nouveaux sites viraux Au cours de ma thèse, j’ai mis en évidence le rôle du site E dans la traduction, ce qui m’a permit d’affiner le modèle de site de décalage de phase de lecture en -1 chez les eucaryote. Au cours de ce travail, j’ai été amené à identifier de nouveaux site viraux régulé par ce phénomène. Et finalement j’ai identifié des sites fonctionnels de décalage de phase de lecture en -1 chez la levure S. cerevisiae. Identification de sites fonctionnels chez S. cerevisiae

Merci !!! Isabelle Hatin Institut de Génétique et Microbiologie
Agnès Baudin-Baillieu Laure Bidou Bruno Cosnier Muriel Decraene Céline Fabret Maryse Godon Isabelle Hatin Marta Kwapisz Olivier Namy Jean-Pierre Rousset Michel Termier Laboratoire de Recherche en Informatique Alain Denise Jean-Paul Forest Christine Froidevaux Merci de votre attention Laboratoire de Statistique et Génome Bernard Prum Hugues Richard

Michaël Bekaert Université Pierre et Marie Curie

Présentations similaires

Présentation au sujet: "Michaël Bekaert Université Pierre et Marie Curie"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Michaël Bekaert Université Pierre et Marie Curie

Présentations similaires

Présentation au sujet: "Michaël Bekaert Université Pierre et Marie Curie"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back