Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours

Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours
Je n’aimerais pas vivre en Amérique mais parfois si Je n’aimerais pas vivre à la belle étoile mais parfois si J’aimerais bien vivre dans le cinquième mais parfois non Je n’aimerais pas vivre dans un donjon mais parfois si Je n’aimerais pas vivre d’expédients mais parfois si J’aime bien vivre en France mais parfois non (...) Georges Perec, Penser/Classer La traduction commence à un codon AUG mais parfois non La traduction se termine à un codon stop mais parfois non Le code n’est pas chevauchant mais parfois oui

Erreurs dans le transfert d’information
Réplication : 10-6/nt Transcription : 10-5/nt Traduction : /codon

1 ARN 2 polypeptides Décodages non conventionnels (recodage) +1 - 1
Translecture AUG Décalage du cadre de lecture +1 - 1 AUG 1 ARN polypeptides

Le recodage Dépend de séquences et de structures sur l’ARNm (mécanisme conservé chez les eucaryotes) Observé principalement dans des éléments génétiques autonomes (virus, transposons) pol pro gag LTR AUG STOP int Gag Pol Int Pro HIV

Décalage de phase et virus
« Le cheval de Troie » gag pol Soit il y a traduction conventionnelle de l’ARN messager et il y a synthese de la protéine gag qui va participer a former la capside du virions… soit il a déphasage qui aboutit à la synthese d’une polyprotéine qui porte les activité necessaire a la replication du virus. La proportion entre les protéines gag et gag-pol est régulé par le décalage de phase de lecture en -1. Le controle de la stochiométrie par decalage de cadre est important pour la multiplication du virus, une trop grande ou trop petite proportion de protéine de fusion GAG-POL aboutisssant à la fabrication de virions non infectieux. Protéine Gag 95% Protéine Gag-Pol 5%

Décalage de phase et autorégulation
Facteur de terminaison de la traduction RF2 et décalage

La terminaison de la traduction eucaryote
Site E Site P Site A AA STOP CA(A/G)N(U/C/G)A

Translecture et régulation épigénétique
D’après True et Linquist, Nature, 2000

Reprogrammation de codon stop
Incorporation de sélénocystéine au codon UGA

Thèmes de l’équipe Mécanismes (facteurs cis et trans)
Gènes cellulaires et recodage Maladies à codons stop

Gènes cellulaires et recodage (levure)
ORF1 ORF2 Approche par modélisation Approche sans a priori Translecture : gènes candidats

Le décalage de phase de lecture en -1
Recherche de sites de décalage de phase de lecture Développer des outils d’identification d’événements de recodage eucaryote Caractériser le décalage de phase de lecture en -1 L’idée directrice de mes travaux a été de développer des outils d’identification d’événements de recodage eucaryote. Afin d’identifier de tels événements, il était également important de bien connaitre leur mécanisme. Une autre partie de mes travaux a donc consisté à caractériser les éléments responsables du décalage de phase de lecture en -1.

Recherche de sites de décalage en -1
1000 2000 3000 4000 +1 -1 Modèle de site eucaryote Jacks et Varmus, 1985 et 1988 X XXY YYZ Heptamère Brierley, 1993 Pause du ribosome Brierley 1993, Dinman 2000 Pas de site authentique identifié …

Deux approches complémentaires Modèle pas assez précis (ou incomplet) Affiner le modèle Modèle trop rigide (mécanismes dégénérés ou différents ) On peut proposer deux explications non exclusives à ces echecs : Soit le modèle n’est pas assez précis pour permettre une recherche efficace. Je me suis attaché dans une première étape à affiner ce modèle. Soit, A l’inverse, le modèle est trop rigide : il peut exister d’autres moyens de faire du décalage de phase de lecture en -1, soit à partir d’ une structure plus « dégénérée », soit par des mécanismes qui ne repose pas sur ce type de modèle. Dns ce cadre, j’ai développé une approche sans a priori sur le mécanisme afin d’identifier des régions exprimées par un évnement de décalage de phase de lecture en -1 ne correspondant pas au modèle de Jacks et Varmus. Approche sans a priori sur le mécanisme Collaboration : Alain Denise, Jean-Paul Forest, Christine Froidevaux, Bernard Prum, Hugues Richard, Michel Termier

Représentation des données
Affiner le modèle Représentation des données 3’ Voici leconsensus actuel pour les sites de frameshift. Ces sites comptent deux éléments : - une séquen ce glissante où le ribosome dérape effectivement. - une structure secondaire, tige-boucle ou pseudo-nœud. Le pseudo-nœud est une tige-boucle particu-lière dans laquelle des nucléotides de la boucle s’apparient avec des nucléotides situés en aval (dans le sens 5’-3’). Détailler les sous-séquences. Ceci est une REPRESENTATION. 5’ AUG X XXY YYZ H SP Heptamère glissant Espaceur Structure secondaire

Affiner le modèle 120 propriétés (attributs)
Représentation des données 5’ NNX XXY YYZ NNNNNNNNN H SP ES1.5’ EL1 ES2.3’ EL2 EL1’ Heptamère glissant Espaceur Structure secondaire 3’ ES2.5’ ES1.3’ AUG 120 propriétés (attributs) pour décrire les sites de FS Voici leconsensus actuel pour les sites de frameshift. Ces sites comptent deux éléments : - une séquen ce glissante où le ribosome dérape effectivement. - une structure secondaire, tige-boucle ou pseudo-nœud. Le pseudo-nœud est une tige-boucle particu-lière dans laquelle des nucléotides de la boucle s’apparient avec des nucléotides situés en aval (dans le sens 5’-3’). Détailler les sous-séquences. Ceci est une REPRESENTATION.

Affiner le modèle Données : 27 sites sauvages de virus et 320 mutants
efficacité  5% : 191 exemples efficacité  2% : 98 contre-exemples

Affiner le modèle Apprentissage supervisé : on apprend le concept binaire FS_efficace Apprentissage disjonctif : toutes les séquences n’induisent pas du FS pour les mêmes raisons Description sous forme de règles conjonctives : une règle est constituée de plusieurs conditions Après nous être intéréssé au spacer, nous étudions plus globalement le phénomène de frameshift. Le but ici est de dégager des propriétés pertinentes des sites de décalage. Nous avons voulu utiliser l'apprentissage disjonctif car nous savions que toutes les séquences ne donnnent pas de frameshift pour les mêmes raisons. L'apprentissage s'effectue dans le cadre attribut-valeur. Voyons maintenant comment nous annotons les séquences pour cet apprentissage :

Affiner le modèle Apprentissage règle 1 règle 3 règle 2 Regroupements

Affiner le modèle alors FS_efficace Exemple de règles
si YG et ZG et nombre de A dans H  4 et nombre de C dans SP  1 et nombre de paires G-C dans ES1  6 et % de G dans ES1.5’  65 alors FS_efficace 33% des exemples couverts et 0 contre-exemple ES2.3’ 3’ ES2.5’ EL1 EL1’ Validation expérimentale ? *** Conditions suffisantes, pas nécessaires ES1.5’ ES1.3’ EL2 AUG NNX XXY YYZ NNNNNNNNN 5’ H SP

Affiner le modèle Evaluation in vivo luc pSV40 lacZ ATG ES2.3’ ES2.5’
EL1 EL1’ ES1.5’ ES1.3’ EL2 NNX XXY YYZ NNNNNNNNN H SP lacZ luc pSV40 ATG J’ai utilisé un vecteur double rapporteur. La région de décalage est insérée entre les gènes LacZ et Luc. Ainsi in vivo, chez S. cerevisiae, la b-galactosidase est toujours produite, alors que la luciférase nécessite un décalage de phase de lecture. La b-galactosidase est utilisé comme control interne. Le Rapport de l’activité Luc/b-gal permet d’estimer le taux de décalage de phase de lecture en -1 de la structure.

Affiner le modèle Evaluation in vivo : système « double reporter »
lacZ luc pSV40 ATG AUG Transcription AAAAA Traduction Activité b-galactosidase Activité luciférase = Efficacité de décalage

Affiner le modèle Validation expérimentale
si YG et ZG et nombre de A dans H  4 et nombre de C dans SP  1 et nombre de paires G-C dans ES1  6 et % de G dans ES1.5’  65

Affiner le modèle Conclusions Identification de nouveaux attributs
Composition de l’espaceur (voir Michaël …) Dinucléotide en amont de l’heptamère Dissymétrie entre un appariement C-G et G-C D’un point de vue de la modélisation informatique, le travail que je viens d’exposer permet de mettre en lumière un nouvelle élément du site. A partir de ce modèle affiner, un nouveau modele informatique a été réalisé. Parallèlement, pour j’ai utilisé une approche sans a priori sur le mécanisme… C’est cette seconde approche que je vais vous présenté maintenant. Identification de nouvelles règles

Première étape fondée sur un modèle minimum 5’ . . X XXY YYZ H SP Heptamère glissant Espaceur Structure secondaire 3’ AUG Brievement, A partir du modèle simple de site de décalage de phase de lecture…

Rechercher un heptamère N NNN AUG NN XXX YYY Z Un automate recherche les heptamere dans la bonne phase de lecture…

Rechercher un pseudonoeud Tige1 5’ Tige1 3’ Heptamère Boucle 1 Pairs of nucleotides from these two complementary stems were each assigned a score, according to their frequency in twenty-seven wild-type viral frameshift sites. The sequence is first folded on itself to find the best potential stem one according ti these scores. The highest-scoring stem is kept only if its score is above a fixed threshold which also depends on wild-type sites. We then search for stem 2 in a similar way

Rechercher un pseudonoeud Tige1 5’ Tige1 3’ Heptamère Boucle 1 Pairs of nucleotides from these two complementary stems were each assigned a score, according to their frequency in twenty-seven wild-type viral frameshift sites. The sequence is first folded on itself to find the best potential stem one according ti these scores. The highest-scoring stem is kept only if its score is above a fixed threshold which also depends on wild-type sites. We then search for stem 2 in a similar way Identification de 185 régions chez S. cerevisiae

Bilan de l’approche par modèle : Retrouve les sites connus Classement des candidats en fonction des propriétés issues du modèle affiné Au moins trois bons candidats Candidats issus d’un génome “aléatoire”

Approches sans a priori sur le mécanisme Regarder le décalage de phase sous un angle différent sans a priori sur le site de décalage lui-même définition génomique Fonctionnel Linguistique/statistique Afin d’aborder le problème de l’identification de gènes régulés par décalage de phase de lecture en -1 sous un angle différent, sans a priori sur le site de décalage de phase lui-même, j’ai utilise une définition génomique du décalage de phase, à la fois d’un point de vue fonctionnel, et d’un point de plus statistique en collaboration avec Hugues Richard et Bernard Prum du Laboratoire de Statistique des Génomes. Comme on le verra, cette approche ne permet que de définir des régions subissant événements de décalage de phase de lecture, mais pas le mécanisme qui le produit.

Découpage START STOP1 STOP2 STOP3 phase 0 ORF0 ORF-1 phase -1 > 99 nt > 99 nt Pour découper en régions susceptibles de présenter un décalage de phase, j’ai utilisé la définition la plus simple d’un décalage de phase: deux phases ouvertes de lecture chevauchantes, l’une décalé en -1 par rapport à l’autre. La première allant d’un début de traduction à un stop, la seconde d’un stop à un stop, la traduction étant initiée dans la phase précédente. J’ai choisie les tailles minimales de 99 nucléotides pour chaque région et de 150 pour la structure complète. Ainsi, j’ai identifié régions qui répondent à ces critères dans le génome de la levure et 10 dans celui du virus LA, un virus naturel de la levure qui présente un site fonctionnel de décalage de phase en -1. > 150 nt régions chez S. cerevisiae Genbank – rel. 27/10/2002 10 régions chez le virus L-A Genbank – rel. 03/08/2002

Recherche de motifs START STOP1 STOP2 STOP3 phase 0 ORF0 ORF-1 phase -1 Motif protéique ? Motif protéique ? Pour découper en régions susceptibles de présenter un décalage de phase, j’ai utilisé la définition la plus simple d’un décalage de phase: deux phases ouvertes de lecture chevauchantes, l’une décalé en -1 par rapport à l’autre. La première allant d’un début de traduction à un stop, la seconde d’un stop à un stop, la traduction étant initiée dans la phase précédente. J’ai choisie les tailles minimales de 99 nucléotides pour chaque région et de 150 pour la structure complète. Ainsi, j’ai identifié régions qui répondent à ces critères dans le génome de la levure et 10 dans celui du virus LA, un virus naturel de la levure qui présente un site fonctionnel de décalage de phase en -1. 84 régions chez S. cerevisiae 1 région chez le virus L-A Banques de motifs: Interpro 7.0 Application: GenRecode

110 régions chez S. cerevisiae 1 région chez le virus L-A
Recherche de sites de décalage en -1 Recherche basée sur la statistique des séquences : identification -1 100 200 300 400 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 21000 ≥0.95 probabilité Nombre de régions A l’inverse ici les deux ORF au sens génomique se chevauchent, et des régions présentant une linguistique codante se chevauchent, la probabilité de discontinuité est alors forte. 110 régions chez S. cerevisiae 1 région chez le virus L-A

28 candidats sur 55 ont un ARNm qui couvre les 2 ORFs ADN ARNm AAAAAA RT-PCR MM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Dans une premire etape, j’ai vérifié la séquence génomique, 5 différences entre la séquences des bases de données ont ete observees. Cependant je n’utilise pas la souche séquencée, il peut donc s’agir de polymorphisme naturel L’expression des régions candidates a été testé en recherchant les ARNm par RT-PCR couvrant la totalité de la région étudié. La réaction de transcription inverse étant réalisé a partir d’un oligonucléotide s’appariant sur la queue poly A de l’ARNm, j’ai réalisé ensuite les amplifications de PCR avec des oligonucléoide situé de part et d’autre de la structure. Ce gel est représentatif des résultats ainsi obtenus aprés des amplifications des régions d’intérêt. Dans mes conditions, 31 candidats ont exprimé un ARNm, dont 3 avait une taille inférieur à celle attendu. Les séquences des ADN complémentaire ont montré qu’il s’agissait de gènes dans lesquels un intron avait échappé à la détection. Ces régions sont donc exprimées! 1 kb 500 b

Evaluation in vivo +1 -1 Région de décalage J’ai utilisé un vecteur double rapporteur. La région de décalage est insérée entre les gènes LacZ et Luc. Ainsi in vivo, chez S. cerevisiae, la b-galactosidase est toujours produite, alors que la luciférase nécessite un décalage de phase de lecture. La b-galactosidase est utilisé comme control interne. Le Rapport de l’activité Luc/b-gal permet d’estimer le taux de décalage de phase de lecture en -1 de la structure. lacZ luc pSV40 ATG

11 séquences candidates induisent du décalage in vivo HMM 14% 12% 3 10% 8% 2 Taux décalage de phase 6% 11 candidats présentent un taux de décalage de phase de lecture significatifs et 2 sont communs au deux approches. Dans les mêmes conditions le virus L-A présente un taux de décalage de phase de lecture en -1 de 10%. Ainsi, mes résultats identifie pour la première fois, des régions exprimé présentant des taux important de décalage de phase de lecture en -1 chez la levure S. cerevisiae. 4% 6 2% Motifs 0% 2 11 16 21 30 32 40 41 43 48 50 Candidat

Bilan HMM Modèlisation - 3 2 - 1 2 5 Motifs En conclusion, j’ai identifié 11 régions candidates par l’approche sans a priori sur le mécanisme. En parallèle, 3 séquences fonctionnelles ont ete identifieés par l’approche de modélisation développée par Jean-Paul Forest. Ces resultats suggère que le décalage de phase de lecture en -1 n’est pas un phénomène limité aux gènes viraux, mais pourrait être a l’heure actuelle sous évalué dans les génomes eucaryotes. Ceci cionstitue un problème dans l’analyse des génomes et dans l’identification des gène telle qu’elles sont effectué actuellement. Au mieux l’information codé par les génomes est sous-estimée, au pire des programmes de correction automatique rétablisse la phase et génère des informations erronées.

Perspectives Cette stratégie peut être appliquée à d’autres organismes. Recherche dans d’autres levures Recherche dans des organismes plus complexes Applicable à d’autres types de recodage. Les perspective de ce travail sont d’appliquée cette stratégie à d’autres organismes, d’abord, à d’autres levure et plus particulièrement au levures du programmes genoLevure afin de rechercher des régions conserver S.c. ou d’identifier des gènes régulés par décalage de phase de lecture propre à chacune de ces levures. A terme, cette approche pourrait etre étendue à des organismes plus complexes, mais actuellement, ceci est limité par la qualité des séquences et la difficulté d’identification des introns. Cette méthode peut aussi s’appliqué à d’autres type de recodage, comme le décalage de phase de lecture en +1 et la translecture. Enfin cette méthode peut permettre d’identifié d’autre type de recodage, puisqu’elle ne s’appuie pas sur le mécanisme lui-même mais seulement sur la conséquence de ce dernier. Décalage de phase de lecture en +1 (avec Phil Farabaugh) Translecture Nouveaux types de recodage …

Merci !!! Institut de Génétique et Microbiologie
GMT Michaël Bekaert Laure Bidou Isabelle Hatin Olivier Namy Jean-Pierre Rousset BIG Michel Termier Laboratoire de Recherche en Informatique Alain Denise Jean-Paul Forest Christine Froidevaux Laboratoire de Statistique et Génome Bernard Prum Hugues Richard

Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours

Présentations similaires

Présentation au sujet: "Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours

Présentations similaires

Présentation au sujet: "Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back