RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima BELKAHLA Zahra FONDOU Amel LOUHIBI Professeur : Abdoulay Banéro DIALLO BIF 7001

1.Introduction LARN, est composé de ribose, de phosphate, d'adénine, de cytosine, de guanine et d'uracile. les ARN servent dintermédiaire dans la synthèse protéique avec les ARN messagers. Il existe néanmoins dautres types dARN, issus de la transcription, mais qui ne subissent pas de traduction. coderpour une protéine Ces ARN sont fonctionnels par eux-mêmes, sans coder pour une protéine. Pour les distinguer des ARN messagers, on les appelle des ARN non-codants (ARNnc).

Elles sont souvent caractérisées par lévolution des structures secondaires conservées qui sont critiques à leurs fonctions. La prédiction des structures secondaires dARN, est lun des grands problèmes challenges de la bioinformatique. Mfold et RNAfold utilisent la programmation dynamique, pour calculer la structure secondaire dARN, avec un minimum dénergie libre pour une seule séquence. PKNOTS est une extension de Mfold, pour la prédiction des stucture dARN avec noeuds.

Une approche plus fiable consiste à utiliser l'analyse comparative pour prédire les structures secondaires dARN consensus connexes à partir de plusieurs séquences. Une stratégie est daligner les séquences fiables en premier, puis établir lalignement. RNAalifold utilise la stabilité thermodinamique et la covariation de séquences ensemble pour prédire la structure communes des alignements. La matrice de poids max ( MWM ) une approche graphique etait introduite pour prédire les structures secondaires communes autorisant les noeuds.

Une autre stratégie (Sankoff 1985) est de simultanément aligner et répertorier les séquences dARN (sa compléxité, non pratique pour plus 2 séquences). Foldalign et Dynalign rendent lalgo de Sankoff plus pratique pour les séquences courtes mais reste toujours lent. Une troisième stratégie est de prédire les structures des séquences individuelles séparemment et ensuite aligner les structures (implémentée dans RNAshapes & MARNA).

comRNA utilse un différent shéma appliqué dans les approches des théories de graphes pour comparer et trouver les brins conservés des séquences multiples, ensuite assemble les blocks de brins conservés pour former les structures consensus ou les noeuds sont autorisés. probabilités de pairage de bases intraséquence prob dalignement de base interséquenceNous présentons un nouveau algorithme, de prédiction de structures communes dans les séquences multiples non alignées, qui adopte lidéé dassemblage de brins de comRNA et combine les probabilités de pairage de bases intraséquence & prob dalignement de base interséquence pour mesurer la conservation de brins.

Emploi procédure itérative, pour lalignement probabiliste de paire de brins compatibles & met à jour les prob basées sur les structures en brin, jusqua convergence. Extension algo pour séquences multiples, par méthode basée sur cohérence. Lalgo na pas de limite pour prédiction des noeuds. Dans tests approfondis sur données de séquences réelles, il est meilleurs que dautres progs, du point de vue sensibilité & spécificité avec une vitesse raisonable.

2.METHODE

La structure secondaire dARN : 1) Tiges (stems) : Empilage (stacking) des paires de bases A-U, G-C et G-U 2) Boucles (Loops) : régions simples brins.

Principe: La prédiction de la structure secondaire commune dARN pour plusieurs séquences peut être simplement de trouver les tiges conservées compatibles entre les séquences. Les paires de tiges conservées = un bon pairage des bases dans leurs séquences individuelles, mais aussi salignent bien entre elles (entre les séquences). Mesure de la conservation des tiges = En combinant les probabilités de pairages des bases intra séquences et les probabilités dalignements des bases inter séquences.

Lalgorithme RNA sampler: Entrée : Deux séquences et plus dARN Sortie : Structure secondaire dARN commune entre les séquences. Principalement en deux étapes: Initialisation Itération

A) Étape dinitialisation: 1.Calcule des probabilités dalignements de bases PAB(ai,bk) ou PAB(aj,bl ) : Les probabilités initiales de lalignement des bases possibles entre deux séquences en utilisant une méthode basée sur la fonction de partition. 2. Calcule des probabilités de pairage des bases DA(ai,aj) ou DB(bk,bl): Les probabilités initiales de pairage des bases pour toutes les paires de bases possibles dans chaque séquence. RNAfold (une méthode basée sur la fonction de partition) CONTRAfold (posterior probabilities) 3. Générer la liste de toutes les tiges possibles pour chaque séquence : sl : Une longueur minimum dune tige (3 par défaut) ou 4 pour les longues séquences ou des séquences avec pseudo-nœud. Aucune boucle ni bulge nest permis dans une tige. La combinaison variable de ses tiges peut former une structure dARN différente.

B) Étape ditération : 1.Un block est une paire de tiges alignées : On peut générer une série dalignement entre deux tiges en glissant une tige (séquence A) le long de lautre (séquence B). Les paires de bases constitutives de lune des tiges sont alignées avec celles des autres tiges. Un alignement consiste à deux moitiés correspondantes avec des largeurs égales. The 5arm et 3arm

: Alignement entre deux tiges u et v des séquences A et B. Déduire le score de Conservation (W). : paires de bases complémentaires de la tige u de la séquence A et la tige v de la séquence B : Bases alignées dans les 2 arms 3 et 5 : Probabilités dalignements des bases intersequences : Probabilités de pairages des bases intrasequences

Un block : Lalignement de deux tiges u et v qui donne un grand score de conservation (W)

2. Générer une liste de blocks: Une liste complète de blocks est produite en alignant chaque tige de la séquence A, aux différentes tiges de la séquence B. Les blocks se composant des paires de tiges avec de meilleurs scores de conservations réciproques sont considérés. Un paramètre d : la distance maximum de décalage entre les positions alignées des deux tiges. But : Réduire la complexité informatique

3.Échantillon de blocks compatibles pour générer la structure commune: Approche déchantillonnage probabiliste : sélectionner les blocks compatibles basés sur leurs scores de conservation et les assemblés dans une structure commune. La chance pour que le block B soit échantillonner est défini avec la probabilité: Les blocks avec un haut score de conservation ont plus de chance à être sélectionnés. Léchantillonnage est répété S fois (S est la taille de léchantillon et S structures communes sont générées dans chaque itération)

4. Mise à jour itératives des probabilités dalignements et de pairages des bases: Calculer la fréquence dapparition des paires de bases dans S (structures communes) pour chaque séquence, qui nous donne une nouvelle probabilité de pairage.

Calculer la fréquence dalignement des bases dans S(structure commune) entre deux séquences, qui nous donne une nouvelle probabilité dalignement :

Les étapes 2, 3 et 4 sont répétées pour des itérations multiples. Les probabilités de pairage et dalignements des bases sont misent à jour, elles sont employées pour recalculer les scores de conservation des blocks et de leurs probabilités à être prélever dans l'itération suivante. les blocks qui sont constitués des tiges conservées obtiennent des scores de conservation intensifiés. Ils ont des chances de plus en plus élevées d'être prélevés, alors que d'autres blocks tendent à avoir leurs scores de conservation atténués. Les structures prélevées tendent à converger dans des ensembles de blocks conservés compatibles.

Exemple: Les probabilités de pairages et dalignement initiales et convergés entre deux séquences de tRNA, RL6371 et RE2140.

C) Structure commune entre deux séquences: Un algorithme vorace est utilisé pour assembler les blocks convergés dans la structure consensus finale. Les blocks avec haut score de conservation sont sélectionnés aucun block ne reste ClustalW pour aligner les régions simples brins, qui sont assemblées avec les blocks conservés pour générer lalignement structural final.

D) De deux séquences dARN à plusieurs: Étape dinitialisation (idem) Étape ditération : Échantillon de la structure commune entre toutes les paires de séquences. Une méthode basée sur la cohérence est appliquée pour les mise à jour des probabilités et le recalcule des scores de conservations. Dans chaque itération, S structures sont échantillonnés entre chaque paire de séquence. Chaque séquence est impliquée dans (N-1)S structures échantillons.

Les probabilités dalignement (idem 2 séquences) À la fin de chaque itération, le score de conservation de tous les blocks et leurs probabilités à être échantillonner dans les itérations suivantes sont misent à jour, en utilisant les nouvelles probabilités de pairage et dalignement. Les itérations continuent jusquà ce que le nombre des structures échantillonnées entre chaque paire de séquences converges. Les probabilités de pairage de la séquence A est calculée comme suit:

E. La structure commune des séquences multiples la structure commune finale partagée par des séquences multiples est rapportée en assemblant des ensembles de tiges conservées compatibles en utilisant un algorithme vorace. Tous les blocks entre les paires de séquences sont rangés, en se basant sur leurs scores finals de conservation. Le block avec un haut score de conservation devient une graine(seed), et tous les blocks qui contiennent une des tiges dans le block graine sont collectés. Une nouvelle tige à partir du block avec un haut score de conservation dans le sous-enssemble est ajoutée à la graine. Le processus se répète aucun block ne reste. ClustalW pour aligner les tiges conservées et les régions simples brins, qui sont assemblées pour donner un alignement structural final.

3. RESULTATS Lalgorithme est implémenté en langage C Lalgorithme est testé dans différents ensembles de données, contenant deux ou plusieurs séquences réelles Sa performance a été comparée à dautres méthodes de prédiction de structures secondaires comme: - CARNAC - Stemloc - ARNalifold - FoldalignM

RESULTATS Le coefficient de corrélation (CC) définit par Mathews et Turner, est utilisé pour évalué la précision de la prédiction qui est estimée comme la moyenne géométrique de la sensibilité et la spécificité : CC = (SEN. SPE) 0 cc 1 SEN : est la fraction de la paire de bases rèelles qui sont prédits correctement SPE : est fraction de la paire de bases prédits réellement.

3.1 Prédiction des structures communes Lalgorithme a été testé sur des données réelles - sur 10 motifs dARN régulateur ou - sur des familles du gène ncRNA Extraits de la base de données Rfam. Rfam : base de données de protéines Y compris ces données: Cobolamin, gcvT, glmS, purine, REN, sbox THI, ARNt, U1 et yyb P-ykoY

Prédiction des structures communes Ces ensembles de données ont été utilisées dans dautres études

Prédiction des structures communes Pour la famille dARN de la B.D. Rfam, lalignement a été corrigé manuellement et aussi les structures communes correspondantes qui sont utilisées pour déterminer exactement les paires de base dans des séquences individuelles

Prédiction des structures communes 1. 1. Lalgorithme déchantillonnage dARN est testé sur un ensemble de deux séquences, générées à partir de toutes les séquences uniques dans lalignement de chaque famille dARN. Le test effectué consistait à calculer (cc) La moyenne calculée cc = 0.60 dans un interval [0.42..0.82 ]

Prédiction des structures communes Cette valeur est très proche de la moyenne de la méthode Dynalign cc=0.61, qui était la plus performante par rapport à dautres méthodes La performance des programmes Stemloc et RNAalifold est comparable a celle de lalgorithme par échantillonnage dARN dans certains familles et mauvaise dans dautres.

Moyenne de cc, sen et spe de la prédiction de la structure secondaire commune CC :coefficient de correlation SEN: sensibilité SPE: spécificité

Graphe Comparaison entre les différentes méthodes en calculant la moyenne de CC, SEN et SPE sur des ensembles de 10 familles dARN de séquences-multiples

Prédiction des structures communes Lalgorithme déchantillonnage Dynalign Stemloc RNAalifold Toutes ces méthodes donnent un (cc) meilleur que celui de la méthode CARNAC

Prédiction des structures communes Entre tous les programmes testés la méthode déchantillonnage donne une meilleure performance et une vitesse plus rapide

Prédiction des structures communes 2. lalgorithme déchantillonnage et les autres méthodes ont été testés sur un ensemble de 10 familles dARN à multiple séquences Pour chaque famille dARN des ensembles de 100 séquences sont générées Cinq séquences uniques sont sélectionnées aléatoirement à partir de la BD Rfam de la graine dalignement

Prédiction des structures communes La précision de la prédiction par échantionnage dARN est nettement améliorée sur plusieurs rapport par rapport à deux séquences En général, la méthode de prédiction par échantillonnage dARN, donne une meilleure prédiction dans les dix familles dARN avec une moyenne de : CC = 0.72, SEN = 0.73, SPE = 0.72

Prédiction des structures communes Cette méthode est la plus performante parmi toutes les autres méthodes testées. CARNAC : prédit seulement les structures partiellement correctes, ce qui conduit à une faible sensibilité et relativement à une bonne spécificité

Prédiction des structures communes Stemloc: sa faible performance est donc due partiellement à la faible valeur de (-nf) utilisé comme option dans le test (-nf=100) Les valeurs supérieures de (-nf) exigent plus despace mémoire, ce qui rendu lexécution plus lente et souvent la mémoire crasch

Prédiction des structures communes RNAalifold : exige un alignement fiable pour une bonne prédiction (clustalw est utilisé pour lalignement) Ce programme a une bonne performance dans lensemble de famille RFN qui a une identification de séquence très élevée, et une faible performance dans une faible identification de séquences.

Prédiction des structures communes La méthode de prédiction par échantillonnage, a une bonne performance dans la famille RFN et donne de bons résultats

Prédiction des structures communes Dynalign donne la même ou légèrement une meilleure sensibilité que la méthode de prédiction par échantillonnage dans les familles de : qcvT, sbox, yybp-ykoY et U1 Mais la méthode de prédiction montre une meilleure sensibilité et en générale une performance dans dautres familles Elle est plus rapide que Dynalign

Prédiction des structures communes FoldalignM: a la 2 ème meilleure performance après la méthode de prédiction, et montre une aussi bonne prédiction sur les familles: Sbox, THI, RNAt et yybp-ykoY Une faible sensibilité dans les autres familles

Prédiction des structures communes La prédiction a été évaluée au niveau de la tige quand la sensibilité (SEN) est la fraction des véritables tiges qui se chevauchent avec les tiges prédits, et la spécificité (SPE) est la fraction des tiges prédits qui se chevauchent avec les tiges réelles.

Prédiction des structures communes Avec ces mesures la moyenne CC, SEN et SPE la prédiction échantillonnage dARN des dix familles augmentent de 0.72, 0.73, 0.72 au niveau de la paire de base jusquà 0.77, 0.80, 0.76 respectivement.

Prédiction des structures communes Les autres méthodes sont presque similaires au niveau de la paire de base.

3.2 Prédiction dalignements structuraux Emploi et extension de méthode proposée dans étude ultérieure de lalignement structural de deux séquences pour évaluer la perfomance de RNA Sampler sur un alignement structural de séquence multiple à travers un large rang de séquences identités.

Utiliser score des sommes des paires (SPS) la fraction des paires de bases alignées dans lalignement référence, correctement aligné dans la prédiction dalignement pour mesurer lexactitude des alignements structuraux à un niveau de paires de bases. Lindex de conservation structural(SCI) calculé par RNAz, utilisé pour mesurer linfo de la structure conservée, contenue dans lalignement prédit.(0 & 1)

Pour chacunes des 10 familles dARN, Génération aléatoire des ensembles de séquences multiples qui couvrent éventuellement un large éventail de paires de séquences identités significatives (entre 40% & 80%). <40% famille ARNt. >80% famille de U1.

Utiliser lalignement résultat de Rfarm, et les structures communes comme références pour comparer les alignements et les prédictions de structures (RNA Sampler et FoldalignM), ainsi que les résultats de RNAalifold(entrée:align de ClustalW) Déterminer CC, SPS et SCI comme fonctions de la paire de séquences identités principales pour chaque famille dARN.

CC : coefficient de corrélation SEN : sensibilité SPE : spécificité

Déterminer CC, SPS et SCI comme fonctions de la principale identité de paires de séquences, pour chaque famille dARN. Le résultat de CC, montre que ARNsampler donne en général une meilleure prédiction de structure que FoldalignM par 10% à 20%. Dautres part, la séquence identité entière varie exeptionnellement au dessus de 40% sur lensemble de données de ARNt.

ARNsampler donne nettement de meilleures prédictions que RNAalifold dans l'ensemble de l'identité (au dessous de 80% ), spécialement dans les régions à basse identité. et donne de bonnes prédictions sur RNAalifold comme séquence fixe des identités au-dessus de 80%, les ensembles U1.

Les courbes SPS de RNAsampler, FoldalignM et ClustalW montrent une tendance similaire: les scores SPS ont tendance à diminuer avec la baisse des séquences identités.

Bien que les alignements structurels par RNAsampler et FoldalignM ne correspond pas tout à la référence Rfam alignements, la SCI donne de hauts scores proches de ceux des alignements de référence dans l'ensemble de l'identité de gamme, ce qui indique que leurs alignements ont en effet pris la structure de l'information conservée. RNAsampler fait le mieux que FoldalignM, avec des scores SCI plus élevés dans les 40% -70% identité gamme.

3.3 Prédiction des structures de Noeuds RNA sampler peut prédire les structures à noeuds, si lutilisateur autorise la formation de croisements de blocks de brins. Paramétre X : nbre max de croisements autorisés dans structure. RNAsampler testé sur des strctures de noeuds connues (séquences chefs de mRNA de 10 bactéries opéron α et 8 bactéries S15)

RNAsampler ne prédit correctement que 46% des paires connues sur lensemble dopérons α. Mais 2 brins formant le noyau de la structure de noeuds etaient correctement prédits. Les séquences chefs S15 peuvent former 2 structures alternatives: 1. Une contient des noeuds. 2. Lautre est une structure de boucles de tiges sans noeuds.

Au niveau des paires de bases, RNAsampler a donné une sensibilité de 0.74% et 0.76% pour les 2 alternatives de structures. Il manquait qlques paires de base pour les longues tiges puisque les gonflements (ernies) et les boucles netaient pas autorisés dans les tiges. Au niveau des tiges, RNAsampler prédit correctement ttes les tiges complétes des structures à noeuds est aussi dans une alternative de structure de boucle de tige quand les croisement sont autorisés.

Les performances de RNAsampler sur ces ensembles de données sont moins bons que comRNA, mais meilleurs que les autres prgs testés dans létude de comRNA. Le temps dexécution de RNAsampler sur ces données est de 4 à 10mn.

3.4 complexité de lalgorithme La vitesse de lalgorithme est limité par létape ditération. Pour chaque itération, il prend O(m.n)pour générer m.n blocks possibles en comparant tous les m brins de la séquence A, et tous les n brins de la séquence B.

complexité de lalgorithme Le paramètre d est introduit, est le maximum de la distance autorisée dans le block entre deux tiges, et la contrainte de recueillir uniquement les tiges paires avec un meilleur score réciproque de conservation Réduit le nombre total des blocks des échantillons de m.n à n (mn).

complexité de lalgorithme La procédure déchantillonnage prend O(m) temps pour éliminer les blocks en conflit en comparant les blocks avec celui choisi. Cependant la complexité du temps pour prédire une structure commune entre deux séquences est de lordre de O(m².r.S) (r:nbre total ditération, S:taille de échantillon ie nbre de structure échantillonné pour chaque itération).

complexité de lalgorithme Pour 1 ensemble de séq multiples, RNA sampler échantillonne les structures communes entre ttes les paires de séq et la compléxité du temps devient O(m 2.r.S.N 2 ) (N:nbre de séquences) Sur une données de 5 séq(long de 70 à 200nt), RNAsampler prend 6-180s pour compléter la prédiction de structure.

complexité de lalgorithme CARNAC, RNAalifold et Stemloc ont un temps dexecution meilleur ou similaire à RNAsampler, mais ce dernier est plus exacte. RNAsampler sexécute plus rapidement que Dynalign et FoldalignM et donne les prédictions les plus éxactes.

RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Présentations similaires

Présentation au sujet: "RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Présentations similaires

Présentation au sujet: "RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back