La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comparaison de structures d’ARN

Présentations similaires


Présentation au sujet: "Comparaison de structures d’ARN"— Transcription de la présentation:

1 Comparaison de structures d’ARN
Journées AReNa Toulouse 2005 Comparaison de structures d’ARN Alain Denise Bioinformatique LRI Orsay UMR CNRS 8623 Université Paris-Sud 11

2 AUGUAAUCGGGAUCGGGAUAUCGAGAGGGGGUUUUUUUUAAACUG
Pourquoi comparer ? A quel point sont elles similaires (ou non similaires) ? Quelle(s) partie(s) de la structure sont-elles les plus conservées ? La petite est-elle similaire à une partie de grande ? La séquence peut-elle se replier comme la structure ? AUGUAAUCGGGAUCGGGAUAUCGAGAGGGGGUUUUUUUUAAACUG Comparer = donner un score et une correspondance entre les structures

3 Edition et alignement deux à deux
On se donne un ensemble « d’opérations atomiques », chacune ayant un score (ou un coût). Données : deux structures. Edition : trouver la suite d’opérations de score maximal (ou de coût minimal) permettant de transformer une structure en l’autre. Alignement : trouver une « sur-structure » commune aux deux structures telle que la somme des scores d’édition de chacune des structures à la sur-structure soit maximale (ou que la somme des coûts soit minimale).

4 Comparaison de 2 séquences
Deux séquences v = v1v2…vn et w = w1w2…wm Opérations d’édition : ins(x,i) suppr(x,i) subs(x,y,i) CHAT - suppr(C,1)  HAT - subs(H,R,1)  RAT (Pour les séquences : édition ~ alignement : CHAT - RAT)

5 Comparaison de 2 séquences
v = v1v2…vn w = w1w2…wm c(x,y) : coût de substitution de x en y c(x,-) : coût de suppression de x c(-,y) : coût d’insertion de y D(v,w) : distance d’édition de v et w D(v1…vi,w1…wj) = Min { D(v1…vi-1,w1…wj-1) + c(vi,wj) D(v1…vi-1,w1…wj) + c(vi,-) D(v1…vi,w1…wj-1) + c(-,wj) } Needleman, Wunsch 1970, Gotoh 1982

6 c(v2,-) v1 v2 vn w1 w2 wm c(v2,w1) c(-,w1)

7 vi vi-1 v1 wj wj-1 w1 D(v1…vi,w1…wj) = Min {
c(vi,wj) c(vi,-) c(-,wj) wj-1 w1 c(v1,w1) c(v1,-) c(-,w1) D(v1…vi,w1…wj) = Min { D(v1…vi-1,w1…wj-1) + c(vi,wj) D(v1…vi-1,w1…wj) + c(vi,-) D(v1…vi,w1…wj-1) + c(-,wj) }

8 W I N D O X S -1 -2 -3 -4 -5 -6 -7 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

9 W I N D O X S -1 -2 -3 -4 -5 -6 -7 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

10 W I N D O X S -1 -2 -3 -4 -5 -6 -7 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

11 W I N D O X S -1 -2 -3 -4 -5 -6 -7 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

12 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

13 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

14 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

15 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

16 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

17 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

18 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

19 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

20 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

21 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X s(x,y) = 2 si x=y s(x,-) = s(-,x) = -1 -1 sinon

22 W I N D O X S L I N U X -1 -2 -3 -4 -5 -6 -7 1 3 2 W I N D O X S
-1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X W I N D O X S L I N – U X -

23 W I N D O X S L I N U X -1 -2 -3 -4 -5 -6 -7 1 3 2 W I N D O X S
-1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X W I N D O X S L I N – U X - W I N D O X S L I N U - X -

24 W I N D O X S -1 -2 -3 -4 -5 -6 -7 1 3 2 L I N U X Complexité : O(nm)

25 Avec (quasiment) le même algorithme
Comparaison globale Comparaison locale Recherche (approchée) de motif

26 ARN et séquences arc-annotées

27 Opérations de séquences arc-annotées
Opérations sur les bases : Suppression / Insertion Substitution (ou conservation) Opérations sur les arcs : Suppression / Insertion : C G   Cassure / : C G  C G Altération / : C G  C - Substitution : C G  U A

28 Edition de séquences arc-annotées
© Jiang, Lin, Ma, Zhang 2002 Séquence arc-annotées : Edition ~ Alignement

29 Complexité de l’édition Types de séquences arc-annotées
Générale Croisée Imbriquée Sans arcs

30 Trois classes de problèmes algorithmiques
NP NPC P (Déterministic) Polynomial : réponse garantie en temps polynomial. NP Non-déterministic polynomial : vérification d’une « solution » en temps polynomial. NPC : NP-Complet (sous-classe de NP) Les plus difficiles de la classe NP. Si PNP, pas de réponse garantie en temps polynomial. PNP ?

31 Complexité de l’édition
Générale Croisée Imbriquée Sans arcs NP-complet O(nm3) O(nm / logn) Alain Denise: Pour un exemple de réduction, voir thèse Allali page 47 : edit(croisés, sans arcs). Si 2Score(Altération d’arc) = Score(Cassure) + Score (Suppression), alors algorithme en O(n3m) pour Edit(croisée,imbriquée) et Edit(imbriquée, imbriquée) Jiang, Lin, Ma, Zhang 2002 Blin, Fertin, Rusu, Sinoquet 2003 Crochemore, Landau, Ziv-Ukelson 2002

32 Le cas « imbriqué-imbriqué »
 Structures secondaires  Comparaison d’arbres

33 Opérations d’édition

34 Algorithme d’édition Zhang, Shasha 1989

35 …mais EDIT(Imbriqué,Imbriqué) est NP-complet !
Complexité Edition [Zhang, Shasha 1989, Klein 1998] Au pire : O(n4) [Zhang-Shasha 1989] O(n3logn) [Klein 1998, Dulucq-Touzet 2003] En moyenne : O(n3) [Dulucq-Tichit 2003] Alignement [Jiang, Wang, Zhang 1995] Au pire : O(n4) …mais EDIT(Imbriqué,Imbriqué) est NP-complet !

36 Opérations d’édition Opérations sur les bases :
Suppression / Insertion Substitution Opérations sur les arcs : Suppression / Insertion : C G   Cassure / : C G  C G Altération / : C G  C - Substitution : C G  U A

37 Opérations d’édition : manques
Opérations sur les bases : Suppression / Insertion Substitution Opérations sur les arcs : Suppression / Insertion : C G   Cassure / : C G  C G Altération / : C G  C - Substitution : C G  U A

38 Opérations d’édition : problème
A-U U-A G-C C-U C A AU GC GU UA C A Delete( ) Insert( ) 3 opérations au lieu d’une !

39 Opérations d’édition : ajouts
Suppression et insertion d’une base Substitution de bases Suppression et insertion d’une paire de bases Substitution de paires de bases Appariement et désappariement (5) Suppression et insertion d’une base dans une paire de bases (6) (6) (5)

40 Mais on revient au pb NP-complet !
Générale Croisée Imbriquée Sans arcs NP-complet O(nm3) O(nm / logn) Alain Denise: Pour un exemple de réduction, voir thèse Allali page 47 : edit(croisés, sans arcs). Si 2Score(Altération d’arc) = Score(Cassure) + Score (Suppression), alors algorithme en O(n3m) pour Edit(croisée,imbriquée) et Edit(imbriquée, imbriquée) Jiang, Lin, Ma, Zhang 2002 Blin, Fertin, Rusu, Sinoquet 2003 Crochemore, Landau, Ziv-Ukelson 2002

41 Et l’alignement ? Générale / Générale : Edition ~ Alignement
Croisée / Croisée : Edition  Alignement Imbriquée / Imbriquée : Edition  Alignement Sans arcs / Sans arcs : Edition ~ Alignement

42 Edition d’arbres  Alignement
Delete( ) Insert( ) Subst( , ) On passe ensuite des opérations d’édition à une notion de distance en associant à chauque opération un coût.

43 Edition d’arbres  Alignement
Ins( ) Ins( ) + 2 substitutions

44 Sur les séquences arc-annotées
ABCDEFG ABBDFFG Edition Alignement AB---CDEFG ABBDF---FG A-BCD-EFG ABB-DF-FG

45 Edition et alignement d’arbres
Schéma « arbres » Schéma « ARN » Edition O(n3logn) [Zhang-Shasha 1989, Klein 1998] NP-complet [Blin, Fertin, Sinoquet, Rusu 2003] Alignement O(n4) [Jiang, Wang, Zhang 1995] [Herrbach, AD, Dulucq, Touzet 2005]

46 Exemple : deux ARNt Homo sapiens Bacillus subtilis
Image avec Tulip (David Auber, LaBRI) SubB SubP DelB, InsB, DelP, InsP Pair, Unpair Del5, Ins5 Del3, Ins3 Homo sapiens Bacillus subtilis

47 Une approche « multi-échelles »

48 Allali 2004 Application

49 Allali 2004 Application

50 Allali 2004 Application

51 Une approche multi-échelles
Allali, Sagot 2004

52 Une approche multi-échelles
Allali, Sagot 2004 Opérations supplémentaires : Fusion de nœuds Fusion d’arêtes

53 Une approche multi-échelles
Allali, Sagot 2004

54 Une approche multi-échelles
Allali, Sagot 2004

55 Une approche multi-échelles
Allali, Sagot 2004

56 Une approche multi-échelles
Allali, Sagot 2004

57 Une approche multi-échelles
Allali, Sagot 2004

58 Et dans la vraie vie ?

59 Alignement de RNAses P

60 Alignement de RNAses P

61 Alignement de RNAses P

62 Alignement de RNAses P

63 Bilan / Questions Quels besoins en comparaison dans la vraie vie ? (séquence/structure, structure/structure…, locale, globale… recherche de motifs…) Quels logiciels utilisés ? Pourquoi ? Comment ? Qualités ? Défauts ? Quel(s) shéma(s) d’opérations ? Quels scores (matrices de substitution) ? Mesurer la significativité des scores ?  Vers la constitution d’un benchmark ?

64 Crédits Julien Allali Serge Dulucq Claire Herrbach Rym Kachouri
Yann Ponty Michel Termier Laurent Tichit Hélène Touzet Eric Westhof


Télécharger ppt "Comparaison de structures d’ARN"

Présentations similaires


Annonces Google