La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Alain Denise Bioinformatique LRI Orsay UMR CNRS 8623 Université Paris-Sud 11 Journées AReNa Toulouse 2005 Comparaison de structures dARN.

Présentations similaires


Présentation au sujet: "Alain Denise Bioinformatique LRI Orsay UMR CNRS 8623 Université Paris-Sud 11 Journées AReNa Toulouse 2005 Comparaison de structures dARN."— Transcription de la présentation:

1 Alain Denise Bioinformatique LRI Orsay UMR CNRS 8623 Université Paris-Sud 11 Journées AReNa Toulouse 2005 Comparaison de structures dARN

2 Pourquoi comparer ? A quel point sont elles similaires (ou non similaires) ? Quelle(s) partie(s) de la structure sont- elles les plus conservées ? La petite est-elle similaire à une partie de grande ? La séquence peut-elle se replier comme la structure ? AUGUAAUCGGGAUCGGGAUAUCGAGAGGGGGUUUUUUUUAAACUG Comparer = donner un score et une correspondance entre les structures

3 Edition et alignement deux à deux On se donne un ensemble « dopérations atomiques », chacune ayant un score (ou un coût). Données : deux structures. Edition : trouver la suite dopérations de score maximal (ou de coût minimal) permettant de transformer une structure en lautre. Alignement : trouver une « sur-structure » commune aux deux structures telle que la somme des scores dédition de chacune des structures à la sur-structure soit maximale (ou que la somme des coûts soit minimale).

4 Comparaison de 2 séquences Deux séquences v = v 1 v 2 …v n et w = w 1 w 2 …w m Opérations dédition : ins(x,i) suppr(x,i) subs(x,y,i) CHAT - suppr(C,1) HAT - subs(H,R,1) RAT (Pour les séquences : édition ~ alignement : CHAT - RAT)

5 v = v 1 v 2 …v n w = w 1 w 2 …w m c(x,y) : coût de substitution de x en y c(x,-) : coût de suppression de x c(-,y) : coût dinsertion de y D(v,w) : distance dédition de v et w Comparaison de 2 séquences Needleman, Wunsch 1970, Gotoh 1982 D(v 1 …v i,w 1 …w j ) = Min { D(v 1 …v i-1,w 1 …w j-1 ) + c(v i,w j ) D(v 1 …v i-1,w 1 …w j ) + c(v i,-) D(v 1 …v i,w 1 …w j-1 ) + c(-,w j ) }

6 v1v1 v2v2 ………vnvn w1w1 … w2w2 … ………………… ………………… wmwm … c(v 2,w 1 ) c(v 2,-) c(-,w 1 )

7 D(v 1 …v i,w 1 …w j ) = Min { D(v 1 …v i-1,w 1 …w j-1 ) + c(v i,w j ) D(v 1 …v i-1,w 1 …w j ) + c(v i,-) D(v 1 …v i,w 1 …w j-1 ) + c(-,w j ) } vivi v i-1 v1v1 wjwj c(v i,w j )c(v i,-) c(-,w j ) w j-1 w1w1 c(v 1,w 1 )c(v 1,-) c(-,w 1 ) … … …

8 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

9 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

10 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

11 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

12 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

13 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

14 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

15 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

16 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

17 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

18 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

19 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

20 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

21 W I N D O X S L I N U X s(x,y) = 2 si x=ys(x,-) = s(-,x) = sinon

22 W I N D O X S L I N U X L I N – U X -

23 W I N D O X S L I N U X L I N – U X - W I N D O X S L I N U - X -

24 W I N D O X S L I N U X Complexité : O(nm)

25 Avec (quasiment) le même algorithme Comparaison globale Comparaison locale Recherche (approchée) de motif

26 ARN et séquences arc-annotées

27 Opérations de séquences arc-annotées Opérations sur les bases : Suppression / Insertion Substitution (ou conservation) Opérations sur les arcs : Suppression / Insertion :C G Cassure / : C G C G Altération / :C G C - Substitution :C G U A

28 Edition de séquences arc-annotées Séquence arc-annotées : Edition ~ Alignement © Jiang, Lin, Ma, Zhang 2002

29 Générale Croisée Imbriquée Sans arcs Complexité de lédition Types de séquences arc-annotées

30 Trois classes de problèmes algorithmiques P –(Déterministic) Polynomial : réponse garantie en temps polynomial. NP –Non-déterministic polynomial : vérification dune « solution » en temps polynomial. NPC : NP-Complet (sous-classe de NP) –Les plus difficiles de la classe NP. –Si P NP, pas de réponse garantie en temps polynomial. P NP NPC P NP ?

31 Complexité de lédition GénéraleCroiséeImbriquéeSans arcs Générale NP-complet Croisée NP-complet Imbriquée NP-completO(nm 3 ) Sans arcs O(nm / logn) Jiang, Lin, Ma, Zhang 2002 Blin, Fertin, Rusu, Sinoquet 2003 Crochemore, Landau, Ziv-Ukelson 2002 Si 2 Score(Altération darc) = Score(Cassure) + Score (Suppression), alors algorithme en O(n 3 m) pour Edit(croisée,imbriquée) et Edit(imbriquée, imbriquée)

32 Le cas « imbriqué-imbriqué » Structures secondaires Comparaison darbres

33 Opérations dédition

34 Algorithme dédition Zhang, Shasha 1989

35 Complexité Edition [Zhang, Shasha 1989, Klein 1998] Au pire : O(n 4 ) [Zhang-Shasha 1989] O(n 3 logn) [Klein 1998, Dulucq-Touzet 2003] En moyenne : O(n 3 ) [Dulucq-Tichit 2003] Alignement [Jiang, Wang, Zhang 1995] Au pire : O(n 4 ) …mais EDIT(Imbriqué,Imbriqué) est NP-complet !

36 Opérations dédition Opérations sur les bases : Suppression / Insertion Substitution Opérations sur les arcs : Suppression / Insertion :C G Cassure / : C G C G Altération / :C G C - Substitution :C G U A

37 Opérations sur les bases : Suppression / Insertion Substitution Opérations sur les arcs : Suppression / Insertion :C G Cassure / : C G C G Altération / :C G C - Substitution :C G U A Opérations dédition : manques

38 3 opérations au lieu dune ! AU GC GU UA CA Delete( ) Insert( ) A-U U-A G-C C-U A-U C A G-C C-U Opérations dédition : problème

39 Suppression et insertion dune base Substitution de bases Suppression et insertion dune paire de bases Substitution de paires de bases Appariement et désappariement (5) Suppression et insertion dune base dans une paire de bases (6) (5) (6) Opérations dédition : ajouts

40 Mais on revient au pb NP-complet ! GénéraleCroiséeImbriquéeSans arcs Générale NP-complet Croisée NP-complet ImbriquéeNP-completO(nm 3 ) Sans arcs O(nm / logn) Jiang, Lin, Ma, Zhang 2002 Blin, Fertin, Rusu, Sinoquet 2003 Crochemore, Landau, Ziv-Ukelson 2002 Si 2 Score(Altération darc) = Score(Cassure) + Score (Suppression), alors algorithme en O(n 3 m) pour Edit(croisée,imbriquée) et Edit(imbriquée, imbriquée)

41 Et lalignement ? Générale / Générale : Edition ~ Alignement Croisée / Croisée : Edition Alignement Imbriquée / Imbriquée : Edition Alignement Sans arcs / Sans arcs : Edition ~ Alignement

42 Edition darbres Alignement Delete( ) Insert( ) Subst(, )

43 Ins( ) + 2 substitutions Edition darbres Alignement

44 Sur les séquences arc-annotées A-BCD-EFG ABB-DF-FG AB---CDEFG ABBDF---FG ABCDEFGABBDFFG EditionAlignement

45 Edition et alignement darbres Schéma « arbres »Schéma « ARN » EditionO(n 3 logn) [Zhang-Shasha 1989, Klein 1998] NP-complet [Blin, Fertin, Sinoquet, Rusu 2003] AlignementO(n 4 ) [Jiang, Wang, Zhang 1995] O(n 4 ) [Herrbach, AD, Dulucq, Touzet 2005]

46 Exemple : deux ARNt Homo sapiensBacillus subtilis Image avec Tulip (David Auber, LaBRI) SubB SubP DelB, InsB, DelP, InsP Pair, Unpair Del5, Ins5 Del3, Ins3

47 Une approche « multi-échelles »

48 Application Allali 2004

49 Application Allali 2004

50 Application Allali 2004

51 Une approche multi-échelles Allali, Sagot 2004

52 Une approche multi-échelles Allali, Sagot 2004 Opérations supplémentaires : Fusion de nœuds Fusion darêtes

53 Une approche multi-échelles Allali, Sagot 2004

54 Une approche multi-échelles Allali, Sagot 2004

55 Une approche multi-échelles Allali, Sagot 2004

56 Une approche multi-échelles Allali, Sagot 2004

57 Une approche multi-échelles Allali, Sagot 2004

58 Et dans la vraie vie ?

59 Alignement de RNAses P

60

61

62

63 Bilan / Questions Quels besoins en comparaison dans la vraie vie ? (séquence/structure, structure/structure…, locale, globale… recherche de motifs…) Quels logiciels utilisés ? Pourquoi ? Comment ? Qualités ? Défauts ? Quel(s) shéma(s) dopérations ? Quels scores (matrices de substitution) ? Mesurer la significativité des scores ? Vers la constitution dun benchmark ?

64 Crédits Julien Allali Serge Dulucq Claire Herrbach Rym Kachouri Yann Ponty Michel Termier Laurent Tichit Hélène Touzet Eric Westhof


Télécharger ppt "Alain Denise Bioinformatique LRI Orsay UMR CNRS 8623 Université Paris-Sud 11 Journées AReNa Toulouse 2005 Comparaison de structures dARN."

Présentations similaires


Annonces Google