La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Présentations similaires


Présentation au sujet: "IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes."— Transcription de la présentation:

1 IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes

2 Plan Applications des arbres des suffixes –Reconnaissance de sites de restriction –Alignement de génomes complets

3 Enzymes de restriction Les enzymes sont des protéines qui catalysent des réactions chimiques dans les cellules Certaines molécules d'ARN peuvent aussi catalyser des réactions chimiques (ribozymes) Presque toutes les réactions chimiques se produisant dans les cellules ont besoin d'enzymes pour atteindre une vitesse nécessaire à la survie

4 Enzymes de restriction Les enzymes de restriction, ou endonucléases de restriction, permettent de couper des molécules double brin d'ADN Chaque enzyme de restriction coupe l'ADN à un site spécifique (site de restriction) Deux coupures sont faites par l'enzyme, c'est-à- dire une sur chaque brin (pas nécessairement au même endroit)

5 Enzymes de restriction On retrouve des enzymes de restriction chez les bactéries Elles jouent un rôle dans la défense des bactéries contre les virus elles permettent de couper l'ADN étranger L'ADN de la bactérie est méthylé afin de la protéger de l'action de ses propres enzymes de restriction

6 Enzymes de restriction Exemples : EcoRI GAATTC CTTAAG SmaI CCCGGG GGGCCC BamHI GGATCC CCTAGG HindIII AAGCTT TTCGAA

7 Enzymes de restriction Exemples : EcoRI GAATTC CTTAAG SmaI CCCGGG GGGCCC BamHI GGATCC CCTAGG HindIII AAGCTT TTCGAA Extrémités cohésives Extrémités franches

8 Enzymes de restriction Les enzymes de restriction sont des outils utilisés abondamment en biochimie –clonage de gènes –production de protéines recombinantes –clivage d'ADN avant de faire une électrophorèse sur gel –reconnaissance de SNPs

9 Enzymes de restriction Les enzymes de restriction sont des outils utilisés abondamment en biochimie –clonage de gènes –production de protéines recombinantes –clivage d'ADN avant de faire une électrophorèse sur gel –reconnaissance de SNPs

10 Enzymes de restriction Production de protéines recombinantes : –Les protéines recombinantes sont des protéines produites à partir d'ADN recombinant, c'est-à-dire de l'ADN qui est une combinaison de séquences provenant de différentes sources –Puisque l'ADN de toutes les espèces possèdent les même propriétés chimiques, il est possible de créer de l'ADN recombinant en utilisant les enzymes de restriction

11 Enzymes de restriction Production de protéines recombinantes : –Les extrémités cohésives de molécules d'ADN clivées par des enzymes de restriction peuvent être "recollées" avec n'importe quelle autre molécule clivée par la même enzyme –On va souvent utiliser des bactéries comme usines de production de protéines recombinantes –Les bactéries possèdent des chromosomes circulaires appelés "plasmides"

12 Enzymes de restriction Production de protéines recombinantes : plasmide

13 Enzymes de restriction Production de protéines recombinantes : plasmide

14 Enzymes de restriction Production de protéines recombinantes : plasmide

15 Enzymes de restriction Production de protéines recombinantes : plasmide gène étranger

16 Enzymes de restriction Production de protéines recombinantes : –Un bon exemple est celui de la production d'insuline pour traiter le diabète –Pendant longtemps, l'insuline était recueilli à partir de pancréas de porcs ou de bovins –Il est maintenant produit dans des bactéries (E. coli) ou des levures et prochainement dans des plantes

17 Enzymes de restriction Les sites de restriction forment des palindromes complémentaires BamHI GGATCC CCTAGG GGA TCC

18 Enzymes de restriction Les sites de restriction forment des palindromes complémentaires BamHI GGATCC CCTAGG GGA TCC complément inverse GGA

19 Enzymes de restriction Les sites de restriction forment des palindromes complémentaires Les palindromes complémentaires sont de longueur paire BamHI GGATCC CCTAGG GGA TCC complément inverse GGA

20 Reconnaissance de sites de restriction Le problème revient à identifier tous les palindromes complémentaires maximaux (puisque les autres palindromes seront contenus à l'intérieur) Une sous-séquence s[i..j] d'une séquence s de longueur n est un palindrome complémentaire maximal si –s[i..j] est un palindrome complémentaire et –s[i-1] n'est pas complémentaire à s[j+1] OU si i = 1 et j = n

21 Reconnaissance de sites de restriction Soit 2k, la longueur d'un palindrome, k est le rayon du palindrome Le centre du palindrome se situe entre les positions k et k+1 du palindrome Le nombre de centres possibles dans une séquence de taille n est égal à n-1 (équivalent au nombre total de palindromes maximaux possibles)

22 Reconnaissance de sites de restriction Tous les palindromes complémentaires maximaux peuvent être identifiés dans une séquence d'ADN en temps linéaire en utilisant un arbre des suffixes généralisé

23 Reconnaissance de sites de restriction Soit la séquence s et s r, la séquence complément inverse de s On construit un arbre des suffixes généralisé pour les séquences s et s r Prétraitement de l'arbre pour enregistrer les profondeurs de "strings" et pour trouver les lca en temps constant

24 Reconnaissance de sites de restriction Le rayon du palindrome complémentaire maximal centré entre s[i] et s[i+1] est donnée par la longueur du plus long préfixe entre suff i+1 de s et suff n-i+1 de s r Ceci équivaut à la longueur de string du nœud lca((s, i+1), (s r, n-i+1)), qui peut être calculée en temps constant grâce au prétraitement

25 Reconnaissance de sites de restriction Tous les palindromes complémentaires maximaux sont identifiés en temps linéaire en regardant tous les centres possibles

26 Reconnaissance de sites de restriction s = TAGAGCTCA, s r = TGAGCTCTA S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

27 Reconnaissance de sites de restriction s = TAGAGCTCA, s r = TGAGCTCTA Pour i = 5, lca((s, 6), (s r, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

28 Reconnaissance de sites de restriction s = TAGAGCTCA, s r = TGAGCTCTA Pour i = 5, lca((s, 6), (s r, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

29 Alignement de génomes complets Aligner des séquences complètes de génomes est intéressant pour identifier les régions conservées entre différentes espèces Étant donné que les séquences complètes sont très grandes, des algorithmes efficaces doivent exister pour réaliser un alignement global rapidement

30 Alignement de génomes complets Le logiciel MUMmer utilise une approche basée sur les arbres des suffixes pour aligner des génomes complets MUMmer identifie d'abord les MUMs (maximal unique matches)

31 Alignement de génomes complets Un MUM entre deux séquences s 1 et s 2 est une paire de sous-séquences sans mismatch s 1 [i..i+k] = s 2 [i'..i'+k] qui ne peut pas être allongée dans aucune direction De plus, chaque MUM doit être unique, c'est-à- dire qu'il doit se retrouver une seule fois dans s 1 et dans s 2

32 Alignement de génomes complets L'idée est qu'un long MUM fait probablement partie de l'alignement optimal des deux séquences Étapes de MUMmer : 1) Identification de tous les MUMs 2) Identification des plus longues séquences de MUMs qui se retrouvent dans le même ordre dans les deux séquences 3) Alignement des régions entre ces MUMs

33 Alignement de génomes complets Un arbre des suffixes généralisé contenant les deux séquences complètes est utilisé pour identifier les MUMs

34 Alignement de génomes complets Lcp(suff i 1, suff i' 2 ) est un MUM s'il est unique dans les deux séquences et que s 1 [i-1] != s 2 [i'-1] Soit v, le nœud interne dont le chemin correspond à Lcp(suff i 1, suff i' 2 ) Le MUM est unique si v ne possède que 2 fils (un dans chaque séquence) Tous les nœuds internes correspondant à des MUMs sont identifiés par un parcours de l'arbre

35 Alignement de génomes complets s 1 = GATCG$ 1 et s 2 = CTTCG$ 2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

36 Alignement de génomes complets s 1 = GATCG$ 1 et s 2 = CTTCG$ 2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)


Télécharger ppt "IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes."

Présentations similaires


Annonces Google