La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

16 novembre 2011 Arbres des suffixes

Présentations similaires


Présentation au sujet: "16 novembre 2011 Arbres des suffixes"— Transcription de la présentation:

1 16 novembre 2011 Arbres des suffixes
IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes

2 Plan Applications des arbres des suffixes
Reconnaissance de sites de restriction Alignement de génomes complets

3 Enzymes de restriction
Les enzymes sont des protéines qui catalysent des réactions chimiques dans les cellules Certaines molécules d'ARN peuvent aussi catalyser des réactions chimiques (ribozymes) Presque toutes les réactions chimiques se produisant dans les cellules ont besoin d'enzymes pour atteindre une vitesse nécessaire à la survie

4 Enzymes de restriction
Les enzymes de restriction, ou endonucléases de restriction, permettent de couper des molécules double brin d'ADN Chaque enzyme de restriction coupe l'ADN à un site spécifique (site de restriction) Deux coupures sont faites par l'enzyme, c'est-à-dire une sur chaque brin (pas nécessairement au même endroit)

5 Enzymes de restriction
On retrouve des enzymes de restriction chez les bactéries Elles jouent un rôle dans la défense des bactéries contre les virus  elles permettent de couper l'ADN étranger L'ADN de la bactérie est méthylé afin de la protéger de l'action de ses propres enzymes de restriction

6 Enzymes de restriction
Exemples : EcoRI BamHI GAATTC CTTAAG GGATCC CCTAGG SmaI HindIII CCCGGG GGGCCC AAGCTT TTCGAA

7 Enzymes de restriction
Exemples : EcoRI Extrémités cohésives BamHI GAATTC CTTAAG GGATCC CCTAGG SmaI HindIII CCCGGG GGGCCC AAGCTT TTCGAA Extrémités franches

8 Enzymes de restriction
Les enzymes de restriction sont des outils utilisés abondamment en biochimie clonage de gènes production de protéines recombinantes clivage d'ADN avant de faire une électrophorèse sur gel reconnaissance de SNPs

9 Enzymes de restriction
Les enzymes de restriction sont des outils utilisés abondamment en biochimie clonage de gènes production de protéines recombinantes clivage d'ADN avant de faire une électrophorèse sur gel reconnaissance de SNPs

10 Enzymes de restriction
Production de protéines recombinantes : Les protéines recombinantes sont des protéines produites à partir d'ADN recombinant, c'est-à-dire de l'ADN qui est une combinaison de séquences provenant de différentes sources Puisque l'ADN de toutes les espèces possèdent les même propriétés chimiques, il est possible de créer de l'ADN recombinant en utilisant les enzymes de restriction

11 Enzymes de restriction
Production de protéines recombinantes : Les extrémités cohésives de molécules d'ADN clivées par des enzymes de restriction peuvent être "recollées" avec n'importe quelle autre molécule clivée par la même enzyme On va souvent utiliser des bactéries comme usines de production de protéines recombinantes Les bactéries possèdent des chromosomes circulaires appelés "plasmides"

12 Enzymes de restriction
Production de protéines recombinantes : plasmide

13 Enzymes de restriction
Production de protéines recombinantes : plasmide

14 Enzymes de restriction
Production de protéines recombinantes : plasmide

15 Enzymes de restriction
Production de protéines recombinantes : gène étranger plasmide

16 Enzymes de restriction
Production de protéines recombinantes : Un bon exemple est celui de la production d'insuline pour traiter le diabète Pendant longtemps, l'insuline était recueilli à partir de pancréas de porcs ou de bovins Il est maintenant produit dans des bactéries (E. coli) ou des levures et prochainement dans des plantes

17 Enzymes de restriction
Les sites de restriction forment des palindromes complémentaires BamHI GGATCC CCTAGG GGA TCC

18 Enzymes de restriction
Les sites de restriction forment des palindromes complémentaires BamHI GGATCC CCTAGG GGA TCC complément inverse GGA

19 Enzymes de restriction
Les sites de restriction forment des palindromes complémentaires Les palindromes complémentaires sont de longueur paire BamHI GGATCC CCTAGG GGA TCC complément inverse GGA

20 Reconnaissance de sites de restriction
Le problème revient à identifier tous les palindromes complémentaires maximaux (puisque les autres palindromes seront contenus à l'intérieur) Une sous-séquence s[i..j] d'une séquence s de longueur n est un palindrome complémentaire maximal si s[i..j] est un palindrome complémentaire et s[i-1] n'est pas complémentaire à s[j+1] OU si i = 1 et j = n

21 Reconnaissance de sites de restriction
Soit 2k, la longueur d'un palindrome, k est le rayon du palindrome Le centre du palindrome se situe entre les positions k et k+1 du palindrome Le nombre de centres possibles dans une séquence de taille n est égal à n-1 (équivalent au nombre total de palindromes maximaux possibles)

22 Reconnaissance de sites de restriction
Tous les palindromes complémentaires maximaux peuvent être identifiés dans une séquence d'ADN en temps linéaire en utilisant un arbre des suffixes généralisé

23 Reconnaissance de sites de restriction
Soit la séquence s et sr, la séquence complément inverse de s On construit un arbre des suffixes généralisé pour les séquences s et sr Prétraitement de l'arbre pour enregistrer les profondeurs de "strings" et pour trouver les lca en temps constant

24 Reconnaissance de sites de restriction
Le rayon du palindrome complémentaire maximal centré entre s[i] et s[i+1] est donnée par la longueur du plus long préfixe entre suffi+1 de s et suffn-i+1 de sr Ceci équivaut à la longueur de string du nœud lca((s, i+1), (sr, n-i+1)), qui peut être calculée en temps constant grâce au prétraitement

25 Reconnaissance de sites de restriction
Tous les palindromes complémentaires maximaux sont identifiés en temps linéaire en regardant tous les centres possibles

26 Reconnaissance de sites de restriction
s = TAGAGCTCA, sr = TGAGCTCTA S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

27 Reconnaissance de sites de restriction
s = TAGAGCTCA, sr = TGAGCTCTA Pour i = 5, lca((s, 6), (sr, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

28 Reconnaissance de sites de restriction
s = TAGAGCTCA, sr = TGAGCTCTA Pour i = 5, lca((s, 6), (sr, 5)) = v S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

29 Alignement de génomes complets
Aligner des séquences complètes de génomes est intéressant pour identifier les régions conservées entre différentes espèces Étant donné que les séquences complètes sont très grandes, des algorithmes efficaces doivent exister pour réaliser un alignement global rapidement

30 Alignement de génomes complets
Le logiciel MUMmer utilise une approche basée sur les arbres des suffixes pour aligner des génomes complets MUMmer identifie d'abord les MUMs (maximal unique matches)

31 Alignement de génomes complets
Un MUM entre deux séquences s1 et s2 est une paire de sous-séquences sans mismatch s1[i..i+k] = s2[i'..i'+k] qui ne peut pas être allongée dans aucune direction De plus, chaque MUM doit être unique, c'est-à-dire qu'il doit se retrouver une seule fois dans s1 et dans s2

32 Alignement de génomes complets
L'idée est qu'un long MUM fait probablement partie de l'alignement optimal des deux séquences Étapes de MUMmer : 1) Identification de tous les MUMs 2) Identification des plus longues séquences de MUMs qui se retrouvent dans le même ordre dans les deux séquences 3) Alignement des régions entre ces MUMs

33 Alignement de génomes complets
Un arbre des suffixes généralisé contenant les deux séquences complètes est utilisé pour identifier les MUMs

34 Alignement de génomes complets
Lcp(suffi1, suffi'2) est un MUM s'il est unique dans les deux séquences et que s1[i-1] != s2[i'-1] Soit v, le nœud interne dont le chemin correspond à Lcp(suffi1, suffi'2) Le MUM est unique si v ne possède que 2 fils (un dans chaque séquence) Tous les nœuds internes correspondant à des MUMs sont identifiés par un parcours de l'arbre

35 Alignement de génomes complets
s1 = GATCG$1 et s2 = CTTCG$2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

36 Alignement de génomes complets
s1 = GATCG$1 et s2 = CTTCG$2 S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)


Télécharger ppt "16 novembre 2011 Arbres des suffixes"

Présentations similaires


Annonces Google