1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV
2 Plan 1. Introduction au problème 2. Les programmes existants 3. La méthode adoptée 4. Lalgorithme 5. Résultats obtenus et extensions envisagées 6. Conclusion
3 1.Introduction LADN La molécule Linformation contenue Extraction de linformation (séquençage) Gènes et fonctions Aspects automatisables
4 Recherche de répétitions Problème connu de lalgorithmique du texte Spécificité de lADN : répétitions approchées Sous-répétitions exactes (graines) Approche choisie
5 Evolution des occurrences dune répétition
6 2.Les programmes existants BLAST ASSIRC
7 BLAST Nombreuses versions destinées à lADN et aux protéines Recherche de similitudes significatives dans les bases de données. Basé sur lextension de graines de taille 11
8 ASSIRC Recherche de répétitions exactes de k lettres (couples de k-mots) Extension des répétitions exactes (graines) à laide dune fonction propre
9 3.La méthode adoptée Rassembler les graines (répétitions exactes) Rechercher des répétitions exactes dont chacune des occurrences est respectivement proche de lautre Utilisation de critères statistiques concernant: La taille des répétitions exactes recherchées La distance entre ces répétitions exactes La variation de distance entre ces répétitions
10 Modèles choisis Modèle dalignement binaire Comparaison doccurrences de répétitions approchées Marche aléatoire simuler les indels (insertions/suppressions) sur les occurrences de répétitions approchées
11 Modèle dalignement binaire Comparaison de deux répétitions approchées Analogie avec le lancer de pièce: un train (série successive) de k piles (valeur 1 ) équivaut à une répétition exacte de taille k. Etude de variables aléatoires issues du lancer de pièce: le plus long train de piles espéré en n lancers. la distance entre des trains de k piles. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT
12 Modèle dalignement binaire Plus long train de piles espéré en n lancers. Permet de déterminer la taille maximale espérée des répétitions exactes dans une répétition approchée de taille n. Formule approchée: p = taux de ressemblance, n = taille de la répétition approchée, α = tolérance Simulation ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT
13 Modèle dalignement binaire Distance entre trains de k piles Sert à étudier la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée. Formule récursive: G k,p = « distance » entre les répétitions de taille k, p = taux de ressemblance Bornes Statistiques ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT
14 Indels Indels = insertion / suppression de lettres d ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT ATGACCAGTCACGGTCCGCT ATGTGCAGG-ACCGTGAGCT d+1 d
15 Marche aléatoire Déplacement discret probabiliste dans lespace. 3 possibilités « aller un pas vers la gauche » avec une probabilité p. « aller un pas vers la droite » avec une probabilité p. « rester sur place» avec une probabilité 1-2p. On évalue la position finale au bout de n itérations. Marche aléatoire simule la variation de d. p représente la probabilité dindels par nucléotide. Le nombre de déplacements n est égal à la zone dinfluence des indels sur d.
16 Marche aléatoire Borner statistiquement la variation de d cela équivaut à borner statistiquement la marche aléatoire. 2 Méthodes Calcul dintervalles [-L..L] sur une loi multinomiale: Fonction génératrice
17 Méthode adoptée Finalement … Rassembler les répétitions exactes qui sont proches: borne statistique sur la distance entre répétitions de taille k Considérer les effets produits par les indels: bornes statistiques sur la variation de distance entre répétitions de taille k. ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT d1d1 d2d2 d1d1 d2d2
18 4.Algorithme Algorithme de chaînage Algorithme dalignement Chaînages de répétitions exactes Séquence(s) dADN Répétitions approchées Paramètres utilisateur
19 Algorithme de chaînage Utilise en entrée la liste chaînée des k-mots k-mot : sous-mot du texte de taille k Cette liste donne lensemble des positions sur le texte dun k-mot donné. Création de couples de k-mots identiques c( i, j ). Chaînage de ces couples selon les deux critères de distance vus précédemment.
20 Critères appliqués aux couples distance d i inter-couples inférieure à un seuil variation de distance inter-couples inférieure à un seuil lien entre la distance intra-couple a i et la distance inter- couples d i. Reformuler ce critère sur la distance intra-couple a i ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT.. d1d1 d2d2 d1d1 d2d2 a1a1 a2a2
21 Première approche 1 pour chaque k-mot w i de T ( 0 < i < n - k + 2 ) faire 2 pour chaque occurrence w j de w i ( j < i ) faire 3 si il existe un couple c(i, j) satisfaisant les deux critères 4 alors chaîner c(i, j) vers c(i,j) 5 fsi 6 fpour 7 fpour
22 Respect des critères Afin de respecter ces critères, on utilise un tableau des distances : Son rôle : conserver à lindice d, la position i du dernier couple dont la distance intra-couple était d. Utilisé pour la recherche de couples antécédents. Afin de prendre en compte les indels, les couples antécédents ayant une distance intra-couple voisine seront également pris en compte.
23 Deuxième approche 01 pour chaque k-mot w i de T ( 0 < i < n - k + 2 ) faire 02 pour chaque occurrence w j de w i ( j < i ) faire 03 d = i - j 04 pour d obs dans {d, d+1, d-1, … d+ δ, d- δ} faire 05 i = CD [d obs ] 06 si i – i < ρ alors 07 j = i – d obs 08 chaîner c(i, j) vers c(i,j ) 09 break // sortir de la boucle d obs 10 fsi 11 fpour 12 CD [d ] = i 13 fpour 14 fpour
24 5.Réalisation Programme Résultats Donne les positions (début-fin) de chaque occurrence dune répétition. Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition. Possibilité de visualiser lalignement des deux occurrences de la répétition approchée. TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd.. TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT
25 Expérimentation ASSIRC plus lent BLASTN approche moins sensible Temps de calcul partagé entre chaînage/alignement Le temps consommé par lalignement augmente de manière beaucoup plus importante que celui du chaînage lorsque lon cherche des répétitions approchées moins ressemblantes. Ajout dun filtre annexe (sous k-mots).
26 Extensions envisagées Traiter le brin dADN complémentaire inversé tttgac gtcaaa (1) duplication (2) complémentarité a-t g-c Brins d'ADN complémentaires
27 6.Conclusion Nouvelle méthode de recherche de répétitions propriétés statistiques des séquences approchées algorithme de regroupement Solution satisfaisante Extensions envisagées
28 ? ? ? Questions