La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

YASS : Recherche de similarités dans les séquences d'ADN Laurent Noé Grégory Kucherov Mardi 21 janvier 2003.

Présentations similaires


Présentation au sujet: "YASS : Recherche de similarités dans les séquences d'ADN Laurent Noé Grégory Kucherov Mardi 21 janvier 2003."— Transcription de la présentation:

1 YASS : Recherche de similarités dans les séquences d'ADN Laurent Noé Grégory Kucherov Mardi 21 janvier 2003

2 2 Plan Alignement local et méthodes heuristiques YASS : Méthode adoptée Modèle et Critères de chaînage Algorithme de chaînage Choix du critère de lextension Tests et Résultats

3 3 Introduction : Alignement local Utilisation Annotation Localisation de transposons Algorithme de référence Smith Waterman (1981) Méthodes heuristiques BLAST - FASTA ASSIRC - PatternHunter

4 4 Méthodes Heuristiques Méthode Couramment adoptée Recherche de sous répétitions exactes ­Arbre des suffixes REPuter ­Hachage en k-mots (éventuellement non contigus) BLAST. FASTA PatternHunter Extension ­FASTA ­BLAST ­ASSIRC

5 5 BLAST et Gapped-BLAST BLAST Hachage ­k-mot : taille 11 par défaut ­hit : même k-mot sur chacune des deux séquences à comparer Extension ­Test d'extension systématique de chaque « hit » à laide dun algorithme de Xdrop Gapped-BLAST Extension ­« double hit » (deux hits distincts sur la même diagonale) conduit à un test dextension. Sensibilité des deux méthodes T Q

6 6 Signification Statistique Karlin-Altschul 90 Théorie sur une seule séquence Théorie sur deux séquences Alignement sans gaps Altschul & al. 01 Estimation des paramètres

7 7 YASS : Méthode adoptée Alignement local et méthodes heuristiques YASS : Méthode adoptée Modèle et Critères de Chaînage Algorithme de chaînage Choix du critère de lextension Tests et Résultats

8 8 Méthode adoptée Hachage en k-mots Hash Table : ­Deux tableaux F et L. ­k-mots éventuellement non contigus. Appariement de k-mots pour former des graines Groupement de graines réalisé selon des critères relatifs à: ­La distance entre les répétitions exactes ­La variation de distance entre ces répétitions Critères calculés selon ­deux modèles ( modèle binaire + modèle dindels) ­des paramètres statistiques T Q

9 9 Choix dun modèle Modèle dalignement binaire Analogie avec le lancer de pièce: un train (série successive) de k piles (valeur 1 ) équivaut à une répétition exacte de taille k. Etude de variables aléatoires la distance entre des trains de k piles ~ distances entre deux graines successives. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT

10 10 Modèle dalignement binaire Distance entre trains de k piles (WT) Utilisée pour évaluer la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée. Formule récursive: G k,p = « distance » entre les répétitions de taille k, p = probabilité dun match Bornes Statistiques ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT

11 11 Modèle dalignement binaire Prendre en compte les indels d ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT ATGACCAGTCACGGTCCGCT ATGTGCAGG-ACCGTGAGCT d+1 d

12 12 Marche aléatoire Déplacement discret probabiliste dans lespace. ­3 possibilités « aller un pas vers la gauche » avec une probabilité p. « aller un pas vers la droite » avec une probabilité p. « rester sur place» avec une probabilité 1-2p. ­On évalue la position finale au bout de n itérations. Marche aléatoire simule la variation de d. ­p représente la probabilité dindels par nucléotide. ­Le nombre de déplacements n est égal à la zone dinfluence des indels sur d. Borner statistiquement cette marche aléatoire

13 13 Marche aléatoire Borner statistiquement la variation de d ­cela équivaut à borner statistiquement la marche aléatoire. 2 Méthodes ­Calcul dintervalles [-L..L] sur une loi multinomiale: ­Polynôme générateur

14 14 Méthode Finalement … Rassembler les répétitions exactes qui sont proches: ­borne statistique rho sur la distance entre répétitions de taille k Considérer les effets produits par les indels: ­bornes statistiques delta sur la variation de distance entre répétitions de taille k. ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT a1a1 a2a2 a1a1 a2a2

15 15 Algorithme Algorithme de chaînage Algorithme dalignement Chaînages de répétitions exactes Séquence(s) dADN Répétitions approchées Paramètres utilisateur

16 16 Algorithme de chaînage Ce quil faut en retenir Forme des groupes de graines (couples de positions de k- mots identiques) susceptibles dappartenir à une répétition approchée Prend en compte les indels. Génère un volume relativement important de données ­lalterner régulièrement avec lalgorithme dalignement sur les chaînages complets

17 17 Choix du critère dextension Groupes de graines ­évaluer une extension sur chacun des groupes serait la méthode la plus sensible serait trop coûteuse en temps. ­nombre de graines dun groupe comme critère perte de sensibilité trop importante lors de la recherche similitudes de faible score. Critère intermédiaire Basé sur la taille du groupe définie comme la somme de la taille des graines. Permet un compromis entre la rapidité de lalgorithme et sa sensibilité

18 18 Choix du critère dextension Exemple ­k fixé à 3... taille du groupe = 11 Taille du groupe simple à gérer… Sensibilité : on considère par la suite des répétitions de score fixé mais de longueur variable. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCG

19 19 Sensibilité Pour un score fixé La relation entre le taux de similarité de la répétition approchée et sa longueur minimale est une hyperbole. On considère la probabilité de trouver de telles répétitions selon ­le critère de hit de BLAST ­le critère de hit de Gapped-BLAST ­notre critère (taille du groupe)

20 20 Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

21 21 Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

22 22 Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

23 23 Tests et Résultats Alignement local et méthodes heuristiques YASS : Méthode adoptée Modèle et Critères de Chaînage Algorithme de chaînage Choix du critère de lextension Tests et Résultats

24 24 Comparaison des Méthodes Temps principalement consommé à : (FASTA) ­générer et comptabiliser des hits de petite taille. (BLASTn) ­étendre les hits générés à laide d un algorithme de Xdrop méthodes antagonistes YASS : temps relatif partagé

25 25 Comparaison des Programmes Temps Résultats obtenus Comparaison sur S.Cerevisiae chr.V vs chr.IX de BLASTn et YASS Similitudes de score > 20 (Evalue < 0.22) retrouvées

26 26 Caractéristiques techniques Programme Résultats Donne les positions (début-fin) de chaque occurrence dune répétition. Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition. Possibilité de visualiser lalignement des deux occurrences de la répétition approchée.

27 27 Extensions Envisagées k-mots non contigus : meilleure intégration de ces derniers. (Sensibilité sur CDS) Inclure un post-traitement pour rassembler les répétitions séparées par des gaps importants. Inclure la possibilité déliminer les répétitions en tandem lorsque lon recherche des similitudes sur une seule séquence ( mreps ) Auto-paramétrage du programme selon la taille et le type de séquence.

28 28 Conclusion Nouvelle approche pour la recherche de répétitions propriétés statistiques des séquences approchées algorithme de regroupement critère dévaluation efficace et sensible Solution satisfaisante sensibilité sélectivité

29 29 Questions ? ? ?


Télécharger ppt "YASS : Recherche de similarités dans les séquences d'ADN Laurent Noé Grégory Kucherov Mardi 21 janvier 2003."

Présentations similaires


Annonces Google