YASS : Recherche de similarités dans les séquences d'ADN

Slides:



Advertisements
Présentations similaires
de l’algorithme de Viterbi
Advertisements

Aires et périmètres.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Chapitre annexe. Récursivité
Fabrice Lauri, François Charpillet, Daniel Szer
Regroupement (clustering)
Fonctions & procédures
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
Programme de seconde 2009 Géométrie
ACTIVITES Le calcul littéral (3).
Les Prepositions.
Prospection par ondes de surface
Présentation de l’application « Livret personnel de compétences »
1. Les caractéristiques de dispersion. 11. Utilité.
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Colloque Traitement et Analyse de séquences : compte-rendu
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Ordonnancement des mouvements de deux robots
ETALONNAGE D’UN CAPTEUR
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
07/24/09 1.
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Améliorer les performances du chiffrage à flot SYND
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Probabilités.
Application des algorithmes génétiques
Dynamique dopinions sur réseaux Amblard F.*, Deffuant G.* *C emagref-LISC.
Auto-organisation dans les réseaux ad hoc
Classification Multi Source En Intégrant La Texture
Les algorithmes: complexité et notation asymptotique
Cours de physique générale I Ph 11
Méthode des k plus proches voisins
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Les modèles linéaires (Generalized Linear Models, GLM)
Universté de la Manouba
Notre calendrier français MARS 2014
Les changements de numéraire dans la tarification d’options
LE CHOIX DU CONSOMMATEUR ET LA DEMANDE
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
C'est pour bientôt.....
Veuillez trouver ci-joint
2.2 PRODUIT SCALAIRE ET CALCUL D’ANGLES
Recherche heuristique dans les bases de données L’algorithme BLAST
PROBABILITÉS.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
USAM BRIDGE H O W E L L -CLASSIQUE
9 paires séries de 3 étuis ( n° 1 à 27 )
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Rappels de statistiques descriptives
STATISTIQUES – PROBABILITÉS
Recherche heuristique dans les bases de données L’algorithme BLAST
Les banques de séquences nucléiques
Transcription de la présentation:

YASS : Recherche de similarités dans les séquences d'ADN Laurent Noé Grégory Kucherov Mardi 21 janvier 2003

Plan Alignement local et méthodes heuristiques YASS : Méthode adoptée Modèle et Critères de chaînage Algorithme de chaînage Choix du critère de l’extension Tests et Résultats

Introduction : Alignement local Utilisation Annotation Localisation de transposons Algorithme de référence Smith Waterman (1981) Méthodes heuristiques BLAST - FASTA ASSIRC - PatternHunter

Méthodes Heuristiques Méthode Couramment adoptée Recherche de sous répétitions exactes Arbre des suffixes REPuter Hachage en k-mots (éventuellement non contigus) BLAST . FASTA PatternHunter Extension FASTA BLAST ASSIRC

BLAST et Gapped-BLAST BLAST Gapped-BLAST Sensibilité des deux méthodes Hachage k-mot : taille 11 par défaut hit : même k-mot sur chacune des deux séquences à comparer Extension Test d'extension systématique de chaque « hit » à l’aide d’un algorithme de Xdrop Gapped-BLAST « double hit » (deux hits distincts sur la même diagonale) conduit à un test d’extension. Sensibilité des deux méthodes T Q

Signification Statistique Karlin-Altschul 90 Théorie sur une seule séquence Théorie sur deux séquences Alignement sans gaps Altschul & al. 01 Estimation des paramètres

YASS : Méthode adoptée Alignement local et méthodes heuristiques Modèle et Critères de Chaînage Algorithme de chaînage Choix du critère de l’extension Tests et Résultats

Méthode adoptée Hachage en k-mots Groupement de graines Hash Table : Deux tableaux F et L . k-mots éventuellement non contigus. Appariement de k-mots pour former des graines Groupement de graines réalisé selon des critères relatifs à: La distance entre les répétitions exactes La variation de distance entre ces répétitions Critères calculés selon deux modèles ( modèle binaire + modèle d’indels) des paramètres statistiques T Q

Choix d’un modèle Modèle d’alignement binaire Analogie avec le lancer de pièce: un train (série successive) de k piles (valeur 1) équivaut à une répétition exacte de taille k. Etude de variables aléatoires la distance entre des trains de k piles ~ distances entre deux graines successives. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101111100111

Modèle d’alignement binaire Distance entre trains de k piles (WT) Utilisée pour évaluer la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée. Formule récursive: Gk,p = « distance » entre les répétitions de taille k, p = probabilité d’un match Bornes Statistiques ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101111100111

Modèle d’alignement binaire Prendre en compte les indels d ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101101100111 1 d+1 d ATGACCAGTCACGGTCCGCT ATGTGCAGG-ACCGTGAGCT 111001110.1101100111 2

Marche aléatoire Déplacement discret probabiliste dans l’espace. 3 possibilités « aller un pas vers la gauche » avec une probabilité p. « aller un pas vers la droite » avec une probabilité p. « rester sur place» avec une probabilité 1-2p. On évalue la position finale au bout de n itérations. Marche aléatoire simule la variation de d. p représente la probabilité d’indels par nucléotide. Le nombre de déplacements n est égal à la zone d’influence des indels sur d. Borner statistiquement cette marche aléatoire

Marche aléatoire Borner statistiquement la variation de d 2 Méthodes cela équivaut à borner statistiquement la marche aléatoire. 2 Méthodes Calcul d’intervalles [-L..L] sur une loi multinomiale: Polynôme générateur

Méthode Finalement … Rassembler les répétitions exactes qui sont proches: borne statistique rho sur la distance entre répétitions de taille k Considérer les effets produits par les indels: bornes statistiques delta sur la variation de distance entre répétitions de taille k. ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT a1 a2 a’1 a’2

Algorithme de chaînage Algorithme d’alignement Chaînages de répétitions exactes Séquence(s) d’ADN Répétitions approchées Paramètres utilisateur

Algorithme de chaînage Ce qu’il faut en retenir Forme des groupes de graines (couples de positions de k-mots identiques) susceptibles d’appartenir à une répétition approchée Prend en compte les indels. Génère un volume relativement important de données l’alterner régulièrement avec l’algorithme d’alignement sur les chaînages complets

Choix du critère d’extension Groupes de graines évaluer une extension sur chacun des groupes serait la méthode la plus sensible serait trop coûteuse en temps. nombre de graines d’un groupe comme critère perte de sensibilité trop importante lors de la recherche similitudes de faible score. Critère intermédiaire Basé sur la taille du groupe définie comme la somme de la taille des graines. Permet un compromis entre la rapidité de l’algorithme et sa sensibilité

Choix du critère d’extension Exemple k fixé à 3 ... taille du groupe = 11 Taille du groupe simple à gérer… Sensibilité : on considère par la suite des répétitions de score fixé mais de longueur variable. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCG 1110011101111100110

Sensibilité Pour un score fixé le critère de hit de BLAST La relation entre le taux de similarité de la répétition approchée et sa longueur minimale est une hyperbole. On considère la probabilité de trouver de telles répétitions selon le critère de hit de BLAST le critère de hit de Gapped-BLAST notre critère (taille du groupe)

Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

Sensibilité Comparaison avec les approches choisies par BLASTn et Gapped-BLAST

Tests et Résultats Alignement local et méthodes heuristiques YASS : Méthode adoptée Modèle et Critères de Chaînage Algorithme de chaînage Choix du critère de l’extension Tests et Résultats

Comparaison des Méthodes Temps principalement consommé à : (FASTA) générer et comptabiliser des hits de petite taille. (BLASTn) étendre les hits générés à l’aide d ’un algorithme de Xdrop méthodes antagonistes YASS : temps relatif partagé

Comparaison des Programmes Temps Résultats obtenus Comparaison sur S.Cerevisiae chr.V vs chr.IX de BLASTn et YASS Similitudes de score > 20 (Evalue < 0.22) retrouvées

Caractéristiques techniques Programme Résultats Donne les positions (début-fin) de chaque occurrence d’une répétition. Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition. Possibilité de visualiser l’alignement des deux occurrences de la répétition approchée.

Extensions Envisagées k-mots non contigus : meilleure intégration de ces derniers. (Sensibilité sur CDS) Inclure un post-traitement pour rassembler les répétitions séparées par des gaps importants. Inclure la possibilité d’éliminer les répétitions en tandem lorsque l’on recherche des similitudes sur une seule séquence (mreps) Auto-paramétrage du programme selon la taille et le type de séquence.

Conclusion Nouvelle approche pour la recherche de répétitions propriétés statistiques des séquences approchées algorithme de regroupement critère d’évaluation efficace et sensible Solution satisfaisante sensibilité sélectivité

? Questions