1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.

Slides:



Advertisements
Présentations similaires
Une méthode d'analyse de l'INFORMATION
Advertisements

Introduction à l’analyse
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
La Méthode de Simplexe Standardisation
Tris.
Chapitre annexe. Récursivité
Fonctions & procédures
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
JXDVDTEK – Une DVDthèque en Java et XML
Répondez à ces quelques questions
Répondez à ces quelques questions
1. Les caractéristiques de dispersion. 11. Utilité.
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Ordonnancement des mouvements de deux robots
Plus rapide chemin bicritère : un problème d’aménagement du territoire
1 Analyse de la variance multivariée Michel Tenenhaus.
variable aléatoire Discrète
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Initiation à la programmation et algorithmique cours 3
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Merci et bon visionnage.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Page 1 Introduction à ATEasy 3.0 Page 2 Quest ce quATEasy 3.0? n Ensemble de développement très simple demploi n Conçu pour développer des bancs de test.
Le noyau Pages 22 /
Le cahier de texte des BTK datecoursTD info À faire / Notions de thermodynamique Le concept dénergie Energie de.
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
Cimetière de Djidjelli octobre 2010
Application des algorithmes génétiques
جامعــــــة محمد خيضــــــــــــر بــســكــــــــــــرة
YASS : Recherche de similarités dans les séquences d'ADN
II. Chaînage, SDD séquentielles
Classification Multi Source En Intégrant La Texture
Les algorithmes: complexité et notation asymptotique
2-1 CIRCUITS ÉLECTRIQUES SIMPLES
Cours de physique générale I Ph 11
Traitements &Suppléments
Le cahier de texte des BTK-1
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Le point le plus près Montage préparé par : André Ross
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
Mesurer l’intensité du courant électrique
Courbes de Bézier.
Les modèles linéaires (Generalized Linear Models, GLM)
3.1 DÉTERMINANTS (SUITE) Cours 6.
Universté de la Manouba
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
LE CHOIX DU CONSOMMATEUR ET LA DEMANDE
L’OFFRE ET LA DEMANDE.
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Atelier de formation : MAT optimisation II (les graphes).
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
Programmation linéaire en nombres entiers : les méthodes de troncature
Recherche heuristique dans les bases de données L’algorithme BLAST
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Apprentissage avec un réseau de neurones artificiels
CALENDRIER-PLAYBOY 2020.
Institut de Formation aux Métiers de l’industrie Automobile.
EVALUATION Où est la panne ?
Suites numériques Définitions.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Les Chiffres Prêts?
Rappels de statistiques descriptives
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
STATISTIQUES – PROBABILITÉS
Recherche heuristique dans les bases de données L’algorithme BLAST
Transcription de la présentation:

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV

2 Plan 1. Introduction au problème 2. Les programmes existants 3. La méthode adoptée 4. Lalgorithme 5. Résultats obtenus et extensions envisagées 6. Conclusion

3 1.Introduction LADN La molécule Linformation contenue Extraction de linformation (séquençage) Gènes et fonctions Aspects automatisables

4 Recherche de répétitions Problème connu de lalgorithmique du texte Spécificité de lADN : répétitions approchées Sous-répétitions exactes (graines) Approche choisie

5 Evolution des occurrences dune répétition

6 2.Les programmes existants BLAST ASSIRC

7 BLAST Nombreuses versions destinées à lADN et aux protéines Recherche de similitudes significatives dans les bases de données. Basé sur lextension de graines de taille 11

8 ASSIRC Recherche de répétitions exactes de k lettres (couples de k-mots) Extension des répétitions exactes (graines) à laide dune fonction propre

9 3.La méthode adoptée Rassembler les graines (répétitions exactes) Rechercher des répétitions exactes dont chacune des occurrences est respectivement proche de lautre Utilisation de critères statistiques concernant: La taille des répétitions exactes recherchées La distance entre ces répétitions exactes La variation de distance entre ces répétitions

10 Modèles choisis Modèle dalignement binaire Comparaison doccurrences de répétitions approchées Marche aléatoire simuler les indels (insertions/suppressions) sur les occurrences de répétitions approchées

11 Modèle dalignement binaire Comparaison de deux répétitions approchées Analogie avec le lancer de pièce: un train (série successive) de k piles (valeur 1 ) équivaut à une répétition exacte de taille k. Etude de variables aléatoires issues du lancer de pièce: le plus long train de piles espéré en n lancers. la distance entre des trains de k piles. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT

12 Modèle dalignement binaire Plus long train de piles espéré en n lancers. Permet de déterminer la taille maximale espérée des répétitions exactes dans une répétition approchée de taille n. Formule approchée: p = taux de ressemblance, n = taille de la répétition approchée, α = tolérance Simulation ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT

13 Modèle dalignement binaire Distance entre trains de k piles Sert à étudier la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée. Formule récursive: G k,p = « distance » entre les répétitions de taille k, p = taux de ressemblance Bornes Statistiques ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT

14 Indels Indels = insertion / suppression de lettres d ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT ATGACCAGTCACGGTCCGCT ATGTGCAGG-ACCGTGAGCT d+1 d

15 Marche aléatoire Déplacement discret probabiliste dans lespace. ­3 possibilités « aller un pas vers la gauche » avec une probabilité p. « aller un pas vers la droite » avec une probabilité p. « rester sur place» avec une probabilité 1-2p. ­On évalue la position finale au bout de n itérations. Marche aléatoire simule la variation de d. ­p représente la probabilité dindels par nucléotide. ­Le nombre de déplacements n est égal à la zone dinfluence des indels sur d.

16 Marche aléatoire Borner statistiquement la variation de d ­cela équivaut à borner statistiquement la marche aléatoire. 2 Méthodes ­Calcul dintervalles [-L..L] sur une loi multinomiale: ­Fonction génératrice

17 Méthode adoptée Finalement … Rassembler les répétitions exactes qui sont proches: ­borne statistique sur la distance entre répétitions de taille k Considérer les effets produits par les indels: ­bornes statistiques sur la variation de distance entre répétitions de taille k. ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT d1d1 d2d2 d1d1 d2d2

18 4.Algorithme Algorithme de chaînage Algorithme dalignement Chaînages de répétitions exactes Séquence(s) dADN Répétitions approchées Paramètres utilisateur

19 Algorithme de chaînage Utilise en entrée la liste chaînée des k-mots k-mot : sous-mot du texte de taille k Cette liste donne lensemble des positions sur le texte dun k-mot donné. Création de couples de k-mots identiques c( i, j ). Chaînage de ces couples selon les deux critères de distance vus précédemment.

20 Critères appliqués aux couples distance d i inter-couples inférieure à un seuil variation de distance inter-couples inférieure à un seuil ­lien entre la distance intra-couple a i et la distance inter- couples d i. ­Reformuler ce critère sur la distance intra-couple a i ATGACCAGTACGGTCCGCTATGTGCAGGACCGTGAGCT.. d1d1 d2d2 d1d1 d2d2 a1a1 a2a2

21 Première approche 1 pour chaque k-mot w i de T ( 0 < i < n - k + 2 ) faire 2 pour chaque occurrence w j de w i ( j < i ) faire 3 si il existe un couple c(i, j) satisfaisant les deux critères 4 alors chaîner c(i, j) vers c(i,j) 5 fsi 6 fpour 7 fpour

22 Respect des critères Afin de respecter ces critères, on utilise un tableau des distances : Son rôle : conserver à lindice d, la position i du dernier couple dont la distance intra-couple était d. Utilisé pour la recherche de couples antécédents. Afin de prendre en compte les indels, les couples antécédents ayant une distance intra-couple voisine seront également pris en compte.

23 Deuxième approche 01 pour chaque k-mot w i de T ( 0 < i < n - k + 2 ) faire 02 pour chaque occurrence w j de w i ( j < i ) faire 03 d = i - j 04 pour d obs dans {d, d+1, d-1, … d+ δ, d- δ} faire 05 i = CD [d obs ] 06 si i – i < ρ alors 07 j = i – d obs 08 chaîner c(i, j) vers c(i,j ) 09 break // sortir de la boucle d obs 10 fsi 11 fpour 12 CD [d ] = i 13 fpour 14 fpour

24 5.Réalisation Programme Résultats Donne les positions (début-fin) de chaque occurrence dune répétition. Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition. Possibilité de visualiser lalignement des deux occurrences de la répétition approchée. TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd.. TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT

25 Expérimentation ASSIRC plus lent BLASTN approche moins sensible Temps de calcul partagé entre chaînage/alignement Le temps consommé par lalignement augmente de manière beaucoup plus importante que celui du chaînage lorsque lon cherche des répétitions approchées moins ressemblantes. Ajout dun filtre annexe (sous k-mots).

26 Extensions envisagées Traiter le brin dADN complémentaire inversé tttgac gtcaaa (1) duplication (2) complémentarité a-t g-c Brins d'ADN complémentaires

27 6.Conclusion Nouvelle méthode de recherche de répétitions propriétés statistiques des séquences approchées algorithme de regroupement Solution satisfaisante Extensions envisagées

28 ? ? ? Questions