Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

Slides:



Advertisements
Présentations similaires
de l’algorithme de Viterbi
Advertisements

La recherche de chemin optimal
Chap. 4 Recherche en Table
Chapitre annexe. Récursivité
Fabrice Lauri, François Charpillet, Daniel Szer
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Regroupement (clustering)
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
Risques d’erreur statistique et test statistique
RECONNAISSANCE DE FORMES
Application de réseaux bayésiens à la détection de fumées polluantes
1. Les caractéristiques de dispersion. 11. Utilité.
Colloque Traitement et Analyse de séquences : compte-rendu
Xialong Dai, Siamak Khorram
Le remplacement moléculaire
Algorithmes génétiques
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Safae LAQRICHI, Didier Gourc, François Marmier {safae
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
S.T.S. S.I.O. 1ère année La gestion de projets
Application des algorithmes génétiques
Auto-organisation dans les réseaux ad hoc
YASS : Recherche de similarités dans les séquences d'ADN
Heuristiques A. Introduction B. Recherche d ’une branche
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
BétonlabPro 3 Leçon N°0 PRÉSENTATION DU COURS
THÈME 8 Le risque et lanalyse coûts-avantages 1. PLAN I.Le risque II.Lanalyse coûts-avantages : application 2.
Algorithme d’addition #1
Algorithmes de filtrage
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
Janvier 2012 Les nouvelles épreuves de Sciences économiques et sociales au baccalauréat.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Algorithme de Bellman-Ford
SUPERVISION A DISTANCE DUNE LIGNE DE CONDITIONNEMENT ORAL FINAL 1 CIAI - Projet Socket.
Courbes de Bézier.
Génération d’un segment de droite
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Universté de la Manouba
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
L’EVALUATION.
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
Ordonnancement de tâches
Projet de Master première année 2007 / 2008
Programmation dynamique
Estimation de la valeur génétique du Pur-Sang Anglais en République Tchèque Franey Anne Frisée Vincent Vanloocke Denis.
Atelier de formation : MAT optimisation II (les graphes).
Pour le chemin le plus court pour tous les couples
Programmation linéaire en nombres entiers : les méthodes de troncature
Recherche heuristique dans les bases de données L’algorithme BLAST
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Présentation de la méthode des Eléments Finis
"POLYMORPHISME" Plusieurs Formes
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Optimisation par les algorithmes génétiques
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Travaux Pratiques Optimisation Combinatoire
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Recherche de motifs par projections aléatoires
Algorithmes génétiques en optimisation combinatoire
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
Présentations BIN1001.
Les banques de séquences nucléiques
Probabilités et statistique MQT-1102
Transcription de la présentation:

Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

2 Plan Introduction Problème : recherche de similarités Méthode Exacte Heuristique Graines avec brèches Amélioration

3 Introduction Molécule DADN Structure Deux brins complémentaires Nucléotides (A,T,G,C) Rôle Gènes Évolution au cours des générations

4 Régularité de lADN Un nombre conséquent déléments répétés (30-50% de la séquence) Plusieurs types de répétitions: répétitions en tandem (copies sont juxtaposées). répétitions distantes (copies dispersées) sur une ou plusieurs séquences (similarités). Une particularité ce sont des répétitions dites approchées : ­différents types derreurs substitution de nucléotides insertion/suppression dun ou plusieurs nucléotides (indels). copies des répétitions distantes évoluent algorithmique du texte doit sadapter à cette spécificité

5 Alignement Local et Score Mettre en évidence ces similarités par un alignement Alignement doit maximiser le Score. Score calculé comme la somme des coûts des opérations unitaires. Exemple ­match : +1 mismatch : -1 indels: -2 Distinguer les alignements dits significatifs Faible probabilité dapparition « par hasard ». Karlin-Altschul ­lien entre Score et Significativité (E-value,P- value) TGTTGACTC-CAA |||.||||| ||| TGTCGACTCGCAA

6 Approche Combinatoire Algorithme de Smith-Waterman recherche des alignements locaux de meilleur score Résout le problème de manière exacte. complexité ­quadratique pour lalgorithme original (programmation dynamique) ­Crochemore difficilement exploitable en temps raisonnable si les séquences dépassent les nucléotides (ordinateurs actuels).

7 Approche Heuristique La plus employée (FASTA, BLAST) lorsque les séquences sont des chromosomes sur les bases de données Basé sur la recherche de sous-répétitions exactes (graines) dans la répétition approchée. Généralement réalisée en deux étapes Recherche de sous-répétitions exactes (graines). ­Exemple : recherche de toutes les répétitions de taille fixe k. Extension ­Une ou plusieurs répétitions exactes donnent lieu à un test dextension Lheuristique concerne ici la possible existence dune ou plusieurs répétitions exactes dans une répétition approchée T Q

8 Dilemme Sélectivité/Sensibilité Sensibilité Éviter de perdre trop de répétitions approchées qui auraient été intéressantes. (faux négatifs) Sélectivité Éviter de considérer trop de répétitions qui savèrent finalement de score trop faible. (faux positifs)

9 Graines compactes Graines avec brèches (Pattern Hunter 02) Choix dun motif avec des brèches de longueur fixée TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC Graines avec brèches TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ######## ##_###_###

10 Critère Annexe La deuxième étape, lextension, est coûteuse. Lutiliser avec parcimonie, en ajoutant un critère annexe. ­BLAST : le test dextension est réalisé sur chacune des graines. ­FASTA : simple comptage du nombre de graines pour retenir les régions à étendre. ­YASS : la taille des groupes de graines. (1) Former les groupes : critères calculés à laide de paramètres statistiques de la séquence. (2) Pour un groupe donné, mesurer le nombre de matchs unitaires connus (CF Exemple) (3) Déclencher une extension si cette taille dépasse un certain seuil.

11 Taille du groupe Exemple: ici, la taille du groupe atteint 19. Cette mesure est maintenue sur chacun des groupes à laide dun automate fini. TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ##_###_###

12 Amélioration Quapporte cette méthode? Elle accélère sensiblement la recherche: Elle se veut plus sensible: ­à partir dun score fixé.

13 Amélioration

14 Amélioration

15 Amélioration

16 Conclusion Une approche pour la recherche de similitudes propriétés statistiques des séquences approchées critère dévaluation efficace et sensible Solution satisfaisante sensibilité sélectivité

17 ? ? ? Questions