Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

Slides:

Advertisements

Présentations similaires

de l’algorithme de Viterbi

Advertisements

La recherche de chemin optimal

Chap. 4 Recherche en Table

Chapitre annexe. Récursivité

Fabrice Lauri, François Charpillet, Daniel Szer

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Regroupement (clustering)

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Regroupement (clustering)

Risques d’erreur statistique et test statistique

RECONNAISSANCE DE FORMES

Application de réseaux bayésiens à la détection de fumées polluantes

1. Les caractéristiques de dispersion. 11. Utilité.

Colloque Traitement et Analyse de séquences : compte-rendu

Xialong Dai, Siamak Khorram

Le remplacement moléculaire

Algorithmes génétiques

Plus rapide chemin bicritère : un problème d’aménagement du territoire

Safae LAQRICHI, Didier Gourc, François Marmier {safae

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.

Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.

Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.

S.T.S. S.I.O. 1ère année La gestion de projets

Application des algorithmes génétiques

Auto-organisation dans les réseaux ad hoc

YASS : Recherche de similarités dans les séquences d'ADN

Heuristiques A. Introduction B. Recherche d ’une branche

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.

BétonlabPro 3 Leçon N°0 PRÉSENTATION DU COURS

THÈME 8 Le risque et lanalyse coûts-avantages 1. PLAN I.Le risque II.Lanalyse coûts-avantages : application 2.

Algorithme d’addition #1

Algorithmes de filtrage

Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion

Janvier 2012 Les nouvelles épreuves de Sciences économiques et sociales au baccalauréat.

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Algorithme de Bellman-Ford

SUPERVISION A DISTANCE DUNE LIGNE DE CONDITIONNEMENT ORAL FINAL 1 CIAI - Projet Socket.

Courbes de Bézier.

Génération d’un segment de droite

Gestion de Fichiers Tri Interne Efficace et Tri Externe.

Universté de la Manouba

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

L’EVALUATION.

Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.

Ordonnancement de tâches

Projet de Master première année 2007 / 2008

Programmation dynamique

Estimation de la valeur génétique du Pur-Sang Anglais en République Tchèque Franey Anne Frisée Vincent Vanloocke Denis.

Atelier de formation : MAT optimisation II (les graphes).

Pour le chemin le plus court pour tous les couples

Programmation linéaire en nombres entiers : les méthodes de troncature

Recherche heuristique dans les bases de données L’algorithme BLAST

Heuristiques C. Recherche de la meilleure branche . Branch And Bound

Présentation de la méthode des Eléments Finis

"POLYMORPHISME" Plusieurs Formes

Probabilités et Statistiques Année 2009/2010

Seconde partie - cours n°3 Théorie des tests

1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )

Optimisation par les algorithmes génétiques

Institut Supérieur des Sciences Appliquées et de Technologie Sousse

Travaux Pratiques Optimisation Combinatoire

2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.

Recherche de motifs par projections aléatoires

Algorithmes génétiques en optimisation combinatoire

Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.

Recherche heuristique dans les bases de données L’algorithme BLAST

Présentations BIN1001.

Les banques de séquences nucléiques

Probabilités et statistique MQT-1102

Transcription de la présentation:

Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

2 Plan Introduction Problème : recherche de similarités Méthode Exacte Heuristique Graines avec brèches Amélioration

3 Introduction Molécule DADN Structure Deux brins complémentaires Nucléotides (A,T,G,C) Rôle Gènes Évolution au cours des générations

4 Régularité de lADN Un nombre conséquent déléments répétés (30-50% de la séquence) Plusieurs types de répétitions: répétitions en tandem (copies sont juxtaposées). répétitions distantes (copies dispersées) sur une ou plusieurs séquences (similarités). Une particularité ce sont des répétitions dites approchées : différents types derreurs substitution de nucléotides insertion/suppression dun ou plusieurs nucléotides (indels). copies des répétitions distantes évoluent algorithmique du texte doit sadapter à cette spécificité

5 Alignement Local et Score Mettre en évidence ces similarités par un alignement Alignement doit maximiser le Score. Score calculé comme la somme des coûts des opérations unitaires. Exemple match : +1 mismatch : -1 indels: -2 Distinguer les alignements dits significatifs Faible probabilité dapparition « par hasard ». Karlin-Altschul lien entre Score et Significativité (E-value,P- value) TGTTGACTC-CAA |||.||||| ||| TGTCGACTCGCAA

6 Approche Combinatoire Algorithme de Smith-Waterman recherche des alignements locaux de meilleur score Résout le problème de manière exacte. complexité quadratique pour lalgorithme original (programmation dynamique) Crochemore difficilement exploitable en temps raisonnable si les séquences dépassent les nucléotides (ordinateurs actuels).

7 Approche Heuristique La plus employée (FASTA, BLAST) lorsque les séquences sont des chromosomes sur les bases de données Basé sur la recherche de sous-répétitions exactes (graines) dans la répétition approchée. Généralement réalisée en deux étapes Recherche de sous-répétitions exactes (graines). Exemple : recherche de toutes les répétitions de taille fixe k. Extension Une ou plusieurs répétitions exactes donnent lieu à un test dextension Lheuristique concerne ici la possible existence dune ou plusieurs répétitions exactes dans une répétition approchée T Q

8 Dilemme Sélectivité/Sensibilité Sensibilité Éviter de perdre trop de répétitions approchées qui auraient été intéressantes. (faux négatifs) Sélectivité Éviter de considérer trop de répétitions qui savèrent finalement de score trop faible. (faux positifs)

9 Graines compactes Graines avec brèches (Pattern Hunter 02) Choix dun motif avec des brèches de longueur fixée TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC Graines avec brèches TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ######## ##_###_###

10 Critère Annexe La deuxième étape, lextension, est coûteuse. Lutiliser avec parcimonie, en ajoutant un critère annexe. BLAST : le test dextension est réalisé sur chacune des graines. FASTA : simple comptage du nombre de graines pour retenir les régions à étendre. YASS : la taille des groupes de graines. (1) Former les groupes : critères calculés à laide de paramètres statistiques de la séquence. (2) Pour un groupe donné, mesurer le nombre de matchs unitaires connus (CF Exemple) (3) Déclencher une extension si cette taille dépasse un certain seuil.

11 Taille du groupe Exemple: ici, la taille du groupe atteint 19. Cette mesure est maintenue sur chacun des groupes à laide dun automate fini. TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ##_###_###

12 Amélioration Quapporte cette méthode? Elle accélère sensiblement la recherche: Elle se veut plus sensible: à partir dun score fixé.

13 Amélioration

14 Amélioration

15 Amélioration

16 Conclusion Une approche pour la recherche de similitudes propriétés statistiques des séquences approchées critère dévaluation efficace et sensible Solution satisfaisante sensibilité sélectivité

17 ? ? ? Questions