Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
2 Plan Introduction Problème : recherche de similarités Méthode Exacte Heuristique Graines avec brèches Amélioration
3 Introduction Molécule DADN Structure Deux brins complémentaires Nucléotides (A,T,G,C) Rôle Gènes Évolution au cours des générations
4 Régularité de lADN Un nombre conséquent déléments répétés (30-50% de la séquence) Plusieurs types de répétitions: répétitions en tandem (copies sont juxtaposées). répétitions distantes (copies dispersées) sur une ou plusieurs séquences (similarités). Une particularité ce sont des répétitions dites approchées : différents types derreurs substitution de nucléotides insertion/suppression dun ou plusieurs nucléotides (indels). copies des répétitions distantes évoluent algorithmique du texte doit sadapter à cette spécificité
5 Alignement Local et Score Mettre en évidence ces similarités par un alignement Alignement doit maximiser le Score. Score calculé comme la somme des coûts des opérations unitaires. Exemple match : +1 mismatch : -1 indels: -2 Distinguer les alignements dits significatifs Faible probabilité dapparition « par hasard ». Karlin-Altschul lien entre Score et Significativité (E-value,P- value) TGTTGACTC-CAA |||.||||| ||| TGTCGACTCGCAA
6 Approche Combinatoire Algorithme de Smith-Waterman recherche des alignements locaux de meilleur score Résout le problème de manière exacte. complexité quadratique pour lalgorithme original (programmation dynamique) Crochemore difficilement exploitable en temps raisonnable si les séquences dépassent les nucléotides (ordinateurs actuels).
7 Approche Heuristique La plus employée (FASTA, BLAST) lorsque les séquences sont des chromosomes sur les bases de données Basé sur la recherche de sous-répétitions exactes (graines) dans la répétition approchée. Généralement réalisée en deux étapes Recherche de sous-répétitions exactes (graines). Exemple : recherche de toutes les répétitions de taille fixe k. Extension Une ou plusieurs répétitions exactes donnent lieu à un test dextension Lheuristique concerne ici la possible existence dune ou plusieurs répétitions exactes dans une répétition approchée T Q
8 Dilemme Sélectivité/Sensibilité Sensibilité Éviter de perdre trop de répétitions approchées qui auraient été intéressantes. (faux négatifs) Sélectivité Éviter de considérer trop de répétitions qui savèrent finalement de score trop faible. (faux positifs)
9 Graines compactes Graines avec brèches (Pattern Hunter 02) Choix dun motif avec des brèches de longueur fixée TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC Graines avec brèches TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ######## ##_###_###
10 Critère Annexe La deuxième étape, lextension, est coûteuse. Lutiliser avec parcimonie, en ajoutant un critère annexe. BLAST : le test dextension est réalisé sur chacune des graines. FASTA : simple comptage du nombre de graines pour retenir les régions à étendre. YASS : la taille des groupes de graines. (1) Former les groupes : critères calculés à laide de paramètres statistiques de la séquence. (2) Pour un groupe donné, mesurer le nombre de matchs unitaires connus (CF Exemple) (3) Déclencher une extension si cette taille dépasse un certain seuil.
11 Taille du groupe Exemple: ici, la taille du groupe atteint 19. Cette mesure est maintenue sur chacun des groupes à laide dun automate fini. TGTTGACTCCCAACGTATCGTAATTCAGC |||.||||.|||.||||||||.||||||| TGTCGACTGCCATCGTATCGTCATTCAGC ##_###_###
12 Amélioration Quapporte cette méthode? Elle accélère sensiblement la recherche: Elle se veut plus sensible: à partir dun score fixé.
13 Amélioration
14 Amélioration
15 Amélioration
16 Conclusion Une approche pour la recherche de similitudes propriétés statistiques des séquences approchées critère dévaluation efficace et sensible Solution satisfaisante sensibilité sélectivité
17 ? ? ? Questions