Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.

Slides:



Advertisements
Présentations similaires
Regroupement (clustering)
Advertisements

Accélération du Rendu Volumique basée sur la Quantification des Voxels
Efficient Simplification of Point-Sampled Surfaces
Regroupement (clustering)
Apprentissage relationnel Apprentissage Data Mining ILP.
RECONNAISSANCE DE FORMES
Évaluation de la qualité d'une clusterisation
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Application de réseaux bayésiens à la détection de fumées polluantes
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Méthodes de comparaison entre séquences multi-échelles végétales
Piecewise Affine Registration of Biological Images
Initiation à la bioinformatique
Le remplacement moléculaire
Laurent Labarre AGC - UMR Génoscope
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Introduction à l’Intelligence Artificielle
YASS : Recherche de similarités dans les séquences d'ADN
Yoann Beausse Journée Bioinformatique des Génopoles
Les éléments de base de l’algorithmique
ASI 3 Méthodes numériques pour l’ingénieur
Alignement de séquences multiples
Méthode des k plus proches voisins
Alignement de séquences multiples
Phylogenetik Conception, développement et tests d’un logiciel en java
Prédiction de la structure 3-D des protéines
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Mesures de répartition de la population Claude Marois 2012.
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
1.
Interprétation automatique
Recherche heuristique dans les bases de données L’algorithme BLAST
Types de données fondamentaux
Alignements de séquences par paires
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Arbres binaires et tables de hachage
MIGRATION DE BASE DE DONNÉES la méthode générale
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Sériation et traitement de données archéologiques
1 INFOR 101 Chapitre 4 Marianne Morris. 2 Révision de chapitre 3 Algorithmes Sequential Search Selection Sort Binary Search Ordre de magnitude  (n) Mesurer.
Introduction et Généralités sur l’Algorithmique
Les réseaux de neurones à réservoir en traitement d’images
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Alignement de séquences biologiques
TIPE Les dames chinoises
Soutenance de Stage DEA / DESS
Protéine.
Biochimie Acides Aminés, Peptides et Protéines
Université Farhat Abbas_setif
Exploration immersive de données génomiques textuelles et factuelles
Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.
PAA 1140 Biochimie vétérinaire, cours 9
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Recherche heuristique dans les bases de données L’algorithme BLAST
Chapitre 4 La représentation des nombres.
Présentations BIN1001.
D ELPHINE D ANANCHER, RESPONSABLE SCIENTIFIQUE CEN RA C OLLECTIF R HO M É O.
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
Introduction au langage C
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
L'exécution d'un programme nécessite l'utilisation des ressources de l'ordinateur : temps de calcul pour exécuter les opérations, et l'occupation de la.
Algorithme de Needleman et Wunsch (programmation dynamique)
Transcription de la présentation:

Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo

2 Plan 1.Présentation 2.Etude comparative des codages des acides aminés 3.Alignement de séquences

3 Présentation CRIL = Apprentissage symbolique Bioinformatique: E. MEPHU NGUIFO H. FU H. DELALIN Projets: Génopole Lille

Etude comparative des codages des acides aminés Huaiguo FU Encadrement: E. MEPHU NGUIFO

5 Codage des Acides Aminés Idée: Stocker des informations en plus du caractère. Ex: Alanine = A = 65 (ASCII)= But: Comparer 4 méthodes de représentation binaire des acides aminés afin de trouver la meilleure représentation possible. Huaiguo FU [ Poster, ECCB’02 ] HydChaPolSmaAliAro Ala100100

6 2 codages basés sur les propriétés physico-chimiques des AAs: - Dickerson & Geis (1969) - Sallantin, Marlière & Saurin (1984) 2 codages obtenus par des méthodes d’intelligence artificielle (IA): - Gracy & Mephu - De la Maza (1994) Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]

7 Méthode de comparaison: Clusterisation de chaque représentation (algorithme « Ward ») Analyse manuelle de chaque cluster. Validation grâce à l’algorithme C4.5 Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]

8 Résultats: - Les codages obtenus par apprentissage automatique peuvent refléter une certaine réalité biologique. - Ce n’est pas forcément les codages basés sur les propriétés des AA qui les représentent le mieux. Utilisation possible dans différentes applications Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]

Alignement de séquences Hugues DELALIN Encadrement: E. MEPHU NGUIFO

10 Alignement de séquences. L’objectif de tels algorithmes est de révéler des régions proches. Nécessité de mettre en œuvre des procédures de calcul et des modèles biologiques afin de quantifier la notion de ressemblance entre séquences. On se base sur le principe de parcimonie.

11 Calcul d’un score. Score peut mesurer rapprochement ou éloignement. Attribution d’un score élémentaire pour chaque position. ATGC A1000 T0100 G0010 C0001 Exemple: A T T G C C : : : Score = 3 T T G C C C A T T G C C : Score = 1 T T G C C C A T T G C C : : : : : Score = 5 T T G C C C

12 Gestion des gaps. Fixe : chaque insertion d’une base a le même coût. Affine : définition d’un coût de création de gap et d’un coût d’extension. Variable en fonction de l’endroit où on se trouve dans la séquence. (Argos et Vingron, 1990)

13 Remarques: Le score d’un alignement dépend de la longueur de la zone de similitude que l’on considère. On peut nuancer le calcul du score en donnant plus ou moins d’importance aux pénalités et aux associations possibles entre résidus.

14 Matrices de substitution. Séquences d’ADN: - coût d’un « match » > 0. - coût d’un « mismatch » < 0. Séquences protéiques: - matrices liées à l’évolution. (Dayhoff et al., 1978) (PAM) (Jones et al., 1992) - matrices liées aux caractéristiques physico- chimiques. (Henikoff et Henikoff, 1992) (BLOSUM)

15 Needleman & Wunsh (1970). VTEERDAF L T S H E A L

16 Needleman & Wunsh (1970). VTEERDAF L T S H E A L

17 Needleman & Wunsh (1970). VTEERDAF L T S H E A L

18 Needleman & Wunsh (1970). VTEERDAF L T S H E A L

19 Needleman & Wunsh (1970). VTEERDAF L T S H E A L Résultat: VT-EERDAF LTSHE--AL

20 Utilisation des représentations binaires. On utilise les algorithmes classiques. Les scores élémentaires ne sont plus obtenus grâce à une matrice de substitution. Une opération booléenne entre les représentations des 2 acides aminés que l’on compare sert de base au calcul des scores élémentaires.

21 Choix de l’opérateur booléen. ET logique si on ne s’intéresse qu’à la présence des attributs. XOR: le OU exclusif si on s’intéresse autant à l’absence qu’à la présence des attributs. Exemple: A → 0001 ; L → 0011 A ET L→ 0001 A ¬XOR L → 1101

22 Exemple de résultat: Algorithme de Smith et Waterman (1981) (b) BINALIGN (Gracy & Mephu, 12 attributs) Identité:54/221 (24.4%) Gaps:42/221 (19.0%) d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTDVSFIM_DRFVKVT 43 |||...|...||. |.|.. |..|....|......|....|..|| d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQAERFFKTHLFDWVT 71 (a) EMBOSS (BLOSUM62) Identité:34/173 (19.7%) Gaps:55/173 (31,8%) d1qqp1_ 1 TTSAGESADPVT---TTVENY GGETQIQRRQHTDVSFIMDRFV 40 |||..:|:..||.|.|:: |.||::.:.:||. d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ AERFF 62

23 Perspectives Coût en temps d’exécution et espace mémoire. Mesure de la qualité des alignements obtenus à partir de : - bases connues (CASA, SCOP) - alignements corrigés manuellement. Alignement de structures (DSSP).

24 Références Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C. SCOP: a structural classification of proteins database. Nucleic Acids Res : Kabsch W. & Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features, Biopolymers : Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL Jr. CASA: A Server for The Critical Assessment of Sequence Alignment Accuracy, Bioinformatics. Submitted.