La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

Présentations similaires


Présentation au sujet: "La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003."— Transcription de la présentation:

1 La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003

2 La recherche d'information en bioinformatique 2 Introduction aux problématiques Problème #1: Linformation contenue dans les articles de biologie nest pas stockée sous un format pratique à la recherche et à lexploitation. Solution : Parcourir les banques darticles pour extraire linformation jugée pertinente tel : les réactions entre les molécules et les informations particulières comme la localisation, les synonymes, la grosseur et la séquence de certaines molécules spécifiques.

3 La recherche d'information en bioinformatique 3 …suite des problématiques Problème #2 : vu le grand nombre de protéines il serait intéressant de trouver un moyen de les regrouper selon certains critères pouvant nous aider à déterminer leurs fonctions. Solution : Nous pouvons utiliser la structure secondaire des protéines comme un mot en recherche dinformation et utiliser un algorithme de « clustering ».

4 La recherche d'information en bioinformatique 4 …suite des problématiques Problème #3 : Il y a beaucoup de nouvelles méthodes dans le domaine, mais il nexiste aucun test pour les comparer. Solution : Créer des concours (challenge) pour stimuler lamélioration des techniques et donner une idée de létat de lart.

5 La recherche d'information en bioinformatique 5 Introduction à lextraction dinformation Reconnaître le nom des molécules dans le texte (2 approches): –Fukuda et al. (1998), extraire des noms de protéines et de gènes en se basant sur des critères comme les lettres majuscules, les terminaisons spéciales et les caractères numériques –La création dun corpus spécifique à la biologie Ohta et al. (2000), lutilisation des « Hidden Markov Models » Collier et al. (2000) ou des classificateurs Bayesian Wilbur et al. (1999) améliorent les résultats de recherche. Référence : [1]

6 La recherche d'information en bioinformatique 6 …suite introduction à lextraction dinformation Reconnaître les interactions entre les molécules: –2 méthodes principales : Utiliser la co-occurrences des molécules –Benoit (2000) co-occurrence des noms de gènes –Ding et al. (2002) analyse par rapport au résumé, à un paragraphe ou à une phrase(approche par section). Utiliser des modèles représentant des structures linguistiques spéciales décrivant les interactions entre les molécules –Ng et Wong (1999) modèles, résumés –Wong (2001) augmentation du nombre de modèles, résumés –Yakushiji et al. (2001) analyse complète à laide dune grammaire générale, résumés –Friedman et al. (2001) GENIES, article complet –Putejovsky et Castano (2002) mot inhibit –Leroy et Chen (2002) GeneScene : prépositions au lieu des verbes. Supposé être + performant. Référence : [1]

7 La recherche d'information en bioinformatique 7 Description dune méthode dextraction dinformation GENIES : But : découverte de « pathways » –Partie de phrase à analyser : « Raf-1 active Mek-1 » 1.Résultat de la partie « Tagger » : Raf-1 active Mek-1 2.Résultat de la partie « Pre-Processor » : [ Raf-1, active, Mek-1 ] liste dindexes 3.Résultat des partie « Parser » et « error recovery » : [action, active, [protéine, Raf-1], [protéine, Mek-1]] Référence : [3]

8 La recherche d'information en bioinformatique 8 Introduction au « clustering » et à la taxonomie en bioinformatique Le but est de trouver une façon de regrouper les protéines à laide de certains critères pour arriver à un classement où chacune des catégories représenteraient une famille de protéine. SCOP est un système expert utilisé comme outil de référence dans le cadre de cette étude.

9 La recherche d'information en bioinformatique 9 Petite base de biologie Structure primaire : Séquence de lettres représentant des acide aminés. Structure secondaire : regroupement de séquence dacides aminés (lettres) formant des groupes spécifique appelés hélice alpha, brin bêta et boucle oméga qui sont notés respectivement. Structure tertiaire et quaternaire : Repliement et organisation en structure tridimensionnelle, forme finale de la protéine (pour les fins du présent rapport). Analogie avec la recherche dinformation : Recherche informationStructure des protéines LettreÉléments structure primaire (acides aminés) Mot / Terme Éléments structure secondaire (,, Section / DocumentStructure tertiaire / protéine

10 La recherche d'information en bioinformatique 10 Éléments de structures Référence : [4]

11 La recherche d'information en bioinformatique 11 Description des méthodes utilisées Même que celles de la recherche dinformation : 1.Définition dun ensemble délément à traiter : protéines provenant de la PDB-Select assurant une bonne couverture 2.Calcul de similarité : pattern matching avec wild card 3.Clustering en fonction des similarités calculées : méthode itérative avec matrice de similarité 4.Utilisation dune métrique pour calculer la performance du système : comparaison avec des systèmes comme VAST et SCOP

12 La recherche d'information en bioinformatique 12 Calcul de similarité entre chaque protéine La similarité [0,1] est calculée entre chacune ss-string des protéines de l échantillon de la façon suivante: Soit deux éléments de structure secondaire a,b et L(a), L(b) leurs longueurs respectives. Similarité entre:Valeur a,b type identique min(L(a), L(b)) a,b tel que a ou b est une loop0.5 min(L(a), L(b)) a,b type différent (hélice, strand)0 La valeur est ensuite normalisée en fonction de la longueur moyennes des ss-string.

13 La recherche d'information en bioinformatique 13 Clustering Afin de faire un regroupement (clustering) des protéines, lon utilise une matrice de similarité contenant la distance entres chaque paire de protéine. - La distance d = [1- valeur d'alignement] - Larbre est ensuite construit suivant un Algorithme de type WPG (weighted pair group).

14 La recherche d'information en bioinformatique 14 Exemple de résultats Référence : [2]

15 La recherche d'information en bioinformatique 15 SCOP comme outils de référence Une des principales conclusions de la comparaison avec SCOP est la similitude de Clustering entre notre arbre et le regroupement en famille par SCOP Évaluation de performance: « Clustering score function »

16 La recherche d'information en bioinformatique 16 Clustering-score function (métrique pour calculer la performance du système) td(a,b) = distance topologique entre a et b Clustering-score {A} = ( 2* td(a, b) ) / (n(n-1) ) a,b

17 La recherche d'information en bioinformatique 17 Cluster-scoring function exemple Pour une famille SCOP A ={ 11,12,13,14 } -Pour chaque feuilles de larbre on assigne un poids de 1 et 0 sinon. -Ensuite on calcul de façon récursive: td(a,b) = (Pa + Pb )/ 2 Exemple : Score{11,12,13,14} = ((3 * 0) + ( 3 * 1)) / 6 = 0.5

18 La recherche d'information en bioinformatique 18 Investigation possible Actuellement les caractéristiques de comparaison sont prédéfinies. Il serait intéressant de vérifier sil est possible dextraire des caractéristiques de façon automatique (extraction de feature).

19 La recherche d'information en bioinformatique 19 Besoin de « challenge » pour évaluer les méthodes Nécessite des données pour lentraînement (données + réponses) Nécessite des données secrètes pour le test (données + réponses) Nécessite un mode dévaluation des méthodes

20 La recherche d'information en bioinformatique 20 Exemple de « challenge » dans le domaine de lextraction dinformation 2 niveaux dévaluation : –Niveau du texte lui-même –Niveau de la banque de textes Texte + liste de faits devant être extraits Recall(E) : TP(E)/[TP(E) + FN(E)] Precision(E) : TP(E)/[TP(E) + FP(E)] Façon différente de calculer les TP, FN et FP selon le niveau de lévaluation Classification selon une variation de SMC (simple matching coefficient) nutilisant pas les TN : SMC*(E) = TP(E)/[TP(E) + FN(E) + FP(E)] Définition dune grammaire de définition des structures à évaluer

21 La recherche d'information en bioinformatique 21 Exemple de grammaire

22 La recherche d'information en bioinformatique 22 Fin Questions?

23 La recherche d'information en bioinformatique 23 Références 1)Lynette Hirschman, Jong C. Park, Junichi Tsujii, Limsoon Wong and Cathy H. Wu. Accomplishments and challenges in literature data mining for biology. BIOINFORMATICS REVIEW Vol. 18 no Pages )Teresa Przytycka, Rajeev Arora and George D.Rose, A protein taxonomy based on secondary structure, NATURE STRUCTURAL BIOLOGY - volume 6 number 7 – july 1999, Pages )Carol Friedman, Pauline Kra, Hong Yu, Michael Krauthammer and Andrey Rzhetsky. GENIES : a natural language processing system for the extraction of molecular pathways from journal articles. BIOINFORMATICS Vol. 17 Suppl Pages S74-S82. 4)Donald Voet & Judith G.Voet, Biochimie, BeBoeck-Université page 106.


Télécharger ppt "La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003."

Présentations similaires


Annonces Google