La recherche d’information en bioinformatique

Slides:



Advertisements
Présentations similaires
Un environnement de développement éducatif
Advertisements

RAS 3,1 Modéliser des situations à l’aide de relations et les utiliser afin de résoudre des problèmes avec et sans l’aide de technologie.
Fabrice Lauri, François Charpillet, Daniel Szer
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.
« Systèmes électroniques »
Classification et prédiction
Regroupement (clustering)
Regroupement (clustering)
Algorithmique et évaluation
Module d’Enseignement à Distance pour l’Architecture Logicielle
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Master Génie Biologique et Informatique, première année
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Sélection automatique d’index et de vues matérialisées
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Initiation au système d’information et aux bases de données
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Christelle Scharff IFI 2004
Le noyau Pages 22 /
Auto-organisation dans les réseaux ad hoc
YASS : Recherche de similarités dans les séquences d'ADN
Initiation à la conception de systèmes d'information
Classification Multi Source En Intégrant La Texture
Annuaires et moteurs de recherche d’information sur Internet
Travail Pratique – Conception et analyse d’algorithmes
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Méthode des k plus proches voisins
1 Initiation aux bases de données et à la programmation événementielle Cours N°9 : Gestion de la cohérence avec des sous-formulaires. Support de cours.
1 1 ST Crolles 2 Université Montpellier II France FTFC 2003 Représentation Unifiée des Performances Temporelles dune Bibliothèque de Cellules Standards.
Recherche Documentaire et traitement de l’information
SYSTEMES D’INFORMATION
SCIENCES DE L ’INGENIEUR
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
66 Utilisation des classes et des objets. 6-2 Objectifs A la fin de ce cours, vous serez capables de : Créer de nouvelles classes à laide de Eclipse Utiliser.
La problématique de la recherche de document Journée de formation 29 février 2008.
« Recherche de méthode d’estimation de volume de production à risque »
Reconnaissance Vocale
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Universté de la Manouba
Ecaterina Giacomini Pacurar
Systeme Question-Reponse SQR
1 Protection des arbres multicast avec une forêt duale Mohand Yazid SAIDI Bernard COUSIN Miklós MOLNÁR 15 Février 2006.
Conception des Réalisé par : Nassim TIGUENITINE.
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
DISCRIMINATION VISUELLE
Projet de Master première année 2007 / 2008
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
IFT6255 – Recherche d’information Jian-Yun Nie
Présentation de la méthode des Eléments Finis
Gérer la sécurité des mots de passe et les ressources
Tutorat en bio-informatique Le 14 novembre Au programme… Les objets –Propriétés (attributs) –Constructeurs –Méthodes.
Sujets spéciaux en informatique I
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Reconnaissance de visage par vidéo
Knowledge discovery in Databases (KDD)
Combating Web Spam with TrustRank. OSINI Aurélien.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Mais d’abord rappelez-vous!!
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

La recherche d’information en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003

Introduction aux problématiques Problème #1: L’information contenue dans les articles de biologie n’est pas stockée sous un format pratique à la recherche et à l’exploitation. Solution : Parcourir les banques d’articles pour extraire l’information jugée pertinente tel : les réactions entre les molécules et les informations particulières comme la localisation, les synonymes, la grosseur et la séquence de certaines molécules spécifiques. La recherche d'information en bioinformatique

…suite des problématiques Problème #2 : vu le grand nombre de protéines il serait intéressant de trouver un moyen de les regrouper selon certains critères pouvant nous aider à déterminer leurs fonctions. Solution : Nous pouvons utiliser la structure secondaire des protéines comme un mot en recherche d’information et utiliser un algorithme de « clustering ». La recherche d'information en bioinformatique

…suite des problématiques Problème #3 : Il y a beaucoup de nouvelles méthodes dans le domaine, mais il n’existe aucun test pour les comparer. Solution : Créer des concours (challenge) pour stimuler l’amélioration des techniques et donner une idée de l’état de l’art. La recherche d'information en bioinformatique

Introduction à l’extraction d’information Reconnaître le nom des molécules dans le texte (2 approches): Fukuda et al. (1998), extraire des noms de protéines et de gènes en se basant sur des critères comme les lettres majuscules, les terminaisons spéciales et les caractères numériques La création d’un corpus spécifique à la biologie Ohta et al. (2000), l’utilisation des « Hidden Markov Models » Collier et al. (2000) ou des classificateurs Bayesian Wilbur et al. (1999) améliorent les résultats de recherche. La recherche d'information en bioinformatique Référence : [1]

…suite introduction à l’extraction d’information Reconnaître les interactions entre les molécules: 2 méthodes principales : Utiliser la co-occurrences des molécules Benoit (2000) co-occurrence des noms de gènes Ding et al. (2002) analyse par rapport au résumé, à un paragraphe ou à une phrase(approche par section). Utiliser des modèles représentant des structures linguistiques spéciales décrivant les interactions entre les molécules Ng et Wong (1999) modèles, résumés Wong (2001) augmentation du nombre de modèles, résumés Yakushiji et al. (2001) analyse complète à l’aide d’une grammaire générale, résumés Friedman et al. (2001) GENIES, article complet Putejovsky et Castano (2002) mot ‘inhibit’ Leroy et Chen (2002) GeneScene : prépositions au lieu des verbes. Supposé être + performant. La recherche d'information en bioinformatique Référence : [1]

Description d’une méthode d’extraction d’information GENIES : But : découverte de « pathways » Partie de phrase à analyser : « Raf-1 active Mek-1 » Résultat de la partie « Tagger » : <protéine>Raf-1</protéine> active <protéine>Mek-1</protéine> Résultat de la partie « Pre-Processor » : [<protéine>Raf-1</protéine>, active, <protéine>Mek-1</protéine>] liste d’indexes Résultat des partie « Parser » et « error recovery » : [action, active, [protéine, Raf-1], [protéine, Mek-1]] La recherche d'information en bioinformatique Référence : [3]

Introduction au « clustering » et à la taxonomie en bioinformatique Le but est de trouver une façon de regrouper les protéines à l’aide de certains critères pour arriver à un classement où chacune des catégories représenteraient une famille de protéine. SCOP est un système expert utilisé comme outil de référence dans le cadre de cette étude. La recherche d'information en bioinformatique

Petite base de biologie Structure primaire : Séquence de lettres représentant des acide aminés. Structure secondaire : regroupement de séquence d’acides aminés (lettres) formant des groupes spécifique appelés hélice alpha, brin bêta et boucle oméga qui sont notés a , b , W respectivement. Structure tertiaire et quaternaire : Repliement et organisation en structure tridimensionnelle, forme finale de la protéine (pour les fins du présent rapport). Analogie avec la recherche d’information : Recherche information Structure des protéines Lettre Éléments structure primaire (acides aminés) Mot / Terme Éléments structure secondaire (a, b, W ) Section / Document Structure tertiaire / protéine La recherche d'information en bioinformatique

Éléments de structures La recherche d'information en bioinformatique Référence : [4]

Description des méthodes utilisées Même que celles de la recherche d’information : Définition d’un ensemble d’élément à traiter : protéines provenant de la PDB-Select assurant une bonne couverture Calcul de similarité : pattern matching avec wild card Clustering en fonction des similarités calculées : méthode itérative avec matrice de similarité Utilisation d’une métrique pour calculer la performance du système : comparaison avec des systèmes comme VAST et SCOP La recherche d'information en bioinformatique

Calcul de similarité entre chaque protéine La similarité Î [0,1] est calculée entre chacune “ ss-string ” des protéines de l ’échantillon de la façon suivante: Soit deux éléments de structure secondaire a,b et L(a), L(b) leurs longueurs respectives. Similarité entre: Valeur a,b type identique min(L(a), L(b)) a,b tel que a ou b est une loop 0.5 min(L(a), L(b)) a,b type différent (hélice, strand) 0 La valeur est ensuite normalisée en fonction de la longueur moyennes des ss-string. La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Clustering Afin de faire un regroupement (clustering) des protéines , l’on utilise une matrice de similarité contenant la “distance” entres chaque paire de protéine. - La “distance” d = [1- valeur d'alignement] - L’arbre est ensuite construit suivant un Algorithme de type WPG (weighted pair group). La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Exemple de résultats La recherche d'information en bioinformatique Référence : [2]

SCOP comme outils de référence Une des principales conclusions de la comparaison avec SCOP est la similitude de “Clustering ” entre notre arbre et le regroupement en famille par SCOP Évaluation de performance: « Clustering score function » La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Clustering-score function (métrique pour calculer la performance du système) td(a,b) = distance topologique entre a et b Clustering-score {A} = ( 2* å td(a, b) ) / (n(n-1) ) a,b Î {A} La recherche d'information en bioinformatique

Cluster-scoring function exemple Pour une famille SCOP A ={ 11,12,13,14 } -Pour chaque feuilles de l’arbre Î A on assigne un poids de 1 et 0 sinon. -Ensuite on calcul de façon récursive: td(a,b) = (Pa + Pb )/ 2 Exemple : Score{11,12,13,14} = ((3 * 0) + ( 3 * 1)) / 6 = 0.5 La recherche d'information en bioinformatique

Investigation possible Actuellement les caractéristiques de comparaison sont prédéfinies. Il serait intéressant de vérifier s’il est possible d’extraire des caractéristiques de façon automatique (extraction de feature). La recherche d'information en bioinformatique

Besoin de « challenge » pour évaluer les méthodes Nécessite des données pour l’entraînement (données + réponses) Nécessite des données secrètes pour le test (données + réponses) Nécessite un mode d’évaluation des méthodes La recherche d'information en bioinformatique

Exemple de « challenge » dans le domaine de l’extraction d’information 2 niveaux d’évaluation : Niveau du texte lui-même Niveau de la banque de textes Texte + liste de faits devant être extraits Recall(E) : TP(E)/[TP(E) + FN(E)] Precision(E) : TP(E)/[TP(E) + FP(E)] Façon différente de calculer les TP, FN et FP selon le niveau de l’évaluation Classification selon une variation de SMC (simple matching coefficient) n’utilisant pas les TN : SMC*(E) = TP(E)/[TP(E) + FN(E) + FP(E)] Définition d’une grammaire de définition des structures à évaluer La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Exemple de grammaire La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Fin Questions? La recherche d'information en bioinformatique

La recherche d'information en bioinformatique Références Lynette Hirschman, Jong C. Park, Junichi Tsujii, Limsoon Wong and Cathy H. Wu. Accomplishments and challenges in literature data mining for biology. BIOINFORMATICS REVIEW Vol. 18 no. 12 2002 Pages 1553-1561. Teresa Przytycka, Rajeev Arora and George D.Rose , A protein taxonomy based on secondary structure, NATURE STRUCTURAL BIOLOGY - volume 6 number 7 – july 1999 , Pages 672-682 Carol Friedman, Pauline Kra, Hong Yu, Michael Krauthammer and Andrey Rzhetsky. GENIES : a natural language processing system for the extraction of molecular pathways from journal articles. BIOINFORMATICS Vol. 17 Suppl. 1 2002 Pages S74-S82. Donald Voet & Judith G.Voet, Biochimie, BeBoeck-Université page 106. La recherche d'information en bioinformatique