Recherche d'interactions entre gènes dans la littérature Franck Chantelot Alexandre Claude Vincent Zoonekynd DESS Bioinformatique Université de Clermont-Ferrrand Mars 2004
Plan de la présentation ● Introduction ● Choix technologiques ● Algorithmes ● Résultats et perspectives
Introduction ● Les informations sur les interactions entre gènes sont dans des articles de recherche : elles ne sont pas facilement accessibles.
Choix technologiques ● C ● Java (GATE) ● Cliquodromes (Weka) ● R ● Perl ● Python
Perl ● RAD (Rapid Application Development) ● Expressions régulières ● BioPerl, PDL, mod_perl, etc.
Python ● RAD ● BioPython, NumPy, Zope, NLTK, etc. ● Jython ● Langage pédagogique
Algorithme général
Classificateur ● Regarder les mots qui apparaissent souvent ou rarement dans les phrases qui décrivent ou ne décrivent pas d'interaction. ● Combiner ces fréquences pour obtenir une probabilité d'interaction pour chaque phrase
Résultats ● Taux de rappel : pourcentage de phrases trouvées parmi les phrases décrivant des interactions.
Résultats ● Taux de précision : pourcentage de phrases décrivant effectivement des interactions parmi les phrases trouvées
Résultats Précision Faux positifs Rappel Faux négatifs
Résultats ● Taux de rappel : 80% à 90% (10% à 20% de phrases oubliées) ● Taux de précision : 60% (40% de bruit, de résultats incorrects)
Perspectives ● Automatisations ● Découpage ou étiquetage ● Ambiguïtés ● Transformations linguistiques ● Recherche de motifs