La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les ontologies : concepts et applications en génomique

Présentations similaires


Présentation au sujet: "Les ontologies : concepts et applications en génomique"— Transcription de la présentation:

1 Les ontologies : concepts et applications en génomique
Bernard Jacq, M2 BBSG 2008 Module GF

2 Les ontologies : concepts et applications en génomique
Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies - La construction d’ontologies - Un exemple concret d’ontologie : Gene Ontology (GO)

3 Pourquoi utiliser des ontologies en Biologie ?
Les ontologies sont une réponse possible, amenée par l’informatique, à plusieurs besoins grandissants de l’ère post-génomique : La nécessité de disposé d’un vocabulaire contrôlé pour décrire notamment l’aspect fonctionnels des gènes et des protéines. La nécessité de disposer de descriptions qui soient valables pour toutes les espèces ou le plus grand nombre d’espèces possibles. La nécessité de structurer et hiérarchiser ces connaissances. La nécessité d’avoir un mode de description utilisable par un ordinateur

4 Définitions: donnée, information, connaissance
Il existe un continuum de complexité et de contenu informationnel croissant entre : donnée, information et connaissance donnée : … --- … information : SOS connaissance : en cas d’alerte, déclencher les secours La connaissance permet de produire de nouvelles données, informations, connaissances : inférence

5 Définition des ontologies
Ethymologiquement, du grec, (participe présent du verbe être), "Partie de la métaphysique qui étudie l’être en tant qu’être, étude des propriétés générales de ce qui existe" (cf Aristote, théorie des Catégories). • Ultérieurement, terme utilisé en histoire de la médecine : étude de l’être de la maladie: doctrine qui prétend étudier l’être de la maladie – des fièvres, notamment – comme si l’être de la maladie existait conformément à un type bien défini, à l’essence. (Robert, Dictionnaire historique de la langue française, Alain Rey, 1994) En Informatique : Gruber " Specification of a conceptualization " Schulze-Kremer "Concise and unambiguous description of principle relevant entities with their potential, valid relations to each other " Crédit: Christine Froidevaux

6 Comment représenter des connaissances dans un ordinateur ?
Il existe au moins 4 modes, de richesse croissante, permettant de décrire des connaissances sous une forme essentiellement textuelle : Listes Thesauri Taxonomies Ontologies NB : Il existe d’autres modes, plus structurés, de stockage des données et représentation des connaissances : Bases de données et bases de connaissances

7 1. Les Listes La forme la plus simple de représentation des connaissances est une liste de l’ensemble des objets d’une catégorie précise donnée (par exemple, la liste des gènes contenus dans le génome humain, la liste de tous les types cellulaires d’un organisme, la liste des espèces vivantes ….), habituellement triée par ordre alphabétique. Une liste est donc la collection de tous les concepts d’un domaine sans aucune relation implicite ou explicite entre eux. La couverture d’un domaine donné au moyen de listes nécessitera d’en élaborer plusieurs et non une seule. Il faudra autant de listes que l’on pourra dénombrer de « sujets » dans le domaine.

8 Les listes se révèlent très utiles pour des applications simples :
Elles sont à la base de toutes les recherches indexées utilisant des mots-clés (les instances des apparitions d’un mot dans un texte sont représentées sous forme d’une liste de mots où chacun est suivi du numéro des pages où il apparaît). On peut les utiliser comme un vocabulaire contôlé pour contraindre et accélérer l’entrée d’informations « validées » dans un système en évitant les ereurs orthographiques et/ou les erreurs typographiques. Exemple : pour rendre compte, de façon simplifiée, des connaissances sur les maladies, 3 listes peuvent suffire : une sur les gènes ou protéines impliquées dans des maldies, une listant les différentes maladies et une décrivant les tissus affectés. Une des limitations évidentes de ce mode de représentation est qu’aucun lien n’est fait entre les différentes listes.

9 2. Les thesauri Un thesaurus peut être défini commme un recueil documentaire alphabétique de termes servant de descripteur pour : analyser un corpus indexer des documents Les Thesauri (singulier : un thesaurus) ont la même structure que les listes avec l’addition d’un composant important : les Thesauri stockent des synonymes (et parfois des termes reliés) pour chaque terme de la liste pour lesquels on en dispose. Un synonyme est un concept identique ou très similaire à une des entrées de la liste, mais ayant une dénomination différente. Des exemples de synonymes pour le terme 'heart attack' dans un thesaurus médical anglais seraient 'myocardial necrosis' et 'cardiac arrest'.

10 Les synonymes sont stockés sous la forme de relations avec les termes principaux du type IS-SYNONYM-OF (est-synonyme-de) : Les synonymes présentent une grande utilité dans l’amélioration de la complétude des recherches basée sur des mots-clés. En étendant une recherche à tous les synonymes d’un concept donné, on peut « récupérer » tous les articles où le(s) synonyme(s) est (sont) utilisé(s) à la place du terme de base. Exemple : Une recherche avec le terme « myocardial infection » stocjé dans un thesaurus retournera aussi des articles où le terme « heart attack » aurait été utilisé, augmentant ainsi la couverture de la recherche.

11 3. Les taxonomies Les taxonomies sont un enrichissement des thesauri dans lesquelles un nouveau niveau de relations est ajouté de façon à structurer les listes avec des liens de type « parent-enfant  ». Les relations sont de la forme « IS-A » (est-un), par exemple 5HT1A IS-A GPCR; Anorexia IS-A Eating Disorder. Prises dans leur ensemble, ces relations permettent la création d’une hierarchie taxonomique de tous les concepts d’un sujet donné. Ceci permet de donner une structure arborescente familière et intuitive à l’organisation des différents concepts :

12 • En plus de la relation « IS-A », la relation « IS-PART-OF »(est-une partie-de » est particulièrement utile dans certains domaines tels que l’anatomie, ou il est ainsi aisé de décrire de façon hiérarchique tous les organes d’un organisme, puis tous les constituants de chaque organe. Exemple: hepatocyte IS-PART-OF lobule, hepatic lobule IS-PART-OF liver. Des taxonomies construites uniquement à partir de relations  «  IS-PART-OF » sont appelées des partonomies. • Il est noter que le terme « taxonomie » est souvent confondu avec le terme « ontologie ».

13 Les taxonomies ont plusieurs types d’applications :
Tout d’abord, elles donnent une vision d’ensemble d’un concept en présentant ses propriétés générales et en les affinant progressivement. Ensuite, la hiérarchisation des concepts offre une classification contre laquelle le contenu d’articles peut être comparé, permettant une catégorisation de ceux-ci. Ceci est d’une grande utilité en recherche d’informations textuelles où un article pourra être indexé comme parlant de tel ou tel sujet. La connaissance de la profondeur dans la hiérarchie des sujets ou mots-clés ayant été indexés permet d ’apprécier le degré de généralisation ou au contraire de spécialisation d’un article.

14 4. Les ontologies Par rapport aux taxonomies, les ontologies ajoutent encore des relations plus riches et plus descriptives entre les concepts. Les ontologies sont le premier niveau de représentation qui commence à combiner des relations entre concepts dans des listes differentes. Exemple : p53 IS-UPREGULATED-IN Breast Cancer on établit un lien entre un concept de la liste «  Targets » list et un de la liste « Diseases ».

15 Les ontologies permettent de disposer d’un moyen riche et puissant de description de tout un domaine entier qui peut être utilisé de plusieurs manières. Au niveau le plus bas : puisqu’elle contient l’essentiel des concepts et relations nécessaires à la description d’un domaine, une ontologie peut être utilisée pour construire des taxonomies, thesauri et listes spécifiques : En sélectionnant les concepts et les relations utilisées, on peut soit : • exporter les concepts pour construire des listes • exporter les concepts et les synonymes pour construire des thesauri • exporter les concepts, les synonymes et les relations « IS-A » pour construire des taxonomies.

16 Récapitulatif Listes Thesauri Taxonomies Ontologies

17 Les ontologies : concepts et applications en génomique
Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies - La construction d’ontologies - Un exemple concret d’ontologie : Gene Ontology (GO)

18 Description détaillée des ontologies
Une ontologie correspond à une Conceptualisation et une structuration d’un domaine d’intérêt • Concepts (gènes, macromolécule) • Relations (IS-A, PART-OF, etc.) • Attributs/rôles (a_pour_fonction, a_pour_produit) • Contraintes (male ou femelle mais pas les 2) • Objets (instances des concepts) • Valeurs (le produit du gène trpA est trytophan-synthetase) • Axiomes (les acides nucléiques de moins 20 résidus sont des oligonucléotides) Crédit: Christine Froidevaux

19 Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) • Deux relations fondamentales (transitives): - is_a : relation sous-classe / classe ex : nuclear chromosome is_a chromosome - part_of : C part_of D signifie que chaque fois que C est présent, C est toujours une partie de D, mais C peut ne pas être présent ex : nucleus part_of cell; les noyaux font toujours partie d’une cellule, mais les cellules n’ont pas toutes des noyaux (bactéries) Crédit: Christine Froidevaux

20 Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (2) • Structure de DAG (Directed Acyclic Graph) : graphe sans circuit

21 Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (3) • Héritage multiple ex : le terme biological process hexose biosynthesis a 2 parents, hexose metabolism et monosaccharide biosynthesis, car biosynthesis est un sous-type de metabolism, et un hexose est un type de monosaccharide • Si un gène est annoté par un terme, il est annoté par les deux termes parents

22 Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (2) • Structure de DAG (Directed Acyclic Graph) : graphe sans circuit Crédit: Christine Froidevaux

23 Description détaillée des ontologies
Rappels : Différences entre une hiérarchie et une ontologie (arborescence vs DAG)

24 Description détaillée des ontologies
Des étapes importantes : Identifier, modéliser les concepts d'un domaine, pertinents pour une/des applications Se mettre d'accord, au sein d'une communauté, sur les termes employés pour se référer à ces concepts Composant réutilisable Réutilisation : généralité, abstraction (reuse) Partage : consensus, standardisation (sharing) Accord sur conceptualisation partagée : engagement ontologique (commitment)

25 Les ontologies : concepts et applications en génomique
Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies - La construction d’ontologies - Un exemple concret d’ontologie : Gene Ontology (GO)

26 Construction d’ontologies (1)
Méthodologie : Processus en V pour assurer la qualité: 1) Spécifier : identifier le domaine et le but de l’ontologie bonne spécification => évaluation et réutilisation possibles 2) Acquérir les connaissances : expertise des biologistes, textes d’articles (text mining), méta-données de bases de données etc. => dresser une liste de questions de compétences 3) Conceptualiser : identifier les concepts-clés du domaine, leurs propriétés et leurs relations; identifier les termes pertinents du langage naturel; structurer le savoir du domaine Crédit: Christine Froidevaux

27 Construction d’ontologies (2)
6) Identifier les relations pertinentes : subClassOf, isa, partOf, hasPart, closeTo, over, under, contains, connected, etc. Utiliser des règles pour combiner les concepts et les relations : partOf est transitive 5) Intégrer : utiliser ou spécialiser une ontologie existante 6) Encoder : choisir un langage de représentation formel 7) Documenter : produire des définitions formelles, informelles, complètes, pour préciser la signification des termes de l’ontologie; donner des exemples 8) Evaluer : déterminer l’adéquation de l’ontologie pour l’application visée; évaluation à faire de façon pragmatique => critères : cohérence, complétude, concision (pas de redondance, avec un bon degré de granularité), etc. Crédit: Christine Froidevaux

28 Construction d’ontologies (3)
9) Prévoir des procédures de mise à jour (ajout, suppression, déplacement dans l’ontologie) et de visualisation Difficultés et pièges à éviter (Schulze-Kremer 2002) : e.g. définir un concept par des négations ; utiliser le terme qu’on définit dans la définition (circularisation) => imperfections de GO ? Are the current ontologies in biology good ontologies ? (Soldatova et King 2005) The reality is that the construction of ontologies is an art rather than a science (Fernandez, METHONTOLOGY) Crédit: Christine Froidevaux

29 Quelques difficultés rencontrées
Construction d’ontologies (4) Quelques difficultés rencontrées terme Mot de la langue naturelle qui désigne un (des) concept(s) : cat, chat, greffier, matou termes qui désignent le concept de chat synonymie : plusieurs termes dénotent le même concept ambiguïté : plusieurs concepts dénotés par le même terme

30 Construction d’ontologies (5)
Quelques difficultés rencontrées Ambiguïté ‘chambre’ : Chambre d'hôtel ? Chambre d'écho ? Chambre des députés ? Chambre d'enregistrement ? Chambre noire ? Chambre funéraire ?

31 Les ontologies : concepts et applications en génomique
Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies - La construction d’ontologies - Un exemple concret d’ontologie : Gene Ontology (GO)

32 Un exemple concret d’ontologie en Biologie moléculaire et Génomique

33 What is GO ? (1) The Gene Ontology (GO) project is a collaborative effort to address the need for consistent descriptions of gene products in different databases. The GO collaborators are developing three structured, controlled vocabularies (ontologies) that describe gene products in terms of their associated : - biological processes, - cellular components, - and molecular functions in a species-independent manner. There are three separate aspects to this effort: first, we write and maintain the ontologies themselves; second, we make cross-links between the ontologies and the genes and gene products in the collaborating databases, and third, we develop tools that facilitate the creation, maintainence and use of ontologies. Credit: Jennifer Clark, GO Editorial Office

34 What is GO ? (2) • Molecular Function Ontology: activités effectuées par des produits de gènes individuels au niveau moléculaire ex : carbohydrate binding and ATPase activity • Biological Process Ontology: série d’événements effectués par un ou plusieurs assemblages ordonnés de fonctions moléculaires ex : mitosis ou purine metabolism NB : un processus biologique n’est pas équivalent à un pathway • Cellular Component Ontology: structure anatomique, groupe de produits de gènes ex : nucleus ou ribosome

35 What is GO? (3) The use of GO terms by several collaborating databases facilitates uniform queries across them. The controlled vocabularies are structured so that you can query them at different levels. For example, you can use GO: - to find all the gene products in the mouse genome that are involved in signal transduction, - or you can zoom in on all the receptor tyrosine kinases. This structure also allows annotators to assign properties to gene products at different levels, depending on how much is known about a gene product. Credit: Jennifer Clark, GO Editorial Office

36 Un exemple d’utilisation de GO dans les bases de données :
The Saccharomyces Genome Database (SGD)

37 Un exemple d’utilisation de GO dans les bases de données :
The Saccharomyces Genome Database (SGD) Molecular Function Biological Process Cellular Component

38 Annotations et « evidence codes » dans GO
• Des recommandations pour annoter un produit de gène : annoter au niveau le plus bas de l’ontologie ; annoter par 0 ou plusieurs termes GO de chaque ontologie de façon indépendante; annoter avec des termes reflétant l’activité normale du gène etc • L’annotation doit indiquer quelle sorte d’évidence est trouvée dans la source citée, entre le produit de gène et le terme GO associé : essentiel pour évaluer la qualité de l’annotation. Un simple vocabulaire contrôlé est utilisé pour stocker l’évidence (expérimentale, prédite, copiée …). Il y a 13 codes d’évidence : • ND : No Data (available) • IC : Inferred by Curator • IDA : Inferred from Direct Assay (Enzyme assay; Immuno fluorescence…) • IEA : Inferred from Electronic Annotation • etc…

39 Quelques statistiques sur GO
Terms: October 2004 terms (defined: 95%) molecular_function: 7913 biological_process: 10677 cellular_component: 1805 October 14, 2008 26212 terms, 98.3% with definitions 15565 biological_process 2226 cellular_component 8421 molecular_function

40 Credit: Jennifer Clark, GO Editorial Office

41 Credit: Jennifer Clark, GO Editorial Office

42 Credit: Jennifer Clark, GO Editorial Office

43 Credit: Jennifer Clark, GO Editorial Office

44 Gene Association file QC - Redundancy

45 Mapping Files - Uniprot keywords and Interpro2GO updated

46 (GO consortium and external) available
! More than 100 tools (GO consortium and external) available Credit: Jennifer Clark, GO Editorial Office

47 Outils dédiés aux ontologies (1)
Credit: Jennifer Clark, GO Editorial Office

48 Outils dédiés aux ontologies (1)
Credit: Jennifer Clark, GO Editorial Office

49 Outils dédiés aux ontologies (1)
Credit: Jennifer Clark, GO Editorial Office

50 Outils dédiés aux ontologies (2)

51 Outils dédiés aux ontologies (2)

52 Outils dédiés aux ontologies (3)

53 Gene ontology : quelques publications
Lomax J, The Gene Ontology Consortium Get ready to GO! A biologist's guide to the Gene Ontology. Brief Bioinform ; 6: Clark JI, Brooksbank C, Lomax J It's all GO for plant scientists. Plant Physiol ; 138: Harris MA, Lomax J, Ireland A, Clark JI The Gene Ontology project. Encyclopedia of Genetics, Genomics, Proteomics and Bioinformatics, Part 4, Bioinformatics [Subramaniam S (ed.), Wiley and Sons, Inc., New York.]. 2005 Arnaud MB, Costanzo MC, Skrzypek MS, Binkley G, Lane C, Miyasato SR, Sherlock G The Candida Genome Database (CGD), a community resource for Candida albicans gene and protein information. Nucleic Acids Res ; 33: D358-D363. Drabkin HJ, Hollenbeck C, Hill DP, Blake JA Ontological visualization of protein-protein interactions. BMC Bioinformatics ; 6: 29. de la Cruz N et al. The Rat Genome Database (RGD): developments towards a phenome database. Nucleic Acids Res ; 33: D485-D491.

54 Gene ontology : quelques publications
Lewis SE Gene Ontology: looking backwards and forwards. Genome Biology ; 6: 103. Haas BJ et al. Complete reannotation of the Arabidopsis genome: methods, tools, protocols and the final release. BMC Biol ; 3: 7. Zhang P, Foerster H, Tissier CP, Mueller L, Paley S, Karp PD, Rhee SY MetaCyc and AraCyc. Metabolic pathway databases for plant research. Plant Physiol ; 138: The Gene Ontology Consortium The Gene Ontology (GO) project in 2006. Nucleic Acids Res ; 34: D322-D326. Stover NA, Krieger CJ, Binkley G, Dong Q, Fisk DG, Nash R, Sethuraman A, Weng S, Cherry JM Tetrahymena Genome Database (TGD): a new genomic resource for Tetrahymena thermophila research. Nucleic Acids Res ; 34: D Hirschman JE et al. Genome Snapshot: a new resource at the Saccharomyces Genome Database (SGD) presenting an overview of the Saccharomyces cerevisiae genome. Nucleic Acids Res ; 34: D

55 Le cours De Génomique fonctionnelle
est maintenant terminé Rendez-vous demain matin Dans cette salle Pour vos présentations Bonne soirée (… et pas de folies !)


Télécharger ppt "Les ontologies : concepts et applications en génomique"

Présentations similaires


Annonces Google