Intégration des données sur le transcriptome Laure Berti-Equille IRISA Fouzia Moussouni Emilie Guérin INSERM U522 Nous allons présenter dans cet exposé un premier aspect de l’utilisation du concept d’ontologie pour l’extraction de la connaissance biologique sur les gènes et leurs séquences. Cette connaissance est intégrée dans un travail en cours qui consiste en la construction d’un environnement intégré bioinformatique pour l’analyse du transcriptome hépatique. C’est un travail collaboratif entre Laure Berti de l’irisa, Emilie Guérin doctorante en bioinformatique de l’unité INSERM U522 et moi même. Université de Rennes I 16/04/2017 Journée de travail GDR-I3
Journée de travail GDR-I3 Plan Contexte d ’application : ExpérienceTranscriptome Problématique de l’intégration des données biologiques Proposition technique : l’environnement Gedaw Processus d’intégration des données biologiques Conclusion et perspectives Pour cela, nous allons présenter les choses selon ce plan : D’abord, le contexte bioinformatique en rendant compte à la fois sur l’émergence forte des données dans ce domaine et la nécessité de technologies avancées pour les prendre en main. Ceci vous sera illustrée par une brève escapade en biologie moléculaire et plus précisément sur le transcriptome. La nécessité d’un environnement intégré bioinformatique ou entrepôt de données scientifique sur l’expression des gènes, vous sera présenté, comme un outil efficace pour : 1 - stocker et gérer les données générées par les expériences 2 - puis intégrer afin d’assiter au mieux leurs analyse, toute la connaissance extraite sur les gènes exprimés, La partie 2 aborde le problème épineux de l’integration à cause de l’existence de multitudes de sources. Nous focaliserons sur la réalisation de l’intégration d’une partie de cette connaissance à savoir les séquences. On insistera en conclusion sur le fait que les ontologies et les règles de mapping sont les seules solutions pour une intégration avec bonne réconciliation des sémantiques. 16/04/2017 Journée de travail GDR-I3
Forte émergence des données génomiques Génomes complets d’une vingtaine d’organismes Certains toujours en cours de séquençage séquençage du génome humain Données Séquence défi posé par les biologistes : trouver toute nouvelle piste les informant sur la fonction d ’un gène multitude de données, variées, riches et complexes à analyser défi posé par les informaticiens : fournir des outils avancés pour intégrer et gérer et analyser ces données Données expérimentales En effet face à l ’émergence d’une pléthore de données (le séquençage du génome humain….), le biologiste pose comme défi de trouver toute nouvelle piste et la moindre nouvelle information le renseignant sur la fonction d’un gène, et plus généralement de comprendre mieux le fonctionnement de la machinerie cellulaire. Le défi du bio-informaticien face a ces données, est de fournir des outils avancés pour pouvoir les prendre en main (c ’est à dire les capturer, les organiser, puis les analyser pour en tirer des informations de valeurs et utile aux biologiste. Sur le plan des données et des outils, leur richesse, leur hétérogénéité ainsi que leur dissémination est un vrai problème. Le biologiste étant toujours confronté à la connaissance pour tirer des conclusions (ce qui n ’est point le cas pour un mathématicien ou un informaticien, ou règles et axiomes sont utilisées pour tirer des conclusions). Le biologiste se retrouve donc à rechercher continuellement des informations hétérogènes provenant de sources différents, il passe aussi un temps considérable à sélectionner les outils et à déchiffrer les résultats relatifs à chaque outil. Ce processus majoritairement manuel fait certainement barrière au progrès. Données du transcriptome Données d ’interactions protéines Données d ’invalidation des gènes 16/04/2017 Journée de travail GDR-I3
Intégration dans un entrepôt Fournir des technologies avancées pour prendre en main la gestion et l’analyse des données Environnement intégré : besoin de capturer cette connaissance et de l’intégrer, mais seulement sur un thème d’intérêt, à partir de sources multiples, en vue d ’une meilleure assistance de l ’analyse. Source1 séquences Source2 bibliographie Intégration dans un entrepôt Nettoyage Unification Analyse Source1 expérience1 Le besoin d ’intégrer une partie de cette connaissance se ressent de plus en plus dans la communauté scientifique en bioinfo. Ceci pour des fins d ’analyse dans un domaine bien précis, par exemple intégrer des données, pathologie et organe spécifique, que ce soient en terme d ’expériences publiées, de bibliographie, de sequences, de données cliniques … etc et tout ce qu ’on peut extraire comme connaissance acquise sur nos données d ’intérêt afin de mieux assister et cibler l’analyse. Cette connaissance pouvant être remises en cause comme c’est le cas souvent en biologie où les données sont spéculatives. On se trouve alors confronté à un problème assez épineux en informatique qu’est l’unification et le nettoyage avant intégration, le stockage et l ’analyse de ces données. Source1 expérience2 16/04/2017 Journée de travail GDR-I3
Brève escapade en biologie moléculaire Cadre de l’étude : Brève escapade en biologie moléculaire Génome Programme d’instructions de toute cellule vivante Gènes Les instructions : les gènes, sont codées sous une forme chimique le long d ’une molécule d ’ADN formant le chromosome Les instructions contenues dans l'ADN sont codées dans un alphabet chimique à 4 signes, les nucléotides (ou bases), qu'on symbolise par les lettres A, T, G et C. Tout d ’abord, une brève escapade en bio mol afin de mieux comprendre les choses : comme tout le monde le sait (tellement c’est assez bien médiatisé) le génome est un programme d ’instructions de toute cellule vivante. Les gènes qui sont en fait, les instructions sont codés sous une forme chimique le long d ’une molécule d ’ADN formant le chromosome. Les instructions codées dans un alphabet ... 16/04/2017 Journée de travail GDR-I3
ADN, ARN, Protéines : 3 molécules séquencées Les instructions contenues dans l'ADN sont codées dans un alphabet chimique à 4 signes, les nucléotides (ou bases), symbolisés par les lettres A, T, G et C. ADN du noyau ARN : INTERMEDIAIRE. transporte l'information de son lieu de stockage à son lieu d'utilisation. C'est une copie partielle de l'ADN. Machinerie cellulaire Le processus de traduction (ou exécution en terme informatique) d’un gène donne lieu à une protéine, porteuse d ’énergie et munie d ’une fonction bien définie dans la cellule. Pour la réalisation de ce processus, les gènes codant les instructions vont être : lus et copiés dans une forme intermédiaire appelée ARNm (c’est ce qu’on appelle la transcription), puis épissée (dépourvue de leurs partie non codantes : introns) puis traduite en protéine fonctionnelle dans la cellule. Cette protéine acquiert une structure dans l’espace qui lui confère des propriétés fonctionnelles. PROTEINE : acquiert en plus une structure dans l'espace qui lui confère des propriétés fonctionnelles dans la cellule. 16/04/2017 Journée de travail GDR-I3
Transcriptome & DNA microarray Étude de la réponse transcriptionnelle d’une cellule Normal Pathologique Traitements alimentaires ou chimiques la surcharge en fer dans l ’hépatocyte du foie humain (INSERM U522) Malformation génétiques Facteur de croissance ou de stress Par rapport a ces trois processus : transcription, épissage et traduction, le transcriptome n’est rien d ’autre que l’étude de la réponse transcriptionnelle (quantité d ’arnm) dans la cellule face à diverses conditions environnementales, telles que : des traitements alimentaires ou chimiques et en l’occurrence face à la surcharge en fer dans le foie et plus spécifiquement l’hépatocyte (favorisant des maladies chroniques telle cyrrhose, fibrose et cancer) qui est au centre d’intérêt des chercheurs de l’unité INSERM dans laquelle je travaille avec Emilie Guérin, en collaboration avec Laure Berti de l’irisa rennes. Face à des malformations génétiques face à des facteurs de croissance ou de stress La réponse de la cellule est matérialisée par comment certains gènes peuvent être excessivement exprimés (ou non) dans deux situations différentes : par exemple normal versus pathologique. Ceci est faisable par l’immobilisation de la copie d’ADN de gènes sélectionnés, sur un support solide, et leur hybridation par des échantillons d’ARN extraites à partir de tissus en étude (par exemple tissu foie normal, versus tissu foie tumoral). Si les transcrits des gènes déposés sont présent dans l ’ARN extrait, alors un signal d ’hybridation sera viable (vert ou rouge ici) L ’objectif est de trouver quels sont parmi les gènes déposés, ceux qui sont anormalement exprimés dans les tissus lésés. Ceci conduira sûrement à des moyens surs de diagnostic de la maladie et pointera vers de nouveaux marqueurs ou cibles thérapeutiques. Cependant déterminer si UN gène s’est exprimé fortement ou faiblement est une tache routinère pour un biologiste. Mais les choses deviennent plus complexes lorsque les données d’expression générées deviennent massives. 16/04/2017 Journée de travail GDR-I3
Expérience Transcriptome Dépôt de plusieurs milliers de gènes sur la puce 1 mesure du niveau d’expression = intensité du spot Génération intensive de données capture organisation intégration Analyse intensive de données Clustering gènes sous-exprimés gènes sur-exprimés gènes inchangés Data mining : Extraire les interrelations implicites à partir des données brutes En effet, une puce à ADN est utilisée et des milliers de séquences de gènes peuvent être déposées sur une grille bidimentionnelle (par exemple un génome entier, ou alors seulement les gènes du foie …) Chaque gène est représenté par un seul spot. Et son niveau d ’expression est mesuré par l ’intensité du spot. Chaque spot représente donc un gène exprimé. Mais avec un gène qui a de multiple facettes. Car l ’interprétation de ce seul spot nécessite le recours à de nombreuses informations relatives au gène. i.e tout ce qui est connu en littérature, dans les banques de données publiques (séquences, protéines produites et interactions avec d ’autres, ..etc), son expression dans d ’autres expériences transcriptome publiées par des équipes travaillant sur le même thème (ou pas!)…etc Ceci conduit à une génération intensive et une analyse intensive de données. Un des challenges est comment capturer cette connaissance, l’organiser et l’integrer, afin de mieux assister l’analyse. 1 spot = 1 gène avec ses multiples facettes 16/04/2017 Journée de travail GDR-I3
pour le transcriptome hépatique Données expérimentales (laboratoire) L’entrepôt GEDAW pour le transcriptome hépatique Données expérimentales (laboratoire) Données cliniques GEDAW Gène Expérience Données bibliographiques Clustering Analyse des gènes ANALYSE Requête C’est pour cela que ce projet a été initié à l’unité U522. Il intègre à ce jour des données expérimentales sur le foie de l’équipe et des données sur les séquences des gènes exprimés présentes dans les banques publiques. C ’est cette partie qui vous sera présentée par Laure Berti. A terme l ’entrepot confrontera ces données à : des données d ’expression en provenance d ’autres équipes des données biobliographiques des sur les interactions protéines connues pour les produits des gènes exprimés données cliniques qui pourraient provenir du groupe « études cliniques en hépatologie » du CHU de rennes. … etc et selon la question posée (ou le data mart) aller trouver l ’information et l ’intégrer pour y répondre. La modélisation de cet entrepôt a été achevée et a permi de dégager cinq domaines de classes interactifs. Plus spécifiquement, Laure va vous parler de la partie qu ’on a réalisé sur l’intégration de la connaissance du gène concernant sa séquence à partir de sources publiques. C ’est à dire tout ce qu ’on peut retirer sur les constituants de la séquences en détail, et une représentation claire des scénarios transcription, traduction, et des molécules produites dans chaque étape (ARNm jusqu ’a la protéine fonctionnelle). Bases de données publiques Genbank EMBL Swissprot 16/04/2017 Journée de travail GDR-I3
Intégration des séquences des gènes exprimés Genbank / EMBL 1 spot = 1 séquence No d ’accession description - importation - tri - intégration GEDAW 16/04/2017 Journée de travail GDR-I3
Procédure d’import et d’intégration 3. INSTANCIATION DU MODELE Genbank 1. DEFINITION DU MODELE XML le modèle de données de la séquence d’un gène Import des fiches 2. IMPLANTATION DU MODELE Parcours des fiches Tri des informations Description des classes en langage objet (Java) Intégration-persistance des données dans l ’entrepôt ENTREPOT GEDAW 16/04/2017 Journée de travail GDR-I3
Définition du modèle conceptuel Diagramme de classes UML Représentation de la réalité biologique 16/04/2017 Journée de travail GDR-I3
Réalisation - Environnement Orienté Objet Implantation du modèle dans l ’entrepôt : Support de l’entrepôt = SGBDO POET Pourquoi Objet ? 1. Description des classes en langage Java 2. Déclaration des classes persistantes 3. Pré-compilateur POET compilateur Java - création du dictionnaire - création de la base de données 16/04/2017 Journée de travail GDR-I3
Réalisation - Instanciation du modèle - importation de données à partir de banques du Web - utilisation du format de données structuré : XML, proposé par GenBank du NCBI (une des rares banques). Coordinateur 2. Réponse : no d’accession 3. 1. Interrogation de la base < > Importateur Fiche XML 4. Nettoyeur < > Fiche nettoyée 5. Chargeur 6. ARNm GEDAW 16/04/2017 Journée de travail GDR-I3
Instanciation du modèle : coordination Le script Coordinateur GEDAW Expérience Gene Coordinateur - ARNm incomplets? Requête OQL - Pour chaque no d ’accession: Faire Fait ARNm nouveau Importateur Polypeptide Gène 16/04/2017 Journée de travail GDR-I3
Instanciation du modèle : Importation http://www3.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=2&form=1&term=XM_004413 1. 1ère connexion au site GenBank Récupération du numéro GI http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=Nucleotide&list_uids=14752113&dopt=GenBank 2. 2ème connexion au site GenBank 3. Import de la fiche au format XML Instanciation d ’un nouvel objet Nettoyeur 16/04/2017 Journée de travail GDR-I3
Instanciation du modèle : Nettoyage Le script Nettoyeur <Seqdesc> <Seqdesc_source> <BioSource> <BioSource_genome>1</BioSource_genome> <BioSource_org> <Org-ref_taxname>Homo sapiens</Org-ref_taxname> Fiche XML Parser XERCES (SAX) < BioSource_genome>1</BioSource_genome> Nom d ’élément : BioSource_genome Contenu : 1 XML QueryEngine Query= “//BioSource_genome” Est-ce le bon élément ? Écriture de l’élément dans un fichier texte OUI < BioSource_genome>1</BioSource_genome> NON Attente de l’élément suivant 16/04/2017 Journée de travail GDR-I3
Instanciation du modèle : Requêtage Mise au point des requêtes pour couvrir le modèle : - repérer le niveau de l’élément dans la hiérarchie du document XML (Utilisation de la DTD et d ’exemples de fiches XML) - établir des requêtes en utilisant : paths, opérateurs d’union, filtres de sélection - compromis entre requêtes trop généralistes et requêtes trop précises GENE COLLECTION DESCRIPTION EXON INTRON DEBUT 23 132 TITRE Gène HFE FIN 89 226 90 131 Requête : // GENE / COLLECTION / EXON[2] / ( DEBUT | FIN ) 16/04/2017 Journée de travail GDR-I3
Instanciation du modèle : Chargement Le script Chargeur fichier texte <Gene>gene1</Gene> <Titre>HFE</Titre> <Collection> <Intron>intron1</Intron <Exon>exon1</Exon> ………. gene1 titre_ : HFE Région intron1 Régiontran exon1 ARNm1 FragARNm GEDAW FragARNm utr5 ORF UTR3 Polypeptide - Extraction de l ’information - Instanciation des classes - Persistance des objets dans l’entrepôt 16/04/2017 Journée de travail GDR-I3
Journée de travail GDR-I3 Conclusion et perspectives Ontologie pour l’intégration des données semi-structurées et l’unification des schémas (modèle de genbank vs. modèle de Gedaw) Échange avec d’autres ontologies (GO, MIAME, MAML) Réconciliation des conflits Procédures de rafraîchissements Techniques de pré- et post-intégration pour mieux contrôler la qualité des données biologiques I will probably present things according to this plan: First say something about transcriptome experiments and what is about ? Then we introduce the need of an integrated environement as an effective tool for : 1. managing, integrating and storing the data generated by the experiments 2. And second for analysing them along with the web extracted available knowledge on the expressed genes, to better assist the analyses The part two tackles the integration problematic because of the multiple and complex existing sources. Ontologies and mapping rules are proposed as a solution for a good semantics reconcialtion. We will illustrate with an example. Some relavant queries addressed to the various data, once integrated, are proposed. We will finish with a conclusion at last. 16/04/2017 Journée de travail GDR-I3