NGL-BI 09 Novembre avril 2019 CEA | 10 AVRIL 2012

Slides:



Advertisements
Présentations similaires
Base de données de construction d’Agata Agata France C.Aufranc, O.Stezowski 31 Août 2011.
Advertisements

Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
Sphinx Logiciel d'enquêtes ● Version 4,0 ● Aide à la rédaction ● Aide à l'analyse (croisement des données...)
Page 1 La problématique du décideur La solution du « décisionnel » Les outils existants Mener un projet décisionnel Démo on line Sommaire.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
Sommaire  Historique  Identifier les points clés du jeu  Problématique  Outils utilisés  Organisation de l’analyse vidéo.
SIRH EPICEA - AGORHA Présentation Gestion Administrative 16 septembre 2011 SG-SRH- MISIRH.
Projet ISHTAR : outil de gestion du mobilier archéologique en ligne Étienne Loks (Proxience) Yann Le Jeune (DRAC Pays-de-la-Loire / SRA) Présentation du.
BUR Tableur Tableur : Open Office Calc. BUR Tableur 2 Qu’est-ce qu’un tableur ?  Un logiciel permettant de manipuler des feuilles de calcul  Fonctionnalités.
Introduction Bases de Données NoSQL Principe de base Avantages/Inconvénients L’évolution du Web 2.0 et actuellement Web 3.0, a montrée l’insuffisance des.
WIKITTY Base de données orientée documents et API de persistance pour Java.
A partir du 1er mars 2016 : 2 offres
Les Bases de données Définition Architecture d’un SGBD
Sommaire de la présentation
Choisir le bon format de visualisation pour réussir sa dataviz
SanMarco – Outil MicroStrategy Manuel d’utilisation sur les fonctionnalités 27 juillet 2015.
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Plateforme CountrySTAT Aperçu global des métadonnées dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME CountrySTAT.
PrÉsentation de la Collaboration Interéquipe
Organisation « cible » du traitement des denrées dans une
Visite guidée - session 3 Les postes de charge et les gammes
Jean-Daniel Taupiac Mars 2017
Sous menu de l’application «micro» (‘IHM’)
Information et Système d’Information
Contrôles des données Application aux données d’hydrométrie
Gestion Administrative
Les objectifs du cours Savoir utiliser un Tableur
Profils d’emplois JT du 24 septembre 2001
Les bases de données et le modèle relationnel
Rapport sur département SPU
Présentation de JQUERY
Cyber-Sphinx Séance 2.
Sicpa Ovins-Caprins (Geedoc)
Asynchronous Javascript And Xml
Sicpa Ovins-Caprins (Geedoc) Réforme - Lot Physique - Expérimentation
Structure D’une Base De Données Relationnelle
LES SOURCES D’INFORMATIONS
BANQUE DES DONNEES FINANCIERES CÔTE D’IVOIRE
Outils et principes de base. Exemple d’application  Gestion de données d’enquête : Interface de saisie en ligne  insère directement les données dans.
Compétences Ouest DGAFP1 Professionnaliser le recrutement 9 rue Marcel Sembat – NANTES Tél. : / – E.mail :
Plateforme CountrySTAT Aperçu global des métadonnées dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME CountrySTAT.
Présentation de la base Frantext
Club Utilisateur BO Session du 21/11/2017.
La gestion des habilitations par le partenaire
TGV Trigger Générique Vme Face avant Tri d’événements de physique
9ème journée NRBC Bio | 19 décembre 2013
La création de notices d’exemplaires
Centre d’études et de recherches sur les qualifications
Un outil pour découper les arbres ROOT
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Support de formation Administrateur Compétences
Module 4 – Les Dashboards
Moteurs de recherches Data mining Nizar Jegham.
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
LA CONCEPTION ET L ’AMÉLIORATIOND’UN SYSTÈME DE PRODUCTION SÉANCE 2 GOP.
État d’avancement REGARDS
Le sol et ses mystères Compétences disciplinaires
L’analyse de la valeur des projets informatiques
Alexandra KOROVINA Concepteur Développeur Informatique
Modern Drivers/BIOS Management Joël Surget Octobre 2018
Réalisé par: SAMMARI RIM SOUID AHLEM AMROUCH HAFEDH
Tableaux croisés dynamiques sous Excel et Tableau Software :
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Présentation PISTE pour les partenaires raccordés en API
App Inventor trucs Afficher une image depuis le Web ou Google Drive.
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
Business Intelligence en ACube OLAP et Reporting avec ACubeOLAP et GRaM.
Support de formation Administrateur Compétences
Transcription de la présentation:

NGL-BI 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012 Guillaume Albini | galbini@genoscope.cns.fr Equipe développement et gestion de production 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012

NGL-BI Qu’est ce que c’est ?

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

NGL - périmètre métier Les laboratoires avec lesquels nous interagissons ont besoin d’avoir une traçabilité et une gestion des données sur toutes les étapes que suit un projet de séquençage :    -          Au niveau projet : -  Sur la mise en place d’un projet et la description de la stratégie de séquençage, -  La diversité des types de projet (imputation, organisme séquencé, application, objectifs) avec par exemple certains très grands projets qui requièrent la traçabilité de données supplémentaires propres à chaque échantillon, c’est le cas de Tara. -          Sur la réception des échantillons   Sur la réception des échantillons et leur contrôle qualité, La diversité des types d’échantillon reçus et les informations spécifiques à ces types (ADNg, ARN, amplicons, cellules ou tissus) ; - pour les expériences de séquençage, les problématiques sont : Préparation des librairies jusqu’aux expériences de séquençage o  La diversité des processus de préparation de banques utilisés o    L’automatisation des plateformes, qui implique la saisie/gestion en masse des données et la communication entre le LIMS et les robots, o    L’évolution constante des technologies de séquençage. -          Traitements bio-informatiques, les problématiques pour l’utilisateur sont de : - les statistiques issues des traitements bio-informatiques post-séquençage. o    Visualiser toutes les statistiques nécessaires à l’évaluation des runs et des lots de séquences (nb séquences valides, % duplicats, taxonomie, merging…), simplement et sur la même interface. o    Pouvoir évaluer en masse des centaines d’échantillons appartenant à un même projet, selon des critères pertinents bien définis, rapidement et efficacement, (sans avoir à ouvrir les données lot de séquence par lot de séquence).

NGL - Interactions NGL-S NGL-P NGL-SQ NGL-SUB NGL-BI NGS-RG NGS-BA Metadata NGL-BI NGL-SQ ASSEMBLY Metadata NGS-BA NGS-QC CLEAN Metadata Raw Backup

Ngl-bi - Besoin initial (2012) La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH).

PÉRIMÈTRE DES TRAITEMENTS BIO-INFORMATIQUES Démarrage séquençage Séquençage Equipe Production Génération des séquences temps NGL-BI NGS-RG NGS Workflow Traitements qualités NGS-QC Analyses spécifiques NGS-BA Analyses bio-informatiques Assemblage, annotation, etc… Fin du projet

Ngl-bi - cahier des charges initial (2012) La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH). Traitements qui ne sont pas forcément identiques entre les deux départements. Etre évolutif pour pouvoir stocker des traitements et technologies futurs. Etre capable de stocker différents formats de données (simple, multiple, fichier, image, tableau, objet, etc.). Avoir une notion de validation sur les données obtenues

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

1er niveau d’organisation Corresponds aux notions / objets métiers de NGL-BI RUN Run : expérience de séquençage qui correspond au dépôt d’une flowcell (ou équivalent) sur un séquenceur et générant des readsets. Lane : piste d’une flowcell (ou équivalent) Readset : jeu de données correspondant à un échantillon ayant subi une préparation de banque, déposé sur une piste avec un index donné (ou non indexé). File : fichier contenant les données du Readset. LANE 1 N N READSET FILE N

RUN - Données générales Code couleur : Run valide, Run non valide, Run à « - » Nom du Run Etat (cf. workflow) Type Données d’instrument et de date Données liées à l’évaluation

Readset - Données générales Nom du Readset Code couleur : valide, non valide, à « - » Etat (cf. workflow) Données lié au Run Données liées à l’évaluation

Readset - Données FICHIERS Information d’archivage des données brutes Information de localisation Information sur les fichiers

Readset - Données héritées

2ème niveau d’organisation Les objets principaux peuvent avoir des traitements (0 -> N) RUN Traitement : données obtenues à la suite d’un traitement bio-informatique Un traitement est caractérisé par : Code (identifiant unique au sein de l’objet) Type (définie un ensemble de propriétés) Catégorie (classification du type – ex : qualité) Ensemble de données / statistiques. Les données du traitement Contexte (read1, read2, single, pairs, default) Système de Clé / Valeur Valeur (simple, liste, fichier, image, objet, liste d’objet) Le traitement doit être décrit dans NGL pour être stocké (notion de type) LANE 1 N TREATMENT TREATMENT n READSET FILE N TREATMENT

Traitement - exemple sur le run / LANE http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX

Traitement - exemple sur le READSET http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX

Traitement - exemple sur le READSET http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

Workflows - RôLES Run et Readset Permet d’avoir un suivi sur les objets Permet l’orchestration des pipelines bio-informatiques

Workflows simplifiés RUN READSET Séquençage Read génération Contrôle qualité Evaluation Evaluation Evaluation terminée Disponible / Indisponible

Workflows détaillés RUN READSET Séquençage en cours Séquençage terminé Read generation en cours Read generation terminéé New Contrôle qualité en attente Contrôle qualité terminé Contrôle qualité en cours Read generation en attente Read generation en cours Read generation terminée EVAL. QC en attente EVAL. QC terminée Disponible Indisponible Valide (QC) : OUI Valide (QC) : NON Valide (bioinfo) : OUI Valide (bioinfo) : NON Evaluation en attente Evaluation terminée Evaluation en cours

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

évaluation Sur Run/Lane et Readsets Compte rendus Utilisation de critères d’évaluation (highlights) Validation en masse

Évaluation des runs

Évaluation des runs Comptes Rendus : permet de caractériser la validation (souvent dans le cas du non). Utilisable lors de recherche. Classification par catégorie, liste configurable en base de données.

Évaluation des runs Critères d’évaluation : règles utilisées pour l’évaluation d’un run ou d’un readset. Permet l’affichage d’highlights. Critères configurable et associé au type de Run ou Readset.

Évaluation des runs Highlights : mise en couleur de la cellule d’une statistique au moment où un critère d’évaluation est sélectionné. 3 couleurs possibles (vert, orange, rouge) Détails évaluation : possibilité d’ajouter un commentaire libre.

Évaluation des LANEs

Évaluation des readset Valide QC : évaluation lié à des critères de production. Valide BioInfo : Par défaut prend la même valeur que Valide QC mais peut être changé à postériori. (ex : Readset non valide d’un point de vue production mais utilisable dans un assemblage) => cela détermine l’état final Disponible / Indisponible Comptes Rendus / Critères : liste spécifique aux Readsets.

évaluation des readsets en masse 15 avril 2019

évaluation des readsets en masse 15 avril 2019

évaluation des readsets en masse 15 avril 2019

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

reporting Sur Run et Readsets Filtres de recherche Colonnes additionnelles et configuration Affichage en mode graphique Bilan

Reporting - filtre de recherche Menu déroulant (choix simple ou multiple) Champs de saisie libre Choix dans une liste ou liste de valeur libre Saisie libre en regex ou liste de valeur libre Checkbox

Reporting - filtre de recherche Possibilité de configurer des filtres supplémentaires (ex : sur des propriétés de traitement / échantillons) Définie en base de données au format json

Reporting - colonnes Colonnes par défaut

Reporting - colonnes Colonnes additionnelles (définies en base de données / json)

Reporting - colonnes Colonnes additionnelles (définies en base de données / json) N’importe quel attribut ou propriété (fichier / image) Highlighting applicable sur ces colonnes

Reporting - configuration

Reporting - configuration Configuration prédéfinie de colonnes (définies en base de données / json)

Reporting - configuration Tri Export CSV Affichage détails Groupe (comptage, somme, collecter, etc.) 15 avril 2019

Reporting - vue statistique Z-score Valeur de base * Z-score (variable centrée réduite) : mesure qui permet de connaître la distance d’une valeur à la moyenne en nombre d’écart-type.

Reporting - vue statistique

Reporting - vue statistique

Reporting - BILANS d’activité / bilans de PRODUCTION 15 avril 2019

Reporting - BILANS d’activité / bilans de PRODUCTION Les projets demandant le plus gros effort de séquençage 15 avril 2019

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

customisation Type de Run / Readset / Treatment avec vos propres propriétés Filtres additionnels (Run et Readset) Colonnes additionnelles (Run et Readset) (mode tableau ou graphique) Configurations de colonnes prédéfinies Affichage des données de traitement Critères d’évaluation Run et Readset (highlights) Déclenchement de règles au sein des workflows (ex : envoi de mail, calculs, copie de données, etc.)

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

LIENS Propagation des propriétés depuis l’échantillon jusqu’au Readset en passant par des propriétés d’expérience de NGL-SQ.

LIENS Navigation de NGL-BI vers NGL-SQ et réciproquement Vers NGL-SQ Vers NGL-BI

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

interactions Les interactions passent par une API REST Protocole : HTTP Méthodes : POST, GET, PUT, DELETE (équivalent CRUD) Format des données : JSON Ex : Donne moi le Readset avec le code <code_rs>. URL : http://<server>/readsets/<code_rs> Méthode : GET

interactions Ex : Ajoute un traitement sur le Readset avec le code <code_rs>. URL : http://<server>/readsets/<code_rs>/treatments Méthode : POST Donnée JSON : Compatible avec Perl, Python, Java, curl, wget, etc. => top pour traitement bio-informatique.

Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

Technologies 1.4 3.3 3.3 4.2 4.1* 2.3 1.8 4.0 6.1 5.6 3.4

Pour finir… On ne vous a pas tout montré :-). Notion d’ analyse biologique (traitement de plusieurs Readsets ensembles) Workflows plus complexes et interagissant entre eux Import de Runs extérieurs Fonctionnalités du tableau javascript (ultimate-datatable) NGL-BI : 5 ans d’utilisation Gestion dans 2 contextes différents (Genoscope / CNRGH) Gestion Illumina et Nanopore Environ 30 traitements différents Avantages : Conçu pour du séquençage haut débit Flexible et adaptatif Données accessibles via une API (pas uniquement interface web) Couvre la plupart des besoins (stockage et visualisation données, reporting, évaluation, etc.) Inconvénients : Interface web dépendant de nos traitements (abstraction à faire) On commence à avoir une dette technique (migration en cours et à prévoir) Utilisateur doit passer par les développeurs pour les configurations

Pour finir…MERCi à

Direction Département Service Commissariat à l’énergie atomique et aux énergies alternatives Centre de Saclay | 91191 Gif-sur-Yvette Cedex T. +33 (0)1 XX XX XX XX | F. +33 (0)1 XX XX XX XX Etablissement public à caractère industriel et commercial | RCS Paris B 775 685 019 Direction Département Service CEA | 10 AVRIL 2012 15 avril 2019