NGL-BI 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012 Guillaume Albini | galbini@genoscope.cns.fr Equipe développement et gestion de production 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012
NGL-BI Qu’est ce que c’est ?
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
NGL - périmètre métier Les laboratoires avec lesquels nous interagissons ont besoin d’avoir une traçabilité et une gestion des données sur toutes les étapes que suit un projet de séquençage : - Au niveau projet : - Sur la mise en place d’un projet et la description de la stratégie de séquençage, - La diversité des types de projet (imputation, organisme séquencé, application, objectifs) avec par exemple certains très grands projets qui requièrent la traçabilité de données supplémentaires propres à chaque échantillon, c’est le cas de Tara. - Sur la réception des échantillons Sur la réception des échantillons et leur contrôle qualité, La diversité des types d’échantillon reçus et les informations spécifiques à ces types (ADNg, ARN, amplicons, cellules ou tissus) ; - pour les expériences de séquençage, les problématiques sont : Préparation des librairies jusqu’aux expériences de séquençage o La diversité des processus de préparation de banques utilisés o L’automatisation des plateformes, qui implique la saisie/gestion en masse des données et la communication entre le LIMS et les robots, o L’évolution constante des technologies de séquençage. - Traitements bio-informatiques, les problématiques pour l’utilisateur sont de : - les statistiques issues des traitements bio-informatiques post-séquençage. o Visualiser toutes les statistiques nécessaires à l’évaluation des runs et des lots de séquences (nb séquences valides, % duplicats, taxonomie, merging…), simplement et sur la même interface. o Pouvoir évaluer en masse des centaines d’échantillons appartenant à un même projet, selon des critères pertinents bien définis, rapidement et efficacement, (sans avoir à ouvrir les données lot de séquence par lot de séquence).
NGL - Interactions NGL-S NGL-P NGL-SQ NGL-SUB NGL-BI NGS-RG NGS-BA Metadata NGL-BI NGL-SQ ASSEMBLY Metadata NGS-BA NGS-QC CLEAN Metadata Raw Backup
Ngl-bi - Besoin initial (2012) La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH).
PÉRIMÈTRE DES TRAITEMENTS BIO-INFORMATIQUES Démarrage séquençage Séquençage Equipe Production Génération des séquences temps NGL-BI NGS-RG NGS Workflow Traitements qualités NGS-QC Analyses spécifiques NGS-BA Analyses bio-informatiques Assemblage, annotation, etc… Fin du projet
Ngl-bi - cahier des charges initial (2012) La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH). Traitements qui ne sont pas forcément identiques entre les deux départements. Etre évolutif pour pouvoir stocker des traitements et technologies futurs. Etre capable de stocker différents formats de données (simple, multiple, fichier, image, tableau, objet, etc.). Avoir une notion de validation sur les données obtenues
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
1er niveau d’organisation Corresponds aux notions / objets métiers de NGL-BI RUN Run : expérience de séquençage qui correspond au dépôt d’une flowcell (ou équivalent) sur un séquenceur et générant des readsets. Lane : piste d’une flowcell (ou équivalent) Readset : jeu de données correspondant à un échantillon ayant subi une préparation de banque, déposé sur une piste avec un index donné (ou non indexé). File : fichier contenant les données du Readset. LANE 1 N N READSET FILE N
RUN - Données générales Code couleur : Run valide, Run non valide, Run à « - » Nom du Run Etat (cf. workflow) Type Données d’instrument et de date Données liées à l’évaluation
Readset - Données générales Nom du Readset Code couleur : valide, non valide, à « - » Etat (cf. workflow) Données lié au Run Données liées à l’évaluation
Readset - Données FICHIERS Information d’archivage des données brutes Information de localisation Information sur les fichiers
Readset - Données héritées
2ème niveau d’organisation Les objets principaux peuvent avoir des traitements (0 -> N) RUN Traitement : données obtenues à la suite d’un traitement bio-informatique Un traitement est caractérisé par : Code (identifiant unique au sein de l’objet) Type (définie un ensemble de propriétés) Catégorie (classification du type – ex : qualité) Ensemble de données / statistiques. Les données du traitement Contexte (read1, read2, single, pairs, default) Système de Clé / Valeur Valeur (simple, liste, fichier, image, objet, liste d’objet) Le traitement doit être décrit dans NGL pour être stocké (notion de type) LANE 1 N TREATMENT TREATMENT n READSET FILE N TREATMENT
Traitement - exemple sur le run / LANE http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX
Traitement - exemple sur le READSET http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX
Traitement - exemple sur le READSET http://appuat.genoscope.cns.fr:9104/runs/171026_TORNADE_HM2YHBBXX
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
Workflows - RôLES Run et Readset Permet d’avoir un suivi sur les objets Permet l’orchestration des pipelines bio-informatiques
Workflows simplifiés RUN READSET Séquençage Read génération Contrôle qualité Evaluation Evaluation Evaluation terminée Disponible / Indisponible
Workflows détaillés RUN READSET Séquençage en cours Séquençage terminé Read generation en cours Read generation terminéé New Contrôle qualité en attente Contrôle qualité terminé Contrôle qualité en cours Read generation en attente Read generation en cours Read generation terminée EVAL. QC en attente EVAL. QC terminée Disponible Indisponible Valide (QC) : OUI Valide (QC) : NON Valide (bioinfo) : OUI Valide (bioinfo) : NON Evaluation en attente Evaluation terminée Evaluation en cours
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
évaluation Sur Run/Lane et Readsets Compte rendus Utilisation de critères d’évaluation (highlights) Validation en masse
Évaluation des runs
Évaluation des runs Comptes Rendus : permet de caractériser la validation (souvent dans le cas du non). Utilisable lors de recherche. Classification par catégorie, liste configurable en base de données.
Évaluation des runs Critères d’évaluation : règles utilisées pour l’évaluation d’un run ou d’un readset. Permet l’affichage d’highlights. Critères configurable et associé au type de Run ou Readset.
Évaluation des runs Highlights : mise en couleur de la cellule d’une statistique au moment où un critère d’évaluation est sélectionné. 3 couleurs possibles (vert, orange, rouge) Détails évaluation : possibilité d’ajouter un commentaire libre.
Évaluation des LANEs
Évaluation des readset Valide QC : évaluation lié à des critères de production. Valide BioInfo : Par défaut prend la même valeur que Valide QC mais peut être changé à postériori. (ex : Readset non valide d’un point de vue production mais utilisable dans un assemblage) => cela détermine l’état final Disponible / Indisponible Comptes Rendus / Critères : liste spécifique aux Readsets.
évaluation des readsets en masse 15 avril 2019
évaluation des readsets en masse 15 avril 2019
évaluation des readsets en masse 15 avril 2019
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
reporting Sur Run et Readsets Filtres de recherche Colonnes additionnelles et configuration Affichage en mode graphique Bilan
Reporting - filtre de recherche Menu déroulant (choix simple ou multiple) Champs de saisie libre Choix dans une liste ou liste de valeur libre Saisie libre en regex ou liste de valeur libre Checkbox
Reporting - filtre de recherche Possibilité de configurer des filtres supplémentaires (ex : sur des propriétés de traitement / échantillons) Définie en base de données au format json
Reporting - colonnes Colonnes par défaut
Reporting - colonnes Colonnes additionnelles (définies en base de données / json)
Reporting - colonnes Colonnes additionnelles (définies en base de données / json) N’importe quel attribut ou propriété (fichier / image) Highlighting applicable sur ces colonnes
Reporting - configuration
Reporting - configuration Configuration prédéfinie de colonnes (définies en base de données / json)
Reporting - configuration Tri Export CSV Affichage détails Groupe (comptage, somme, collecter, etc.) 15 avril 2019
Reporting - vue statistique Z-score Valeur de base * Z-score (variable centrée réduite) : mesure qui permet de connaître la distance d’une valeur à la moyenne en nombre d’écart-type.
Reporting - vue statistique
Reporting - vue statistique
Reporting - BILANS d’activité / bilans de PRODUCTION 15 avril 2019
Reporting - BILANS d’activité / bilans de PRODUCTION Les projets demandant le plus gros effort de séquençage 15 avril 2019
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
customisation Type de Run / Readset / Treatment avec vos propres propriétés Filtres additionnels (Run et Readset) Colonnes additionnelles (Run et Readset) (mode tableau ou graphique) Configurations de colonnes prédéfinies Affichage des données de traitement Critères d’évaluation Run et Readset (highlights) Déclenchement de règles au sein des workflows (ex : envoi de mail, calculs, copie de données, etc.)
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
LIENS Propagation des propriétés depuis l’échantillon jusqu’au Readset en passant par des propriétés d’expérience de NGL-SQ.
LIENS Navigation de NGL-BI vers NGL-SQ et réciproquement Vers NGL-SQ Vers NGL-BI
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
interactions Les interactions passent par une API REST Protocole : HTTP Méthodes : POST, GET, PUT, DELETE (équivalent CRUD) Format des données : JSON Ex : Donne moi le Readset avec le code <code_rs>. URL : http://<server>/readsets/<code_rs> Méthode : GET
interactions Ex : Ajoute un traitement sur le Readset avec le code <code_rs>. URL : http://<server>/readsets/<code_rs>/treatments Méthode : POST Donnée JSON : Compatible avec Perl, Python, Java, curl, wget, etc. => top pour traitement bio-informatique.
Sommaire NGL-BI au sein de NGL Cahier des charges initial Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…
Technologies 1.4 3.3 3.3 4.2 4.1* 2.3 1.8 4.0 6.1 5.6 3.4
Pour finir… On ne vous a pas tout montré :-). Notion d’ analyse biologique (traitement de plusieurs Readsets ensembles) Workflows plus complexes et interagissant entre eux Import de Runs extérieurs Fonctionnalités du tableau javascript (ultimate-datatable) NGL-BI : 5 ans d’utilisation Gestion dans 2 contextes différents (Genoscope / CNRGH) Gestion Illumina et Nanopore Environ 30 traitements différents Avantages : Conçu pour du séquençage haut débit Flexible et adaptatif Données accessibles via une API (pas uniquement interface web) Couvre la plupart des besoins (stockage et visualisation données, reporting, évaluation, etc.) Inconvénients : Interface web dépendant de nos traitements (abstraction à faire) On commence à avoir une dette technique (migration en cours et à prévoir) Utilisateur doit passer par les développeurs pour les configurations
Pour finir…MERCi à
Direction Département Service Commissariat à l’énergie atomique et aux énergies alternatives Centre de Saclay | 91191 Gif-sur-Yvette Cedex T. +33 (0)1 XX XX XX XX | F. +33 (0)1 XX XX XX XX Etablissement public à caractère industriel et commercial | RCS Paris B 775 685 019 Direction Département Service CEA | 10 AVRIL 2012 15 avril 2019