La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

NGL-BI 09 Novembre avril 2019 CEA | 10 AVRIL 2012

Présentations similaires


Présentation au sujet: "NGL-BI 09 Novembre avril 2019 CEA | 10 AVRIL 2012"— Transcription de la présentation:

1 NGL-BI 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012
Guillaume Albini | Equipe développement et gestion de production 09 Novembre 2017 15 avril 2019 CEA | 10 AVRIL 2012

2 NGL-BI Qu’est ce que c’est ?

3 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

4 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

5 NGL - périmètre métier Les laboratoires avec lesquels nous interagissons ont besoin d’avoir une traçabilité et une gestion des données sur toutes les étapes que suit un projet de séquençage :  -          Au niveau projet : -  Sur la mise en place d’un projet et la description de la stratégie de séquençage, -  La diversité des types de projet (imputation, organisme séquencé, application, objectifs) avec par exemple certains très grands projets qui requièrent la traçabilité de données supplémentaires propres à chaque échantillon, c’est le cas de Tara. -          Sur la réception des échantillons   Sur la réception des échantillons et leur contrôle qualité, La diversité des types d’échantillon reçus et les informations spécifiques à ces types (ADNg, ARN, amplicons, cellules ou tissus) ; - pour les expériences de séquençage, les problématiques sont : Préparation des librairies jusqu’aux expériences de séquençage o  La diversité des processus de préparation de banques utilisés o    L’automatisation des plateformes, qui implique la saisie/gestion en masse des données et la communication entre le LIMS et les robots, o    L’évolution constante des technologies de séquençage. -          Traitements bio-informatiques, les problématiques pour l’utilisateur sont de : - les statistiques issues des traitements bio-informatiques post-séquençage. o    Visualiser toutes les statistiques nécessaires à l’évaluation des runs et des lots de séquences (nb séquences valides, % duplicats, taxonomie, merging…), simplement et sur la même interface. o    Pouvoir évaluer en masse des centaines d’échantillons appartenant à un même projet, selon des critères pertinents bien définis, rapidement et efficacement, (sans avoir à ouvrir les données lot de séquence par lot de séquence).

6 NGL - Interactions NGL-S NGL-P NGL-SQ NGL-SUB NGL-BI NGS-RG NGS-BA
Metadata NGL-BI NGL-SQ ASSEMBLY Metadata NGS-BA NGS-QC CLEAN Metadata Raw Backup

7 Ngl-bi - Besoin initial (2012)
La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH).

8 PÉRIMÈTRE DES TRAITEMENTS BIO-INFORMATIQUES
Démarrage séquençage Séquençage Equipe Production Génération des séquences temps NGL-BI NGS-RG NGS Workflow Traitements qualités NGS-QC Analyses spécifiques NGS-BA Analyses bio-informatiques Assemblage, annotation, etc… Fin du projet

9 Ngl-bi - cahier des charges initial (2012)
La gestion des données issues des traitements bio-informatiques pour les 2 départements (Genoscope et CNRGH). Traitements qui ne sont pas forcément identiques entre les deux départements. Etre évolutif pour pouvoir stocker des traitements et technologies futurs. Etre capable de stocker différents formats de données (simple, multiple, fichier, image, tableau, objet, etc.). Avoir une notion de validation sur les données obtenues

10 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

11 1er niveau d’organisation
Corresponds aux notions / objets métiers de NGL-BI RUN Run : expérience de séquençage qui correspond au dépôt d’une flowcell (ou équivalent) sur un séquenceur et générant des readsets. Lane : piste d’une flowcell (ou équivalent) Readset : jeu de données correspondant à un échantillon ayant subi une préparation de banque, déposé sur une piste avec un index donné (ou non indexé). File : fichier contenant les données du Readset. LANE 1 N N READSET FILE N

12 RUN - Données générales
Code couleur : Run valide, Run non valide, Run à « - » Nom du Run Etat (cf. workflow) Type Données d’instrument et de date Données liées à l’évaluation

13 Readset - Données générales
Nom du Readset Code couleur : valide, non valide, à « - » Etat (cf. workflow) Données lié au Run Données liées à l’évaluation

14 Readset - Données FICHIERS
Information d’archivage des données brutes Information de localisation Information sur les fichiers

15 Readset - Données héritées

16 2ème niveau d’organisation
Les objets principaux peuvent avoir des traitements (0 -> N) RUN Traitement : données obtenues à la suite d’un traitement bio-informatique Un traitement est caractérisé par : Code (identifiant unique au sein de l’objet) Type (définie un ensemble de propriétés) Catégorie (classification du type – ex : qualité) Ensemble de données / statistiques. Les données du traitement Contexte (read1, read2, single, pairs, default) Système de Clé / Valeur Valeur (simple, liste, fichier, image, objet, liste d’objet) Le traitement doit être décrit dans NGL pour être stocké (notion de type) LANE 1 N TREATMENT TREATMENT n READSET FILE N TREATMENT

17 Traitement - exemple sur le run / LANE

18 Traitement - exemple sur le READSET

19 Traitement - exemple sur le READSET

20 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

21 Workflows - RôLES Run et Readset
Permet d’avoir un suivi sur les objets Permet l’orchestration des pipelines bio-informatiques

22 Workflows simplifiés RUN READSET Séquençage Read génération
Contrôle qualité Evaluation Evaluation Evaluation terminée Disponible / Indisponible

23 Workflows détaillés RUN READSET Séquençage en cours Séquençage terminé
Read generation en cours Read generation terminéé New Contrôle qualité en attente Contrôle qualité terminé Contrôle qualité en cours Read generation en attente Read generation en cours Read generation terminée EVAL. QC en attente EVAL. QC terminée Disponible Indisponible Valide (QC) : OUI Valide (QC) : NON Valide (bioinfo) : OUI Valide (bioinfo) : NON Evaluation en attente Evaluation terminée Evaluation en cours

24 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

25 évaluation Sur Run/Lane et Readsets Compte rendus
Utilisation de critères d’évaluation (highlights) Validation en masse

26 Évaluation des runs

27 Évaluation des runs Comptes Rendus : permet de caractériser la validation (souvent dans le cas du non). Utilisable lors de recherche. Classification par catégorie, liste configurable en base de données.

28 Évaluation des runs Critères d’évaluation : règles utilisées pour l’évaluation d’un run ou d’un readset. Permet l’affichage d’highlights. Critères configurable et associé au type de Run ou Readset.

29 Évaluation des runs Highlights : mise en couleur de la cellule d’une statistique au moment où un critère d’évaluation est sélectionné. 3 couleurs possibles (vert, orange, rouge) Détails évaluation : possibilité d’ajouter un commentaire libre.

30 Évaluation des LANEs

31 Évaluation des readset
Valide QC : évaluation lié à des critères de production. Valide BioInfo : Par défaut prend la même valeur que Valide QC mais peut être changé à postériori. (ex : Readset non valide d’un point de vue production mais utilisable dans un assemblage) => cela détermine l’état final Disponible / Indisponible Comptes Rendus / Critères : liste spécifique aux Readsets.

32 évaluation des readsets en masse
15 avril 2019

33 évaluation des readsets en masse
15 avril 2019

34 évaluation des readsets en masse
15 avril 2019

35 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

36 reporting Sur Run et Readsets Filtres de recherche
Colonnes additionnelles et configuration Affichage en mode graphique Bilan

37 Reporting - filtre de recherche
Menu déroulant (choix simple ou multiple) Champs de saisie libre Choix dans une liste ou liste de valeur libre Saisie libre en regex ou liste de valeur libre Checkbox

38 Reporting - filtre de recherche
Possibilité de configurer des filtres supplémentaires (ex : sur des propriétés de traitement / échantillons) Définie en base de données au format json

39 Reporting - colonnes Colonnes par défaut

40 Reporting - colonnes Colonnes additionnelles (définies en base de données / json)

41 Reporting - colonnes Colonnes additionnelles (définies en base de données / json) N’importe quel attribut ou propriété (fichier / image) Highlighting applicable sur ces colonnes

42 Reporting - configuration

43 Reporting - configuration
Configuration prédéfinie de colonnes (définies en base de données / json)

44 Reporting - configuration
Tri Export CSV Affichage détails Groupe (comptage, somme, collecter, etc.) 15 avril 2019

45 Reporting - vue statistique
Z-score Valeur de base * Z-score (variable centrée réduite) : mesure qui permet de connaître la distance d’une valeur à la moyenne en nombre d’écart-type.

46 Reporting - vue statistique

47 Reporting - vue statistique

48 Reporting - BILANS d’activité / bilans de PRODUCTION
15 avril 2019

49 Reporting - BILANS d’activité / bilans de PRODUCTION
Les projets demandant le plus gros effort de séquençage 15 avril 2019

50 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

51 customisation Type de Run / Readset / Treatment avec vos propres propriétés Filtres additionnels (Run et Readset) Colonnes additionnelles (Run et Readset) (mode tableau ou graphique) Configurations de colonnes prédéfinies Affichage des données de traitement Critères d’évaluation Run et Readset (highlights) Déclenchement de règles au sein des workflows (ex : envoi de mail, calculs, copie de données, etc.)

52 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

53 LIENS Propagation des propriétés depuis l’échantillon jusqu’au Readset en passant par des propriétés d’expérience de NGL-SQ.

54 LIENS Navigation de NGL-BI vers NGL-SQ et réciproquement Vers NGL-SQ
Vers NGL-BI

55 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

56 interactions Les interactions passent par une API REST
Protocole : HTTP Méthodes : POST, GET, PUT, DELETE (équivalent CRUD) Format des données : JSON Ex : Donne moi le Readset avec le code <code_rs>. URL : Méthode : GET

57 interactions Ex : Ajoute un traitement sur le Readset avec le code <code_rs>. URL : Méthode : POST Donnée JSON : Compatible avec Perl, Python, Java, curl, wget, etc. => top pour traitement bio-informatique.

58 Sommaire NGL-BI au sein de NGL Cahier des charges initial
Organisation des données Workflows Evaluation Reporting Customisation Liens avec les autres applications NGL Interactions Technologies Pour finir…

59 Technologies 1.4 3.3 3.3 4.2 4.1* 2.3 1.8 4.0 6.1 5.6 3.4

60 Pour finir… On ne vous a pas tout montré :-).
Notion d’ analyse biologique (traitement de plusieurs Readsets ensembles) Workflows plus complexes et interagissant entre eux Import de Runs extérieurs Fonctionnalités du tableau javascript (ultimate-datatable) NGL-BI : 5 ans d’utilisation Gestion dans 2 contextes différents (Genoscope / CNRGH) Gestion Illumina et Nanopore Environ 30 traitements différents Avantages : Conçu pour du séquençage haut débit Flexible et adaptatif Données accessibles via une API (pas uniquement interface web) Couvre la plupart des besoins (stockage et visualisation données, reporting, évaluation, etc.) Inconvénients : Interface web dépendant de nos traitements (abstraction à faire) On commence à avoir une dette technique (migration en cours et à prévoir) Utilisateur doit passer par les développeurs pour les configurations

61 Pour finir…MERCi à

62 Direction Département Service
Commissariat à l’énergie atomique et aux énergies alternatives Centre de Saclay | Gif-sur-Yvette Cedex T. +33 (0)1 XX XX XX XX | F. +33 (0)1 XX XX XX XX Etablissement public à caractère industriel et commercial | RCS Paris B Direction Département Service CEA | 10 AVRIL 2012 15 avril 2019


Télécharger ppt "NGL-BI 09 Novembre avril 2019 CEA | 10 AVRIL 2012"

Présentations similaires


Annonces Google