Sujet 1 : Wrapper stats sur les jeux de données ARN non codants 2017/11/13 2017/11/13 Sujet 1 : Wrapper stats sur les jeux de données ARN non codants Générer des statistiques de comptage sur des jeux de données de sRNAseq. Les sorties seront des graphiques et des tableaux. Exemples de statistiques - qualité des données à chaque position, avant et après nettoyage des adaptateurs, - distribution de la taille des reads nettoyées des adaptateurs, avec ou sans redondance, taille en abscisse et nombre en ordonnées, - autres indicateurs à chercher par vous -même. Le wrapper Galaxy devra générer un fichier html en output avec un ensemble de graphiques HighCharts (graphiques dynamiques) et des tableaux de données (json html, fichier tabulé à téléchargé ou option HighCharts). Vous serez évalués sur le bon fonctionnement du wrapper, la clarté du rapport rendu, la richesse informative du rapport statistique, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, la documentation utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 1 1
2017/11/13 2017/11/13 Sujet 2 : Wrapper jVenn A partir de données nettoyées, alignées et assemblées en loci, générer un diagramme jVenn illustrant les annotations des loci obtenues. Les banques de données utilisées pour réaliser ces annotations seront miRBase, Silva et GtRNAdb, RFAM tRNA, RFAM snoRNA et RFAM snRNA. Le graphique jVenn représentera pour chaque famille le nombre de loci annotés uniquement dans cette famille et à l'intersection des familles, le nombre de loci qui partagent des annotations différentes. Le wrapper Galaxy devra générer un fichier html en output avec un diagramme jVenn ainsi que des tableaux de données position/annotation. Vous serez évalués sur la clarté du rapport rendu, le bon fonctionnement du wrapper, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 2 2
Sujet 3 : Pipeline sRNAseq 2017/11/13 2017/11/13 Sujet 3 : Pipeline sRNAseq Développer un pipeline qui réalise le comptage des reads (brut et RPKM) s'alignant sur le génome (suite de lignes de commande) puis intégration de ces lignes de commande dans un ou plusieurs wrappers Galaxy (à voir en fonction de l'ordre des calculs au sein du pipeline). Les étapes de traitement sont : 1 - alignement des séquences avec Bowtie2 (ne conserver que les lectures qui s'alignent à 1 seul locus), 2 - comptage brut en utilisant l'outil htseqcount sur plusieurs jeux de données (au moins deux), 3- calcul RPKM (à réaliser à l'aide des outils de manipulation de fichiers). Vous serez évalués sur la clarté du rapport rendu, le bon fonctionnement du wrapper, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 3 3
Sujet 4 : Exploration des outils MirDeep2 existants 2017/11/13 2017/11/13 Sujet 4 : Exploration des outils MirDeep2 existants Evaluer le déploiement des deux deux suites sRNAseq actuellement disponibles dans le ToolShed Galaxy US. Installation sur une instance de tests,et proposer et intégrer les modifications nécessaires à leur bonne installation et au bon fonctionnement de ces outils. Vous serez évalués sur la clarté du rapport rendu, le bon fonctionnement des outils dans l'instance de test, le bon fonctionnement du pipeline, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 4 4
Sujet 5 : Wrapper de génération d'hairpins 2017/11/13 2017/11/13 Sujet 5 : Wrapper de génération d'hairpins Générer des structures secondaires à partir de la lecture majoritaire identifiée à un locus suite à l'alignement. Intégrer les lignes de commande dans un wrapper Galaxy. 1 - En entrée : fichier listant, pour chaque locus, sa lecture majoritaire. 2 - Extraire 80 nucléotides à gauche et à droite. 3 – Nommer les lectures extraites afin de pouvoir les retrouver. 4 - Construire les structures secondaires associées sous forme de structures parenthèsées. Vous serez évalués sur le bon fonctionnement du wrapper, la richesse informative du rapport statistique, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 5 5
2017/11/13 2017/11/13 Sujet 6 : Wrapper listant les structures secondaires parenthésées qui se replient en tiges boucles. Ecrire un programme informatique permettant d'identifier les structures secondaires qui sont de bons candidats « pre-miRNA » à partir d'un fichier contenant la lecture majoritaire ayant permis de générer les deux structures secondaires possibles ainsi que les structures secondaires associées disponibles sous forme parenthésée. Intégrer ce programme dans un wrapper Galaxy. 1 – Evaluer les structures secondaires parenthésées pour ne conserver QUE celles qui se replient en tiges boucles et dont la lecture majoritaire couvre 75 % de l'un des brins de la tige. 2 – Intégrer ces lignes de commande dans un wrapper Galaxy. Vous serez évalués sur le bon fonctionnement du wrapper, la richesse informative du rapport statistique, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 6 6
2017/11/13 2017/11/13 Sujet 7 : Assemblage de lectures en contigs et identification de la lecture majoritaire Calculs en ligne de commande puis intégration de ces lignes dans un ou plusieurs wrappers Galaxy (à voir en fonction de l'ordre des calcul au sein du pipeline). Les étapes de traitement sont : A partir des résultats d'alignement disponibles dans un fichier bam, générer les loci résultant des séquences/lectures chevauchantes et identifier dans ces loci la lecture majoritaire. La sortie attendue donnera les caractéristiques de chaque locus (chromosome, positions de début et de fin, brin, positions de début et de fin de la lecture majoritaire sur ce locus , nombre d'occurrences de la lecture majoritaire). Vous serez évalués sur la clarté du rapport rendu, le bon fonctionnement du wrapper, l'intégration du wrapper dans l'instance de tests, le README lié à l'installation du wrapper sur une instance Galaxy, et la documention utilisateur ainsi que la partie commentaire de l'outil ... et, bien-entendu, du code. 7 7