Plate-forme bioinformatique Toulouse-Midi-Pyrénées Génopole C. Gaspin Contexte toulousain en bioinformatique Moyens, missions, actions Présentation des travaux des CDD financés par le RNG - A. Lucas : Site Web pour l ’analyse des données du transcriptome - S. Carère & Y. Beausse : ProDom
Contexte bioinformatique local Plate-forme bioinformatique - Contexte Contexte bioinformatique local Deux pôles historiques - INRA : cartographie génétique & analyse de séquences Multalin, ProDom, RNAlign, Sapssarn, Essa, FrameD, EuGene, iANT Cartagene, MCQTL... - IPBS : biologie structurale (modélisation 3D, dynamique moléculaire,…) Des forces dissiminées et/ou émergentes - INSA : transcriptome, réseaux de régulation - UPS : cartographie génétique, analyse de séquences, analyse des données du transcriptome... - ...
Personnels permanents affectés à la plate-forme Plate-forme bioinformatique - Moyens... Personnels permanents affectés à la plate-forme 1 DR2 INRA (30%) : responsabilité scientifique D. Kahn,C. Gaspin 1 IR INRA (100%) : responsabilité opérationnelle D. Allouche 1 IE CNRS (100%) : opérationnel janvier 2004 J.M. Larré 1 AI INRA unité de centre (X%): sécurité et administration ? Comité bioinformatique : relai entre la plate-forme et les utilisateurs...
Infrastructure matérielle Plate-forme bioinformatique-Moyens... Infrastructure matérielle Services Web ( IBM X440) Machines Projets ou plates-formes (ATG )Calculs intensifs Quadri-processeur DELL (700Mhz, 4Go mémoire 350Go d ’espace stockage) Baie de stockage EMC 1,0To Extensible à 22To (Storage Array Network)
Offrir une infrastructure adaptée et performante Plate-forme bioinformatique- ...missions,actions Offrir une infrastructure adaptée et performante D. Allouche Maintien et évolution de l’infrastructure matérielle Maintien des bases de données Maintien de l ’infrastructure logicielle « Vitrine » des développements locaux 2004 : Renforcement par un cluster de calcul pour accueillir les gros projets Ex: ProDom, SIGENA, biologie structurale,...
Former les utilisateurs Plate-forme bioinformatique-Moyens, missions, actions Former les utilisateurs D. Allouche, C. Gaspin Premier semestre 2004 - Savoir utiliser l ’infrastructure de la plate forme - Analyse des données d ’expression du transcriptome Deuxième semestre 2004 - Alignement de séquences
Offrir un appui aux autres plate-formes Plate-forme bionformatique- ...missions, actions Offrir un appui aux autres plate-formes D. Allouche Activité en croissance ? - Stockage/archivage des données - Développements : jusqu’où ? Plate-formes identifiées - plate-forme séquençage/génotypage Réalisation d ’un LIMS Donnée disponibles via la plateforme bioinformatique Formations - plate-forme protéomique
Appui aux programmes scientifiques prioritaires Plate-forme bioinformatique- ...missions,actions Appui aux programmes scientifiques prioritaires D. Allouche Activité en croissance Participation aux : - encadrement : plusieurs CDD et étudiants - développements : Base de données, LIMS - valorisation : - formation - expertise
Animation autour de la plate-forme Plate-forme bioinformatique-...missions, actions Animation autour de la plate-forme D. Allouche, C. Gaspin Séminaires/rencontres mensuels - Décembre 2003 : Rencontre méthodologique autour du déséquilibre de liaison - Janvier 2004 : Séminaire de génomique comparative Séminaire annuel - Novembre 2004 : bilan des activités
Répondre aux demandes d ’expertise Plate-forme bioinformatique - ...missions,actions Répondre aux demandes d ’expertise C. Gaspin Réunion Orientation vers des compétences locales/extérieures Réponse immédiate
Accès libre à des postes de travail Plate-forme bioinformatique-...missions, actions Accès libre à des postes de travail D. Allouche Locaux : salle de formation INRA (8 postes de travail) Fréquence : 1j/mois puis selon disponibilité Mode d ’accès : planning/inscription Début de mise à disposition : premier semestre 2004 Encadrement : personnel plate-forme
Relations avec les autres génopôles Plate-forme bioinformatique-...missions,actions Relations avec les autres génopôles D. Allouche, C. Gaspin Programmes scientifiques : Séminaire janvier 2004 Ingéniérie de service Formation
En résumé... Des missions prioritaires - Infrastructure - Formation Plate-forme bioinformatique- ...missions,actions En résumé... Des missions prioritaires - Infrastructure - Formation - Communication - Animation Ouverture vers les programmes scientifiques Ouverture vers les autres plate-formes
Développement d ’un site web pour l ’analyse des données d ’expression du transcriptome A. Lucas Encadrement : D. Allouche, C.Cierco, C. Gaspin, S. Jasson
Objectifs Mettre à disposition des outils statistiques et les Développement d ’un site web pour l ’analyse ... Objectifs Mettre à disposition des outils statistiques et les documenter - Normalisation (centrer, réduire, log, combinaison) - Analyse de données (ACP, K-means, SOM, classification hiérarchique...) - Visualisation (Nuage de points, histogramme, boîte à moustaches, dendogramme) Evaluer les outils de classification - Logiciels : temps, mémoire - Méthodes : temps, mémoire, nombre de classes,… Développer des scripts pour l ’échange de données
Réalisation : site web Logiciels de classification Documentation Développement d ’un site web pour l ’analyse ... Réalisation : site web Logiciels de classification - Vue synthétique de tous les logiciels - Fiches pour chaque logiciel - Développements spécifiques (AMAP, CTC) Documentation - Statistique : description des méthodes - Biologie : publications associées Application web - Classification - ACP
Vue synthétique des logiciels Développement d ’un site web pour l ’analyse ... Vue synthétique des logiciels
Développement d ’un site web pour l ’analyse ... Fiche logiciel
Développement d ’un site web pour l ’analyse ... Fiche documentation
Développements spécifiques Développement d ’un site web pour l ’analyse ... Développement d ’un site web pour l ’analyse ... Développements spécifiques Paquetage Amap - http://cran.r-project.org - Amélioration de la classification hiérarchique (mémoire utilisée) - ACP robuste Paquetage CTC - http://bioconductor.org - Interfacer Xcluster avec R - Permettre la visualisation des clusters avec des outils de type TreeView
Evaluation : classification hiérarchique Développement d ’un site web pour l ’analyse ... Evaluation : classification hiérarchique Logiciel Temps Mémoire %bien classés Xcluster 3mn11s 4.8M 90% R:Kmeans 5.10s 13.3M 94.6% R:SOM 2mn11s 16M 92.6% SAS:Fastclus 1.6s 36M 93.8% R:amap/hcluster 2mn23s 394M 90% R:Hclust 2mn21s 1.5G 90% R:Kmeans(1000)+Hclust 4s 25M 94.6% R:Kmeans(50)+Hclust 2.1s 13.7M 91.3%
Conclusion Service utile Accès restreint pour les gros jeux de données Développement d ’un site web pour l ’analyse ... Développement d ’un site web pour l ’analyse ... Conclusion Service utile - Outils bien documentés - Application web s ’appuyant sur R - Scripts disponibles pour passer d ’un logiciel à l ’autre - Utilisé dans le cadre de formations et par quelques biologistes - Développements intégrés dans une dynamique de projet (R, bioconductor) - Evolutivité : Base de données des logiciels et de leurs caractéristiques Accès restreint pour les gros jeux de données