Montagne Sainte Geneviève- Plate forme Transcriptome Genopole Ile de France Montagne Sainte Geneviève- Plate forme Transcriptome ENS. Claude Jacq Institut Curie. Philippe La Rosa
La bioinformatique connectée à la plate-forme puces à ADN de l’École Normale Supérieure Bioinformatique des Génopoles, Lyon 22 oct 03 Claude JACQ: jacq@biologie.ens.fr, http://www.biologie.ens.fr/lgmgml/
1. Apports des outils informatiques à l’analyse des données d’expression des génomes
Les différentes étapes d’une expérience de puces à ADN où la bioinformatique est impliquée Étapes expérimentales Analyse des données Mise au point expérimentale • Puces commerciales • Puces “maison” Available Database Hybridation des puces Fouille de données Analyse de l’image Représentation informative des données Traitement des données brutes - Normalisation Analyse statistique Stockage Regroupement Traitement des données
Mise au point des puces à ADN • Sélection d’oligonucléotides spécifiques (ESPCI) DB ARNm RefSeq > GLUR4 tgcggatttgagattattaaaagggggc > VIP atggggccgatatatgtaccttagggttaat > RAT > SOURIS > HUMAIN > … Melted-Blast geoffroy.golfier@espci.fr marie-claude.potier@espci.fr Oligonucléotides Spécifiques Melting Mfold Hybridation T° Formamide % Salt concentration Hybridation T° Salt concentration DB OLIGOS SOL sélectionne des oligonucléotides spécifiques pour chaque séquence soumise. Les utilisateurs peuvent choisir pour les oligonucléotides des paramètres pour définir la taille, le rapport en GC et les conditions expérimentales comme la température d’hybridation, le pourcentage de formamide ou la concentration en sels. http://www.bionet.espci.fr/soft.html
Recherche de données significatives: Varan • Varan pour l’analyse de la variabilité des expériences de puces à ADN (ESPCI) N(m,s) Rinf0.99 Rsup0.99 m-2s m+2s log2 (ICy5/ICy3) geoffroy.golfier@espci.fr marie-claude.potier@espci.fr log2(ICy5/ICy3) Varan utilise une approche statistique qui définit le domaine expérimental de variabilité et donne une analyse statistique de l’expression différentielle dépendante du niveau d’expression des gènes. Plusieurs méthodes de normalisation peuvent être utilisées. (log10(ICy3) + log10(ICy3))/2 http://www.bionet.espci.fr/varan/varan_info.htm
Expression non significative Cy3/Cy5 ratio > 0.5 et < 2 La normalisation des données: ArrayPlot • Arrayplot permet la normalisation rapide des données des puces (ENS) Expression non significative Cy3/Cy5 ratio > 0.5 et < 2 - Arrayplot offre une interface utilisateur facilitant la visualisation de la distribution des données et des gènes dont la variation est la plus significative. - Arrayplot permet de calculer le facteur de normalisation basé sur la moyenne des intensités. Intensités Cy5 Gènes réprimés Gènes induits philippe.marc@biologie.ens.fr Intensités Cy3 http://www.biologie.ens.fr/fr/genetiqu/puces/publications/arrayplot/index.html Marc P, Jacq C. Arrayplot for visualization and normalization of cDNA microarray data. (2002) Bioinformatics 18(6):888-9
Base de données pour la publication Base de données publiques Gestion des données obtenues avec les puces à ADN Base de données pour la publication Base de données publiques PostgreSQL & PHP Internet Base de Données et Serveur Web Intranet Lecture obtenue avec le scanner Données publiées Images Données brutes Données normalisées Données brutes Données normalisées Analyse d’images Normalisation Interface Web Levure / Souris Toutes les étapes impliquées dans les expériences de puces à ADN sont stockées dans une base de données et accessibles pour tous les utilisateurs via une interface web graphique indépendante de la plate-forme logicielle utilisée pour interroger la base de données.
Un élément central: le LIMS Laboratory Information Management System • Base de données locale pour le suivi des expériences (ENS) Toutes les étapes du protocole expérimental sont stockées dans la base de données. Le LIMS permet le suivi des lames et des contrôles de qualité. Toutes les informations stockées sont en accord avec le standard MIAME. La structure flexible du LIMS permet l’analyse de différents types de lames. Un ensemble de tables de correspondance est disponible pour aider à la détermination du nom des gènes (levure, souris). • La base de données LIMS est modulaire - Lames de verre - Puces à oligonucléotides stephane.le.crom@biologie.ens.fr philippe.marc@biologie.ens.fr
Base de données locale: Accès rapide aux données organisées Sélection des cibles en fonction de critères significatifs Visualisation de plusieurs expériences à la fois Affichage des rations Cy3/Cy5 Suivi du profil d’expression philippe.marc@biologie.ens.fr
Outils de comparaison en ligne: MiCoVito • MiCoViTo: Microarray Comparison Visualization Tools (ENS) Comparaison des voisinages entre deux expériences pour un gène sélectionné (graine). Les diagrammes en camembert affiche le voisinage entier en fonction de critères spécifiques (catégories fonctionnelles, phénotypes, complexes protéiques, …). gaelle.lelandais@biologie.ens.fr stephane.vialette@biologie.ens.fr
yeast Microarray Global Viewer (yMGV) • Permettre l’accès simple aux données d’expression publiées (ENS): 1 profil par publication 1 histogramme par condition (expérience) Sélection : • nom de gène • expression • publications Affichage des ratios le long des chromosomes http://www.transcriptome.ens.fr/ymgv/ S. Le Crom et al. yMGV: helping biologists with yeast microarray data mining. (2002) Nucleic Acids Research 30(1): 76-79 P. Marc et al. yMGV: a database for visualisation and data mining of published genome-wide yeast expression data. (2001) Nucleic Acids Research 29(13): E63-3
2. Apports des outils biochimiques à l’analyse informatique des données d’expression des génomes
1. QUALITE DES DONNEES • Distribution des intensités pour le Cy3 et le Cy5 • Distribution du log2 (ratios)
Vue statique du transcriptome: Etats d’expression des gènes par rapport à un état de référence: Addition d’un drogue, identité d’une tumeur, etc… Unique puce à ADN Vue dynamique du transcriptome Temps Série de puces à ADN g2 g3 g1 g5 g4 log2(Ratio)
Les cibles directes de chaque facteur de transcription: une vue statique des propriétés du génome
RNA extraction, labelled cDNA synthesis Dynamic response of genome expression to the external presence of drugs: exemple of fungicides 5’ 3’’ 10’ Benomyl (benzimidazole carbamate) MICROARRAYS ANALYSES RNA extraction, labelled cDNA synthesis 30’ 180’ 45’
Profiles d’expression des gènes Cluster analysis of time-course expression data (6000 genes) Expérience de puce Profiles d’expression des gènes g2 g3 g1 g5 g4 log2(Ratio) Z g2 g4 g5 g1 g3 Y X Espace à 3 dimensions
2 3 5 4 Network cascade of genes activated by benomyl 1 1= TF1, 2= TF2, 3= TF3, 4= TF4, 5= ?
Groupes d’expression et groupes d’orthologie Gaelle Lelandais acement des points
Quelques pistes … . Description de réseaux de gènes à haute flexibilité . Groupes de gènes orthologues co-régulés . Génomique comparative et signaux de régulation
Microarrays production Bioinformatic Stephane Le Crom Philippe Marc Gaelle Lelandais Pierre Vincens Stéphane Vialette Sophie Lemoine Microarrays production Corinne Blugeon Véronique Tanty www.transcriptome.ens.fr/sgdb/