Génopole Institut Pasteur Bioinformatique - Bilan 2003

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Distance inter-locuteur
LA NOTATION SELON LE GENRE FORMATION INTER-AGENCES Facilitators name and title.
Les numéros 70 –
Les numéros
Les identités remarquables
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
Approche par composant : Un cadre pour l’ingénierie de la commande
Architecture de réseaux
Master Génie Biologique et Informatique, première année
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Autorisations Utilisation eCATT
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Analyse de la variance à un facteur
1 7 Langues niveaux débutant à avancé. 2 Allemand.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Etienne Bertaud du Chazaud
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Page 1 Introduction à ATEasy 3.0 Page 2 Quest ce quATEasy 3.0? n Ensemble de développement très simple demploi n Conçu pour développer des bancs de test.
Formation au module Structure de ZENTO
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
le profil UML en temps réel MARTE
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Session 7 1 IST/VIH/SIDA.
« Génome, adaptation et environnement »
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Configuration de Windows Server 2008 Active Directory
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.
LES NOMBRES PREMIERS ET COMPOSÉS
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 7 : Les méthodes de conception.
SCIENCES DE L ’INGENIEUR
Les chiffres & les nombres
Développement d’application web
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
2 TP avec l ’aide d ’un modeleur 3D :
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 10 pt 15 pt 20 pt 25 pt 5 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Les fonctions.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Projet de Master première année 2007 / 2008
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
La banque UniprotKB et le logiciel Blast
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Estimation fonctionnelle à l’aide de S.V.M.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Discussion autour du référentiel
Supports de formation au SQ Unifié
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Transcription de la présentation:

Génopole Institut Pasteur Bioinformatique - Bilan 2003 Ivan Moszer Génopole Institut Pasteur Plate-forme “Intégration et Analyse Génomiques” Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Activités et missions Annotation de nouvelles séquences génomiques : développement d’outils d’annotation et de stratégies adaptées ; formation aux unités de recherche Maintien de collections de données génomiques, identifiables par des annotations de grande qualité, sur un ensemble d'organismes sélectionnés : collaborations avec les unités compétentes, rôle de formation et de standardisation Développement logiciel de bases de données génomiques innovantes (structures de données, interfaces utilisateur) : génome (projet GenoList), transcriptome, et protéome (=> système intégré) Développement et application de méthodes d'analyse mathématiques et statistiques pour le décryptage des données génomiques : génomique comparée, études phylogénétiques, analyse des données d'expression, réseaux de régulation, etc. Enseignement et formation Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Ligne directrice des activités Le pourquoi et le comment des bases de données génomiques 1. Concevoir et implémenter des structures de données ad hoc 2. S’assurer que celles-ci sont alimentées par des données de grande qualité 3. Concevoir et implémenter des interfaces utilisateur ad hoc Ces bases de données agissent comme un point de rencontre entre données de qualité organisées selon des schémas adéquats, et outils d’interrogation et d’analyse pertinents, accessibles depuis des interfaces utilisateur conçues en premier lieu pour répondre aux besoins des biologistes L’accès à de tels environnements logiciels intégrés doit aider à la découverte de connaissances, au travers d’une exploration des données facilitée par des interactions homme-machine inspirées par les utilisateurs spécialistes, et des représentations visuelles judicieusement élaborées Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Outils d’annotation (L. Frangeul et al.) Programme « CAAT-Box » : « Contig Assembly and Annotation Tool-Box » Caractéristiques : Suivi du shotgun et des assemblages successifs Méthodes pour la finition Annotation possible dès l’étape de finition Annotations accessibles et modifiables via le Web Modules d’annotation (Blast, GeneMark, frameshifts, « primers », etc.) Applications : Annotation des génomes de Listeria monocytogenes et Listeria innocua Annotation du génome de Photorhabdus luminescens Annotation du génome de Streptococcus agalactiae Annotation du génome de Candida albicans Annotation du génome de Candida glabrata Participation au projet Geno* Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

CAAT-Box Motivations Pourquoi commencer à annoter un génome non terminé ? Nombreuses séquences obtenues en peu de temps Ces séquences sont souvent assemblées automatiquement, générant de grands contigs Quelles sont les difficultés ? Changement des séquences et des contigs après chaque assemblage D’où une modification de la localisation/nomenclature/séquence des gènes déjà annotés Annotation Finishing Shotgun 2002 1996 Time needed Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

CAAT-Box Les “Individual Protein Files” (IPF) Contig X ORFs Individual Protein File 500 bases avant le codon stop 200 bases après le codon stop I.P.F. Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

CAAT-Box Stratégie IPF 1201.1 ORFs IPF Assembly X Contigs IPF 1201.1 Comments Results L’utilisateur travaille avec un groupe d’IPF indépendamment de la progression de la finition IPF 1201.1 Comments Results ORFs Contigs IPF Assembly X IPF ORFs Contigs IPF 1201.2 Comments Results OR Si une modification se présente dans la séquence d’une IPF, son numéro de version augmente et les commentaires et résultats sont transférés dans un champ spécial Assembly Y Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface de CAAT-Box Utilitaires Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface de CAAT-Box Page IPF IPF_reader.cgi génère dynamiquement une page html en fonction : des champs du fichier IPF du niveau d’accès utilisateur des fichiers IPF_results pour cette IPF des commentaires utilisateur sur cette IPF Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Intégration CAAT-Box/GenomeBrowser Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Bases de données annotées (C. Boursaux-Eude et al.) Objectif : générer des annotations de grande qualité pour les génomes microbiens Relier séquence et fonctions cellulaires Exigences de qualité et de cohérence : Contrôle, correction, et validation des annotations existantes Création de nouvelles annotations (physiques et fonctionnelles) Vérification expérimentale des prédictions in silico (interprétations trop permissives, danger des seuils automatiques, manque d’attributs « warning », manque de traçabilité, propagation des erreurs) Nomenclatures et vocabulaires contrôlés Références croisées Mises à jour régulières Applications : Mise à jour du génome de Bacillus subtilis (mai 2001) (coll. A. Danchin) Mise à jour des génomes de Mycobacterium tuberculosis et Mycobacterium leprae (janvier 2002) (coll. S.T. Cole) Mise à jour des génomes de Helicobacter pylori 26695 et J99 (coll. A. Labigne) Projets pour plusieurs autres organismes microbiens (dont Staphylococcus aureus, Saccharomyces cerevisiae, etc.) Participation au projet HAMAP (SWISS-PROT) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

SubtiList update (May 2001) 288 sequence corrections (systematic verifications and individual submissions) 520 references imported and linked to the relevant genes Updated genes Nb of genes Genomic sequence changed 103 location updated (start and/or stop codons) 67 substitutions 3 internal compensated frameshift 2 two genes merged into one single gene 18 ( 9) three genes merged into one single gene 3 ( 1) one gene split out into two genes 3 ( 6) new genes added in the annotations 5 genes deleted from the annotations 2 Genomic sequence unchanged 85 location updated (start and/or stop codons) 71 new genes added in the annotations 8 genes deleted from the annotations 6 Gene name changed 239 “y”  not-“y” 181 not-“y”  not-“y” 54 not-“y”  “y” 4 Description updated ~800 Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Utilisation de Artemis Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

TubercuList updates TubercuList R4 (July 2002) 82 new CDS 60 CDS lengths modified 400 new gene names Mycobacterial ortholog table (links to Leproma) Transcriptomic section (techniques and conditions) Proteomic section (links to databases) Current list of Mycobacterial Intergenic Repetive Units (MIRU) 1,000 targeted citations – most with medline links TubercuList R5 (April 2003) 10 CDS lengths modified ~ 50 new gene names 1,000 targeted citations – all with medline links (citations added directly to TubercuList using BiblioDB) Updated transmembrane analysis (TMHMM) More detailed functional classification Updated partition analysis (MEME/MAST) of the proteome Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Partition analysis of M. tuberculosis Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Bases de données génomiques (S. Moreira et al.) Conception d’un modèle de données générique « GenoList » et implémentation d’une interface pour le biologiste Application de GenoList à plusieurs génomes bactériens : B. subtilis, E. coli, M. tuberculosis/leprae, H. pylori, Mycoplasma pulmonis, Synechocystis/Anabaena, L. monocytogenes/innocua, S. aureus, etc. Extension du modèle aux relations multi-organismes (gènes orthologues, opérons conservés, signaux communs, etc.), et de l’interface aux outils de génomique comparée (analyse de souches multiples et d’organismes proches) Développement d’extensions pour génomes eucaryotes (C. albicans, S. cerevisiae, participation au projet Anopheles gambiae) Réécriture en Java (utilisation du serveur applicatif WebObjects) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

GenoList : Ancienne version GenoList est un ensemble de serveurs Web permettant : La visualisation d’informations structurées concernant des génomes bactériens Annotations syntaxiques (physiques) Références bibliographiques Références croisées Classification fonctionnelle des gènes … L’analyse de génomes via des outils bioinformatiques BLAST / FASTA Recherche de motifs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Bases de données “GenoList” actuelles http://genolist.pasteur.fr/ Bacillus subtilis 168: SubtiList (coll. A. Danchin - IP) Escherichia coli K12: Colibri (coll. K. Rudd - Miami U.) Mycobacterium tuberculosis H37Rv: TubercuList (coll. S. Cole - IP) Helicobacter pylori 26695/J99: PyloriGene (coll. A. Labigne - IP, P. Legrain - Hybrigenics) Mycoplasma pulmonis UAB CTIP: MypuList (coll. A. Blanchard, I. Chambaud - IP) Mycobacterium leprae TN: Leproma (coll. S. Cole - IP) Synechocystis PCC6803/Anabaena PCC7120: CyanoList (coll. N. Tandeau de Marsac - IP) Listeria monocytogenes EGD-e/Listeria innocua CLIP 11262: ListiList (coll. P. Glaser, F. Kunst - IP) Staphylococcus aureus N315/Mu50: AureoList (C. Boursaux-Eude - IP) Streptococcus pneumoniae R6/Tigr4: StreptoPneumoList (C. Boursaux-Eude - IP) Candida albicans SC5314: CandidaDB (coll. C. d’Enfert - IP) Streptococcus agalactiae NEM316: SagaList (coll. P. Glaser, F. Kunst - IP) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

GenoList : une base de données « multi-génomes » microbiens Extension du modèle « SubtiList » à d’autres génomes bacteriens ou microbiens  base de données et serveur Web « multi-génomes » Améliorer le niveau de généricité du modèle de données Définir une nomenclature cohérente (noms de gènes/id) et utiliser des vocabulaires contrôlés Améliorer les annotations de base et intégrer des données expérimentales Tenir compte des spécificités de chaque organisme Établir des relations évoluées entre les génomes (gènes orthologues, opérons conservés, signaux communs, etc.) Intégration d’outils pour les analyses différentielles de génomes Créer des outils spécifiques pour la gestion et l’analyse des souches multiples et des organismes proches Intégrer ces informations avec d’autres collections de données (références croisées) Conserver une interface puissante et conviviale Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Modèle de données de GenoList (simplifié) Organisme Réplicon Objets génomiques Gènes Régulation Relations Méthodes Bibliographie GenoList Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoList : Liste de gènes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Modèle de données de GenoList Section Organisme Réplicon  Multi-organismes  Taxonomie Objets génomiques Gènes Régulation Relations Méthodes Bibliographie GenoList Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoList : Sélection taxonomique d’organismes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Modèle de données de GenoList Section relations inter-organismes Familles Relations symétriques et transitives COG, DiffTool, Usage du code Scan Relations non symétriques FindTarget BDBH (« BiDirectional Best Hit ») Relations symétriques BLAST contre banque externe Réplicon Objets génomiques Gènes Régulation Relations Méthodes Bibliographie GenoList Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Génération et intégration de données DiffTool (1) Construction de fichiers de séquences protéiques propres à chaque organisme (protéomes) au format FASTA (2) Lancement du programme DiffTool (3) Production de deux fichiers : .cluster (composition des familles) .legend (description des familles) (4) «  Parsing » des fichiers de sortie issus de DiffTool (5) Intégration des données dans la base Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoList : Lancement de DiffTool Sélectionner les familles dont les protéines ont au moins 40% de similarité & 80% de chevauchement sont présentes dans au moins 3 génomes de référence n’appartiennent pas aux génomes d’exclusion Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoList : Familles de protéines DiffTool Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoList : Sélection de “best hits” Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Aspects techniques Utilisation du langage de modélisation UML et du SGBD Sybase Développement à l’aide de WebObjects (Apple) : à la fois une plate-forme modulaire de développement orienté-objet pour des applications Java « trois-tiers », et un serveur d’applications performant et évolutif Architecture physique Architecture logique Serveur de bases de données Modèle de données Serveur applicatif Traitement logique des données Serveur Web Présentation des données @ GenoList SubScript Sybase Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Bases de données transcriptomiques (S. Moreira et al.) Développement dans le cadre d’un projet européen (« BACELL Network ») sur les réseaux de régulation chez B. subtilis Intégration des conditions expérimentales, des résultats bruts et traités, et des analyses ultérieures Schéma conforme aux recommandations MIAME/MGED Intégration d’outils d’analyse statistique Objectif générique pour une réutilisation dans un cadre plus large (P. falciparum, E. coli, S. agalactiae, etc.) Interface Web développée en Java (utilisation du serveur applicatif WebObjects) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Développement de GenoScript Contexte BACELL Network (Bacillus Cell Factory) Étude des réseaux de régulation globaux chez Bacillus subtilis Projet Aspergillus fumigatus Projet Plasmodium falciparum Projet Escherichia coli Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Modèle conceptuel de données (simplifié) Experimental Hybridisation Analysis Login, Context, Protocols Overview Array Design Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Section expérimentale Contexte Définit les conditions techniques de réalisation de l’expérience Lame de verre / membrane Eucaryote / Procaryote … Champs spécifiques et énumérations Dépendent du contexte Croissance (champ spécifique) Bacillus subtilis : « preculture protocol » Plasmodium : « in vivo treatment » Type de marquage (énumération) Bacillus subtilis : « 33P dATP, 33P dCTP,  33P dGTP, 33P dTTP » Plasmodium : « Cy3, Cy5 » Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Protocoles expérimentaux Gestion détaillée des protocoles expérimentaux et interface utilisateur intuitive et conviviale Toutes les modifications peuvent être enregistrées, soit temporairement, soit de façon permanente Protocol V1 New Protocol V1 V2 Add Modify Delete Ponctual modification Modify Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Page d’accueil Accès restreint Requêtes principales Recherches étendues Entrée et modification d’expériences Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Exemple de requête Résultat pour le gène sélectionné Liste des gènes régulés significativement Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Versions et modifications de protocoles Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Démarche de l’analyse statistique 1. Connaître les méthodes (principes, domaines d’application) 2. Connaître l’expérience et les données (en termes statistiques) 3. Connaître l’objectif (pourquoi une analyse statistique ?) Problèmes : Outils souvent disponibles sous la forme d’interfaces absconses (ligne de commandes), ou d’environnements très élaborés mais compliqués à utiliser Solution : Concevoir une plate-forme logicielle qui guide l’utilisateur au travers d’interfaces spécialisées conviviales vers les approches statistiques appropriées (outil d’aide à la décision) => interface commune et cohérente (i) à la visualisation graphique des données, (ii) aux méthodes ad hoc pour la transformation et la normalisation des données brutes, et (iii) aux tests statistiques pour l’analyse différentielle de l’expression génétique Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Difficultés de l’analyse duplicates Variation biologique : intrinsèque + condition Variation due à la technique Variation due à l'erreur de la mesure Causes de cette variabilité L'analyse doit prendre en compte ce phénomène par un prétraitement des données et par un test statistique adapté Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Réalisation du module statistique Objectif Prétraitement Analyse Différentielle Étapes 1. Détermination d’un protocole d’analyse 2. Implémentation des méthodes sous R + Évaluation des méthodes 3. Connecter l'environnement R à SubScript 4. Modification du modèle de Subscript 5. Développer l'interface de manière flexible, didactique, et documentée Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Prétraitement des données Appréhender les données Visualisation des données Correction, Réduction et Filtrage Transformation Rendre normales les données Étaler les données Stabiliser la variance Rendre les gènes comparables ( log, arcsin … ) Retirer le bruit non biologique Rendre comparable les supports Linéaire (moyenne, …) Non linéaire (Lowess, … ) Normalisation Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

L’analyse différentielle (approches classiques) Tests paramétriques Test de Student, test de Welch et dérivés Tests non paramétriques Test de Wilcoxon Pour échantillons appariés (microarray) ou indépendants (macroarray) Tests statistiques Contrôle du FWER Bonferroni, Holms … Contrôle du FDR Benjamini et Yekutieli … Estimation du taux de faux positifs Storey Procédure tests multiples Significativité Détermination des p-values distribution normale technique des permutations Détermination du seuil (région de rejet de H0) Aides à l'interprétation Information sur les gènes (nom, description, structure opéronique …) Tri des gènes selon la p-value Nombre de faux positifs attendus Ratios Liste de gènes estimés régulés Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Connectivité R/GenoScript Système client/serveur : Rserve/JRclient (développé par Simon Urbanek, www.rosuda.org/Rserve)  adapté et à l'utilisation de Java et à l'utilisation Web Client 1 Exécution méthode d'analyse JRclient Requête R Rserve SubScript application Commande R Client 2 classes Java Réponse R Java R Objet Java Exécution méthode d'analyse REXP Type Attribut Objet java Instance R Avantages : Un client/Une session = 1 environnement R Variables restant internes à R Rapidité Facilité d'utilisation Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Prétraitement - Overview Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Prétraitement - Background correction Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Prétraitement - Transformation results Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Prétraitement - Normalisation results Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Analyse différentielle - Choix du type d’analyse Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Interface Web de GenoScript Analyse différentielle - Résultats de l’analyse Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Problématique phylogénétique (C. Dauga et al.) Développement de méthodologies phylogénétiques mettant en évidence les transferts de gènes entre espèces proches Étude de l’impact des différents phénomènes évolutifs que peuvent subir les gènes (transfert, recombinaison, duplication, variations de vitesse d’évolution et pression de sélection, etc.) sur la représentation phylogénétique (arbre, valeur d’homologie) et l’évolution des génomes Génome des procaryotes = Gènes hérités verticalement + Gènes acquis par transfert + Gènes dupliqués Phylogénies conflictuelles : pour les études de systématique pour le suivi épidémiologique de souches bactériennes pour décrire l’évolution des génomes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Identification phylogénétique des transferts Confrontation visuelle des topologies Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Évaluation des tests phylogénétiques Quatre tests évalués : Incongruence (hétérogénéité des processus évolutifs ?) Kishino-Hasegawa (topologie) Shimodaira-Hasegawa (topologie) Co-évolution (non-proportionnalité des longueurs de branche ?) Tests aussi performants pour détecter des transferts : Entre des espèces de lignées différentes Entre souches d’une même espèce Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Sensibilité et spécificité Test KH détecte 100% des gènes acquis par transferts Test KH : pas de faux négatif Test SH manque de sensibilité Test SH : faux négatifs pour des transferts isolés de faible amplitude Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Stratégie de détection de transferts Choisir un bon référent Tests de co-évolution > 90 Éliminer les longues branches Tests topologiques KH et SH KH + KH - SH + Transferts Transferts Test SH - Transfert probable / alpha < 10% Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Cours - Formations Mise en place d’une initiation à la bioinformatique pour le cours de Microbiologie Générale de l’Institut Pasteur Participation au cours d’Analyse des Génomes de l’Institut Pasteur (traitement informatique des données) Co-organisation de l’atelier INSERM 135 (identification de bactéries non cultivables en clinique et dans l'environnement) Cours de formation permanente de Bioinformatique de l’Université Paris 7 Co-organisation du cours Unesco “Microbial identification in clinical and environmental settings” Co-organisation d’un European Training Workshop “Molecular characterization of the human intestinal microbiota” Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

Remerciements Caroline Boursaux-Eude Catherine Dauga Pierre Dehoux Lionel Frangeul Sandrine Moreira Nicolas Beaume Magali Brugnon J.-Christophe Camus Olivier Garcia Benjamin Giletti Sylvette Grandino Laurence Hummel Gaëlle Lacourrège Albane Le Roch Hocine Madoui Anne Marcel Laetitia Marisa Sandrine Mativet Hafed Nedjari Melinda Pryor Emmanuel Quevillon David Simon Stewart Cole Louis Jones (PI•IP) Catherine Jorge (PI•IP) Ivo Gomperts Boneca (PBM•IP) Hilde de Reuse (PBM•IP) Nicole Tandeau de Marsac (UC•IP) Bernard Dujon (GML•IP) Christophe d’Enfert (BPF•IP) Antoine Danchin (GGB•IP) Philippe Glaser (GGB/GMP•IP) Frank Kunst (BM/GMP•IP) Farid Chetouani (GMP•IP) Jean-Yves Coppée (PT2•IP) Claudine Médigue (GGB•IP/AGC) Alain Viari (ABI•P6/ INRIA) David Sherman (UB) BACELL Network (EU) Kenn Rudd (Miami U.) Amos Bairoch (SIB) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003