References [1] S.D. Bentley et al., Complete genome sequence of the model actinomycete Streptomyces coelicolor A3(2), Nature, 2002, 417, [2] K. Rutherford, J. Parkhill, J. Crook, T. Horsnell, P. Rice, M-A. Rajandream and B. Barrell, Artemis: sequence visualisation and annotation, Bioinformatics, 2000, 16(10), [3] M.S.B. Paget, V. Molle, G. Cohen, Y. Aharonowitz and M.J. Buttner, Defining the disulphide stress response in Streptomyces coelicolor A3(2) : identification of the R regulon, Molecular Microbiology, 2001, 42(4), [4] D.J. Studholme, S.D. Bentley andJ. Kormanec, Bioinformatic identification of novel regulatory DNA sequence motifs in Streptomyces coelicolor, BMC Microbiology, 2004, [5] R. Manganelli, M. Voskuil, G. Schoolnik, E. Dubnau, M. Gomez and I. Smith, Role of the extracytoplasmic-function sigma factor sigma(H) in Mycobacterium tuberculosis global gene expression, Molecular Microbiology, 2002, 45, †‡††† Laboratoire de Génétique et Microbiologie, UMR UHP-INRA 1128, IFR 110. LORIA, équipe Orpailleur, UMR UHP, Faculté des Sciences et Techniques, BP 239, Vandœuvre-lès-Nancy. † ‡ ‡ Conclusions/Perspectives Cette méthode permet de détecter avec efficacité les 30 promoteurs ciblés par SigR et nous avons également pu mettre en évidence 92 autres séquences régulatrices, issues d’études biologiques ou de prédiction bioinformatique (tableau 1 – à droite). Ceci montre que de tels modèles markoviens sont capables de réagir de manière ponctuelle et remarquable en présence de sous-séquences d’ADN de 5 à 12 pb apparaissant anormalement fréquemment à des positions non aléatoires -- avec un fort biais intergénique -- dans le génome. Ces motifs d’ADN particuliers de petite taille constituent pour la plupart les séquences consensus –35 et –10 des promoteurs. Un autre groupe de motifs contient des séquences qui ne peuvent être corrélés à des rôles biologiques connus ou prédits à ce jour. Ceci pourrait nous permettre de classifier des ensembles de gènes co-régulés. L’étude des mécanismes d’expression des gènes de biosynthèse et leur régulation est primordiale compte tenu de la régulation complexe observée chez les Streptomyces (12% de régulateurs dans le génome). Introduction Nous développons des méthodes de fouille de données basées sur l'utilisation de modèles Markoviens du second ordre adaptés à l'étude des génomes. Ceux- ci réalisent une segmentation pouvant être observée sous la forme d'un signal stochastique traduisant l'organisation et la structure des motifs d'ADN sous- jacents. Aucune hypothèse a priori n'est effectuée sur le contenu génétique des séquences étudiées. La modélisation du corpus de séquences est réalisée par une étape d'apprentissage automatique qui produit une classification non supervisée des segments nucléotidiques observés sur les différents états des HMM. Les Streptomyces Les Streptomyces sont des bactéries filamenteuses du sol qui revêtent un intérêt économique fort compte tenu de l’importance des produits de leur métabolisme secondaire. Elles sont en effet la source principale d’antibiotiques parmi les microorganismes. Durant leur cycle de développement complexe, les cellules se différencient pour former un véritable « organisme bactérien » (figure 1). L’espèce S. coelicolor A3(2) présente un chromosome linéaire d’une taille de 8,7 Mb, avec une structure dite « invertron » qui se caractérise par la présence de répétitions terminales inversées (TIR) et de protéines liées de manière covalente aux extrémités de l’ADN. Le taux global en bases G + C est de 72% et le génome contiendrait 7825 ORF (89% du matériel génétique), dont 65 coderaient pour des facteurs sigma [1]. Moins d’une dizaine d’entre eux ont été caractérisés à ce jour, ainsi que leurs séquences cibles sur l’ADN qui constituent les motifs promoteurs -10 et -35 (tableau 1 - en haut). Par exemple, la caractérisation expérimentale de 30 promoteurs cibles pour le facteur sigma SigR a permis la détermination du régulon SigR de réponse au stress oxydant [3]. Cependant, la grande majorité des sites de fixation pour les facteurs sigma reste à définir. L’extraction automatique L’extraction automatique, chez S. coelicolor, de 3000 de ces motifs identifiés dans 1,2 Mb d'ADN génomique (jeu de données SigR), indique que 8% correspondraient à des sites de fixation de facteurs sigma (tableau 1 - en haut) ou de régulateurs transcriptionnel (tableau 1 - au milieu) connus ou prédits (tableau 1 - en bas) [4], et 3% à des sites de fixation du ribosome ou des terminateurs de transcription potentiels. Concernant le régulon SigR/SigH (réponse au stress oxydant chez les Streptomyces/M. tuberculosis), la mise en œuvre de cette approche a permis de détecter tous les promoteurs déjà déterminés biologiquement (tableau 2) [3,5]. L’apprentissage statistique L’apprentissage statistique est réalisé sur les génomes complets des bactéries actinomycètes S. coelicolor, S. avermitilis ou Mycobacterium tuberculosis. Lors du processus de segmentation, certaines chaînes d'états cachés décrivent des fragments génomiques comme les gènes et les séquences intergéniques alors qu'une autre chaîne se spécialise sur la distribution de motifs d'ADN locaux particuliers. Fig 1. Colonies sauvages (grises) et mutantes (rouges) de Streptomyces coelicolor. Ces mutants ne forment pas de mycélium aérien. Fig 2. Résultats algorithmiques (en haut) après segmentation d’une séquence de S. coelicolor et corrélation avec l’annotation de séquence correspondante (en bas, visualisation dans Artemis [2]). Les hétérogénéités observées se traduisent par des pics discrets de probabilités localisés dans les régions intergéniques. Tab 1. Fonctions co-régulées connues, ou prédites chez S. coelicolor. En haut : Facteurs sigma (ECF = Extracellular function). Au milieu : Régulateurs transcriptionnels. En bas : Facteurs de transcription hypothétiques [4]. A droite : Nombre d’ORF situées en proche aval (<300 pb) de la séquence cible correspondante et nombre de pics intergéniques décrivant chacun tout ou partie de ce consensus, au sein du jeu de données SigR (22 séquences de 50 kb soit 1,2 Mb). Tab 2. Prédiction par HMM des séquences cibles (boîtes -10 et -35) de SigR chez S. coelicolor, S. avermitilis (ORF orthologues) et M. tuberculosis (ORF homologues et appartenant au régulon SigH [5]). Le HMM utilisé est construit par apprentissage sur le génome complet de S. coelicolor. La corrélation entre un locus d’ADN donné et le processus caché nous est donné par la probabilité a posteriori de l’état observé. Ces loci correspondent à des mots de 5 à 12 nucléotides présents à des fréquences inhabituelles dans les régions intergéniques (figure 2) et sont représentés par le processus stochastique sous forme de pics discrets de probabilités.