La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr.

Présentations similaires


Présentation au sujet: "UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr."— Transcription de la présentation:

1 UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

2 Le projet MOSAIC http://genome.jouy.inra.fr/mosaic
But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce Méthode: alignement de génomes complets (MGA) + post-traitement MOSAIC* version 3: 87 comparaisons, 24 espèces bactériennes Comparaison aux annotations (GenomeReview+autres) Visualisation graphique (MuGeN) *Chiapello et al. BMC Bioinformatics, 2005

3 Les comparaisons MOSAIC
Les trois étapes: 1. Sélection des génomes à comparer: Même espèce (nomenclature), pas de réarrangement 2. Alignement global multiple des génomes avec MGA* les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement 3. Définition du squelette et des boucles Squelette : régions conservées Boucles : régions variables ou spécifique à une souche * Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002

4 MOSAIC : en cours… Axe 1: Stratégie de comparaison
I. Evaluation de la divergence des génomes II. Evaluation de la robustesse des boucles III. Détection des réarrangements Axe 2: Analyse des boucles Annotation et classification des boucles Axe 3: Propriétés du squelette Prédictions de motifs nucléiques basées sur la séquence du squelette

5 I. Evaluation de la divergence des génomes
Motivation : La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…) Exemples : groupe Shigella-Coli, groupe B. cereus,… il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes Idée : Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence

6 L’indice de couverture des MUM
Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur chaque génome) pour évaluer la similarité L’indice MUM coverage (MC) : with Propriétés: mesure la dissimilarité entre 2 génomes tient compte des inversions (MUMs détectés sur le brin RC) très rapide à calculer en utilisant des structures de type arbre de suffixes

7 Choix de la taille minimum des MUM k
Conclusion: La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).

8 Validité de l’indice MC
L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005) For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001) Current Species Cutoff ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce Les données de MLST (Multi Locus Sequence Type) des groupes E. coli/Shigella (Pupo, PNAS 2000) et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.

9 Evaluation de la diversité intra-espèce avec MC
Distribution des valeurs de MC parmi 7 espèces bactériennes : Data: - 5 “intra-species” comparisons: S. aureus COL/MRSA, E. coli CFT/SAKAÏ, B. cereus 10987/14579, P. syringae PV/DC300, B. aphidicola Bg/Sg - 1 “inter-species” comparison: E. coli K12/ S. typhimurium LT2 Conclusion: - très grande diversité à l’échelle intra-espèce - certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces

10 II. MOSAIC: évaluation de la robustesse des boucles
Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt Question : est-il possible d’évaluer la robustesse des petites boucles ? des frontières squelette/boucles ?

11 But : évaluer la robustesse locale des boucles
Stratégie But : évaluer la robustesse locale des boucles Méthode : 1. Perturbations aléatoires des génomes 2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements *Maximal Exact Matches

12 Protocole de perturbation
Trois opérations de perturbation sont effectuées N fois sur chaque génome : 1. La suppression d’un pourcentage x de MEMs 2. L’inversion d’un pourcentage x de MEMs 3. La translocation d’un pourcentage x MEMs Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores : - Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle - Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.

13 Résultats : scores de nucléotide
Données : 617 boucles de E. coli K12 (541 kb) Les boucles sont en général robustes : Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs) Les frontières de boucles sont les plus affectées par les perturbations : score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80 Position dans la boucle (en % de la taille de la boucle)

14 Résultats: scores de boucles
Données : 617 boucles de E. coli K12 (541 kb) Peu de boucles sont affectées par les perturbations : 5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs) Les boucles peu robustes sont en général petites (88% ont une longueur<200nt): Taille des boucles

15 Exemple de visualisation
Annotations biologiques Structure mosaïque score = 1 15% de MEMs supprimés 15 % de MEMs inversés 15% de MEMs transloqués score = 0.5 score = 0

16 III. Traitement des génomes réarrangés
Principe : 1. Alignement multiples et doubles avec MAUVE* Choix des paramètres d’alignement Choix d’un génome de référence Définition des LCBs : Locally Colinear Blocks 2. Définition du squelette et des boucles à partir des LCBs 3. Alignements MGA des génomes sans réarrangement * Darling et al., Genome Research 2004

17 MOSAIC release 4 (en cours)
Données = Genome Review release 56 (07/2006) : 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes) 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA nouvelle interface de navigation (LCB)

18 Retour aux questions méthodologiques
Choix des paramètres d’alignement (en fonction de la divergence des génomes ?) Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?) Problème des séquences répétées (filtrage ?) Taille minimale d’un réarrangement (inversion, translocation)

19 UBLO H. Chiapello S. Schbath A. Gendrault-Jacquemard Mathématique Informatique et Génome M.-A. Petit D. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes


Télécharger ppt "UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr."

Présentations similaires


Annonces Google