La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles UBLO.

Présentations similaires


Présentation au sujet: "1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles UBLO."— Transcription de la présentation:

1 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles UBLO

2 2 Le projet MOSAIC MOSAIC* version 3: 87 comparaisons, 24 espèces bactériennes Comparaison aux annotations (GenomeReview+autres) Visualisation graphique (MuGeN) But: déterminer systématiquement la structure squelette- boucles des génomes bactériens à léchelle intra-espèce *Chiapello et al. BMC Bioinformatics, 2005 Méthode: alignement de génomes complets (MGA) + post- traitement

3 3 Les comparaisons MOSAIC * Multiple Genome Aligner, Höhl, Kurtz and Ohlebusch, Bioinformatics Sélection des génomes à comparer: 2. Alignement global multiple des génomes avec MGA* 3. Définition du squelette et des boucles Même espèce (nomenclature), pas de réarrangement les paramètres MGA sont définis à partir dun alignement de référence vérifié manuellement Squelette : régions conservées Boucles : régions variables ou spécifique à une souche Les trois étapes:

4 4 MOSAIC : en cours… I. Evaluation de la divergence des génomes II. Evaluation de la robustesse des boucles Annotation et classification des boucles Axe 1: Stratégie de comparaison Axe 2: Analyse des boucles Axe 3: Propriétés du squelette Prédictions de motifs nucléiques basées sur la séquence du squelette III. Détection des réarrangements

5 5 I. Evaluation de la divergence des génomes Motivation : Idée : Exemples : groupe Shigella-Coli, groupe B. cereus,… La classification des espèces bactériennes nest pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère dhybridation ADN-ADN,…) il serait utile de disposer dun critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence

6 6 Lindice de couverture des MUM Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences dune taille minimale k présente une fois sur chaque génome) pour évaluer la similarité Lindice MUM coverage (MC) : tient compte des inversions (MUMs détectés sur le brin RC) Propriétés: mesure la dissimilarité entre 2 génomes très rapide à calculer en utilisant des structures de type arbre de suffixes with

7 7 Choix de la taille minimum des MUM k Conclusion: La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).

8 8 Validité de lindice MC LANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes ( Konstantidinis, PNAS 2005) For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001) Les données de MLST (Multi Locus Sequence Type) des groupes E. coli/Shigella (Pupo, PNAS 2000) et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC. Current Species Cutoff ANI ~94% correspond à MC ~0.5 et au seuil de définition de lespèce

9 9 Evaluation de la diversité intra-espèce avec MC - très grande diversité à léchelle intra-espèce Conclusion: - certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces Distribution des valeurs de MC parmi 7 espèces bactériennes :

10 10 II. MOSAIC: évaluation de la robustesse des boucles Observation 1: le nombre de boucles est très variable selon lespèce bactérienne Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus Ex: la moitié des boucles dE. coli sont inférieures à 100 nt Question : est-il possible dévaluer la robustesse - des petites boucles ? - des frontières squelette/boucles ?

11 11 Stratégie Méthode : 1. Perturbations aléatoires des génomes 2. Analyse de limpact des perturbations sur la segmentation squelette/boucles initiale Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements *Maximal Exact Matches But : évaluer la robustesse locale des boucles

12 12 Protocole de perturbation Trois opérations de perturbation sont effectuées N fois sur chaque génome : 1. La suppression dun pourcentage x de MEMs 2. Linversion dun pourcentage x de MEMs 3. La translocation dun pourcentage x MEMs Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores : - Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle - Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.

13 13 Résultats : scores de nucléotide Données : 617 boucles de E. coli K12 (541 kb) Les boucles sont en général robustes : Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs) Les frontières de boucles sont les plus affectées par les perturbations : score 1score [0.95;1[ score [0.90;0.95[score [0.80;0.90[score < 0.80 Position dans la boucle (en % de la taille de la boucle)

14 14 Résultats: scores de boucles Peu de boucles sont affectées par les perturbations : 5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs) Les boucles peu robustes sont en général petites (88% ont une longueur<200nt): Taille des boucles Données : 617 boucles de E. coli K12 (541 kb)

15 15 Exemple de visualisation 15% de MEMs supprimés 15 % de MEMs inversés 15% de MEMs transloqués Annotations biologiques Structure mosa ï que score = 0.5 score = 1 score = 0

16 16 III. Traitement des génomes réarrangés 1. Alignement multiples et doubles avec MAUVE* 2. Définition du squelette et des boucles à partir des LCBs * Darling et al., Genome Research 2004 Principe : Définition des LCBs : Locally Colinear Blocks Choix dun génome de référence Choix des paramètres dalignement 3. Alignements MGA des génomes sans réarrangement

17 17 MOSAIC release 4 (en cours) Données = Genome Review release 56 (07/2006) : 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes) 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA nouvelle interface de navigation (LCB)

18 18 Retour aux questions méthodologiques Choix des paramètres dalignement (en fonction de la divergence des génomes ?) Evaluation de la qualité dun résultat dalignement de génomes (alignements de références ?) Problème des séquences répétées (filtrage ?) Taille minimale dun réarrangement (inversion, translocation)

19 19 H. Chiapello S. Schbath A. Gendrault-Jacquemard Mathématique Informatique et Génome M.-A. Petit D. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes UBLO


Télécharger ppt "1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles UBLO."

Présentations similaires


Annonces Google