UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr.

Slides:



Advertisements
Présentations similaires
Taxonomie bactérienne
Advertisements

L'hybridation fluorescente (FISH)
Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Évaluation de la qualité d'une clusterisation
ANNEXES 1.AG implémentation avancéeAG implémentation avancée 2.Optimisation des hyper-paramètres de contrôleOptimisation des hyper-paramètres de contrôle.
La génétique bactérienne cours 5
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Scores de gravité en réanimation
Les TESTS STATISTIQUES
Pons Nicolas, Jean-Michel Batto, S.Dusko Ehrlich, Pierre Renault
Les TESTS STATISTIQUES
Colloque Traitement et Analyse de séquences : compte-rendu
Laurent Labarre AGC - UMR Génoscope
Un nouveau regard sur les données moléculaires
Les bases de données biologiques au LBBE
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Eric Guilbert, Marc Daniel *, Eric Saux
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
Réalisation d’un graphe
YASS : Recherche de similarités dans les séquences d'ADN
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
1. L’ADN et l’information génétique
La phylogénomique sans alignement de séquences
Présenté par Mathieu Almeida, Amine Ghozlane
Contexte : besoin de standardization des enquetes (Spiegel et al., 2002) – Effort conjoint de plusieurs agencies : CDC, ONGs, ONU, universités – Initiative.
Principes de programmation (suite)
Présentation du mémoire
CHAPITRE 19 - La génétique des populations
1.
Prédiction d’interactions protéine-protéine
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Recherche heuristique dans les bases de données L’algorithme BLAST
Ingénierie des Connaissances
Méthodes de Biostatistique
La génétique et la biométrie
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Sous la tutelle de Laurence Casalot Diagnostic Moléculaire
Séance 8 30 novembre 2005 N. Yamaguchi
Collège Lionel-Groulx
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Sériation et traitement de données archéologiques
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Un processus pour la prise de décision spatiale.
Alignement de génomes. MUMmer (1999) Utilise l’arbre des suffixe. Basé sur le principe de « Maximum Unique Match » (MUM). Étant donné deux génomes A et.
Soutenance de Stage DEA / DESS
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
Présenté par Mathieu Almeida, Amine Ghozlane
Combating Web Spam with TrustRank. OSINI Aurélien.
- Exemple de détermination de tolérance de localisation
La génétique et la biométrie
Recherche heuristique dans les bases de données L’algorithme BLAST
Cartographie génomes entiers
Comparaison multi-échelle des précipitations du modèle Méso-NH et des données radar Colloque CNFSH – Ecole des Ponts ParisTech – 11/12 juin 2009 A., Gires.
Présentation du système
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
Introduction à la Bio-Informatique
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
Chapitre 9 Equations.
Classification-Segmentation
Validation d’une méthode d’analyse
Reconnaissance d’objets 3D –point de vue complètement différent –pas d’invariant 3D Difficultés :
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Transcription de la présentation:

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr

Le projet MOSAIC http://genome.jouy.inra.fr/mosaic But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce Méthode: alignement de génomes complets (MGA) + post-traitement MOSAIC* version 3: 87 comparaisons, 24 espèces bactériennes Comparaison aux annotations (GenomeReview+autres) Visualisation graphique (MuGeN) http://genome.jouy.inra.fr/mosaic *Chiapello et al. BMC Bioinformatics, 2005

Les comparaisons MOSAIC Les trois étapes: 1. Sélection des génomes à comparer: Même espèce (nomenclature), pas de réarrangement 2. Alignement global multiple des génomes avec MGA* les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement 3. Définition du squelette et des boucles Squelette : régions conservées Boucles : régions variables ou spécifique à une souche * Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002

MOSAIC : en cours… Axe 1: Stratégie de comparaison I. Evaluation de la divergence des génomes II. Evaluation de la robustesse des boucles III. Détection des réarrangements Axe 2: Analyse des boucles Annotation et classification des boucles Axe 3: Propriétés du squelette Prédictions de motifs nucléiques basées sur la séquence du squelette

I. Evaluation de la divergence des génomes Motivation : La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…) Exemples : groupe Shigella-Coli, groupe B. cereus,… il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes Idée : Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence

L’indice de couverture des MUM Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur chaque génome) pour évaluer la similarité L’indice MUM coverage (MC) : with Propriétés: mesure la dissimilarité entre 2 génomes tient compte des inversions (MUMs détectés sur le brin RC) très rapide à calculer en utilisant des structures de type arbre de suffixes

Choix de la taille minimum des MUM k Conclusion: La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).

Validité de l’indice MC L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005) For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001) Current Species Cutoff ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce Les données de MLST (Multi Locus Sequence Type) des groupes E. coli/Shigella (Pupo, PNAS 2000) et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.

Evaluation de la diversité intra-espèce avec MC Distribution des valeurs de MC parmi 7 espèces bactériennes : Data: - 5 “intra-species” comparisons: S. aureus COL/MRSA, E. coli CFT/SAKAÏ, B. cereus 10987/14579, P. syringae PV/DC300, B. aphidicola Bg/Sg - 1 “inter-species” comparison: E. coli K12/ S. typhimurium LT2 Conclusion: - très grande diversité à l’échelle intra-espèce - certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces

II. MOSAIC: évaluation de la robustesse des boucles Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt Question : est-il possible d’évaluer la robustesse des petites boucles ? des frontières squelette/boucles ?

But : évaluer la robustesse locale des boucles Stratégie But : évaluer la robustesse locale des boucles Méthode : 1. Perturbations aléatoires des génomes 2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements *Maximal Exact Matches

Protocole de perturbation Trois opérations de perturbation sont effectuées N fois sur chaque génome : 1. La suppression d’un pourcentage x de MEMs 2. L’inversion d’un pourcentage x de MEMs 3. La translocation d’un pourcentage x MEMs Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores : - Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle - Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.

Résultats : scores de nucléotide Données : 617 boucles de E. coli K12 (541 kb) Les boucles sont en général robustes : Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs) Les frontières de boucles sont les plus affectées par les perturbations : score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80 Position dans la boucle (en % de la taille de la boucle)

Résultats: scores de boucles Données : 617 boucles de E. coli K12 (541 kb) Peu de boucles sont affectées par les perturbations : 5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs) Les boucles peu robustes sont en général petites (88% ont une longueur<200nt): Taille des boucles

Exemple de visualisation Annotations biologiques Structure mosaïque score = 1 15% de MEMs supprimés 15 % de MEMs inversés 15% de MEMs transloqués score = 0.5 score = 0

III. Traitement des génomes réarrangés Principe : 1. Alignement multiples et doubles avec MAUVE* Choix des paramètres d’alignement Choix d’un génome de référence Définition des LCBs : Locally Colinear Blocks 2. Définition du squelette et des boucles à partir des LCBs 3. Alignements MGA des génomes sans réarrangement * Darling et al., Genome Research 2004

MOSAIC release 4 (en cours) Données = Genome Review release 56 (07/2006) : 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes) 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA nouvelle interface de navigation (LCB)

Retour aux questions méthodologiques Choix des paramètres d’alignement (en fonction de la divergence des génomes ?) Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?) Problème des séquences répétées (filtrage ?) Taille minimale d’un réarrangement (inversion, translocation)

UBLO H. Chiapello S. Schbath A. Gendrault-Jacquemard Mathématique Informatique et Génome M.-A. Petit D. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes