Institut Universitaire de Technologie de Clermont-Ferrand

Slides:

Advertisements

Présentations similaires

L’ADN, support universel de l’information génétique

Advertisements

Paul Payette, Merck Frosst, janvier 2004 Génomique et protéomique.

Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,

Un aperçu de la bioinformatique moléculaire

La génétique bactérienne cours 5

Marseille-Nice genopole

Les données et les banques de données

GENETIQUE I. RAPPELS 1. STRUCTURE DE LA CELLULE 2. chromosome.

Biologie Moléculaire des Hépatites Virales

OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.

PLAN I. Support et organisation de l'IG

I. Support et organisation de l'IG II. Méca

BIOINFORMATIQUE La bioinformatique : stocker, analyser et visualiser pour découvrir L’exemple du séquençage d’un génome Les banques de données Les banques.

Les bases de données biologiques au LBBE

Bioinformatique: prédiction de gènes

Le séquençage à haut débit : les enjeux et applications

Bioinformatique =?? génomique protéomique

Licence professionnelle de Génomique

Projet Génome Humain (HGP)

Activité 5. Du génome au protéome

1. L’ADN et l’information génétique

TP 5 Du génome au protéome

Département Génétique et Génomique Evolutives

Axe Transversal Interactions Durables (ID)

La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)

L’arbre du vivant.

Kahina RAMDANI Master I : Biologie et Ecologie Marine

L'information génétique

Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.

LA SYNTHÈSE DES PROTÉINES

Annotation de génomes complets

La banque UniprotKB et le logiciel Blast

Génétique moléculaire

Bactéries personnalisées Grenoble Medtech Industry Meeting 8 avril 2014 Alexia Chandor-Proust – Resp R&D.

Ordre des chapitres : 1 – 3 – 2 – 4 1.

Les ouvertures au CC Pascal Calvat. Plan 2 Présentation des ouvertures Les besoins des utilisateurs Les solutions apportées par le CCIN2P3 Les ouvertures.

Les Séquences et leurs Propriétés. Nucléotides  ADN  A, T, G, C  ARN  A, U, G, C.

5 Février 2009 BIO-Réduction du FEr : Produits secondaires et mobilité des éléments associés ou BIOREFE AP EC2CO AT CYTRIX.

Génomes microbiens entièrement séquencés. 1995: Haemophilus influenzae, 1.8 Mb, protéines (TIGR) 1995: Mycoplasma genitalium, 0.6 Mb, 470 protéines.

E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.

Étude de la corrélation entre la densité de marquage des cibles et la puissance du scanner lors d’une expérience de puce à ADN Axel POULET.

Étude de la régulation des protéines Rho3 et Rho4: recherche des kinases responsables de la phosphorylation de la RhoGAP Rgd1 chez la levure Saccharomyces.

Evidence for a functional RNA element in the hepatitis C virus core gene Laura K. McMullan, Arash Grakoui, Matthew J. Evans, Kathleen Mihalik, Montserrat.

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.

Intégration des données sur le transcriptome

Introduction à la Bio-Informatique

GenoToul2007 Présentation Bilan 2007 Perspectives Plateforme bioinformatique C. Gaspin, C. Klopp, D. Laborie, J.-M. Larré, C. Noirot.

Révision ADN et protéines

Aspects techniques des biotechnologies

45e congrès du Groupe Français des Pesticides, mai 2015, Versailles

Introduction à la bioinformatique « Génomique Nouvelle Génération »

TP n°6 : la structure de la molécule d’ADN

Chapitre 2 : La nature du vivant.

Responsable: Didier Cabanes

Introduction à la Bio-Informatique

Mais d’abord rappelez-vous!!

Les banques de séquences nucléiques

CHMI 4206 Bioinformatique appliquée

CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.

CHMI 4206 Bioinformatique appliquée

CHMI 4206 Bioinformatique appliquée

CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.

Aspects techniques des biotechnologies

Bio-Informatique Analyse de séquences nucléotidiques

Projet IRIS : Impact des Radiations IonisanteS sur l’évolution des bactéries E.coli LPC, CNRS- IN2P3, Université Blaise Pascal Marianne Coulon, Nathanael.

Projet IRIS : Impact des Radiations IonisanteS sur l’évolution des bactéries E.coli LPC, UMR 6533 CNRS- IN2P3, Université Blaise Pascal Marianne Coulon,

Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.

Définition de la transpotion La transposition correspond au déplacement aléatoire, sur le chromosome, de fragments d’ADN nommés éléments génétique mobile.

Transcription de la présentation:

Institut Universitaire de Technologie de Clermont-Ferrand Université d’Auvergne Département Génie Biologique Site d’Aurillac SEQUENCAGE DU GENOME COMPLET D’UNE MICROSPORIDIE BRACHIOLA ALGERAE : ASSEMBLAGE ET ANNOTATION Nicolas PARISOT 2ème Année Option Bioinformatique Bonjour, je vais vous présenter les travaux que j’ai effectué dans le cadre de mon stage de deuxième année de DUT bioinformatique Ce stage s’est déroulé au sein du Laboratoire Microorganismes : Génome et Environnement, dans l’équipe de Génomique intégrée des interactions microbiennes Les travaux effectués portent sur le séquençage du génome complet d’une microsporidie Brachiola algerae, et plus particulièrement sur son assemblage et son annotation Responsable : Éric Peyretaillade Laboratoire Microorganismes : Génome et Environnement UMR CNRS 6023 Génomique Intégrée des Interactions Microbiennes

Sommaire Présentation générale Objectifs Résultats Perspectives Les microsporidies Le projet de séquençage de B. algerae Objectifs Résultats Assemblage Annotation Perspectives Au cours de cette présentation, je vais tout d’abord vous présenter ce que sont les microsporidies et en quoi leur étude est intéressante. Puis le projet de séquençage d’une microsporidie, B. algerae J’aborderais ensuite les objectifs de ces travaux qui conduiront aux développement d’applications bioinformatiques Je vous présenterais ensuite toutes les étapes et les différents scripts qui ont conduit à l’assemblage et l’annotation du génome de B. algerae ainsi que les résultats préliminaires d’annotation. Pour finir, j’aborderais les perspectives de cette étude

Les microsporidies Parasites intracellulaires obligatoires Présentation générale Les microsporidies Parasites intracellulaires obligatoires Evolution des génomes microsporidiens Encephalitozoon cuniculi (2,9 Mpb) Antonospora locustae (5,3 Mpb) Escherichia coli (4,7 Mpb) Noyau Tube polaire Les microsporidies sont des parasites intracellulaires obligatoires qui ont un mécanisme d’invasion particulier grâce à leur tube polaire enroulé. Une fois déroulé, ce tube polaire permet l’invasion de la cellule hôte. Certaines microsporidies font preuve d’une relative simplicité comparées aux autres eucaryotes, et montrent des réductions importantes au niveau de leur génome et la structure de leur gène. En effet, la compaction génique est très importante. En comparaison, la taille du génome d’E. coli, une bactérie, un organisme procaryote, est du même ordre de grandeur que la taille de certains génomes microsporidiens. Il est aussi intéressant de noter que la taille du génome d’E.coli est plus importante que la taille du génome d’E. cuniculi. Certaines microsporidies montrent donc des réductions importantes mais il existent aussi des génomes microsporidiens de plus gde taille comme B. algerae Microsporidies Bactérie

Brachiola algerae Plus grand génome microsporidien Présentation générale Brachiola algerae Plus grand génome microsporidien Estimé à 23 Mpb Capacités adaptatives importantes Capable d’infester insectes et mammifères Capable de se développer à des températures comprises entre 27°C et 38°C La résolution du caryotype moléculaire de B. algerae a permis de mettre en évidence 30 bandes d’ADN chromosomique pour une taille estimée à 23 Mpb. Ce qui en fait le plus grand génome microsporidien caractérisé à l’heure actuelle. Par ailleurs B. algerae fait preuve de capacités adaptatives importantes, notamment un large spectre d'hôtes (insectes et mammifères), de types cellulaires infestés (rein, cornée, intestin) et une large gamme de températures pour se multiplier et se différencier (27°C à 38°C). Cette espèce représente donc un bon modèle d’étude pour comprendre l’évolution des génomes microsporidiens ainsi que ses capacités d’adaptation importantes.

Le projet de séquençage de Brachiola algerae Présentation générale Le projet de séquençage de Brachiola algerae Stratégie de séquençage global Séquençage (105019 séquences) A peine 3 fois le génome (50 490 809 nts) Assemblage (7652 contigs) Ainsi est né le projet de séquençage de B. algerae. Une stratégie de séquençage global a tout d’abord été initiée. Le séquençage proprement dit, a permis généré plus de 100 000 séquences pour une faible couverture d’à peine 3 fois le génome (50 millions de nucléotides séquencés). La phase d’assemblage à quant à elle permis d’obtenir plus de 7000 contigs. Ce nombre de contigs reste encore trop important, une trop forte proportion de séquences reste non assemblées.

Le projet de séquençage de Brachiola algerae Présentation générale Le projet de séquençage de Brachiola algerae Mise en évidence des particularités de B. algerae Riche en séquences répétées et éléments transposables Fort pourcentage en résidus Adénine et Thymine (76%) Ces problèmes d’assemblage résultent des particularités du génome de B. algerae. ce génome est riche en séquences répétées (correspondant à des petites portions d’ADN retrouvées de très nombreuses fois dans le génome) et en éléments transposables ( des séquences capables de se déplacer dans ce génome). Deuxième particularité : son fort pourcentage d’adénine et de thymine, à hauteur de 76%

Le projet de séquençage de Brachiola algerae Présentation générale Le projet de séquençage de Brachiola algerae Nouvelle stratégie de séquençage par chromosome ou groupe de chromosomes KI0AEK (36248) KI0AHA (14834) KI0AIA (17564) KI0AFA (13301) Afin de pallier à ces problèmes d’assemblage, il a donc fallu définir une nouvelle stratégie de séquençage. Les banques génomique ne sont plus constituées à partir de l’ADN total de B. algerae mais à partir de chromosomes ou groupes de chromosomes. CLIC En effet, la résolution du caryotype moléculaire a permis de mettre en évidence 30 bandes d’ADN chromosomique à partir desquelles 12 groupes ont été définis. Chaque groupe peut comprendre un ou plusieurs chromosomes. CLICS KI0ALA (17615) KI0AGA (14035) En cours de séquençage KI0AQA (13311)

Objectifs Objectifs Assemblage des séquences des banques de chromosome(s) du génome de B. algerae Optimisation de l’assemblage Annotation du génome Les objectifs de ce projet sont tout d’abord de réaliser l’assemblage du génome de B. algerae à partir des séquences des banques de chromosome. Optimiser cet assemblage Puis de réaliser l’annotation syntaxique et fonctionnelle de ce génome par le développement de scripts.

Assemblage Prétraitement des séquences Résultats Avant de procéder à l’assemblage, les séquences doivent subir un prétraitement. Au départ, les fichiers fournis par le Genoscope se trouvent au format SCF, CLIC qui correspond en réalité à l’électrophorégramme obtenu lors du séquençage Il sera par la suite possible de récupérer la séquence au format FASTA par l’intermédiaire des logiciels du package Staden. Le format FASTA se compose d’une ligne de commentaire qui débute par le caractère > suivi des lignes de séquences qui peuvent avoir une taille allant de 60 à 80 nucléotides.

Résultats Assemblage Élimination des séquences de mauvaise qualité et des portions de vecteurs Le prétraitement consiste en fait à l’élimination des séquences de mauvaise qualité et des portions de vecteurs restantes grâce au logiciel pregap4 du package Staden. CLIC Comme vous pouvez le voir sur cette capture d’écran, la région en rouge à gauche correspond à une portion de vecteur, et la zone grisée à droite correspond à une région de mauvaise qualité. En revanche un script PERL a été développé afin d’éliminer les séquences peu informatives. Une séquence est estimée peu informative si sa taille est inférieure à 100 nts La taille de chaque séquence est donc contrôlée de manière automatique. Élimination des séquences peu informatives Taille inférieure à 100 nts

Assemblage Élimination des séquences contaminantes Contamination ADN Résultats Assemblage Élimination des séquences contaminantes Contamination ADN Homo sapiens et Mycoplasma sp. Recombinaison ou instabilité des plasmides Escherichia coli Ainsi que la présence de séquences contaminantes. Les séquences contaminantes sont dues à des phénomènes de contamination ADN qui ont pu avoir eu lieu entre B. algerae et les cellules humaines sur lesquelles elle a été cultivée. En effet B. algerae étant un parasite, sa culture in vitro ne peut se faire que sur des cellules hôtes, içi des cellules humaines. Il se peut que des traces d’ADN de la cellule hôte persistent lors de l’extraction. Idem pour Mycoplasma qui est un parasite de l’Homme, il a donc pu contaminer les cultures in vitro. Deux autres phénomènes peuvent être à l’origine de ses séquences, des phénomènes de recombinaison, donc d’échange d’informations entre génome ou un phénomène d’instabilité des plasmides. Ces phénomènes ont pu avoir eu lieu entre B. algerae et les cellules d’E.coli dans lesquelles les banques ont été constituées. Un script a donc été développé afin de rechercher ces séquences contaminantes. Ce script lance de façon automatique une recherche de séquence homologue contre les génomes concernés. Les sorties positives sont ensuite validées manuellement, et les séquences présentant une homologie d’au moins 99% sur toute leur longueur avec des séquences de ces génomes sont éliminées. CLIC Voici un exemple d’une sortie positive pour une contamination par Homo sapiens, l’homologie est de 99% avec une séquence humaine sur toute la longueur. Cette séquence sera éliminée

Assemblage Assemblage des séquences des banques de chromosome(s) Résultats Assemblage Assemblage des séquences des banques de chromosome(s) … Il est maintenant possible de réaliser un premier assemblage entre les séquences d’une même banque de chromosome. Les paramètres utilisés sont très stringents en raison des caractéristiques de ce génome, et notamment sa richesse en séquence répétées. Une zone de chevauchement minimale de 50 nucléotides est imposée ainsi qu’un taux maximal de 0,5 % de mésappariement sur cette zone. CLIC En théorie, l’assemblage consisterait à la reconstitution de la séquence complète du ou des chromosomes étudiés mais la présence de séquences répétées rendent cette idée utopique CLICS En pratique, l ’assemblage abouti à l’obtention de séquences plus longues les contigs

Assemblage Assemblage des séquences des banques de chromosome(s) Résultats Assemblage Assemblage des séquences des banques de chromosome(s) Banque KI0AEK KI0AHA KI0AIA KI0AFA KI0ALA KI0AGA KI0AQA Groupe de chromosomes I & V II III IV VI VII XI Séquences 36248 14834 17564 13301 17615 14035 13311 Contigs 14409 5934 6987 5355 7141 461 7140 Taille moyenne 674 566 669 699 683 932 520 Les résultats de ce premier assemblage sont présentés dans ce tableau. Pour chaque banque, son nom, le ou les groupes de chromosomes associés, le nombre de séquences initiales, le nombre de contigs obtenus après assemblage ainsi que la taille moyenne de ces contigs Par exemple pour la banque KI0AHA CLIC A partir de 14834 séquences, 5934 contigs ont pu être reconstruits. Pour une taille moyenne des contigs de 566. Ce premier assemblage n’est donc pas satisfaisant.

Assemblage Utilisation de la banque génome complet Résultats Une stratégie d’optimisation de l’assemblage a donc été mise au point et passe par l’élargissement des contigs en utilisant la banque génome complet. Il s’agit de la banque issue de la première stratégie de séquençage. CLIC L’assemblage se fait donc avec les séquences de cette banque avec des paramètres encore plus stringents imposant une zone de chevauchement minimale de 100 nucléotides avec un pourcentage maximal de mésappariement de 1%. et nous permet d’obtenir des contigs élargis

Assemblage Utilisation de la banque génome complet Résultats Banque KI0AEK KI0AHA KI0AIA KI0AFA KI0ALA KI0AGA KI0AQA Groupe de chromosomes I & V II III IV VI VII XI Séquences 36248 14834 17564 13301 17615 14035 13311 Contigs 14409 5934 6987 5355 7141 461 7140 Taille moyenne 674 566 669 699 683 932 520 Contigs après élargissement 13462 5270 6394 4554 6423 3626 6706 681 846 886 1058 914 1506 729 Les résultats de cet élargissement de l’assemblage sont présentés dans ce tableau, on constate une nette diminution du nombre de contigs après élargissement Pour revenir sur la banque KI0AHA, après élargissement des 5934 contigs définis précédemment on obtient 5270 contigs, pour une taille moyenne des contigs augmentée d’environ 300 pb

Annotation Développement d’un script PERL Annotation syntaxique Résultats Annotation Développement d’un script PERL Annotation syntaxique Identification des gènes Annotation fonctionnelle Attribution d’une fonction à ces gènes Une fois l’assemblage terminé il est maintenant nécessaire de procéder à la phase d’annotation. Pour cela un script a été développé afin de réaliser les deux étapes qui constituent l’annotation d’un génome. L’annotation syntaxique tout d’abord qui consiste à déterminer les régions potentiellement codantes, les gènes, et l’annotation fonctionnelle qui correspond à l’attribution d’une fonction à ces gènes. La plateforme d’annotation développée permet de traiter les contigs obtenus après l’assemblage.

Annotation syntaxique Résultats Annotation syntaxique Génome riche en AT Augmente la probabilité de retrouver un codon STOP (TAA, TGA, TAG) Génome dépourvu d’introns Portion d’ADN sans codon STOP (ORF) Gène potentiel Stratégie Caractérisation d’ORF de plus de 300 nts 22 Comme nous l’avons vu, le génome de B. algerae est très riche en résidus Adénine et Thymine ce qui augmente la probabilité de retrouver des codons STOP. De plus ce génome est dépourvus d’introns, qui sont les régions non traduites d’un gène, ce qui implique qu’une portion d’ADN sans codon stop, un ORF peut constituer un gène potentiel. Notre stratégie est donc basée sur ces particularités du génome de B. algerae et vise à caractériser les ORF de plus de 300 nts. Le choix de 300 nts est due au fait que les protéines ont principalement une taille supérieure à 100 aa. CLIC Comme vous pouvez le voir sur cette capture d’écran su logiciel artemis, on peut observer une visualisation graphique des 6 phases de lectures. Les traits verticaux noirs correspondent aux codons stop et les zones bleu ciel correspondent aux potentielles régions codantes, situées entre 2 codons stop. On peut aussi observer le pourcentage GC tout au long de la séquence, ce pourcentage est faible excepté au niveau des régions codantes.

Annotation syntaxique Résultats Annotation syntaxique Recherche d’ORF et de CDS Traduction dans les 6 phases CDS ORF Le programme recherche de manière automatique les ORF, pour cela la séquence est traduite dans les 6 phases. Les phases correspondent à la position du premier nucléotide du codon. CLIC Pour la phase 1, le premier nucléotide du codon correspond au premier nucléotide de la séquence CLICS Pour le 2eme cadre il s’agit du 2eme nucléotide Et pour le dernier cadre il s’agit du troisième nucléotide Et idem pour le brin complémentaire Après traduction, le programme peut détecter les ORF. A partir de ces ORF, un CDS peut être caractérisé si l’ORF dispose d’une méthionine dans les 25 premiers aa de sa séquence. Lors de la caractérisation d’un CDS, seul celui-ci est conservé et non plus l’ORF entier. ORF

Annotation syntaxique Résultats Annotation syntaxique Gestion des extrémités Le grand nombre de contigs obtenus implique que de nombreux gènes restent partiels. En effet, les séquences obtenues ne correspondent pas à un seul gène, le programme développé permet de gérer les potentiels gènes situés en extrémité de séquence. CLICS Les extrémités de plus de 67 aa successifs sans codons STOP sont extraites et subiront le même traitement que les CDS et les ORF

Annotation syntaxique Résultats Annotation syntaxique Gestion des chevauchements Comparaison des tailles et des homologies Lors de la caractérisation des ORF, il se peut que plusieurs d’entre eux soient chevauchants. CLIC Un seul ORF sera conservé, ce sera le plus long, le cas échéant il s’agira de celui présentant une homologie avec une séquence microsporidienne déjà caractérisée. Dans ce cas, si l’ORF présent en phase -3 ne présentent pas d’homologie avec une séquence microsporidienne déjà caractérisée, le CDS présent en phase 1 sera conservé. En revanche l’ORF présentent une homologie alors que le CDS n’en présente pas, seul l’ORF sera conservé.

Annotation fonctionnelle Résultats Annotation fonctionnelle Recherche d’homologies Protéome d’Encephalitozoon cuniculi Protéome d’Antonospora locustae Swissprot TrEMBL Le programme lance de façon automatique une recherche de séquence homologue pour chaque ORF, CDS ou extrémité. La recherche s’effectue en premier lieu contre le génome d’E. cuniculi, première microsporidie entièrement séquencé et annoté Puis contre celui d’A. locustae, dont le génome est partiellement séquencé et annoté Puis contre la base de données protéique Swissprot qui regroupe des séquences protéiques correctement annotées Et pour finir contre la base de données protéique TrEMBL, qui elle peut contenir des séquences non annotées

Annotation fonctionnelle Résultats Annotation fonctionnelle Création d’une fiche EMBL Pour chaque contig traité, une seule fiche EMBL sera créée pour pouvoir être soumise aux bases de données. Elle regroupe l’ensemble des informations de l’annotation syntaxique et fonctionnelle Cette fiche est créée automatiquement et modifiée dynamiquement. En effet après chaque recherche de séquence homologue contre une banque, l’ensemble des sorties positives est affiché CLIC Pour chaque sortie, l’utilisateur peut valider ou non le résultat d’annotation fonctionnelle, la fiche EMBL est modifiée dynamiquement. Par exemple, pour une homologie avec E. cuniculi, la fiche EMBL sera de ce type S’il y a homologie avec E. cuniculi et A. locustae S’il y a homologie avec E.c A.l et Swissprot En revanche si après la recherche contre ces 3 banques, aucune homologie n’est détectée, on caractérisera le produit de cet ORF ou CDS de protéine hypothétique. Chaque protéine hypothétique subi alors une recherche de séquences homologues contre TrEMBL

Résultats préliminaires d’annotation Traitement de la banque KI0AHA 5270 contigs obtenus à partir de 14834 séquences 159 gènes présents chez les 3 espèces microsporidiennes 335 gènes présents chez E. cuniculi et B. algerae 35 gènes présents chez A. locustae et B. algerae 47 séquences correspondant à des éléments transposables Voici les premiers résultats d’annotation. Nous avons traité la banque KI0AHA qui nous a permis d’obtenir 5270 contigs à partir de 14834 séquences. Sur ces contigs, 159 gènes ont été retrouvés chez B. algerae, A. locustae, et E. cuniculi 335 gènes sont partagés entre B. algerae et E. cuniculi, 35 pour A. locustae et B. algerae Ce programme a aussi permis de mettre en évidence la présence de 47 séquences d’éléments transposables

Perspectives Amélioration de l’assemblage Amélioration de l’annotation Recherche des doublons Amélioration de l’annotation Intégration de logiciels comme Interpro Utilisation du AT% pour la caractérisation des régions codantes Vocabulaire contrôlé (Gene Ontology) Du point de vue de l’assemblage, celui-ci pourrait être optimisé en recherchant d’éventuels doublons, notamment au niveau des extrémités de séquences. Grâce à l’utilisation du package BLAST, une recherche de séquence homologue est effectuée au sein d’une base constituée de l’ensemble des CDS, ORF et extrémités. Le fait de pouvoir retrouver un même gène aux extrémités de plusieurs séquences permettra donc d’orienter l’assemblage de ces 2 séquences de manière moins automatisée, en récupérant les fiches EMBL de ces 2 contigs, ainsi que les fichiers bruts obtenus après séquençage. L’annotation peut elle aussi être optimisée en intégrant des logiciels complémentaires déjà existant. La stratégie d’annotation fonctionnelle développée reposait sur la recherche d’homologie mais d’autres stratégies existent. Par exemple Interpro qui permet de rechercher les domaines protéiques conservés. De plus, B. algerae ayant un génome riche en AT, il serait aussi intéressant de se servir de cette particularité pour caractériser les régions codantes. En effet celles-ci disposent d’un AT% plus faible Un vocabulaire contrôlé peut aussi être intégré par l’intermédiaire de Gene Ontology.

Perspectives Génomique comparative Éléments transposables Capacités adaptatives Cycle de développement Mécanisme d’invasion Éléments transposables Identification Mobilité Grâce à ces données d’annotation des études de génomique comparative plus poussées pourront être menées. Ces études pourront permettre d’identifier les gènes caractéristiques de B. algerae et donc permettre d’expliquer les grandes capacités adaptatives de ce parasite. De plus une étude complète sur les éléments transposables peut être effectuée, elle peut passer par l’identification de ces éléments et la caractérisation de leur mobilité.

MERCI DE VOTRE ATTENTION