La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Institut Universitaire de Technologie de Clermont-Ferrand

Présentations similaires


Présentation au sujet: "Institut Universitaire de Technologie de Clermont-Ferrand"— Transcription de la présentation:

1 Institut Universitaire de Technologie de Clermont-Ferrand
Université d’Auvergne Département Génie Biologique Site d’Aurillac SEQUENCAGE DU GENOME COMPLET D’UNE MICROSPORIDIE BRACHIOLA ALGERAE : ASSEMBLAGE ET ANNOTATION Nicolas PARISOT 2ème Année Option Bioinformatique Bonjour, je vais vous présenter les travaux que j’ai effectué dans le cadre de mon stage de deuxième année de DUT bioinformatique Ce stage s’est déroulé au sein du Laboratoire Microorganismes : Génome et Environnement, dans l’équipe de Génomique intégrée des interactions microbiennes Les travaux effectués portent sur le séquençage du génome complet d’une microsporidie Brachiola algerae, et plus particulièrement sur son assemblage et son annotation Responsable : Éric Peyretaillade Laboratoire Microorganismes : Génome et Environnement UMR CNRS 6023 Génomique Intégrée des Interactions Microbiennes

2 Sommaire Présentation générale Objectifs Résultats Perspectives
Les microsporidies Le projet de séquençage de B. algerae Objectifs Résultats Assemblage Annotation Perspectives Au cours de cette présentation, je vais tout d’abord vous présenter ce que sont les microsporidies et en quoi leur étude est intéressante. Puis le projet de séquençage d’une microsporidie, B. algerae J’aborderais ensuite les objectifs de ces travaux qui conduiront aux développement d’applications bioinformatiques Je vous présenterais ensuite toutes les étapes et les différents scripts qui ont conduit à l’assemblage et l’annotation du génome de B. algerae ainsi que les résultats préliminaires d’annotation. Pour finir, j’aborderais les perspectives de cette étude

3 Les microsporidies Parasites intracellulaires obligatoires
Présentation générale Les microsporidies Parasites intracellulaires obligatoires Evolution des génomes microsporidiens Encephalitozoon cuniculi (2,9 Mpb) Antonospora locustae (5,3 Mpb) Escherichia coli (4,7 Mpb) Noyau Tube polaire Les microsporidies sont des parasites intracellulaires obligatoires qui ont un mécanisme d’invasion particulier grâce à leur tube polaire enroulé. Une fois déroulé, ce tube polaire permet l’invasion de la cellule hôte. Certaines microsporidies font preuve d’une relative simplicité comparées aux autres eucaryotes, et montrent des réductions importantes au niveau de leur génome et la structure de leur gène. En effet, la compaction génique est très importante. En comparaison, la taille du génome d’E. coli, une bactérie, un organisme procaryote, est du même ordre de grandeur que la taille de certains génomes microsporidiens. Il est aussi intéressant de noter que la taille du génome d’E.coli est plus importante que la taille du génome d’E. cuniculi. Certaines microsporidies montrent donc des réductions importantes mais il existent aussi des génomes microsporidiens de plus gde taille comme B. algerae Microsporidies Bactérie

4 Brachiola algerae Plus grand génome microsporidien
Présentation générale Brachiola algerae Plus grand génome microsporidien Estimé à 23 Mpb Capacités adaptatives importantes Capable d’infester insectes et mammifères Capable de se développer à des températures comprises entre 27°C et 38°C La résolution du caryotype moléculaire de B. algerae a permis de mettre en évidence 30 bandes d’ADN chromosomique pour une taille estimée à 23 Mpb. Ce qui en fait le plus grand génome microsporidien caractérisé à l’heure actuelle. Par ailleurs B. algerae fait preuve de capacités adaptatives importantes, notamment un large spectre d'hôtes (insectes et mammifères), de types cellulaires infestés (rein, cornée, intestin) et une large gamme de températures pour se multiplier et se différencier (27°C à 38°C). Cette espèce représente donc un bon modèle d’étude pour comprendre l’évolution des génomes microsporidiens ainsi que ses capacités d’adaptation importantes.

5 Le projet de séquençage de Brachiola algerae
Présentation générale Le projet de séquençage de Brachiola algerae Stratégie de séquençage global Séquençage ( séquences) A peine 3 fois le génome (50 490 809 nts) Assemblage (7652 contigs) Ainsi est né le projet de séquençage de B. algerae. Une stratégie de séquençage global a tout d’abord été initiée. Le séquençage proprement dit, a permis généré plus de séquences pour une faible couverture d’à peine 3 fois le génome (50 millions de nucléotides séquencés). La phase d’assemblage à quant à elle permis d’obtenir plus de 7000 contigs. Ce nombre de contigs reste encore trop important, une trop forte proportion de séquences reste non assemblées.

6 Le projet de séquençage de Brachiola algerae
Présentation générale Le projet de séquençage de Brachiola algerae Mise en évidence des particularités de B. algerae Riche en séquences répétées et éléments transposables Fort pourcentage en résidus Adénine et Thymine (76%) Ces problèmes d’assemblage résultent des particularités du génome de B. algerae. ce génome est riche en séquences répétées (correspondant à des petites portions d’ADN retrouvées de très nombreuses fois dans le génome) et en éléments transposables ( des séquences capables de se déplacer dans ce génome). Deuxième particularité : son fort pourcentage d’adénine et de thymine, à hauteur de 76%

7 Le projet de séquençage de Brachiola algerae
Présentation générale Le projet de séquençage de Brachiola algerae Nouvelle stratégie de séquençage par chromosome ou groupe de chromosomes KI0AEK (36248) KI0AHA (14834) KI0AIA (17564) KI0AFA (13301) Afin de pallier à ces problèmes d’assemblage, il a donc fallu définir une nouvelle stratégie de séquençage. Les banques génomique ne sont plus constituées à partir de l’ADN total de B. algerae mais à partir de chromosomes ou groupes de chromosomes. CLIC En effet, la résolution du caryotype moléculaire a permis de mettre en évidence 30 bandes d’ADN chromosomique à partir desquelles 12 groupes ont été définis. Chaque groupe peut comprendre un ou plusieurs chromosomes. CLICS KI0ALA (17615) KI0AGA (14035) En cours de séquençage KI0AQA (13311)

8 Objectifs Objectifs Assemblage des séquences des banques de chromosome(s) du génome de B. algerae Optimisation de l’assemblage Annotation du génome Les objectifs de ce projet sont tout d’abord de réaliser l’assemblage du génome de B. algerae à partir des séquences des banques de chromosome. Optimiser cet assemblage Puis de réaliser l’annotation syntaxique et fonctionnelle de ce génome par le développement de scripts.

9 Assemblage Prétraitement des séquences Résultats
Avant de procéder à l’assemblage, les séquences doivent subir un prétraitement. Au départ, les fichiers fournis par le Genoscope se trouvent au format SCF, CLIC qui correspond en réalité à l’électrophorégramme obtenu lors du séquençage Il sera par la suite possible de récupérer la séquence au format FASTA par l’intermédiaire des logiciels du package Staden. Le format FASTA se compose d’une ligne de commentaire qui débute par le caractère > suivi des lignes de séquences qui peuvent avoir une taille allant de 60 à 80 nucléotides.

10 Résultats Assemblage Élimination des séquences de mauvaise qualité et des portions de vecteurs Le prétraitement consiste en fait à l’élimination des séquences de mauvaise qualité et des portions de vecteurs restantes grâce au logiciel pregap4 du package Staden. CLIC Comme vous pouvez le voir sur cette capture d’écran, la région en rouge à gauche correspond à une portion de vecteur, et la zone grisée à droite correspond à une région de mauvaise qualité. En revanche un script PERL a été développé afin d’éliminer les séquences peu informatives. Une séquence est estimée peu informative si sa taille est inférieure à 100 nts La taille de chaque séquence est donc contrôlée de manière automatique. Élimination des séquences peu informatives Taille inférieure à 100 nts

11 Assemblage Élimination des séquences contaminantes Contamination ADN
Résultats Assemblage Élimination des séquences contaminantes Contamination ADN Homo sapiens et Mycoplasma sp. Recombinaison ou instabilité des plasmides Escherichia coli Ainsi que la présence de séquences contaminantes. Les séquences contaminantes sont dues à des phénomènes de contamination ADN qui ont pu avoir eu lieu entre B. algerae et les cellules humaines sur lesquelles elle a été cultivée. En effet B. algerae étant un parasite, sa culture in vitro ne peut se faire que sur des cellules hôtes, içi des cellules humaines. Il se peut que des traces d’ADN de la cellule hôte persistent lors de l’extraction. Idem pour Mycoplasma qui est un parasite de l’Homme, il a donc pu contaminer les cultures in vitro. Deux autres phénomènes peuvent être à l’origine de ses séquences, des phénomènes de recombinaison, donc d’échange d’informations entre génome ou un phénomène d’instabilité des plasmides. Ces phénomènes ont pu avoir eu lieu entre B. algerae et les cellules d’E.coli dans lesquelles les banques ont été constituées. Un script a donc été développé afin de rechercher ces séquences contaminantes. Ce script lance de façon automatique une recherche de séquence homologue contre les génomes concernés. Les sorties positives sont ensuite validées manuellement, et les séquences présentant une homologie d’au moins 99% sur toute leur longueur avec des séquences de ces génomes sont éliminées. CLIC Voici un exemple d’une sortie positive pour une contamination par Homo sapiens, l’homologie est de 99% avec une séquence humaine sur toute la longueur. Cette séquence sera éliminée

12 Assemblage Assemblage des séquences des banques de chromosome(s)
Résultats Assemblage Assemblage des séquences des banques de chromosome(s) Il est maintenant possible de réaliser un premier assemblage entre les séquences d’une même banque de chromosome. Les paramètres utilisés sont très stringents en raison des caractéristiques de ce génome, et notamment sa richesse en séquence répétées. Une zone de chevauchement minimale de 50 nucléotides est imposée ainsi qu’un taux maximal de 0,5 % de mésappariement sur cette zone. CLIC En théorie, l’assemblage consisterait à la reconstitution de la séquence complète du ou des chromosomes étudiés mais la présence de séquences répétées rendent cette idée utopique CLICS En pratique, l ’assemblage abouti à l’obtention de séquences plus longues les contigs

13 Assemblage Assemblage des séquences des banques de chromosome(s)
Résultats Assemblage Assemblage des séquences des banques de chromosome(s) Banque KI0AEK KI0AHA KI0AIA KI0AFA KI0ALA KI0AGA KI0AQA Groupe de chromosomes I & V II III IV VI VII XI Séquences 36248 14834 17564 13301 17615 14035 13311 Contigs 14409 5934 6987 5355 7141 461 7140 Taille moyenne 674 566 669 699 683 932 520 Les résultats de ce premier assemblage sont présentés dans ce tableau. Pour chaque banque, son nom, le ou les groupes de chromosomes associés, le nombre de séquences initiales, le nombre de contigs obtenus après assemblage ainsi que la taille moyenne de ces contigs Par exemple pour la banque KI0AHA CLIC A partir de séquences, 5934 contigs ont pu être reconstruits. Pour une taille moyenne des contigs de 566. Ce premier assemblage n’est donc pas satisfaisant.

14 Assemblage Utilisation de la banque génome complet Résultats
Une stratégie d’optimisation de l’assemblage a donc été mise au point et passe par l’élargissement des contigs en utilisant la banque génome complet. Il s’agit de la banque issue de la première stratégie de séquençage. CLIC L’assemblage se fait donc avec les séquences de cette banque avec des paramètres encore plus stringents imposant une zone de chevauchement minimale de 100 nucléotides avec un pourcentage maximal de mésappariement de 1%. et nous permet d’obtenir des contigs élargis

15 Assemblage Utilisation de la banque génome complet Résultats Banque
KI0AEK KI0AHA KI0AIA KI0AFA KI0ALA KI0AGA KI0AQA Groupe de chromosomes I & V II III IV VI VII XI Séquences 36248 14834 17564 13301 17615 14035 13311 Contigs 14409 5934 6987 5355 7141 461 7140 Taille moyenne 674 566 669 699 683 932 520 Contigs après élargissement 13462 5270 6394 4554 6423 3626 6706 681 846 886 1058 914 1506 729 Les résultats de cet élargissement de l’assemblage sont présentés dans ce tableau, on constate une nette diminution du nombre de contigs après élargissement Pour revenir sur la banque KI0AHA, après élargissement des 5934 contigs définis précédemment on obtient 5270 contigs, pour une taille moyenne des contigs augmentée d’environ 300 pb

16 Annotation Développement d’un script PERL Annotation syntaxique
Résultats Annotation Développement d’un script PERL Annotation syntaxique Identification des gènes Annotation fonctionnelle Attribution d’une fonction à ces gènes Une fois l’assemblage terminé il est maintenant nécessaire de procéder à la phase d’annotation. Pour cela un script a été développé afin de réaliser les deux étapes qui constituent l’annotation d’un génome. L’annotation syntaxique tout d’abord qui consiste à déterminer les régions potentiellement codantes, les gènes, et l’annotation fonctionnelle qui correspond à l’attribution d’une fonction à ces gènes. La plateforme d’annotation développée permet de traiter les contigs obtenus après l’assemblage.

17 Annotation syntaxique
Résultats Annotation syntaxique Génome riche en AT Augmente la probabilité de retrouver un codon STOP (TAA, TGA, TAG) Génome dépourvu d’introns Portion d’ADN sans codon STOP (ORF) Gène potentiel Stratégie Caractérisation d’ORF de plus de 300 nts 22 Comme nous l’avons vu, le génome de B. algerae est très riche en résidus Adénine et Thymine ce qui augmente la probabilité de retrouver des codons STOP. De plus ce génome est dépourvus d’introns, qui sont les régions non traduites d’un gène, ce qui implique qu’une portion d’ADN sans codon stop, un ORF peut constituer un gène potentiel. Notre stratégie est donc basée sur ces particularités du génome de B. algerae et vise à caractériser les ORF de plus de 300 nts. Le choix de 300 nts est due au fait que les protéines ont principalement une taille supérieure à 100 aa. CLIC Comme vous pouvez le voir sur cette capture d’écran su logiciel artemis, on peut observer une visualisation graphique des 6 phases de lectures. Les traits verticaux noirs correspondent aux codons stop et les zones bleu ciel correspondent aux potentielles régions codantes, situées entre 2 codons stop. On peut aussi observer le pourcentage GC tout au long de la séquence, ce pourcentage est faible excepté au niveau des régions codantes.

18 Annotation syntaxique
Résultats Annotation syntaxique Recherche d’ORF et de CDS Traduction dans les 6 phases CDS ORF Le programme recherche de manière automatique les ORF, pour cela la séquence est traduite dans les 6 phases. Les phases correspondent à la position du premier nucléotide du codon. CLIC Pour la phase 1, le premier nucléotide du codon correspond au premier nucléotide de la séquence CLICS Pour le 2eme cadre il s’agit du 2eme nucléotide Et pour le dernier cadre il s’agit du troisième nucléotide Et idem pour le brin complémentaire Après traduction, le programme peut détecter les ORF. A partir de ces ORF, un CDS peut être caractérisé si l’ORF dispose d’une méthionine dans les 25 premiers aa de sa séquence. Lors de la caractérisation d’un CDS, seul celui-ci est conservé et non plus l’ORF entier. ORF

19 Annotation syntaxique
Résultats Annotation syntaxique Gestion des extrémités Le grand nombre de contigs obtenus implique que de nombreux gènes restent partiels. En effet, les séquences obtenues ne correspondent pas à un seul gène, le programme développé permet de gérer les potentiels gènes situés en extrémité de séquence. CLICS Les extrémités de plus de 67 aa successifs sans codons STOP sont extraites et subiront le même traitement que les CDS et les ORF

20 Annotation syntaxique
Résultats Annotation syntaxique Gestion des chevauchements Comparaison des tailles et des homologies Lors de la caractérisation des ORF, il se peut que plusieurs d’entre eux soient chevauchants. CLIC Un seul ORF sera conservé, ce sera le plus long, le cas échéant il s’agira de celui présentant une homologie avec une séquence microsporidienne déjà caractérisée. Dans ce cas, si l’ORF présent en phase -3 ne présentent pas d’homologie avec une séquence microsporidienne déjà caractérisée, le CDS présent en phase 1 sera conservé. En revanche l’ORF présentent une homologie alors que le CDS n’en présente pas, seul l’ORF sera conservé.

21 Annotation fonctionnelle
Résultats Annotation fonctionnelle Recherche d’homologies Protéome d’Encephalitozoon cuniculi Protéome d’Antonospora locustae Swissprot TrEMBL Le programme lance de façon automatique une recherche de séquence homologue pour chaque ORF, CDS ou extrémité. La recherche s’effectue en premier lieu contre le génome d’E. cuniculi, première microsporidie entièrement séquencé et annoté Puis contre celui d’A. locustae, dont le génome est partiellement séquencé et annoté Puis contre la base de données protéique Swissprot qui regroupe des séquences protéiques correctement annotées Et pour finir contre la base de données protéique TrEMBL, qui elle peut contenir des séquences non annotées

22 Annotation fonctionnelle
Résultats Annotation fonctionnelle Création d’une fiche EMBL Pour chaque contig traité, une seule fiche EMBL sera créée pour pouvoir être soumise aux bases de données. Elle regroupe l’ensemble des informations de l’annotation syntaxique et fonctionnelle Cette fiche est créée automatiquement et modifiée dynamiquement. En effet après chaque recherche de séquence homologue contre une banque, l’ensemble des sorties positives est affiché CLIC Pour chaque sortie, l’utilisateur peut valider ou non le résultat d’annotation fonctionnelle, la fiche EMBL est modifiée dynamiquement. Par exemple, pour une homologie avec E. cuniculi, la fiche EMBL sera de ce type S’il y a homologie avec E. cuniculi et A. locustae S’il y a homologie avec E.c A.l et Swissprot En revanche si après la recherche contre ces 3 banques, aucune homologie n’est détectée, on caractérisera le produit de cet ORF ou CDS de protéine hypothétique. Chaque protéine hypothétique subi alors une recherche de séquences homologues contre TrEMBL

23 Résultats préliminaires d’annotation
Traitement de la banque KI0AHA 5270 contigs obtenus à partir de séquences 159 gènes présents chez les 3 espèces microsporidiennes 335 gènes présents chez E. cuniculi et B. algerae 35 gènes présents chez A. locustae et B. algerae 47 séquences correspondant à des éléments transposables Voici les premiers résultats d’annotation. Nous avons traité la banque KI0AHA qui nous a permis d’obtenir 5270 contigs à partir de séquences. Sur ces contigs, 159 gènes ont été retrouvés chez B. algerae, A. locustae, et E. cuniculi 335 gènes sont partagés entre B. algerae et E. cuniculi, 35 pour A. locustae et B. algerae Ce programme a aussi permis de mettre en évidence la présence de 47 séquences d’éléments transposables

24 Perspectives Amélioration de l’assemblage Amélioration de l’annotation
Recherche des doublons Amélioration de l’annotation Intégration de logiciels comme Interpro Utilisation du AT% pour la caractérisation des régions codantes Vocabulaire contrôlé (Gene Ontology) Du point de vue de l’assemblage, celui-ci pourrait être optimisé en recherchant d’éventuels doublons, notamment au niveau des extrémités de séquences. Grâce à l’utilisation du package BLAST, une recherche de séquence homologue est effectuée au sein d’une base constituée de l’ensemble des CDS, ORF et extrémités. Le fait de pouvoir retrouver un même gène aux extrémités de plusieurs séquences permettra donc d’orienter l’assemblage de ces 2 séquences de manière moins automatisée, en récupérant les fiches EMBL de ces 2 contigs, ainsi que les fichiers bruts obtenus après séquençage. L’annotation peut elle aussi être optimisée en intégrant des logiciels complémentaires déjà existant. La stratégie d’annotation fonctionnelle développée reposait sur la recherche d’homologie mais d’autres stratégies existent. Par exemple Interpro qui permet de rechercher les domaines protéiques conservés. De plus, B. algerae ayant un génome riche en AT, il serait aussi intéressant de se servir de cette particularité pour caractériser les régions codantes. En effet celles-ci disposent d’un AT% plus faible Un vocabulaire contrôlé peut aussi être intégré par l’intermédiaire de Gene Ontology.

25 Perspectives Génomique comparative Éléments transposables
Capacités adaptatives Cycle de développement Mécanisme d’invasion Éléments transposables Identification Mobilité Grâce à ces données d’annotation des études de génomique comparative plus poussées pourront être menées. Ces études pourront permettre d’identifier les gènes caractéristiques de B. algerae et donc permettre d’expliquer les grandes capacités adaptatives de ce parasite. De plus une étude complète sur les éléments transposables peut être effectuée, elle peut passer par l’identification de ces éléments et la caractérisation de leur mobilité.

26 MERCI DE VOTRE ATTENTION


Télécharger ppt "Institut Universitaire de Technologie de Clermont-Ferrand"

Présentations similaires


Annonces Google