Les répétitions en tandem et l ’étude des génomes Exploitation des données de mreps Ghizlane Bana Le poste que j ’occupe actuellement est un poste d ’ingénieur associé en bio-informatique. Je travaille dans l ’équipe ADAGE sous la direction de Gregorie Kutcherov sur le projet mreps. Mreps est un logiciel qui recherche les répétitions en tandem dans les séquences d ’ADN. Lundi 29 Avril 2002
Plan de la présentation Introduction sur les génomes Les répétitions en tandem (RT) Le logiciel mreps Travail effectué Programme de travail étude des hot-spots étude des bactéries pathogènes Quelques applications
Séquence de 3,3 milliards de bases 23 paires de chromosome La disponibilité du genome humain nous ouvre beaucoup de perspective de recherche qui répondrais à la grande question : Qu ’est ce qui différencie un organisme d ’un autre? C ’est a cette dernière question nous pourrons apporter un début de réponse en s ’intéressant en particulier au répétition en tandem. Séquence de 3,3 milliards de bases
Répétitions dans le génome Over half of the DNA consists of repeated sequences of various types… Nature 409, Febr 2001, p.814 Les sequence genomiques sont constitué en grande partie de séquence répètes et la plupart de ces régions ont des fonctions encore inconnues. Quand on sait que ces régions représentant plus de 50% du génome humain on se dit qui nous reste encore beaucoup de travail dans ce domaine.
Les répétitions en tandem fonctions biologiques inconnues marqueurs génétiques implication dans des maladies génétiques Stratégie d ’évolution chez les bactéries. Pourquoi rechercher les RT: certains RT sont des MG et sont utiles dans l ’élaboration de carte génétique. Il existe une série de Rt qui sont impliqués dans des maladies génétique. Dans les génomes bactérien la présence de certains RT aident à l ’évolution Bactérienne comme l ’acquisition de la pathogenicité.
Le logiciel mreps Principaux caractères du logiciel algorithme combinatoire Exhaustif Efficace Pratique Il existe bien des logiciels qui recherchent les RT mais ils sont fondé sur des algo probabilistes. Exhaustif Mreps dépend d ’un modèle combinatoire , il retrouve toutes les répétitions en tandem ce que les algo prob ne font pas, limités par des valeurs seuils. Mreps est très efficace car il peut traiter de très grandes séquences de plusieurs millions de bases. Portable propose les résultats sous un format XML ce qui peut être utilisé par d ’autre outils.
Travail effectué Travail de validation de l ’outil - test de l ’outil - comparaison avec les autres algorithmes Élaboration du site web mreps Le travail effectué jusqu ’ici nous a permis de faire de mreps un outil fiable et performant pour la recherche de répétitions en tandem dans les génomes. Tout d ’abord par sa validation de proposer aux biologistes un outil exhaustif et efficace afin de les assister dans leur recherche en genomique. L ’élaboration du site web constitue une amélioration tant au niveau de la convivialité de l ’outil que dans son accessibilité. C ’était l ’occasion de présenter notre travail et de représenter le Loria mais aussi de rencontrer des personnes qui travaillent sur la même problématique. Mais aussi de faire naître une collaboration avec l ’équipe LIRMM de (Montpellier) pour l ’élaboration de notre base de données dans la partie commune de nos travaux. Présentation d ’un poster à la conférence RECOMB 2002 (Research in Computational Molecular Biology) Washington DC du 17 au 21 avril.
Programme de travail Étude des hot-spots du chromosome 22 humain (collaboration avec Marie Dominique Devignes, équipe Langue et Dialogue) Par région de hot-spot : - répertorier et stocker les RT et les régions flanquantes - élaboration d ’un profil en RT - modèle statistique Nous souhaitons à présent, dans une deuxième phase, utiliser cet outil afin de mieux comprendre l’implication des RT dans les mécanismes génétiques. Cela constitue un travail de fond dont le but est, à terme, l’élaboration et la validation d’une méthode d’identification de régions chromosomiques particulières . La réalisation de ce travail s’appuie sur la définition d’une notion de profil génétique, c’est à dire, une proportion ou combinaison de RT permettant de caractériser une région du génome par l’établissement d’une corrélation entre la présence d’une catégorie de RT et le rôle biologique de la zone chromosomique dans laquelle elle se situe.
Programme de travail Étude des bactéries pathogènes Distinction de 2 types de profils: -Génome entier -Régions impliquées dans la pathogénicités Collaboration avec un laboratoire de biologie Mreps donnant la totalité des RT possibilités il nous est possible de proceder à une etude statistique.
Quelques applications Base de données des RT et séquences flanquantes méthodes d ’annotation de gènes Évolution des gènes L ’intérêt d ’un tel travail nous permet en premier lieu d ’obtenir une base de données de RT et séquences flanquantes en appliquant un algorithme d ’alignement des séquence on dispose ainsi d ’une nouvelles méthodes d ’annotation des gènes. Ultérieurement on pourrait étudier l ’évolution des bactéries. Si une bactérie non pathogène a le même profil qu ’une bactérie pathogène, on peut se poser la question de savoir si elle a été pathogène ou si elle est en chemin de le devenir.