Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive
Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA Comment fonctionne un organisme vivant ?
Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme –Comprendre l’évolution des organismes, des populations ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA Comment évoluent les organismes vivants ? Quelle est l’origine de la biodiversité ? Comment fonctionne un écosystème ?
Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme –Comprendre l’évolution des organismes, des populations –Applications médicales, environnementales, agronomiques, industrielles ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA
Séquençage de Génomes 1977: Technique de séquençage de l'ADN (Sanger) 1995: 1 er séquençage complet du génome d’un organisme cellulaire (bactérie, pb) 2001: séquençage du génome humain ( pb) 2002: projets « métagénomique » 2007: ~650 génomes entièrement séquencés –Bactéries, Archées : pb / génome –Eucaryotes: pb / génome –Total séquencé: ~ pb Depuis 2005: nouvelles techniques de séquençage ACGTGAGGCATTAGCAGTG AACTATCGGTAGCGAGCTAC TACGACGAGTCGCAGCTAC GCTAGCGGCGATGTACAA
Augmentation exponentielle des données du séquençage Doublement tous les 24 mois
Après le séquençage … Identifier les gènes et autres éléments fonctionnels dans les séquences génomiques (où sont les gènes ?) Déterminer la fonction des gènes (que font-ils ?)
Chercher l’aiguille dans une botte de foin … Régions codantes (protéines) 1.2% Régions codantes (ARN) > 0.05% Régions régulatrices 4-8% Génome humain: pb gènes protéiques ADN non fonctionnel 90-95%
AGGCGATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG ATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCTATGCGATGCGCGATTT TCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCGATTTTCATTGCGGATT TAGATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG GAACCAACAGTATCAGATAAAATGAAAAGGACTGAATCTGCAACACTCAAATAAAAAATA ATTAAGTAGCATTGATCATGCATTTAAGTTAAGTTTCATTCGAGATGTGTAACAAAGCAA ACTACCACTTGATTCCATGCCAAGCATAGTACAATAAAAAATAAGCGACTTCGAAGATGA ATTTTAAGATCTGTGGAAGGAATCTGATGAATATCTAAGAGAAAATGGAGAAGCCATTGA AAAACTTGTCATGAAACCACTATGTTCAAAGTACATGCATCTATCTGAAATTTTAGATTG ATTTCAATTGATCCAGTCAAAGATAGAGAAATTGAATTTTCTATGAAAGCATATTCATTT GTTTAAGCTAAACATCTTGAAATTGATGAAAACATAGAAAAACATAAAATGTTTAACTAA GTAGTTGATTGTAAATAGTGAATTTATCTTAGTGATATCTAAAATTGATAAGGTAGAAAC ACCAAAAGAAAAACTAAACTGTATTGTGAATGCAGGTAAATAAACTAGTGGTAATAGATT AATATAAATTACGTAGCTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT AATCTATTACCTGTGTTAATATACGCCACTTTGAAGGCATAACCATCAAAAGCCTATTCA AATATCTTATTTGTGAGCTATTATAGATCACCTAAAAGAATCACTGGAGAGGATGAGTAC TATTTTACTACTTATGAATCGACTCTGCAATTTATTGAAAAATTAGACTACCAAAAATTA AATATCAATCATCAAGAATTTCAAGATCTAAGCAAAGAACGTTTAGATGTGATTAAAAAC TCTTAAAATGTAATCAAATTCTATTATCCTTAATAGGAATTATCATAAAATGGAATTTTT AATATGGATGCACACTAAAATTATGTGAATCTGTAAATGATTAAAATGAAAATATAAGAT CTTCAACGTAAATCAAAGTTCTACGAACAATCAAAGAAATATAAATTAAAATTCAATCAA AAATAGTTAAATGTAAAATTGCATATTTCATTTAGAATATCACTTTGAACGAAATACCAG AGTTTTATGATGAATATTAAAATCTATATAAGAATTTATTAGAAATGCAAAAGGATATTC ACAACCTATACAATTTGACCAATGAAATTATAAAGGAAAGTTAAAGTGAAACCAAGAAGG TGGCTACTCGAAAGTTCTTTGGAATTATATGAATATTGTACGATTTCAGGTATTGCGCTA ATGCGATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG aggcgatgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg attttcattgcggatttagcgcattagccaggctattacgcgctatgcgatgcgcgattt tcattgcggatttagcgcattagccaggctattacgcgcagccgattttcattgcggatt tagATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG GAACCAACAGTATCAGATAAAATGAAAAGGACTGAATCTGCAACACTCAAATAAAAAATA ATTAAgtagcattgatcatgcatttaagttaagTTTCATTCGAGATGTGTAACAAAGCAA ACTACCACTTGATTCCATGCCAAGCATAGTACAATAAAAAATAAGCGACTTCGAAGATGA ATTTTAAGATCTGTGGAAGGAATCTGATGAATATCTAAGAGAAAATGGAGAAGCCATTGA AAAACTTGTCATGAAACCACTATGTTCAAAgtacatgcatctatctgaaattttagATTG ATTTCAATTGATCCAGTCAAAGATAGAGAAATTGAATTTTCTATGAAAGCATATTCATTT GTTTAAGCTAAACATCTTGAAATTGATGAAAACATAGAAAAACATAAAATGTTTAACTAA GTAGTTGATTgtaaatagtgaatttatcttagTGATATCTAAAATTGATAAGGTAGAAAC ACCAAAAGAAAAACTAAACTGTATTGTGAATGCAGGTAAATAAACTAGTGgtaatagatt aatataaattacgtagCTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT AATCTATTACCTGTGTTAATATACGCCACTTTGAAGGCATAACCATCAAAAGCCTATTCA AATATCTTATTTGTGAGCTATTATAGATCACCTAAAAGAATCACTGGAGAGGATGAGTAC TATTTTACTACTTATGAATCGACTCTGCAATTTATTGAAAAATTAGACTACCAAAAATTA AATATCAATCATCAAGAATTTCAAGATCTAAGCAAAGAACGTTTAGATGTGATTAAAAAC TCTTAAAATgtaatcaaattctattatccttaatagGAATTATCATAAAATGGAATTTTT AATATGGATGCACACTAAAATTATGTGAATCTGTAAATGATTAAAATGAAAATATAAGAT CTTCAACGTAAATCAAAGTTCTACGAACAATCAAAGAAATATAAATTAAAATTCAATCAA AAATAGTTAAATgtaaaattgcatatttcatttagAATATCACTTTGAACGAAATACCAG AGTTTTATGATGAATATTAAAATCTATATAAGAATTTATTAGAAATGCAAAAGGATATTC ACAACCTATACAATTTGACCAATGAAATTATAAAGGAAAGTTAAAGTGAAACCAAGAAGG TGGCTACTCGAAAGTTCTTTGGAATTATATGAatattgtacgatttcaggtattgcgcta atgcgatgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg MDQASLIDESEQSFEQSRRVEPTVSDKMKRTESATLKQKIINFIRDVQQSKLPLDSMPSI VQQKISDFEDEFQDLWKESDEYLRENGEAIEKLVMKPLCSKLISIDPVKDREIEFSMKAY SFVQAKHLEIDENIEKHKMFNQVVDLISKIDKVETPKEKLNCIVNAGKQTSAIVNQMANN QPTGADNLLPVLIYATLKAQPSKAYSNILFVSYYRSPKRITGEDEYYFTTYESTLQFIEK LDYQKLNINHQEFQDLSKERLDVIKNSQNELSQNGIFNMDAHQNYVNLQMIKMKIQDLQR KSKFYEQSKKYKLKFNQKQLNNITLNEIPEFYDEYQNLYKNLLEMQKDIHNLYNLTNEII KESQSETKKVATRKFFGII*
Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) –Empreintes phylogénétiques –« Scan génomique »
Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) Prédire la fonction des gènes (que font- ils ?) - prédiction de fonction par homologie - profils phylogénétiques - conservation de l’ordre des gènes - …
Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) Prédire la fonction des gènes (que font- ils ?) Etudier l’évolution des organismes, des populations (origine de la biodiversité) - phylogénie moléculaire - histoire des populations
Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (e.g. BLAST) Identification de séquences homologues
Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (e.g. ClustalW, Muscle) CLUSTAL W (1.74) multiple sequence alignment Xenopus ATATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTTGGCTCTCTA Poulet TGCATGGGCCAGCATGACCAGCAGGAGGTAGCCAAAATAACACCAACATGCAAATG Vache ATGCATCCGCCACATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homme ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Souris TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA Rat ATGCATGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG
Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (e.g. ClustalW, Muscle) CLUSTAL W (1.74) multiple sequence alignment Xenopus AT--ATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Poulet -TGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Vache ATGCATCCGCCAC-ATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homme ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Souris -TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA---- Rat ATGCAT--GCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ** ** **** ********* * *** * * *** * * *
Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (3) Reconstruction d’arbres phylogénétiques (e.g. PhyML) CLUSTAL W (1.74) multiple sequence alignment Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Gallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Bos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Mus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Rattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * * Xenopus Homo Bos Mus Rattus Gallus 0.02
Banques de données pour la génomique comparative LBBE, Lyon (S. Penel, L. Duret, D. Kahn, G. Perrière, D. Mouchiroud, M. Gouy) Classification des protéines en familles (BLAST) Alignement multiple des protéines Arbre phylogénétique –HOGENOM: familles de gènes des génomes complets 486 génomes, 2 millions de gènes classés en familles –PRODOM: familles domaines protéiques familles de domaines
Banques de données pour la génomique comparative : Besoins CPU Temps de calcul nécessaire aux mises à jour: O(N 2 ) –2007: 10 6 UI CPU –CC-IN2P3: gain de temps x –Croissance exponentielle des données: N double tous les 24 mois ! –20% de notre consommation CPU CC-IN2P3
Autres applications: Phylogénie Etude systématique des transferts horizontaux chez les bactéries hyperthermophiles : –Calteau et al. (2005), JME 60: Etude systématique des transferts horizontaux chez Ralstonia solanacearum : –Fall et al. (2008) PLoS One, sous presse Phylogénie des nitrogénases chez les bactéries fixatrices d’azote : –Blavet et Perrière (2007), Actes de JOBIM, pp Calcul des patrons de substitution le long des génomes (Maximum de vraisemblance) –Necsulea & Lobry (2007) Mol Biol Evol. 24:
Autres applications: Statistique, Modélisation en Ecologie Simulations pour évaluer différentes méthodes d’estimation du nombre de valeurs propres en ACP –Dray (2008) Computational Statistics & Data Analysis 52: Modélisation de la dynamique des populations de mammifères –Solberg et al. (2007) Oecologia 154:
Evolution … de la consommation Année Millions d’UI CPU
Stockage Sauvegarde de nos données à l’IN2P3 ~25 To => délocalisation des sauvegardes
Limitations du CC-IN2P3 Pics de production Pas de calcul interactif
Services Web Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web Mise à disposition de services d’analyse de séquences, e.g.: –Identifier la famille à laquelle la séquence appartient –Placer cette séquence dans l’arbre phylogénétique de la famille
Services Web Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web Mise à disposition de services d’analyse de séquences, e.g.: –Identifier la famille à laquelle la séquence appartient –Placer cette séquence dans l’arbre phylogénétique de la famille => Calcul interactif en libre accès (très courant en SDV !)
Bilan Expérience très positive –Poursuite des mises à jour de nos bases de données –Opportunité pour réaliser de nouvelles analyses qui étaient impossibles auparavant Importance de l’ingénieur support de l’IN2P3 (Merci à Pascal Calvat !) Evolution des besoins CPU: O(N 2 ) avec N qui double tous les 2 ans … Limitations: –Pics de production –Calcul interactif
Remerciements CC-IN2P3 Pascal Calvat Simon Penel