La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive.

Présentations similaires


Présentation au sujet: "Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive."— Transcription de la présentation:

1 Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive

2 Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA Comment fonctionne un organisme vivant ?

3 Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme –Comprendre l’évolution des organismes, des populations ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA Comment évoluent les organismes vivants ? Quelle est l’origine de la biodiversité ? Comment fonctionne un écosystème ?

4 Séquençage de Génomes Objectifs: –Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme –Comprendre l’évolution des organismes, des populations –Applications médicales, environnementales, agronomiques, industrielles ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGAGCGTACA

5 Séquençage de Génomes 1977: Technique de séquençage de l'ADN (Sanger) 1995: 1 er séquençage complet du génome d’un organisme cellulaire (bactérie, 2 10 6 pb) 2001: séquençage du génome humain (3 10 9 pb) 2002: projets « métagénomique » 2007: ~650 génomes entièrement séquencés –Bactéries, Archées : 10 5 -10 7 pb / génome –Eucaryotes: 10 6 -10 9 pb / génome –Total séquencé: ~ 10 11 pb Depuis 2005: nouvelles techniques de séquençage ACGTGAGGCATTAGCAGTG AACTATCGGTAGCGAGCTAC TACGACGAGTCGCAGCTAC GCTAGCGGCGATGTACAA

6 Augmentation exponentielle des données du séquençage Doublement tous les 24 mois

7 Après le séquençage … Identifier les gènes et autres éléments fonctionnels dans les séquences génomiques (où sont les gènes ?) Déterminer la fonction des gènes (que font-ils ?)

8 Chercher l’aiguille dans une botte de foin … Régions codantes (protéines) 1.2% Régions codantes (ARN) > 0.05% Régions régulatrices 4-8% Génome humain: 3 10 9 pb 20 000-25 000 gènes protéiques ADN non fonctionnel 90-95%

9 AGGCGATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG ATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCTATGCGATGCGCGATTT TCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCGATTTTCATTGCGGATT TAGATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG GAACCAACAGTATCAGATAAAATGAAAAGGACTGAATCTGCAACACTCAAATAAAAAATA ATTAAGTAGCATTGATCATGCATTTAAGTTAAGTTTCATTCGAGATGTGTAACAAAGCAA ACTACCACTTGATTCCATGCCAAGCATAGTACAATAAAAAATAAGCGACTTCGAAGATGA ATTTTAAGATCTGTGGAAGGAATCTGATGAATATCTAAGAGAAAATGGAGAAGCCATTGA AAAACTTGTCATGAAACCACTATGTTCAAAGTACATGCATCTATCTGAAATTTTAGATTG ATTTCAATTGATCCAGTCAAAGATAGAGAAATTGAATTTTCTATGAAAGCATATTCATTT GTTTAAGCTAAACATCTTGAAATTGATGAAAACATAGAAAAACATAAAATGTTTAACTAA GTAGTTGATTGTAAATAGTGAATTTATCTTAGTGATATCTAAAATTGATAAGGTAGAAAC ACCAAAAGAAAAACTAAACTGTATTGTGAATGCAGGTAAATAAACTAGTGGTAATAGATT AATATAAATTACGTAGCTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT AATCTATTACCTGTGTTAATATACGCCACTTTGAAGGCATAACCATCAAAAGCCTATTCA AATATCTTATTTGTGAGCTATTATAGATCACCTAAAAGAATCACTGGAGAGGATGAGTAC TATTTTACTACTTATGAATCGACTCTGCAATTTATTGAAAAATTAGACTACCAAAAATTA AATATCAATCATCAAGAATTTCAAGATCTAAGCAAAGAACGTTTAGATGTGATTAAAAAC TCTTAAAATGTAATCAAATTCTATTATCCTTAATAGGAATTATCATAAAATGGAATTTTT AATATGGATGCACACTAAAATTATGTGAATCTGTAAATGATTAAAATGAAAATATAAGAT CTTCAACGTAAATCAAAGTTCTACGAACAATCAAAGAAATATAAATTAAAATTCAATCAA AAATAGTTAAATGTAAAATTGCATATTTCATTTAGAATATCACTTTGAACGAAATACCAG AGTTTTATGATGAATATTAAAATCTATATAAGAATTTATTAGAAATGCAAAAGGATATTC ACAACCTATACAATTTGACCAATGAAATTATAAAGGAAAGTTAAAGTGAAACCAAGAAGG TGGCTACTCGAAAGTTCTTTGGAATTATATGAATATTGTACGATTTCAGGTATTGCGCTA ATGCGATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG aggcgatgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg attttcattgcggatttagcgcattagccaggctattacgcgctatgcgatgcgcgattt tcattgcggatttagcgcattagccaggctattacgcgcagccgattttcattgcggatt tagATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG GAACCAACAGTATCAGATAAAATGAAAAGGACTGAATCTGCAACACTCAAATAAAAAATA ATTAAgtagcattgatcatgcatttaagttaagTTTCATTCGAGATGTGTAACAAAGCAA ACTACCACTTGATTCCATGCCAAGCATAGTACAATAAAAAATAAGCGACTTCGAAGATGA ATTTTAAGATCTGTGGAAGGAATCTGATGAATATCTAAGAGAAAATGGAGAAGCCATTGA AAAACTTGTCATGAAACCACTATGTTCAAAgtacatgcatctatctgaaattttagATTG ATTTCAATTGATCCAGTCAAAGATAGAGAAATTGAATTTTCTATGAAAGCATATTCATTT GTTTAAGCTAAACATCTTGAAATTGATGAAAACATAGAAAAACATAAAATGTTTAACTAA GTAGTTGATTgtaaatagtgaatttatcttagTGATATCTAAAATTGATAAGGTAGAAAC ACCAAAAGAAAAACTAAACTGTATTGTGAATGCAGGTAAATAAACTAGTGgtaatagatt aatataaattacgtagCTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT AATCTATTACCTGTGTTAATATACGCCACTTTGAAGGCATAACCATCAAAAGCCTATTCA AATATCTTATTTGTGAGCTATTATAGATCACCTAAAAGAATCACTGGAGAGGATGAGTAC TATTTTACTACTTATGAATCGACTCTGCAATTTATTGAAAAATTAGACTACCAAAAATTA AATATCAATCATCAAGAATTTCAAGATCTAAGCAAAGAACGTTTAGATGTGATTAAAAAC TCTTAAAATgtaatcaaattctattatccttaatagGAATTATCATAAAATGGAATTTTT AATATGGATGCACACTAAAATTATGTGAATCTGTAAATGATTAAAATGAAAATATAAGAT CTTCAACGTAAATCAAAGTTCTACGAACAATCAAAGAAATATAAATTAAAATTCAATCAA AAATAGTTAAATgtaaaattgcatatttcatttagAATATCACTTTGAACGAAATACCAG AGTTTTATGATGAATATTAAAATCTATATAAGAATTTATTAGAAATGCAAAAGGATATTC ACAACCTATACAATTTGACCAATGAAATTATAAAGGAAAGTTAAAGTGAAACCAAGAAGG TGGCTACTCGAAAGTTCTTTGGAATTATATGAatattgtacgatttcaggtattgcgcta atgcgatgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg MDQASLIDESEQSFEQSRRVEPTVSDKMKRTESATLKQKIINFIRDVQQSKLPLDSMPSI VQQKISDFEDEFQDLWKESDEYLRENGEAIEKLVMKPLCSKLISIDPVKDREIEFSMKAY SFVQAKHLEIDENIEKHKMFNQVVDLISKIDKVETPKEKLNCIVNAGKQTSAIVNQMANN QPTGADNLLPVLIYATLKAQPSKAYSNILFVSYYRSPKRITGEDEYYFTTYESTLQFIEK LDYQKLNINHQEFQDLSKERLDVIKNSQNELSQNGIFNMDAHQNYVNLQMIKMKIQDLQR KSKFYEQSKKYKLKFNQKQLNNITLNEIPEFYDEYQNLYKNLLEMQKDIHNLYNLTNEII KESQSETKKVATRKFFGII*

10 Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) –Empreintes phylogénétiques –« Scan génomique »

11 Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) Prédire la fonction des gènes (que font- ils ?) - prédiction de fonction par homologie - profils phylogénétiques - conservation de l’ordre des gènes - …

12 Analyse comparative de génomes (intra- inter-espèces) Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes?) Prédire la fonction des gènes (que font- ils ?) Etudier l’évolution des organismes, des populations (origine de la biodiversité) - phylogénie moléculaire - histoire des populations

13 Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (e.g. BLAST) Identification de séquences homologues

14 Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (e.g. ClustalW, Muscle) CLUSTAL W (1.74) multiple sequence alignment Xenopus ATATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTTGGCTCTCTA Poulet TGCATGGGCCAGCATGACCAGCAGGAGGTAGCCAAAATAACACCAACATGCAAATG Vache ATGCATCCGCCACATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homme ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Souris TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA Rat ATGCATGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG

15 Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (e.g. ClustalW, Muscle) CLUSTAL W (1.74) multiple sequence alignment Xenopus AT--ATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Poulet -TGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Vache ATGCATCCGCCAC-ATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homme ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Souris -TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA---- Rat ATGCAT--GCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ** ** **** ********* * *** * * *** * * *

16 Outils bioinformatiques pour l’analyse de séquences (1) Recherche de similarités entre séquences (2) Alignement multiple (3) Reconstruction d’arbres phylogénétiques (e.g. PhyML) CLUSTAL W (1.74) multiple sequence alignment Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Gallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Bos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Mus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Rattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * * Xenopus Homo Bos Mus Rattus Gallus 0.02 

17 Banques de données pour la génomique comparative LBBE, Lyon (S. Penel, L. Duret, D. Kahn, G. Perrière, D. Mouchiroud, M. Gouy) Classification des protéines en familles (BLAST) Alignement multiple des protéines Arbre phylogénétique –HOGENOM: familles de gènes des génomes complets 486 génomes, 2 millions de gènes classés en 147000 familles –PRODOM: familles domaines protéiques 275000 familles de domaines http://prodom.prabi.fr/ http://pbil.univ-lyon1.fr/

18 Banques de données pour la génomique comparative : Besoins CPU Temps de calcul nécessaire aux mises à jour: O(N 2 ) –2007: 10 6 UI CPU –CC-IN2P3: gain de temps x 100-150 –Croissance exponentielle des données: N double tous les 24 mois ! –20% de notre consommation CPU CC-IN2P3

19 Autres applications: Phylogénie Etude systématique des transferts horizontaux chez les bactéries hyperthermophiles : –Calteau et al. (2005), JME 60:557-565 Etude systématique des transferts horizontaux chez Ralstonia solanacearum : –Fall et al. (2008) PLoS One, sous presse Phylogénie des nitrogénases chez les bactéries fixatrices d’azote : –Blavet et Perrière (2007), Actes de JOBIM, pp. 5-12 Calcul des patrons de substitution le long des génomes (Maximum de vraisemblance) –Necsulea & Lobry (2007) Mol Biol Evol. 24:2169-79.

20 Autres applications: Statistique, Modélisation en Ecologie Simulations pour évaluer différentes méthodes d’estimation du nombre de valeurs propres en ACP –Dray (2008) Computational Statistics & Data Analysis 52:2228-2237 Modélisation de la dynamique des populations de mammifères –Solberg et al. (2007) Oecologia 154:259-271.

21 Evolution … de la consommation Année Millions d’UI CPU

22 Stockage Sauvegarde de nos données à l’IN2P3 ~25 To => délocalisation des sauvegardes

23 Limitations du CC-IN2P3 Pics de production Pas de calcul interactif

24 Services Web Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web Mise à disposition de services d’analyse de séquences, e.g.: –Identifier la famille à laquelle la séquence appartient –Placer cette séquence dans l’arbre phylogénétique de la famille

25

26 Services Web Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web Mise à disposition de services d’analyse de séquences, e.g.: –Identifier la famille à laquelle la séquence appartient –Placer cette séquence dans l’arbre phylogénétique de la famille => Calcul interactif en libre accès (très courant en SDV !)

27 Bilan Expérience très positive –Poursuite des mises à jour de nos bases de données –Opportunité pour réaliser de nouvelles analyses qui étaient impossibles auparavant Importance de l’ingénieur support de l’IN2P3 (Merci à Pascal Calvat !) Evolution des besoins CPU: O(N 2 ) avec N qui double tous les 2 ans … Limitations: –Pics de production –Calcul interactif

28 Remerciements CC-IN2P3 Pascal Calvat Simon Penel


Télécharger ppt "Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive."

Présentations similaires


Annonces Google