Une approche de modélisation et de simulation 0100110101010101010101001010101010001011010111110110 Structuration des génomes par sélection indirecte de la variabilité mutationnelle Une approche de modélisation et de simulation 010011010101010101010100101010101000101101010010101011100011 Carole Knibbe Laboratoire PRISMa Laboratoire BF2I (UMR INRA-INSA 203)
Des génomes structurellement très différents Homo sapiens ~3 milliards de pb ~25 000 gènes Homo sapiens ~3 milliards de paires de bases (pb) ~25 000 gènes 0 kb 150 kb 50 kb 100 kb 0 kb 150 kb 50 kb 100 kb Neisseria meningitidis (bactérie) ~2 millions de pb ~2 000 gènes Zoom sur un segment de 150 000 pb... 0 kb 150 kb 50 kb 100 kb Herpes HSV-1 (virus) ~150 000 pb ~100 gènes
Quels sont les mécanismes évolutifs qui ont façonné ces génomes ? Génotype : variation (mutations) Phénotype : sélection Sélection (indirecte) d’un certain niveau de variation Biais mutationnels : « Chez l’Homme, il se produit spontanément plus d’insertions que de délétions, ce qui fait croître le génome » Coûts sélectifs directs : « Pour un virus ou une bactérie, un grand génome est désavantageux, donc le génome tend à devenir plus compact » Influence sur l’organisation du génome ?
Problématique biologique La sélection du niveau de variation peut-elle favoriser un certain type d’organisation du génome ? Ce mécanisme peut-il réguler la quantité d’ADN non-codant ? Difficultés expérimentales Effet à long terme Effet difficile à isoler Recours à la modélisation…
Sélection (indirecte) d’un certain niveau Enjeu méthodologique Génotype : variation (mutations) Sélection (indirecte) d’un certain niveau de variation Phénotype : sélection Modèles neutralistes (évolution de séquences réelles) Algorithmes évolutionnaires (problèmes d’optimisation) structure du génome, mutations phénotype, sélection population, sélection structure du génome, mutations
Le modèle aevol
Le modèle aevol Génome Protéome Phénotype 001011 110100 Reproduction transcription traduction interactions protéiques Génome Protéome Phénotype Capacités fonctionnelles globales degré de possibilité degré de possibilité fonction biologique degré de possibilité Optimum environnemental 001011 110100 distribution de possibilité de la protéine m w H = e.h fonction biologique fonction biologique Reproduction Mutations Sélection
Évolution de la population Initialisation aléatoire N individus - mutations ponctuelles - petites insertions - petites délétions - translocations - inversions - duplications - grandes délétions Reproductions avec mutations Calcul des phénotypes en moyenne, uL par reproduction Comparaison à l’environnement : nombres de reproductions W ≈ N . prob(reproduction) ≈ N . f (écart phén.-envir.)
Film de l’évolution le long de la lignée « gagnante » Acquisition de fonction par duplication-divergence Quelques générations plus tard…
Atouts de l’approche Met en jeu simultanément : une organisation génomique biologiquement interprétable et libre d’évoluer l’action de la sélection au niveau du phénotype Connaissance exhaustive : des relations de parenté des séquences ancestrales des mutations fixées Code source libre d’accès (C++)
Limites Temps de calcul, taille mémoire contraintes sur les valeurs des paramètres Gestion simple de la population Modélisation abstraite des aspects fonctionnels Pas d’échelle de temps individuelle Pas de processus de développement Pas de régulation Pas de plasticité phénotypique
Expériences… in silico
Perturber la variabilité, observer l’évolution structurelle du génome Taux de mutation par paire de bases (u) Nombre de mutations « efficaces » (touchant les gènes) ? Structure du génome (nombre de gènes, quantité de non-codant…) Variabilité globale du phénotype Poids du gène muté dans le phénotype (aire du triangle) Impact des mutations « efficaces »
Plan d’expérience Taux de mutation u : Intensité de la sélection c : 6 valeurs testées, entre 5.10-6 et 2.10-4 par paire de bases Intensité de la sélection c : 4 valeurs de c testées 3 répétitions pour chaque couple (u, c) c = 0,9900 : sélection intense W = nb de reproductions c = 0,9995 : sélection faible rang dans la population moins bon meilleur
Taux de mutation élevé : 2.10-4 / pb Taux de mutation faible : 5.10-6 / pb Peu de gènes Peu de non codant Beaucoup de gènes Beaucoup de non codant
La taille du génome dépend du taux de mutation Données biologiques (Drake, 1991) Taux de mutation (échelle log.) Nombre de gènes (échelle log.) Quantité de non codant (échelle log.) champignon levure bactérie 3 virus
Sélection indirecte d’un niveau de variabilité constant Grands génomes Petits génomes Prob. de se reproduire à l’identique (Fν) Taux de mutation (échelle log.)
La quantité de non-codant comme levier d’ajustement de la variabilité mutationnelle Probabilité qu’une mutation soit neutre Probabilité que le descendant soit « neutre » (soit pas de mutation, soit uniquement des mutations neutres) Le niveau de variabilité dépend effectivement de la quantité de non-codant
La quantité de non-codant comme levier d’ajustement de la variabilité mutationnelle Probabilité qu’une mutation soit neutre Probabilité que le descendant soit « neutre » Quantité de non-codant (échelle log.) Quantité de non-codant (échelle log.) A taux de mutation égal, lorsque l’effet des grandes délétions et duplications est pris en compte, plus de non-codant = plus de variabilité mutationnelle
Intensité de sélection et niveau de variation optimal Taux de mutation (échelle log.) Prob. de se reproduire à l’identique (Fν) Taux de mutation (échelle log.) Nombre de descendants identiques (FνW) Fν est telle que FνW ≈ 1 descendant neutre Sélection moyenne, W ≈ 2 descendants : FνW ≈ 1 desc. identique Sélection intense, W ≈ 10 descendants : Fν W ≈ 1 desc. identique
Conclusions de l’expérience La quantité de non-codant… augmente la variabilité du phénotype n’évolue pas « au hasard » évolue vers une valeur qui permet de produire ~1 descendant neutre Cela reflète la persistance des lignées qui, simultanément … sont bien adaptées à l’environnement transmettent fidèlement leur information génétique (robustesse) explorent d’autres phénotypes par mutation (« evolvabilité »)
Robustesse des conclusions Autres formes d’environnement Autres méthodes de sélection Découplage des taux de mutation Autre façon de choisir les bornes des réarrangements Les principes mis en évidence restent valides W = f (écart phénotype –envir.) uloc ≠ urearr
Perturber la variabilité mutationnelle, observer l’évolution structurelle du génome Taux de mutation par paire de bases Nombre de mutations « efficaces » Structure du génome (nombre de gènes, quantité de non-codant…) Variabilité globale du phénotype Poids du gène muté dans le phénotype (aire du triangle) Impact des mutations « efficaces »
La quantité de non-codant dépend aussi de l’organisation du protéome Perturber la variabilité mutationnelle, observer l’évolution structurelle du génome Taux de mutation par paire de bases Nombre de mutations « efficaces » Structure du génome (nombre de gènes, quantité de non-codant…) Variabilité globale du phénotype Poids du gène muté dans le phénotype (aire du triangle) Impact des mutations « efficaces » La quantité de non-codant dépend aussi de l’organisation du protéome
Conclusions et perspectives
Conclusions Un nouveau modèle qui combine… réarrangements génomiques sélection au niveau du phénotype Une explication pour les données de Drake (1991) rôle du nombre de gènes et du non-codant dans la variabilité du phénotype sélection (indirecte) d’un niveau constant de variabilité Trois leçons : ne pas raisonner uniquement en termes… de valeur sélective : la variabilité comme autre clé du succès évolutif de biais mutationnels et de coûts sélectifs directs : pressions indirectes de mutations locales : rôle majeur des grands réarrangements
Perspectives Utiliser aevol tel quel pour des problématiques connexes : Variabilité de l’environnement Influence de la recombinaison Influence des « bottlenecks » Étendre le modèle Affiner les mécanismes de réarrangement Laisser les génomes coder leurs taux de mutation Modéliser les phénomènes de régulation de l’expression des gènes Validation expérimentale
Du protéome au phénotype protéines activatrices protéines inhibitrices OU OU fonctions réalisables fonctions réprimées NON ET fonctions réalisables et non réprimées = capacités fonctionnelles
Du protéome au phénotype
Proportion de bases touchées taille du génome Proportion de bases touchées 0,5 1
Évolution du nombre de gènes et de la quantité de non-codant
Mutations fixées
Influence de la forme de l’environnement
Influence respective des différents taux de mutation
Expériences réalisées avec une sélection « fitness proportionate » (1)
Expériences réalisées avec une sélection « fitness proportionate » (2) On retrouve bien la « règle » FνW ≈ 1
Le non-codant s’ajuste aussi en fonction de l’effet des mutations dans les gènes
Le non-codant s’ajuste aussi en fonction de l’effet des mutations dans les gènes
Quels sont les mécanismes évolutifs qui ont façonné ces génomes ? Génotypes = informations génétiques reçues par les embryons Phénotypes environnement Développement Mutation ponctuelle Insertion Délétion Reproduction Mutations Sélection « Chez telle espèce, il se produit spontanément plus de délétions que d’insertions » « Chez telle espèce, un génome plus compact apporte un avantage sélectif »
Simuler l’évolution de la population… individus temps
… puis retrouver la lignée « gagnante » individus temps
Intensité de la sélection Nombre max. de reproductions (W) Produire 1 descendant neutre Fν sélectionnée = 1/W Taux de mutation par base Nombre de gènes et quantité de non codant sélectionnés
Sélection indirecte d’un certain niveau de variation mutations trop fréquentes : extinction de la lignée Variabilité élevée (reproduction à l’identique peu probable) mutation favorable Variabilité moyenne pas de mutation : impasse évolutive Variabilité très faible (reproduction à l’identique très probable) générations 3b
Séquence terminatrice Transcription Séquence promotrice Séquence terminatrice Région transcrite ...110...010...011011101000101110011100111011010001...10110010010... ...001...101...100100010111010001100011000100101110...01001101101... Comparaison Niveau d’expression e 100...010 Séquence consensus 7b
Séquence codante (gène) Traduction Signal de « start » Signal de « stop » Séquence codante (gène) ...110...010...011011101000101110011100111011010001...10110010010... ...001...101...100100010111010001100011000100101110...01001101101... Conversion en entier puis normalisation Valeur réelle Code « Gray » Code génétique 000 START 001 STOP 100 M0 101 M1 010 W0 011 W1 110 H0 111 H1 START M1 H0 W1 M0 H1 W1 M0 STOP fonction biologique degré de possibilité m = 0,86 w = 0,02 H = 0,33e m : 100 0.86 fonction biologique degré de possibilité m w H = e.h w : 11 0.02 h : 01 0.33 7c