Algorithmes d’optimisation et d’analyse des problèmes multidimensionnels non linéaires en Biologie et Biophysique Soutenance de thèse Benjamin Parent Directeurs : Bernard Vandenbunder Jean-Pierre Richard 29 octobre 2007
Plan de la présentation 0. Introduction Échantillonnage conformationnel Modélisation en Biologie systémique Conclusion Ne pas courir
Introduction Modélisation moléculaire Biologie systémique Conclusion Objectifs de la thèse Appliquer les savoir-faire de l’Automatique à des problèmes issus de la Biologie et de la Biochimie dans la cellule, tout repose sur des interactions moléculaires… Étudier les interactions moléculaires À l’échelle des molécules individuelles Prédiction dans les cas « simples » Aide à l’interprétation des expériences Leur impact à l’échelle d’un module fonctionnel de la cellule Transition : avant de rentrer dans l’exposé de nos travaux, on présente le contexte humain
Contexte humain IRI Introduction PhLAM (physique non-linéaire) Modélisation moléculaire Biologie systémique Conclusion Contexte humain LIFL – ANR GRID (Info Fondamentale) PhLAM (physique non-linéaire) Partie Modélisation Glycobiologie LIFL (calcul formel) (multi-agents) IRI Dire IRI = Institut de Recherche Interdisciplinaire Enseignements ISEN Observatoire de Banyuls – ANR LAGIS (Automatique, G. Info et Signal) Math Auto + IBL
Plan de la présentation 0. Introduction Échantillonnage conformationnel Modélisation en Biologie systémique Conclusion
Échantillonnage conformationnel Problématique et codage Algorithme génétique Hybridations Méta optimisation Parallélisation On ne détaille pas le plan ici, mais seulement à la T14, à partir de AG paramétré
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Vers une estimation des affinités entre cibles moléculaires (docking) Nécessité de décrire la flexibilité de chaque agent : exercice de prédiction de la géométrie des ligands des sites actifs (10 à 1000 atomes)
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Stabilité donnée par les niveaux d’énergie E estimée sur la base d’un champ de forces Hagler et al. [1974] Boltzmann : Conformations adoptées en solution = Minima de la fonction énergie
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Le niveau de représentation d’un domaine est aussi fonction de sa largeur (facteur entropique) degré de liberté énergie
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage La flexibilité des molécules repose essentiellement sur la libre rotation autour des liaisons inter atomiques
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Que doit faire l’algorithme ? Explorer l’espace des géométries pour identifier les conformations stables Décrire les niveaux de peuplement des minima pertinents Idéal : reconstruire la densité de probabilité sur l’espace de phases Comparaisons possibles avec les expériences Algorithme Fichier moléculaire initial Différentes conformations moléculaires
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Validation des résultats avec des molécules dont la structure est connue expérimentalement Cyclo-dextrine mini -turn Filippine Domaine WW de PIN Tryp. ZIP Tryp. Cage
Problématique et codage Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique et codage Problème mathématique de minimisation de fonction Particularités : Très grandes dimensions (1…200 degrés de liberté) Fortement multimodal (donc non linéaire) Recherche de tous les minima utiles Littérature Molécules de petites tailles Vengadesan [2003] Grandes molécules, modèle simplifié Dynamique moléculaire Roitberg [2007]
Échantillonnage conformationnel Problématique et codage Algorithme génétique Hybridations Méta optimisation Parallélisation
Algorithme génétiques Introduction Modélisation moléculaire Biologie systémique Conclusion Algorithme génétiques Choix d’une stratégie : Holland [1975] les algorithmes génétiques (AG) + forte exploration de l’espace + population de solutions + concept d’héritage + modularité et adaptabilité – consommateurs de ressources – visitent les régions aberrantes – stochastiques (mauvaise reproductibilité)
Population de solutions : AG : principes Solutions = « chromosomes » Population de solutions :
AG : principes Évolution : opérateurs de croisement … et de mutation qn qi+1 qi q2 q1 q ’n q ’i+1 q ’i q ’2 q ’1 parent1 : parent2 : … q ’n q ’i+1 qi q2 q1 qn qi+1 q ’i q ’2 q ’1 fils1 : fils2 : … qn qi+1 qi q2 q1 muté : … qn qi+1 q ’i q2 q1 mutant :
AG : principes Validation sur des petites molécules organiques population initiale population intermédiaire population finale ... q1n q13 q12 q11 q2n q23 q22 q21 q3n q33 q32 q31 q4n q43 q42 q41 ... q1n q13 q12 q11 q2n q23 q22 q21 q3n q33 q32 q31 q4n q43 q42 q41 niveau de sélection énergies ... q1n q13 q12 q11 q2n q23 q22 q21 q3n q33 q32 q31 q4n q43 q42 q41 aléatoire triée ... q1n q13 q12 q11 q2n q23 q22 q21 q3n q33 q32 q31 q4n q43 q42 q41 triée Validation sur des petites molécules organiques Temps de calculs relativement longs
Échantillonnage conformationnel Problématique et codage Algorithme génétique Hybridations Méta optimisation Parallélisation
Distributions de probabilité biaisées Introduction Modélisation moléculaire Biologie systémique Conclusion Hybridations Algorithmes génétiques Relativement lents Ne tirent pas parti de la physique du problème Hybridation par des heuristiques complémentaires : Monte Carlo Fragmentation Recherche taboue Distributions de probabilité biaisées Mutations Dirigées
Hybridations Muter un seul codon est très rarement viable Introduction Modélisation moléculaire Biologie systémique Conclusion Hybridations Muter un seul codon est très rarement viable idée : muter et autoriser des réarrangements locaux énergie θ1 θ2 Relaxation finale vers le minimum local avoisinant Évolution bloquée dans des minima locaux, Aucune mutation ne peut aider Ajout d’un terme de contrainte, Optimisation par Gradient dans le nouveau paysage Lancé en parallèle
Hybridations Jeux de tests : Trois à quatre tests pour chaque Introduction Modélisation moléculaire Biologie systémique Conclusion Hybridations Jeux de tests : Par défaut, toutes les stratégies activées Puis, tour à tour, désactivation d’une heuristique : Sans mutation dirigée Sans tabou Distributions uniformes Distributions minimisant les tensions locales Trois à quatre tests pour chaque
Introduction Modélisation moléculaire Biologie systémique Conclusion Hybridations La solution expérimentale est trouvée parmi d’autres solutions Défaut Sans mut. dir. Sans tabou Tensions locales Distribution uniforme
Échantillonnage conformationnel Problématique et codage Algorithme génétique Hybridations Méta optimisation Parallélisation
Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Les performances des AG dépendent (fortement) des « hyper paramètres » de contrôle : Gestion de la population Taille de population Nombre de processus parallèles Taux de migration Gestion de l’évolution Taux de croisement Taux de mutation Croisements à un et deux points Gestion de la convergence Fréquence des apocalypses Condition globale d’arrêt Pression de sélection Élitisme Âge maximal Limite de dissimilitude
Méta optimisation Modélisation moléculaire Élitisme Âge maximal Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Pression de sélection Élitisme Âge maximal Limite de dissimilitude nouvelle génération génération temporaire
Méta optimisation Que faire avec ces paramètres ? A.G. Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Gestion de la population Taille de population Nombre de processus parallèles Taux de migration Gestion de l’évolution Taux de croisement Taux de mutation Croisements à un et deux points Pression de sélection Élitisme Âge maximal Limite de dissimilitude A.G. Gestion de la convergence Fréquence des apocalypses Condition globale d’arrêt p1 p2 p3 p4 p5 p6 pn Que faire avec ces paramètres ?
Méta optimisation Comment définir une stratégie optimale ? Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Comment définir une stratégie optimale ? Comment comparer deux exécutions ? Dans un contexte stochastique ? La « meilleure » stratégie dépend-elle de la molécule traitée ? Question ouverte : comment connaître a priori des hyper paramètres satisfaisants ?
Méta optimisation Problème d’optimisation classique Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Problème d’optimisation classique Évaluation de la qualité d’un échantillonnage : Abordé par « méta »-algorithme génétique (µ-AG)
Méta optimisation AG paramétré Schéma global : Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation AG paramétré Schéma global :
Méta optimisation Modélisation moléculaire Paramètres optimisés Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Paramètres optimisés aléatoires Énergie libre de l’ensemble échantillonné
Méta optimisation Validations (résumé) : Capacité exploratrice des AG Introduction Modélisation moléculaire Biologie systémique Conclusion Méta optimisation Validations (résumé) : Capacité exploratrice des AG Stratégie de méta optimisation des hyper paramètres Hybridation avec heuristiques complémentaires Parent [2007a] Amélioration des temps de calculs Long pour les tests du méta AG Toujours prohibitif pour les plus grandes molécules
Échantillonnage conformationnel Problématique et codage Algorithme génétique Hybridations Méta optimisation Parallélisation
Introduction Modélisation moléculaire Biologie systémique Conclusion Parallélisation Projet ANR Docking@grid avec l’équipe OPAC du LIFL (Pr. Talbi) http://dockinggrid.gforge.inria.fr/index.html Grid5000 : environnement multiprocesseur Généralisation des îles : Multiplier les îles pas de sens Indépendance totale bénéfice de l’architecture grille ? Pande [2003] Utilisation des solutions précédemment échantillonnées
Parallélisation www.grid5000.fr Modélisation moléculaire Introduction Modélisation moléculaire Biologie systémique Conclusion Parallélisation meilleures solutions succès de l’échantillonnage Bases des jeux d’hyper paramètres évalués µ-AG tant qu’ nœud libre, y déployer des îles Récolte et classification des solutions Arrêt : Nombre de « Missions » max rien de neuf depuis trop de missions Hyper paramètres - Exécutables - Fichier moléculaire - Graines - Liste taboue Bases de solutions échantillonnées Banque d’insémination clusters récents : graines clusters connus : tabous www.grid5000.fr
Introduction Modélisation moléculaire Biologie systémique Conclusion Parallélisation Stratégie : surveiller la (re)visite de régions de solutions Classification : par énergies autour des plus stables (paramètre de taille Dmax) Panspermie : insémination des planètes par Des « graines » attractrices (régions plus récentes que Nintens missions) Des tabous répulsifs (déjà intensifiés) Régler Dmax et Nintens est un problème délicat !
Parallélisation Tryptophan cage Expérimentale Prédite Introduction Modélisation moléculaire Biologie systémique Conclusion Parallélisation Tryptophan cage Expérimentale Prédite
Parallélisation Tryptophan zipper Expérimentale Prédite Parent [2007b] Introduction Modélisation moléculaire Biologie systémique Conclusion Parallélisation Tryptophan zipper Expérimentale Prédite Parent [2007b]
Conclusions et perspectives Introduction Modélisation moléculaire Biologie systémique Conclusion Conclusions et perspectives Acquis : Suite d’algorithmes efficaces et adaptatifs Stratégies d’hybridation Premiers déploiements parallèles Vers du docking (résultats non-présentés) : Outil de positionnement relatif de deux molécules Stratégie de criblage Bonachéra [2006] Perspectives : Déploiements massivement parallèles Développement de nouvelles stratégies Meilleure caractérisation des conformations Algorithme de docking
Plan de la présentation 0. Introduction Échantillonnage conformationnel Modélisation en Biologie systémique Conclusion
Problématique Biologie systémique Introduction Modélisation moléculaire Biologie systémique Conclusion Problématique La forme des interactions a-t-elle un impact sur les dynamiques ? À l’échelle de la cellule : impossible de décrire L’ensemble des événements moléculaires L’ensembles de acteurs Recours à un modèle : les concentrations Continues Déterministes Dimension finie (solutions d’équations différentielles ordinaires)
Rythmes circadiens On observe : Introduction Modélisation moléculaire Biologie systémique Conclusion Rythmes circadiens On observe : Des oscillations qui perdurent en conditions d’éclairement constant, avec période 24h Une compensation en température (robustesse de la période) La possibilité de réinitialiser le système
Réseaux de régulation Biologie systémique protéine : p prot : abc Introduction Modélisation moléculaire Biologie systémique Conclusion Réseaux de régulation protéine : p prot : abc promo teur ADN gène : ABC Nakajima [2005]
Introduction Modélisation moléculaire Biologie systémique Conclusion Modèle théorique Mise en évidence avec un modèle minimal d’un mécanisme oscillant : les profils de dégradation non linéaires Mettre les équations EDO, puis équation de maple… puis équation domaine
Modèle théorique But : déstabiliser le système Biologie systémique Introduction Modélisation moléculaire Biologie systémique Conclusion Modèle théorique But : déstabiliser le système
Modèle théorique Fonction de dégradation quelconque : f Introduction Modélisation moléculaire Biologie systémique Conclusion Modèle théorique Fonction de dégradation quelconque : f Condition sur f pour avoir un point d’équilibre ε Condition sur les paramètres pour que ε soit instable entouré d’un cycle limite ( en jouant sur les pôles du modèle linéarisé) On montre que f linéaire n’est pas suffisante Qu’il est nécessaire que la dégradation soit saturée
Exemple : Michaëlis- Menten Introduction Modélisation moléculaire Biologie systémique Conclusion Exemple : Michaëlis- Menten f(p)=a.p/(b+p) Beaucoup utilisée Il est possible de remonter aux domaines de paramètres générant des oscillations :
Domaine de paramètres Biologie systémique Introduction Modélisation moléculaire Biologie systémique Conclusion Domaine de paramètres
Conclusion, perspectives Introduction Modélisation moléculaire Biologie systémique Conclusion Conclusion, perspectives Acquis : mise en évidence d’un mécanisme déstabilisant par une approche purement formelle Perspectives : Confronter des valeurs expérimentales avec les domaines trouvés Évaluer la robustesse du système par rapport aux variations de température Autres mécanismes déstabilisants : diffusion ( propagation)
Plan de la présentation 0. Introduction Échantillonnage conformationnel Modélisation en Biologie systémique Conclusion
Introduction Modélisation moléculaire Biologie systémique Conclusion Conclusion Dans la description des interactions, il existe un fossé entre les événements moléculaires individuels et la dynamique des modules fonctionnels Le rôle de l’interdisciplinaire est primordial
MmerciEmerciR merciCmerciI Introduction Modélisation moléculaire Biologie systémique Conclusion Conclusion Articles : Bonachéra F., Parent B., Horvath D. (2006) Journal of Chemical Models Parent B., Kökosy A., Horvath D. (2007) Soft Computing Tantar A.-A., Melab N., Talbi E.-G., Parent B., Horvath D. (2007) Future Generation Computer Systems Hanoulle X., Melchior A., Sibille N., Parent B., Denys A., Wieruszeski J.-M., Horvath D., Allain F., Lippens G., Landrieu I. (2007) Journal of Biological Chemistry Conférences : Parent B., Lippens G., Horvath D. (2006) Gordon Research Conference, Suisse Parent B., Tantar A.-A., Melab N., Talbi E.-G., Horvath D. (2007) Congress on Evolutionary Computation, Singapour Morant P.-E., Vandermoere C., Thommen Q., Parent B., Lemaire F., Corellou F., Schwartz C., Bouget F.-Y., Lefranc M. (2007) Rencontres du Non-Linéaire, Paris MmerciEmerciR merciCmerciI