Méthodes d’analyse de la structure et du développement de la plante entière Yann Guédon Équipe de recherche INRIA Virtual Plants UMR CIRAD/INRA/IRD/Montpellier SupAgro/Université Montpellier 2 Développement et Amélioration de Plantes (DAP)
Problématique Des problèmes agronomiques : relation structure production (entrée en production, alternance de production, facilité de conduite au verger, répartition du feuillage et interception de la lumière), influence de l’environnement et du génotype sur l’expression phénotypique, Des questions biologiques : identification de phases de développement au cours de l’ontogenèse, déterminismes génétiques de l’élaboration de la forme … Des concepts botaniques : gradients morphogénétiques, phase de développement, âge/état physiologique, état de différentiation du méristème …
La pratique usuelle Structure le plus souvent résumée par un ensemble de descripteurs globaux, Méthodes d’analyse tenant compte de la structure limitées à des méthodes d’analyse exploratoire simples, alors que de nombreuses méthodes sont proposées pour analyser des séquences (e.g. parcours de l’axe principal) ou des arborescences dans différents domaines (génome, traitement du signal …).
Le réseau de collaborations (1) Florence Chaubert, Evelyne Costes, Christophe Godin, Yann Guédon, Pierre-Éric Lauri, Vincent Segura (UMR DAP & INRIA Virtual Plants), Yves Caraglio, Patrick Heuret (UMR AMAP) : architecture et morphologie des plantes, Christian Lavergne, Catherine Trottier (Institut de Mathématique et de Modélisation de Montpellier) : combinaison markovienne de modèles linéaires (généralisés) mixtes, Pascal Ferraro, Aida Ouangraoua (Laboratoire Bordelais de Recherche en Informatique) : comparaison d’arborescences et autosimilarité,
Le réseau de collaborations (2) Jean-Baptiste Durand (Laboratoire Jean Kuntzmann, Université Joseph Fourier & INRIA Mistis, Grenoble) : modèles d’arbre de Markov cachés. Jean Bérard, Anne Perrut (Institut Camille Jordan,Université Claude Bernard Lyon 1) : processus de branchement multi-type, Emilie Lebarbier (UMR INA-PG/ENGREF/INRA « Mathématiques et Informatique Appliquées », Paris) : méthodes de détection de ruptures. Francis Colin (Laboratoire d'Etude des Ressources Forêt-bois, INRA, Nancy ) : applications forestières, Céline Meredieu (Unité Ecologie fonctionnelle et Physique de l'Environnement, INRA, Bordeaux) : architecture et morphologie des plantes.
Virtual Plants au cœur de ce réseau Chercheurs permanents VP : Evelyne Costes, Christophe Godin, Yann Guédon, Chercheurs associés VP : Yves Caraglio, Jean-Baptiste Durand, Pascal Ferraro, Patrick Heuret, Christian Lavergne, Catherine Trottier,
Axes scientifiques de l’équipe de recherche INRIA Virtual Plants Comment fonctionne le méristème ? Axe 1 : comprendre la forme, résultat du fonctionnement des méristèmes, Axe 2 : étude des mécanismes de fonctionnement (génétiques et hormonaux) des méristèmes de la tige et de la racine. etc. → des modèles de représentations de la topologie et de la géométrie, des méthodes d’analyse et des modèles de simulation.
Démarche Développer des méthodes d’analyse pour des données structurées (principalement séquences et arborescences de nature topologique), 3 principaux objectifs : Acquérir des connaissances en biologie, Répondre à des questions agronomiques, Évaluer des modèles de développement de plantes. → développer les composants logiciels associés intégrés dans la plateforme V-Plants/OpenAlea (coordonnée par Christophe Pradal).
Caractérisation de la composante ontogénique de la croissance Yann Guédon, Émilie Lebarbier, Yves Caraglio, Céline Meredieu Extraction de la composante ontogénique de la croissance par : → détection de ruptures multiples (modèle de changement sur la moyenne et la variance), → filtrage linéaire. Difficulté : nécessité de séparer les composantes ontogénique et environnementale (« bruit ») de la croissance. Exemple : longueur des pousses annuelles de troncs de pins laricio de 70 ans.
Limites de pousses annuelles de pins sylvestres (étiquetage Yves Caraglio)
Composantes de la croissance : 2 hypothèses succession de phases ontogéniques fluctuations climatiques + tendance ontogénique
Segmentation - 5 segments rupture dans la « dérive »
Segmentation - 4 segments rupture dans la « dérive »
Premières conclusions Ruptures dans la phase d’augmentation de la croissance mais aussi dans la phase de diminution de la croissance, → Nombre réduit de phases de croissance déterminé par différentes méthodes de sélection du nombre de ruptures (Lebarbier, 2005; Zhang and Siegmund, 2007), → Résidus stationnaires dans chacune des phases, → Ruptures asynchrones entre individus (sans lien avec le climat). Résultats d’analyse à recouper avec ceux d’une analyse par des processus de branchement (rupture sur le nombre de points de croissance ?).
Phases de croissance de l’angélique ramification intense début ramification
Combinaison markovienne de modèles linéaires mixtes thèse de Florence Chaubert Exemple : longueur des pousses annuelles de troncs de pins laricio (30 arbres âgés de 18 ans), Caractéristiques des données : Données structurées en phases successives, asynchrones entre individus : → (semi-)chaîne de Markov cachée, Données influencées par des covariables pouvant varier dans le temps (covariables climatiques) et présentant une hétérogénéité inter-individuelle : → modèle linéaire mixte associé à chaque phase.
Transitions entre phases mauvaise année climatique 1 → 2 2 → 3 2 → 3 Phases 1 et 2 : faible influence du climat, Phase 3 : forte influence du climat.
Paramètres des modèles linéaires mixtes Cumul des précipitations année courante (allongement) Cumul des précipitations année précédente (organogenèse) Variance hétérogénéité inter-individuelle Variance résiduelle Part hétérogénéité Phase 0 1.4 10-3 1.5 10-3 4.24 3.49 54.85% Phase 1 -5.2 10-3 -1.1 10-3 58.09 43.75 57.04% Phase 2 24.6 10-3 46.8 10-3 93.26 69.32 57.36%
Prédiction des longueurs de pousses annuelles pour 2 individus
Premières conclusions Identification de phases ontogéniques différenciées par la longueur de la pousse annuelle mais aussi par l’influence des covariables climatiques, Mise en évidence d’une forte hétérogénéité inter-individuelle homogène pour les différentes phases. → identification de nouvelles covariables liées à l’individu afin d’expliciter cette hétérogénéité.
Quantifier la notion d’état physiologique d’un méristème Différenciation Deux principales familles de modèles ou méthodes : Des modèles stochastiques (modèles d’arbre de Markov cachés) permettant d’identifier des ruptures et des zones homogènes dans les plantes, Des méthodes combinatoires permettant d’identifier les similarités et dissimilarités entre plantes ou parties de plantes.
Autosimilarité des plantes Pascal Ferraro, Christophe Godin Lien entre structures macroscopiques et processus microscopiques hypothèse d’amplification continue « des systèmes ramifiés identiques ont été produits par des méristèmes dans des états physiologique identiques »
Séquence S d’opérations Distance entre arborescences (principe) d(S) min S∈S(T1,T2) D(T1,T2) = T2 T1 Séquence S d’opérations Élision Substitution Substitution Insertion Insertion - D est une distance, D(T1,T2) = 0 => isomorphisme, - complexité: O(|T1||T2|(deg(T1)+deg(T2)) log(deg(T1)+deg(T2)), - arborescences multi-échelles (plantes).
Graphe des différenciations 1 2 y x représentation réduction Plante observée Arborescence associée DAG équivalent R(T) (les sommets x et y ont la même couleur ssi T[x] T[y] ) Hypothèse d’amplification continue : Ensemble de toutes les séquences d’états physiologiques possibles DAG équivalent =
Quantification de l’autosimilarité des plantes Définition: Un arbre T est autosimilaire si son DAG est « linéaire » Arbre autosimilaire le plus petit contenant un arbre T : (S+(T ) : ens. arbres autosimilaires contenant T) Séquence des états physiologiques Degré d’autosimilarité d’une arborescence réelle T: Réduction approchée des arborescences: T[x] T[y] si D(T[x],T[y])< Problème inverse
a. c. R(T) d. e. b. SST(T)
Thèses et post-doctorat Pascal Ferraro (1997-2000, thèse, ministère) : Méthodes algorithmiques de comparaison d’arborescences - Applications à la comparaison de l’architecture des plantes, Carine Véra (2001-2004, thèse, ASC INRA) : Modèles linéaires mixtes multiphasiques pour l’analyse de données longitudinales - Application à la croissance des plantes, Jean-Baptiste Durand (2002-2003, post-doctorat, CIRAD) : Modèles de Markov cachés pour arborescences, Aida Ouangraoua (2004-2007, thèse, ACI) : Développement d'outils conceptuels et algorithmiques pour la comparaison de structures biologiques arborescentes, Florence Chaubert (2005-2008, thèse, ministère) : Modèles linéaires généralisés mixtes multiphasiques, Vincent Segura (2005-2008, thèse, INRA/région LR) : Étude des déterminismes génétiques des caractères architecturaux chez le pommier, Mohamad Saad (2007-2010, thèse, INRA/ONF) : Impact des opérations sylvicoles sur les broussins et picots du chêne - Modélisation statistique de la séquence de différenciation et de la répartition le long des troncs.
Projet d’ACI nouvelles interfaces des mathématiques « Arborescences » (2004-2007) Les participants (12 chercheurs permanents et 2 doctorants ) : Yann Guédon, Evelyne Costes, Christophe Godin, Christophe Pradal, Vincent Segura (UMR DAP & INRIA Virtual Plants), Didier Piau (Institut Fourier, Université Joseph Fourier, Grenoble), Jean Bérard, Anne Perrut (Institut Camille Jordan,Université Claude Bernard Lyon 1), Pascal Ferraro, Serge Dulucq, Aida Ouangraoua (Laboratoire Bordelais de Recherche en Informatique), Yves Caraglio, Patrick Heuret (UMR AMAP), Jean-Baptiste Durand (Laboratoire Jean Kuntzmann, Université Joseph Fourier & INRIA Mistis, Grenoble).
Projet d’ACI nouvelles interfaces des mathématiques « Arborescences » (2004-2007) Trois axes de recherche : Algorithmes de comparaison d’arborescences (métrique entre systèmes ramifiés) (Ferraro & Godin, 2003ab), modèles d’arbre de Markov caché (identification de zones homogènes et de ruptures dans des arborescences) (Durand et al., 2004), processus de branchement avec dépendance décrivant l'aspect génératif de la croissance de la plante.
Une sélection de publications en informatique Ferraro, P. & Godin, C. (2003a). An edit distance between quotiented trees. Algorithmica 36, 1-39. Ferraro, P. & Godin, C. (2003b). Optimal mappings with minimum number of connected components in tree-to-tree comparison problems. Journal of Algorithms 48, 385-406. Ferraro, P., Godin, C. & Prusinkiewicz, P. (2005). Toward a quantification of self-similarity in plants. Fractals 13(2), 91-109. Ouangraoua, A., Ferraro, P., Tichit, L. & Dulucq, S. (2007). Local similarity between quotiented ordered trees. Journal of Discrete Algorithms 5(1), 23-35.
Une sélection de publications en statistique Durand, J.-B., Gonçalvès, P. & Guédon, Y. (2004). Computational methods for hidden Markov tree models - An application to wavelet trees. IEEE Transactions on Signal Processing 52(9), 2551‑2560. Guédon, Y. (2003). Estimating hidden semi‑Markov chains from discrete sequences. Journal of Computational and Graphical Statistics 12(3), 604‑639. Guédon, Y. (2005). Hidden hybrid Markov/semi-Markov chains. Computational Statistics & Data Analysis 49(3), 663‑688. Guédon, Y. (2007). Exploring the state sequence space for hidden Markov and semi-Markov chains. Computational Statistics & Data Analysis 51(5), 2379‑2409. Lebarbier, E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing 85(4), 717-736.
Une sélection de publications en biologie Durand, J.-B., Guédon, Y., Caraglio, Y. & Costes, E. (2005). Analysis of the plant architecture via tree-structured statistical models: The hidden Markov tree models. New Phytologist 166(3), 813‑825. Ferraro, P. & Godin, C. (2000). A distance measure between plant architectures. Annals of Forest Science 57, 445-461. Guédon, Y., Caraglio, Y., Heuret, P., Lebarbier, E. & Meredieu, C. (2007). Analyzing growth components in trees. Accepté pour publication par Journal of Theoretical Biology. Segura,V., Ouangraoua, A., Ferraro, P. & Costes E. (2007). Comparison of tree architecture using tree edit distances: application to 2-year-old apple hybrids. Published online in Euphytica.
Travaux en cours en mathématiques appliquées et informatique Détection de ruptures asynchrones entre individus en tenant compte d’effets aléatoires « date » communs aux individus (Emilie Lebarbier), Combinaison (semi-)markovienne de modèles linéaires mixtes avec effets aléatoires « date » (Florence Chaubert, Yann Guédon, Christian Lavergne, Catherine Trottier), Combinaison (semi-)markovienne de modèles linéaires généralisés mixtes (Florence Chaubert, Yann Guédon, Christian Lavergne, Catherine Trottier), Détection de ruptures sur arborescence (Yann Guédon, Emilie Lebarbier), Liens entre modèles d’arbre de Markov caché orienté depuis la racine avec fils dépendants et processus de branchement multi-type (Jean-Baptiste Durand, Yann Guédon), Graphe réduit et autosimilarité (Pascal Ferraro, Christophe Godin).
Le futur de ce réseau Mise en réseau de biologistes travaillant sur la plante entière (arbres forestiers, fruitiers, plantes ornementales, plantes annuelles), Définition de protocoles standardisés tenant compte des spécificités des méthodes pour analyser la structure de la plante entière, Partage des bases de données, Mise à disposition des méthodes d’analyse via la plateforme V-Plants/OpenAlea.