A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Panorama des réseaux et projets base de données G*E 1
Panorama Besoins et outils Ontologies Données brutes et élaborées Exemple de Projets Réseau d’outils. 2
Quels outils et quels besoins Outils d’acquisition de données Outils de gestion de production de données Outils d’intégration Outils d’analyse 3
Paradigme 4 Parcelle Bloc … Plante Organe Phenotype Environnement Itinéraire tech.
Outils d’acquisition Associés Base de données technique Lemnatech Adonis … Fichiers bruts Nettoyage Validation Spécifique Besoins d’un format d’échange générique (XML)? 5 Field, basic acquisition Environment acquisition Whole field phenotyping Aerial imaging Growth chambers Controlled environment
Outils de gestion de données Besoins Outil local, quotidien Utilisé par les équipes en charges des expérimentations Intégration depuis BD ou fichiers de données brutes des outils d’acquisition Données phénotypes, environnement, ITK, … Analyse Validation Valorisation et production de données élaborées 6 Environment acquisition Controlled environment Basic acquisition Whole field phenotyping Aerial imaging
Outils de gestion de données Besoins Essais Plante annuelles Essais en conditions contrôlées Essais plein champs Plantes pérennes Essai multiannuel Réutilisation des mêmes plantes Cinétiques multi annuelles Contraintes forestières 7 Environment acquisition Controlled environment Basic acquisition Whole field phenotyping Aerial imaging
Outils de gestion de données Besoins, Echelles Différentes échelles spatiales : Dispositifs champs Structure hétérogène Parcelle, bloc, microparcelle, placette Parcelle, microparcelle, plante Parcelle, Plante Différentes échelles temporelles Mesure unique Date de récolte Mensuelle Série temporelle Journalière Horaire Minute Cinétiques 8 Environment acquisition Controlled environment Basic acquisition Whole field phenotyping Aerial imaging Données Multi Echelles (P. Neveu)
Outils de gestion de données Besoins SIG Phénotypage plein champs Pech Rouge Diaphen : Garic Référence coordonnées spatiale Remplace plante/parcelle, … Forestier : EFPA / Plantacomp CATI Ecoinformatique (géomatique) Alain Benard Liste de diffusion 'géomatique' 9
Outils de gestion de données Solutions LEPSE / MISTEA Phenodyn Phenopsys Cincalli Phenoarch Vigne : VitSeq, réutilisation des bases existantes Vinotech : orienté parcelle à Pech rouge Diaphen / Garic SI environnementaux Infosol Agroclim Phenec (annuel)/ Phenoclim (pérenne) : impact changement climatique 10
Outils de gestion de données Solutions PIC : Système de cultures (V. Cellier, R. Rau) Phenomics Ontology Driven Data repository(PODD) The Australian Plant Phenomics Facility En cours de dévelopement, open source Orienté projet Evalué dans le cadre de Phénome Collaboration : Interopérabilité ou réutilisation. 11
Outils d’intégration Thalia Moulon, Phénotype + Génotype Intégration données phénotype et environnement Ephesis : intégration de plusieurs sources par Centralisation de données Interrogation distribuées par Web Services Intégration données Génotypage, Expression et génétique GnpIS Données parcellaire / lot données liées au génotype pour la génétique Intégration passe par la capacité à gérer des données multiéchelles. 12
Ephesis Projet Communauté Genotype * Environnement Base de données intégrative / portail Attendus Pérennisation, archivage, organisation et tri Intégration par Insertion ou par Web Services Traçabilité génotype (RG), phénotype, environnement, dispositif expérimental. Favoriser la visibilité nationale et internationale (Données et Unités) Réorganisation dynamique et exportation des données pour analyse Interopérabilité avec les outils d’analyses. Coopération avec les projets existants 13
Ephesis Périmètre Données plante/parcellaires dans un dispositif expérimental Données génotype : autres projets GnpIS Dispositif multigénotype. Données brutes et élaborées Même structure technique Limite volume Données brutes ont besoin de métadonnées très fines pour être exploitable ailleurs que sur le site de production. Pour qui INRA Partenaires académiques (EPST, universités, EPIC, …) Partenaires projets internationaux Privés 14
Ephesis Beta publique disponible hesis hesis Intégration d’essais Prévisualisation et export. Recherche multi essais multicritères Générique : Ontolgy Driven Structures des dispositifs Variables Environnementales Phénotypique Itinéraires techniques 15
Ephesis Intégration multi essais Interrogation Export Réagencement : datamart, galaxy 16
Qu’est ce qu’une ontologie Biologiste Vocabulaire contrôlé et structuré Définitions Hiérarchie Ordonnancement Informaticien modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts (Wikipedia) Relations très riche Plus qu’une simple hiérarchie 17
A quoi sert une ontologie Biologiste Qualité Exhaustif Eviter les redondance de données Les synonymes : plant height vs height of the plant Permet le croisement et la cohérence des données Dans un laboratoire Entre partenaires Mapping entre vocabulaires Informaticien Base d’outils d’analyse très puissants Raisonneurs Contrôle sémantique des données 18
Ontologies, initiatives Plant ontology consortium Plant ontology, Trait ontology Très généraliste Basées sur riz, mais, arabidopsis Phenotype RCN Ouverts Recommandent ontologies spécialisées liées aux leurs Projets DROPS, … Optimisées espèces et problématique Besoins INRA Vigne, … Construites en interne Optimisées espèces et problématique A partir référence internationale (OIV, …) 19
Ontologies, Perspectives Promouvoir les ajouts à l’existant Promouvoir création de nouvelles ontologies Groupes espèces Projets Promouvoir amélioration qualitative Xref vers des ontologies internationales Collaboration Fusion et Réutilisation INRA Projets Européens ou plus Améliorer la visiblité des ontologies existantes à l’INRA Ontology lookup URGI : … 20
Données pérenisables et/ou valorisables Données élaborées Élaborées pour une question scientifique précise A partir de données brutes Nettoyées Homogène ou hétérogène normalisation (effet années) Différents types Phénotypes Environnement … Forte valeur ajoutée Analyse et croisement de données Volumétrie raisonnable Partenariats Données brute hétérogènes Alphanumériques Images … Ré exploitable pour de nouveaux questionnement Analysables Par le producteur et partenaires Non producteur Métadonnées Riches En fonction du type de données brutes Images hyperspectrales Irremplaçables Péreniser 21
Panorama Projets Collaborations Plantacomp URGI Ephesis Projets Espèce Breedwheat, Amazing Peamust, VitisNext, Sorgho, Rapsodyn (Colza), Aker, Tournesol, Betterave Projets Plateforme Phenome Eve equipex vigne et changement climatique Metaprogramme Acaf changement climatique : projet acav vigne Selgen Sélection génomique 22
Phenotype and environment databases network 23 International Databases Data interoperability exchange Cross references exchange International visibility Environmental Information Systems Climatic dataGround Web interface Analysis GnpIS MapsGnpMap Genomes ExpressionGnpArray Phenotypes Ephesis GnpSNP, Siregal Genotype GnpSNP, Siregal Data integration Ontologies, GenotypeID Web Services and file exchange DataMarts Environment acquisition Phenotyping and environment Controlled environment Basic acquisition Whole field phenotyping Aerial imaging