au LISC, Cemagref de Clermont Ferrand DESS SIAD année 2001-2002 Génération de population agricole à partir de données agrégées et d’un panel représentatif de fermes. réalisé par Mickaël Bourion au LISC, Cemagref de Clermont Ferrand sous la direction de Thierry Faure 10 septembre 2002
Sommaire Introduction I. Analyse de données II. Les méthodes de génération de population III. L’application Conclusion - Perspectives
Introduction Le contexte du stage Le CIAT (Centre International de l’Agriculture Tropicale) Données de recensement : Confidentielles ! Seuls sont disponibles: Données agrégées Echantillons Nécessité de créer une application générant une population à partir de ces données
Introduction Objectifs de l’étude Développer un outil réalisant la reconstruction de population Utiliser la population agricole complète du Honduras : Comme exemple pour l’application Pour étudier ses caractéristiques Pour manipuler les méthodes d’agrégation
Spécifications du programme Introduction Spécifications du programme Outil générique (échelles et paramètres variables) Opération « inverse » : générer une population à partir d’un échantillon Programme en sources libres Localisation en 3 langues
Introduction I. Analyse de données II. Les méthodes de génération de population III. L’application Conclusion - Perspectives
Présentation des données I. Analyse de données Présentation des données Le Honduras plus de 300 000 exploitations 3 échelles administratives :
Présentation des données I. Analyse de données Présentation des données 3 matrices de paramètres : Exploitations (surfaces, usage des terres…) Producteurs (âge, sexe, condition juridique…) Productions (quantités et types…)
Mise en œuvre d’algorithmes avec Scilab I. Analyse de données Mise en œuvre d’algorithmes avec Scilab Formatage des données Agrégations Corrélations entre paramètres
Résultats Agrégations I. Analyse de données Résultats Agrégations Corrélations entre paramètres : Données trop disparates
Introduction I. Analyse de données II. Les méthodes de génération de population III. L’application Conclusion - Perspectives
Principe de la méthode utilisée II. Les méthodes de génération de population Principe de la méthode utilisée Multiplication des prototypes d’un échantillon par des coefficients Choix optimal de ces coefficients pour respecter les contraintes des données agrégées Besoin d’un algorithme de minimisation des erreurs
Principe de la méthode utilisée II. Les méthodes de génération de population Principe de la méthode utilisée P (pop initiale) Ferme 1 Ferme 2 Ferme 3 Ferme 4 Ferme 5 Ferme 6 P’ (échantillon) P (données agrégées) Ferme 7 Σ fermes = 8 Ferme 8 Prototype 1 Prototype 2 Σ productions = 150 Prototype 3 P’’ (pop générée) Prototype 1 Prototype 1 Prototype 2 Prototype 2 Prototype 2 Prototype 3 Prototype 3 Prototype 3
II. Les méthodes de génération de population 2 types d’algorithmes Algorithme quadratique : pour générer une population à partir d’un échantillon. Algorithme de type Monte Carlo (non analytique) : pour générer un échantillon à partir d’une population entière
Algorithme de minimisation quadratique II. Les méthodes de génération de population Algorithme de minimisation quadratique Formulation du problème Transformation min (0.5*xt*Q*x+pt*x) I*x=N Pour le programme : Algorithme de « R » + … producteurs productions Contrainte(s) :
Algorithmes de type Monte Carlo II. Les méthodes de génération de population Algorithmes de type Monte Carlo Hill climbing recuit simulé (simulated annealing) P(δE) = exp (-δE / T) Algorithme génétique …
Introduction I. Analyse de données II. Les méthodes de génération de population III. L’application Conclusion - Perspectives
Les modules du programme III. L’application Les modules du programme Module Population Module Statistiques Module Minimisation
III. L’application Diagramme UML
L’arborescence de répertoires III. L’application L’arborescence de répertoires Info.txt Prototype.txt DonnéesAgreg.txt ProtoGénérés.txt
L’interface : onglet population III. L’application L’interface : onglet population
L’interface : Fenêtre de visualisation de l’arbre III. L’application L’interface : Fenêtre de visualisation de l’arbre
L’interface : onglet Statistiques III. L’application L’interface : onglet Statistiques
Aspects du module Plan d’expérience III. L’application Aspects du module Plan d’expérience Zone d’exploration Génération de population Région étudiée paramètres à minimiser types des données agrégées (qualitatif/ quantitatif) seuil d’erreur (pour chaque paramètre) Générer Algorithme 1 Génération d’échantillon Algorithme 2
Introduction I. Analyse de données II. Les méthodes de génération de population III. L’application Conclusion - Perspectives
Conclusion - Perspectives Acquisition de nouveaux outils Bilan de l’analyse de données Bilan de l’application - résultats
Conclusion - Perspectives Documentation Essais et comparaisons des 2 algorithmes Module plan d’expérience Module Visualisation (Java Analysis Studio) Projet « ouvert » - Statistiques évoluées (AFC, Clustering) - ajouts de nouvelles fonctions…