Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Revue financière de l’année 2012
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
La pondération de l’enquête Sans Domicile 2012
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Calcul mental Calcul mental Année scolaire Classe de …
M1 MASTER GESTION Séance 3 Pilotage coûts- délais
Évaluation des requêtes relationnelles
Classe : …………… Nom : …………………………………… Date : ………………..
Séries statistiques à une variable
Les numéros 70 –
Les numéros
ACTIVITES Les fractions (10).
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Les identités remarquables
1 Objectifs 2008 Point de situation sur les résultats.
Séminaire cofinancé par l'Union Européenne dans le cadre d'Europ'Act et coordonné par l'ASP Séminaire CICC pour les contrôleurs du FEDER, du FSE et du.
1. Les caractéristiques de dispersion. 11. Utilité.
1 Bases de sondages multiples et redressement des poids extrêmes Le cas de lenquête auprès des intervenants au domicile de personnes fragilisées (IAD –
10 place de la Joliette, BP Marseille Cedex 02 Tél CENTRE DÉTUDES ET DE RECHERCHES SUR LES QUALIFICATIONS Pascale.
Pourquoi le nombre de cancers augmente-t-il ?
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
07/24/09 1.
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
Application des algorithmes génétiques
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Cours de physique générale I Ph 11
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Traitements &Suppléments
Titre : Implémentation des éléments finis sous Matlab
LABSENTEISME EN 2012 Les résultats de lenquête 1.
Les Pourcentages.
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Les Monnaies et billets du FRANC Les Monnaies Euro.
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Veuillez trouver ci-joint
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
CALENDRIER-PLAYBOY 2020.
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Résumé des conditions de renouvellement Au 1 er janvier 2013.
1 Nestlé – Optifibre Zones administrables via le back-office.
Revue financière et politique de placement année 2013 Avril 2014 Présentée par Louis Morissette Les Services actuariels SAI inc.
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Rappels de statistiques descriptives
Transcription de la présentation:

Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/ e colloque francophone sur les sondages – K. CLAUDIO 1/27 Estimation de la consommation deau dune population à partir dun échantillon dusagers télérelevés Karim CLAUDIO Thèse CIFRE co-encadrée par Vincent Couallier (IMB), Yves Le Gat (IRSTEA) et Jérôme Saracco (INRIA)

07/11/2012 2/34 7 e colloque francophone sur les sondages – K. CLAUDIO Mise en place du problème Objectifs : Estimation des fuites sur le réseau deau potable Evaluation du rendement de réseau Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t)

07/11/2012 3/34 7 e colloque francophone sur les sondages – K. CLAUDIO Mise en place du problème Objectifs : Evaluation des fuites sur le réseau deau potable Estimation du rendement de réseau Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t) Données de volume entrant : Débit instantané (sur un pas de temps de 6 min) Débit réel (depuis mai 2011 – nombre dimpulsions (100L) sur 5 min)

07/11/2012 4/34 7 e colloque francophone sur les sondages – K. CLAUDIO Mise en place du problème Objectifs : Evaluation des fuites sur le réseau deau potable Estimation du rendement de réseau Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t) Données de volume sortant : Consommation annuelle facturée (base clientèle) Consommation horaire ou toutes les 6h (télérelève des compteurs)

07/11/2012 5/34 7 e colloque francophone sur les sondages – K. CLAUDIO Télérelevé des compteurs deau Fonctionnement : Récolte automatique des index de consommation individuelle consommation cumulée Sur un pas de temps horaire ou toutes les 6 heures Télérelevé inexistant, partiel ou généralisé en fonction des communes

07/11/2012 6/34 7 e colloque francophone sur les sondages – K. CLAUDIO Consommation de la population Télérelevé des compteurs deau généralisé Consommation totale de la population (Δt 1 heure ou 6 heures) Télérelevé des compteurs deau inexistant ou partiel Estimation de la consommation totale (coût et temps de déploiement importants) Estimation de la consommation totale (coût et temps de déploiement importants) Télérelevé inexistant : constitution dun échantillon -Définir un plan déchantillonnage optimal Télérelevé partiel : échantillon déjà constitué -Redressement des estimateurs

07/11/2012 7/34 7 e colloque francophone sur les sondages – K. CLAUDIO Cas dapplication Commune entièrement télérelevée : commune de Canéjan Commune entièrement télérelevée : commune de Canéjan 1822 usagers (1822 compteurs) Télérelevé généralisé des compteurs deau Télérelevé des index toutes les 6 heures (4 index/jour) Historique de données complet sur 2 ans (2010/2011) 2 parties distinctes : 1. Constituer un échantillon « optimal » pour estimer la consommation de la population 2. Redresser un estimateur issu dun échantillon « non optimal »

07/11/2012 8/34 7 e colloque francophone sur les sondages – K. CLAUDIO 1 - Constituer un échantillon

07/11/2012 9/34 7 e colloque francophone sur les sondages – K. CLAUDIO Constitution dun échantillon Sondage Définir la grandeur dintérêt Définir le pas de temps danalyse (Δt) Sondage stratifié : découpage de la population Choix de la variable de stratification Choix du nombre L de strates et des bornes des strates Taille n de léchantillon et allocation dans chaque strate

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Variable de stratification Variable dintérêt : Consommation (journalière/hebdomadaire) individuelle en 2011 estimation du total Variable de stratification : - connue sur toute la population - corrélée à la variable dintérêt Consommation individuelle annuelle année A-1 (2010) Boite à moustaches des 365/53 coefficients de corrélation linéaire entre la variable dintérêt et la consommation annuelle individuelle de lannée X (CX) Consommation annuelle individuelle

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Variable de stratification Fonction de répartition : 1822 individus Min : 0 m 3 (-160 m 3 ) Moy : 117 m 3 Max : 4543 m 3

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Variable de stratification Fonction de répartition : Zoom (vol 200 m 3 ) 93 % de la population 20 % des individus ont eu une consommation annuelle en m 3

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Nombre L de strates Gros consommateurs : *Conso 1000 m 3

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Bornes des strates Différentes approches 1.Basée sur une approche métier (volume deau consommé par un ménage d1 personne, de 2 personnes, etc.) 2.Basée sur la répartition de la variable de stratification (Dalenius & Hodges, Serfling) 3.Algorithme de sélection de L-1 strates sondées partiellement et la L ième enquêtée exhaustivement (Lavallée & Hiridoglou )

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Nombre L de strates Nombre de strates restantes : L* = L -1 Strates : réduction de la dispersion Nombre de strate L* Somme des variances intra-strates Réduction 1%

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Nombre L de strates Découpage en strates : Str.11 Fonction de répartitionBornes NhNhNhNh Strate 1[ 0 ; 30 [180 Strate 2[ 30; 50 [173 Strate 3[ 50 ; 65 [205 Strate 4[ 65 ; 80 [200 Strate 5[ 80 ; 95 [198 Strate 6[ 95 ; 110 [191 Strate 7[ 110 ; 130 [180 Strate 8[ 130 ; 150 [174 Strate 9[ 150 ; 185 [159 Strate 10[ 185 ; 1000 [149 Strate 11[ 1000 ; + [13

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Nombre L de strates Découpage en strates : Str.1 Str.8Str.10Str.2Str.4Str.6 Str.9Str.7Str.5Str.3 Fonction de répartitionBornes NhNhNhNh Strate 1[ 0 ; 30 [180 Strate 2[ 30; 50 [173 Strate 3[ 50 ; 65 [205 Strate 4[ 65 ; 80 [200 Strate 5[ 80 ; 95 [198 Strate 6[ 95 ; 110 [191 Strate 7[ 110 ; 130 [180 Strate 8[ 130 ; 150 [174 Strate 9[ 150 ; 185 [159 Strate 10[ 185 ; 1000 [149 Strate 11[ 1000 ; + [13

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO n en fonction dune précision σ : Objectif = détection de fuite σ cible = 13 m 3 / jour (estimation du débit de fuite sur branchement) Taille de léchantillon n S str-h est la racine carrée de la dispersion de la variable de stratification au sein de la strate h, S² yh (t) est la dispersion de la variable dintérêt à la date t (jour ou semaine) dans la strate h. valeur inconnue (à estimer à partir dune population semblable)

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Taille de léchantillon n n = f(σ ): Taux de sondage sélectionné : f = 35%nf Basée sur les données journalières (min = 337 / max = 1815) Basée sur les données hebdomadaires (min = 145 / max = 1802)

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Répartition de léchantillon au sein des strates Allocation de léchantillon Allocation proportionnelle Taille des sous-échantillons (n h ) proportionnelle : À la taille de la strate h (N h ) Au taux de sondage (f=n/N) Allocation de Neyman Taille des sous-échantillons (n h ) proportionnelle : À la taille de la strate h (N h ) et à son poids (W h = N h / N) À la dispersion au sein de la strate h (σ h )

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Validation de la qualité de la méthode par simulation (Monte Carlo) Résultats de simulations déchantillon : N = 1822 individus 11 strates de consommation (dont une strate « gros consommateurs ») n = f x N = 0.35 x individus strateNhNh Sh2Sh2 WhWh nhnh fhfh %5329.4% %2816.2% %2713.2% %2512.5% %2613.1% %2412.6% %3117.2% %3117.8% %5031.4% %149100% %13100%

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Résultats Δt = 1 jour Consommation totale (m 3 )

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Résultats Δt = 1 semaine Consommation totale (m 3 )

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Résultats JourSemaine Volume total mesuré (sur 1 an) Volume total estimé (sur 1 an) Ecart moyen (valeur absolue) Ecart maximal (valeur absolue) σ moyen σ médian σ minimal σ maximal % σ 13 m 3 (jour) / 91 m 3 (semaine) 42%67% Ecart Précision Performance des estimateurs en fonction du pas de temps :

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Résumé du sondage stratifié Grandeur dintérêt : consommation hebdomadaire en 2011 (A) de la population Variable de stratification : consommation annuelle individuelle en 2010 (A-1) Nombre L de strates : 11 strates L défini en fonction de la variance intra strate de la variable de stratification Bornes définies grâce à la méthode de Dalenius & Hodge (1953) Taux de sondage f : 35% Répartition au sein des strates : allocation optimale de Neyman (1977) Ces paramètres permettraient datteindre une précision 91m 3

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO 2 - Améliorer un estimateur

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification Stratification selon une variable XPost-stratification selon une variable Z Population P (#P = N) H strates G h (h = 1, …, H - #G h = N h )K post - strates D k (k = 1, …, K - #D k = M k ) Echantillon S (#S = n) H échantillons g h (h = 1, …, H - #g h = n h )K échantillons d k (k = 1, …, K - #d k = m k ) A kh = D K G h (# A kh = Θ kh ) α kh = d K g h (# α kh = θ kh ) Y i (t) consommation de l individu i au moment t

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification 1. Stratification selon une variable « obsolète » Variable de stratification : consommation annuelle individuelle en strates de consommation : 0, 50, 100, 150, 200, 300, 500, 1000 m 3 (bornes métier) f = 10% 2. Post-stratification selon la consommation annuelle individuelle 2010 str NhNh N h /N 27%29%26%12%5%1% nhnh Pstr MkMk M k /N 10% 11%12%11% 10%9% 8%1%

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Comparaison :Stratification VS Post- stratification par simulation (Monte Carlo) Volume réel (m 3 ) Ecart Volume estimé strat. (m 3 ) (écart en %)(0.01%) Volume estimé post-strat. (m 3 ) (écart en %) (0.7%) Précision σ moyen (strat.) σ moyen (post-strat.) 289.3

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification Mauvaise Performance Taille déchantillon vide ( θ kh = 0) Si Θ kh = 0 aucun problème destimation (pas de population) Si Θ kh 0 individus (A kh ) non représentés Θ kh / θ kh 0 A kh non représentés (introduction dun biais) A kh = A kh A k(h+i) (i = 1-h, 2-h, …, H-h) ou A kh = A kh A (k+j)h (j = 1-k, 2-k, …, K-k) le regroupement est aléatoire (non contrôlé par le sondeur)

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification - strates vides Effectif des A kh (Θ kh ) Plus le nombre de A kh augmente plus le risque dobtenir des Θ kh faibles voire nuls augmente.

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification - échantillons vides Taille déchantillon vide ( θ kh = 0) Nb de α kh vides*% de α kh vides * Minimum610% Médiane1423% Maximum2338% Statistiques sur les simulations par Monte Carlo * hors A kh vides Pourcentage de simulations où les θ kh sont nuls (NA signifie que les Θ kh sont nuls)

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Post-stratification Post-stratification consécutive à une stratification : estimation sans biais du total de la consommation individuelle risque de « strates » non représentées : pas de gain notable en termes de précision sur lapplication concernée Perspectives : diminuer le nombre de strates et/ou post-strates augmenter le taux de sondage Redressement par régression, calage, etc.

07/11/ /34 7 e colloque francophone sur les sondages – K. CLAUDIO Merci de votre attention