Colloque Francophone sur les sondage – Rennes 2012

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Corrélation Position du problème Définition covariance (X,Y) r =
Fabrice Lauri, François Charpillet, Daniel Szer
Colloque Francophone sur les sondage – Rennes 2012
Licence pro MPCQ : Cours
Non linéarités liées à la thermique
France Journées de l’Afef – 1er octobre 2010
Gestion de portefeuille
Gestion de portefeuille
1/30 Rendu par tracé de chemins ESSI2 George Drettakis http: //www-sop.imag.fr/reves/George.Drettakis/cours/ESSI2/index.html.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Risques d’erreur statistique et test statistique
2- La théorie du producteur
Comparaison de deux moyennes observées
Inférence statistique
Tests de comparaison de pourcentages
1. Les caractéristiques de dispersion. 11. Utilité.
1 Bases de sondages multiples et redressement des poids extrêmes Le cas de lenquête auprès des intervenants au domicile de personnes fragilisées (IAD –
A Pyramid Approach to Subpixel Registration Based on Intensity
Auteurs : P. Hellier C. Barillot E. Mémin P.Pérez
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Analyse Factorielle des Correspondances
1 Analyse de la variance multivariée Michel Tenenhaus.
JACK JEDWAB ASSOCIATION DÉTUDES CANADIENNES MAI 2013 LE DÉCLIN DU FRANÇAIS OU DE LANGLAIS AU QUÉBEC? OPINIONS DU RDC (RESTE DU CANADA)
Chapitre VII :Commande par retour d’état
Améliorer les performances du chiffrage à flot SYND
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Analyse en Composantes Principales
Un neurone élémentaire
Définition Les intérêts Les critères Les méthodes Les limites
IAS 16 « Immobilisations corporelles »
Application des algorithmes génétiques
Marketing Engineering
RELATION COÛT-VOLUME-BÉNÉFICE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Cours de physique générale I Ph 11
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Traitements &Suppléments
Chapitre 2 Définition du besoin et description du besoin.
07/24/09 1.
Régression linéaire simple
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
1.1 LES VECTEURS GÉOMÉTRIQUES
RECHERCHE COMMERCIALE
3. Théorie de la production (offre) (suite)
Ordonnancement de tâches
Résoudre une équation du 1er degré à une inconnue
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Demande stochastique stationnaire
Programmation linéaire en nombres entiers : les méthodes de troncature
l’algorithme du simplexe
1 - Programme de Seconde (juin 2009) Statistique et probabilités
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Recherche de motifs par projections aléatoires
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Dr Vincent BIGE Centre de référence Mucoviscidose de Lyon
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Gestion de portefeuille Chapitre 5: Portefeuille efficient au sens de Markovitz.
Transcription de la présentation:

Colloque Francophone sur les sondage – Rennes 2012 Calage sur composantes principales versus calage pénalisé Application à la mesure d’audience hybride Internet Colloque Francophone sur les sondage – Rennes 2012

Sommaire 1 – Problématique 2 – Présentation du calage pénalisé 3 – Présentation du calage sur composantes principales 4 – Mise en œuvre et comparatif des performances 5 – Bilan

1 - Problématique

Problématique Co existence de 2 mesures Internet fixe Une mesure fondée sur un panel de 25 000 individus > Installation d’un logiciel espion qui enregistre l’ensemble de l’activité Internet par individu > Des résultats estimés et qualifiés pour l’ensemble des sites (visiteurs uniques, pages vues, temps passé, nombre de visites)

Problématique Co existence de 2 mesures Internet fixe Une mesure fondée sur l’insertion d’un tag dans le code source > Déploiement d’un tag sur chaque page > Des résultats exhaustifs uniquement pour les sites souscripteurs

Problématique Mesure hybride : prendre le meilleur des 2 mesures

Problématique Une approche par redressement > L’introduction de contraintes Site Centric modifie les poids de redressement : tous les sites bénéficient ainsi de la mesure hybride

Problématique Les données disponibles > Données individuelles du panel > Objectifs de redressement

2 - Présentation du calage pénalisé

Calage classique Trouver des poids : qui se trouvent le plus proche possible (au sens d'une distance) des poids d'échantillonnage qui estiment exactement le total des variables de calage Avec la distance de chi-deux, les poids satisfont:

Le sur-calage En présence d'un trop grand nombre de variables: > Les poids de calage peuvent être négatifs ou trop grands > Les rapports de poids satisfont difficilement des bornes > Utiliser trop de variables de calage peut augmenter la variance (Silva and Skinner, 1997)  Relaxer les contraintes de calage

Le sur-calage

Calage pénalisé (Bardsley and Chambers, 1984; Rao and Singh, 2009; Beaumont and Bocci, 2008) On se donne une tolérance pour chaque contrainte: Cela revient à chercher des poids qui satisfont où est le coût de ne pas satisfaire la j ème contrainte

Poids du calage pénalisé et matrice des coûts Les poids du calage pénalisé sont donnés par : La matrice des coûts est définie par : alors la j-ème contrainte est enlevée; alors la j-ème contrainte est exacte;

Choix des paramètres de pénalisation Tolérances « versus » coûts Il y a une relation entre les coûts et les tolérances: pour des tolérances choisies, les coûts peuvent être déterminés et vice-versa; Une proposition est de prendre comme coûts, les inverses des totaux des variables; On peut standardiser les variables et prendre pour tout j, Paramètre plus difficile à déterminer > La trace ridge (Bardsley and Chambers, 1986) > L’algorithme de la bissection (Beaumont and Bocci, 2008) > La validation croisée

3 - Présentation du calage sur composantes principales

Calage sur composantes principales On réduit le nombre de variables auxiliaires de départ en gardant le maximum d'information et on fait un calage sur les nouvelles variables auxiliaires ainsi créées On considère les premières r composantes principales correspondantes aux r plus grandes valeurs propres de la matrice  On utilise comme variables de calage les r composantes principales

Calage sur composantes principales Les totaux des variables de départ ne sont pas estimés exactement; nous réalisons de cette façon un relâchement des équations de calage. Le nombre de composantes principales est choisi selon des méthodes empiriques. Cette méthode présente l’avantage que les nouvelles variables de calage peuvent être utilisées directement dans Calmar.

Calage partiel Souvent, il y a des variables auxiliaires pour lesquelles on veut retrouver les totaux exacts à partir de l'échantillon (CSP, sexe, etc.) On peut modifier l'approche proposée (Bardsley and Chambers, 1986) pour répondre à cette question on partage les variables auxiliaires dans deux groupes: les variables pour lesquelles on veut avoir calage exact (en faible nombre) les autres variables Il y a variables dans le premier bloc et dans le deuxième

Calage partiel Pour le calage pénalisé ou ridge: matrice des coûts C donnée par Pour le calage sur CP: variables de calage données par les et les composantes principales de et orthogonales à

4 – Mise en œuvre et comparatif des performances

Mise en œuvre ACP Deux tests sont réalisés : Test 1 : on réalise l’ACP sur les variables sociodémographiques (qualitatives) et les données Site Centric (quantitatives) Test 2 : l’ACP n’est mise en œuvre que sur les données Site Centric

Mise en œuvre ACP Pourcentage de la variance totale en fonction du nombre de valeurs propres : Test 1 : quali + quanti Test 2 : quanti

Mise en œuvre ACP Test 1 : quali + quanti Le nombre de valeurs propres introduit est testé itérativement. A partir de 7 composantes principales, on obtient des poids de redressement négatifs avec la distance du Chi 2 Les résultats présentés ci-après tiennent ainsi compte des 6 premières composantes principales soit une 22,3% de la variance totale.

Mise en œuvre Ridge On fixe les bornes suivantes pour les rapports de poids : L = 0.5 U = 5 Dans ce cas aussi, deux tests sont réalisés : Test 1 : Ridge Brut Les variables quantitatives ne sont pas standardisées. Coûts = inverse des totaux Test 2 : Ridge standardisé Les variables quantitatives sont standardisées. Coûts = 1

Comparatif des performances Ecarts relatifs absolus - variables quantitatives Les performances des 3 méthodes sont comparables avec une erreur moyenne proche de 25% sur les variables quantitatives.

Comparatif des performances Ecarts relatifs absolus - variables quantitatives La méthode ACP est celle qui maximise les écarts de moins de 10%. Elle a en contrepartie la plus grande part d’erreur de plus de 50%.

Comparatif des performances Ecarts relatifs absolus - variables qualitatives La méthode ACP est celle qui minimise les erreurs sur les variables qualitatives avec une erreur moyenne de 17,5%.

Comparatif des performances Ecarts relatifs absolus - variables qualitatives La méthode ACP est celle qui maximise les écarts de moins de 10%.

Comparatif des performances Qualité des poids de redressement L’efficacité du redressement est comparable selon les 3 méthodes et proche de 100 : les poids ne sont guère éloignés des poids d’échantillonnage. A titre de comparaison, la méthode Calmar – sinus hyperbolique - obtient une efficacité bien moindre de 48%. L’étendue des poids est plus importante avec la méthode ACP à 16,3. Avec Calmar, le rapport de poids est beaucoup plus important à 40.

5 – Bilan et perspectives

Bilan La mesure Hybride de l’Internet Fixe repose sur l’insertion dans le redressement de plus de 150 variables quantitatives issues de la mesure Site Centric. Ces contraintes s’ajoutent ainsi aux 36 variables qualitatives sociodémographiques. Deux méthodes de redressement alternatives à la méthode Calmar actuellement utilisée ont été testées : La méthode Ridge en standardisant ou non les variables qui permet d’introduire une tolérance sur l’atteinte des objectifs La méthode ACP qui permet de résumer les contraintes Si ces deux méthodes permettent effectivement un net gain dans la qualité des poids de redressement, celui est rendu possible par la faible quantité d’information auxiliaire considérée.

Perspectives En l’état, les méthodes testées ne répondent pas suffisamment aux attentes. Des travaux complémentaires vont être menés : sur la méthode ACP afin d’intégrer davantage de composantes principales et de réduire les écarts relatifs Sur la méthode Ridge et la définition des tolérances et coûts introduits Sur d’autres méthodes alternatives