Analyse et collecte des données

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Base de sondage et Plan de sondage Pres. 5
Modèle Logique de données
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Classification et prédiction
But de la lecture critique
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Scoring Séance II.
Échantillonnage-Estimation
Notions de variable aléatoire et de probabilité d’un événement
Les tests d’hypothèses
Statistique et probabilités au collège
variable aléatoire Discrète
Statistiques et Probabilités au lycée
Traitement de données socio-économiques et techniques d’analyse :
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Thème 6 : l'échantillonnage et l'enquête
Régression linéaire simple
Échantillonnage (STT-2000)
Mathématiques Les statistiques et probabilités en STI2d/STL
Groupe 1: Classes de même intervalle
Conception des données
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
Courbes de Bézier.
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Distribution d’échantillonnage
Théorie de l’échantillonnage (STT-6005)
Modélisation géométrique de base
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Probabilités et Statistiques
Modèle Logique de données
B.Shishedjiev - Conception des données
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Programmation linéaire en nombres entiers
Présentation du marché obligataire
LE DIAGRAMME DE PARETO:
Echantillonage pour une Evaluation d’Impact
Micro-intro aux stats.
Échantillonnage (STT-2000)
Probabilités et Statistiques Année 2010/2011
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Échantillonnage aléatoire simple
Chapitre 4 Variables aléatoires discrètes
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
Méthodes de prévision (STT-3220)
Probabilités et statistique MQT-1102
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Analyse et collecte des données

Modélisation des éléments aléatoires d’un système La cueillette et l'analyse de données est une étape cruciale dans la construction d'un modèle de simulation. À partir des données recueillies, nous devons caractériser les éléments aléatoires d'un système (lois de probabilité, paramètres de ces lois). Jusqu'à maintenant, ces lois étaient supposées connues. En pratique, il faut les estimer à partir de données statistiques. Deux types d'estimation : A) Paramétrique On choisit une famille de lois de probabilité et on estime les paramètres de cette loi. Analyse et collecte des données

Modélisation des éléments aléatoires d’un système B) Non-paramétrique On utilise les données pour construire une fonction de répartition empirique : F (x) = Proportion des valeurs qui sont £ x. C'est cette fonction qui est utilisée directement. ^ Analyse et collecte des données

Avantages de l’approche paramétrique Les fonctions de densité et de répartition s'expriment souvent sous forme analytique. On dispose de fonctions analytiques pour caractériser les paramètres de ces lois de probabilité. On dispose de procédures toutes faites pour générer des valeurs aléatoires selon ces lois. On peut avoir des raisons théoriques (physiques) de croire qu'une v.a. devrait suivre une loi spécifique. Analyse et collecte des données

Inconvénients de l’approche paramétrique Il est très difficile, souvent impossible, de choisir le bon type de loi. Rien ne nous garantit que le choix que l'on a fait est le bon. Lors de l'ajustement de la courbe, il y a souvent perte ou distorsion d'informations. L'estimation des paramètres n'est pas toujours facile et robuste. La génération de valeurs pseudo-aléatoires à partir d'une loi théorique n'est pas toujours facile. Analyse et collecte des données

Familles de lois de probabilité Une famille de lois est définie par un type de fonction de masse ou de densité, dans lequel il y a des paramètres. Exemple : X ~ N (µ, s2) fX(x) = 1    e -(x-µ)2 / s2 s 2 "µ et s, on a une loi normale particulière. On distingue 3 types de paramètres : A) Paramètre de localisation correspond à déplacer l'origine sur l'axe des x. B) Paramètre d'échelle correspond à changer l'échelle sur l'axe des x sans modifier la courbe. C) Paramètre de forme détermine la forme de la fonction  changement plus profond. Analyse et collecte des données

Familles de lois de probabilité 2 v.a. X et Y se distinguent seulement par leurs paramètres de localisation et d'échelle  l'une est fonction affine de l'autre: Y =  + b X où , b sont des constantes. En ayant 2 lois de forme équivalente, on peut facilement passer de l'une à l'autre. Exemple : X ~ N (µ , s2) paramètre de localisation paramètre d'échelle  Y = X - µ : N (0,1) s Lorsque X et Y ont des paramètres de forme différents, leur différence est plus fondamentale.  On ne peut plus passer de l'une à l'autre par une simple transformation affine. Analyse et collecte des données

Exemple : Loi de WEIBULL f (x) = xe-(x/) x > 0 0 sinon a : paramètre de forme b : paramètre d'échelle a = 1  loi exponentielle (c.v. = 1) a< 1  taux de panne  (c.v. > 1) a > 1  taux de panne  (c.v. < 1)  = 3  = 2  = 1  = 1/2 Analyse et collecte des données

Exemple : Loi de WEIBULL Note : On peut ajouter un paramètre de localisation.  Il suffit de remplacer x par x-d dans f(x) : f (x) = a b-a (x - d)a-1 e-((x - d) / b)a , x > d. Analyse et collecte des données

Analyse et collecte des données Choix d’une loi Exploration graphique Visualiser les données graphiquement pour tenter d'inférer subjectivement la loi suivie. Diagramme à bandes (cas discret) Pour chaque valeur xi, on donne le nombre de fois qu'on a obtenu xi. Analyse et collecte des données

Analyse et collecte des données Choix d’une loi Histogramme : - Estimation graphique de la fonction de densité. - Peut permettre de reconnaître une loi. On divise les données en un nombre fini de classes (divise l'abscisse en segments). Au dessus de chaque segment, on trace un rectangle dont la surface est proportionnelle à la fréquence de la classe. Choix des classes : très subjectif. Analyse et collecte des données

Choix d’une loi Histogramme : Histogrammes (pour des temps inter-arrivées) voir sur acétate Analyse et collecte des données

Choix d’une loi Graphiques de probabilité On peut tracer la fonction de répartition empirique F(x) = proportion des valeurs qui sont £ x et comparer son allure avec celle de lois standard. ^ ^ F(x) Analyse et collecte des données

Choix d’une loi Graphiques de probabilité  On peut aussi ne tracer que des points (+): (xi, F(xi)) aux endroits de sauts. xi = iième valeur observée (la iième plus petite) F(xi) = (i - 1/2)/n où n = nombre de valeurs. Pour faciliter les comparaisons, on peut transformer l'échelle sur l'axe des Y. Pour comparer F avec une fonction de répartition F, on trace les points (xi, F-1(F(xi))) et on regarde si les points sont alignés.     En effet, si F équivaut à F, ces points devraient se situer sur la droite Y = X. De plus, si les deux fonctions de répartition ne diffèrent que par leurs paramètres de localisation et d'échelle, on devrait aussi obtenir des points à peu près alignés. F(x) @ F ((x-a)/b)  F-1 (F(x)) @ (x-a)/b  (xi, F-1(F(xi))) @ (xi, (xi-a)/b)    Analyse et collecte des données

Analyse et collecte des données Exemple Pour voir si des valeurs suivent à peu près une loi normale quelconque, on trace les points : (xi, F-1( (i - 0.5)/n)) où F est la fonction de répartition d'une N(0,1). Il se vend même du papier spécial qui fait automatiquement la transformation. Il suffit de placer les points (i, xi).  "Normal Probability Paper". Voir acétate Analyse et collecte des données

Tests d’hypothèse A) test d’indépendance entre 2 mesures But: Tester des hypothèses concernant les propriétés statistiques d'un phénomène. Ces tests sont non-paramétriques puisqu'aucune hypothèse n'est faite sur la loi de probabilité. A) Test d'indépendance entre 2 mesures. - Lorsqu'on construit un modèle de simulation, plusieurs données sont recueillies - Considérons 2 mesures A et B, l'hypothèse d'indépendance est : H0 : la mesure A est indépendante de celle de B. H1 : les mesures A et B ne sont pas indépendantes. Ex : Dans un modèle d'inventaire, nous voulons savoir si le nombre quotidien de commandes est indépendant de la journée de la semaine. Analyse et collecte des données

Tests d’hypothèse A) test d’indépendance entre 2 mesures Nous considérons un test “Chi carré” basé sur une table de contingence: où Oij = # d'éléments observés avec A dans i et B dans l'intervalle j. nA intervalles pour la mesure A, nB intervalles pour la mesure B, Ni. = somme des éléments de la ligne i, N.j = somme des éléments de la colonne j, N = Total des observations. Analyse et collecte des données

Tests d’hypothèse A) test d’indépendance entre 2 mesures Sachant que Ni. / N est un estimateur de P(Ai) = Prob (une observation soit faite dans la catégorie Ai), N.j / N est un estimateur de P(Bj) = Prob (une observation soit faite dans la catégorie Bj), A et B sont indépendantes  P (Ai Bj) = P(Ai) P(Bj) lequel peut être estimé par (Ni. / N) (N.j / N ) .  eij = nombre moyen d'éléments se trouvant dans Ai et Bj. Analyse et collecte des données

Tests d’hypothèse A) test d’indépendance entre 2 mesures Si Ho est vrai, eij = P (Ai Bj) N = Ni. N.j / N, eij > 5 et      i=1, 2, …, nA j=1, 2, …, nB(0ij - eij)2/eij @ Chi carré avec (nA -1) (nB - 1) degrés de liberté. Par exemple, si       i=1, 2, …, nA j=1, 2, …, nB (0ij - eij)2/eij > c2.05,d.l. alors on rejette H0. Analyse et collecte des données

Tests d’hypothèse B) test d’indépendance à l ’intérieur de v. a. Soit une suite de v.a. x1, x2, ..., xn indépendantes, alors f (xi| xj) = f (xi) "i  j. L'hypothèse est la suivante : Ho : f (xi| xj) = f (xi) "i  j H1 : f (xi| xj)  f (xi), i  j En simulation, il est souvent important de vérifier qu'une suite de v.a. sont indépen- dantes, qu'il n'existe pas de dépendance entre des éléments successifs. Analyse et collecte des données

Tests d’hypothèse B) test d’indépendance à l ’intérieur de v. a. 1°) Run test On suppose qu'une v.a. peut prendre 2 valeurs possibles, A et B. Soit n1  # d'éléments A dans l'échantillon, n2  # d'éléments B dans l'échantillon, R = la somme des sous-suites de A et de B. si Ho est vraie, E (R) = 2 n1 n2 + 1 n1 + n2 Var (R) = 2 n1 n2(2 n1 n2 - n1 - n2) (n1 + n2)2 (n1 + n2 - 1) si n1 n2 > 10, alors R @ N (µ, s2). Exemple : AABAAABBAB  R = 6. Analyse et collecte des données

Tests d’hypothèse B) test d’indépendance à l ’intérieur de v. a. 2°) Généralisation du test précédent Lorsque les valeurs possibles des v.a. ne se ramènent pas à 2 valeurs A et B, mais plutôt à un continuum de valeurs, le test devient : R = # sous-suites croissantes ou décroissantes. Exemple : 10.1, 12.2, 9.7, 6.1, 4.2, 5.9, 6.8, 5.5  + - - - + + - R = 4 Si Ho est vrai, E [R] = (2 n - 1)/3 et Var [R] = (16 n - 29)/90 Si n croît, R suit une loi normale. Analyse et collecte des données

Analyse et collecte des données Tests d’homogénéité Il s'agit de vérifier si des fichiers différents de données peuvent être considérés comme provenant de populations identiques. Certains tests sont spécifiques à une distribution; d'autres sont indépendants de la distribution en jeu. Analyse et collecte des données

Tests d’homogénéité A) Test de Kolmogorov-Smirnov (2 échantillons) Soit G (x) et H (x) les fonctions de répartition empiriques de 2 populations, Test: H0 : G (x) = H (x) H1 : G (x)  H (x) Soit D = sup |G(x) - H(x)|, x si D > D0.05 = 1.36  ( n1 + n2) / n1 n2 alors on rejette Ho, (n1, n2 > 15). Les échantillons ne proviennent pas de distribution identique. Analyse et collecte des données

Tests d’homogénéité B) Test du Chi carré H0 : F1(x) = F2(x) = ... = FK(x) H1 : Fi  Fj pour une paire i, j. Une table de contingence est construite (N x K) : Oij : l'élément en position (i, j) de cette table désignant le nombre de données de la ie distribution appartenant au je intervalle. i = 1, 2, ..., K; j = 1, 2, ..., N eij = nombre moyen d'éléments dans la catégorie i, j. Si i=1, 2, …, K j=1, 2, …, N(Oij - eij)2/eij  > c2.05, d.l. alors on rejette H0. Cette statistique c2 possède (K-1) (N-1) degrés de liberté. Analyse et collecte des données

Analyse et collecte des données Tests d’ajustement Après avoir choisi une loi et estimé ses paramètres, on doit se demander : “Est-ce que la loi choisie est vraiment en accord avec les données observées?” On veut tester l'hypothèse : Ho : les données ont été générées selon la loi de probabilité retenue. On essaiera de trouver des indices pouvant nous faire douter de Ho. Analyse et collecte des données

Tests d’ajustement A) Test du Chi-deux Oi : nombre d'observations dans l'intervalle i, i = 1, 2, ..., k ei : nombre moyen d'observations dans l'intervalle i, lorsque H0 est vraie, i. Le test statistique est basé sur i=1, 2, …, k(Oi - ei) 2/ei ~ c2k-1 - nb. paramètres estimés Si i=1, 2, …, k(Oi - ei) 2/ei ~ c20.05, d.l. alors on rejette Ho. Analyse et collecte des données

Tests d’ajustement B) Test de Kolmogorov-Smirnov Semblable au test K.-S. d'homogénéité. D+ = Max {i/n - F*(xi)} "xi D- = Max {F*(xi) - (i-1)/n} D = max {D+, D-}, où F* est la distribution théorique, {xi} l'ensemble des observations, n : nombre de données. "n  , si D > D0.05 alors rejet de Ho, où la valeur critique est D0.05 = 1.36/n Analyse et collecte des données

Choix d’une loi en l’absence de données Certaines procédures heuristiques subjectives sont utilisées en pratique. Ça vaut ce que ça vaut ... Mieux que rien lorsqu'il n'y a rien d'autre à faire, i.e. lorsqu'il est impossible de recueillir des données pertinentes. Soit X une v.a. de loi inconnue, pour tenter d'identifier la loi de X, on demande à des " experts " leur avis on choisit en général la forme de la distribution (à priori) et on tente d'identifier (subjectivement) les paramètres. Loi uniforme U (a,b) On demande la valeur la plus pessimiste (a) et la plus optimiste (b). Analyse et collecte des données

Choix d’une loi en l’absence de données Loi triangulaire Minimum = a Maximum = b Mode = m Loi normale Moyenne =  Rayon d ’un intervalle de probabilité .95 = 2 Loi Bêta Offre beaucoup de flexibilité. Minimum = a, maximum = b, mode = m et moyenne = . Analyse et collecte des données

Difficultés rencontrées couramment - Peu ou pas de données - Petit échantillon - Données agrégées ou résumés statistiques - Information subjective seulement - Données provenant d'une loi autre (mais reliée à ) que celle qui nous intéresse. - Données sur un autre système - Données censurées (E.G. les ventes au lieu des demandes) - Données pour une autre période dans le temps - etc. IMPORTANT : ÉTUDE DE SENSIBILITÉ. Analyse et collecte des données

Estimation des paramètres f (x | q1,q2, ..., qk) déterminer les valeurs des paramètres qi. Étant donné un ensemble de données, une distribution de probabilités, Analyse et collecte des données

Analyse et collecte des données A) Méthode des moments On pose E [Xi] = mi , i = 1, 2, ..., k où mi est un estimé du ie moment obtenu à partir des données échantillonnées. E [Xi] est une fonction des k paramètres {qj}, i = 1, 2, ..., k. Il s'agit de résoudre ce système de k équations à k inconnues. Analyse et collecte des données

A) Méthode des moments Exemple Estimation des paramètres a et b de la distribution gamma. On sait que E (x) = a b et Var (x) = a b2. On pose : a b = x où x = i=1, 2, …, n xi / n a b2 = s2 où s2 = i=1, 2, …, n (xi - x)2/ (n - 1) ^ a = x2 / s2 b = s2 / x  ^ Analyse et collecte des données

B) Méthode des moindres carrés Il s’agit de résoudre le problème d’optimisation suivant : Min i=1, 2, …, n (xi - E(xi | ))2  Analyse et collecte des données

C) Méthode du maximum de vraisemblance Il s’agit de résoudre le problème d’optimisation suivant : Max L  f(x1, x2, …, xn | 1, 2, …, k)  Analyse et collecte des données

C) Méthode du maximum de vraisemblance Exemple Distribution normale (µ, s2) L = 1 e[-i=1, 2, …, n (xi - )2 / 22] n (2)n /2  ln L = - 0.5 n (ln 2 + ln 2) - i=1, 2, …, n (xi - )2/ 22  ln L /  = 0 = i=1, 2, …, n (xi - ) / 2 ln L /  2 = 0 = (-1 / 22) (n + i=1, 2, …, n (xi - )2 / 2)  µ = i=1, 2, …, n xi / n (identique à la méthode des moments) 2 = i=1, 2, …, n (xi - x)2/ n (le facteur n est remplacé par n-1avec la méthode des moments ^ ^ Analyse et collecte des données

C) Méthode du maximum de vraisemblance Propriétés Les EMV sont habituellement : - assymptotiquement sans biais : n   E [q ] q - convergents : P (q q) = 1 - invariants : j = h (q)  j = h (q) - suivent assymptotiquement la loi normale : ( q - q ) N (0,1) (permet de calculer des intervalles de confiance) Var(q ) ^ ^ ^ ^ ^ ^ Analyse et collecte des données

Introduction à la théorie de l’échantillonnage Étapes du processus d'échantillonnage (planification & déroulement d'une enquête) 1o) Définition du domaine a) Population (d'une ville, d'un pays, du monde, ...) - biens et services   nourriture, loisirs, vêtements, soins médicaux, logements, hôpitaux, voitures, enseignement téléviseurs Analyse et collecte des données

Introduction à la théorie de l’échantillonnage 1o) Définition du domaine (suite) b) travail et production - nombre d'heures de travail - population active - nombre de chômeurs - production nationale brute - salaires c) Industries (primaire, secondaire, tertiaire) - nombre d'employés/industrie - productivité d'une entreprise d) Agriculture et ressources naturelles e) Commerce (échange de biens & services, volume des ventes, stocks) f) etc. Analyse et collecte des données

Introduction à la théorie de l’échantillonnage 2o) Fixer les objectifs à atteindre les principaux paramètres ou indicateurs sont : - la population totale (ex : nombre total de chômeurs) - la moyenne (ex : rendement moyen d'un champs de maïs) - la proportion dans la population totale, quelle est la proportion de personnes actives - rapport ex : de 1960 à 1990, on fait les rapports suivants : # personnes à Los Angeles en 19xx # personnes à Washington en 19xx 3o) Population sur laquelle portera l'enquête Analyse et collecte des données

Introduction à la théorie de l’échantillonnage 4o) La représentation de la population ex : listes, cartes, etc. 5o) Unité d'observation ex : ville, famille, personne, ... 6o) Choix de l'échantillon - taille de l'échantillon (précision des résultats) - procédures de sélection - caractéristiques à estimer 7o) L'information à recueillir (questions à poser) ex : salaire d'un ouvrier Analyse et collecte des données

Introduction à la théorie de l’échantillonnage 8o) Cueillette de l'information ex : - correspondance - téléphone - porte-à-porte 9o) Période de référence Périodicité du phénomène (saisonnier) 10o) Questionnaire - présentation claire, précise - questions claires et précises, concises - absence d'éléments de réponse dans les questions - l'ordre des questions 11o) Entraînement et surveillance des enquêteurs 12o) Examen des réponses (les réponses sont bien répondues) Analyse et collecte des données

Introduction à la théorie de l’échantillonnage 13o) Les non-réponses 14o) Analyse des données réduire le plus possible les sources d'erreurs 15o) Résultats de l'enquête et conclusions Analyse et collecte des données

Échantillonnage aléatoire simple Soit une population de N individus (U1, U2, ..., UN), n la taille de l'échantillon, à chaque tirage, on suppose que pour chaque individu, la probabilité d'être “échantillonné ” est la même que pour tous les autres. a.r. avec remise (Nn chemins possibles) s.r. sans remise (N(N-1) ... (N-n+1) chemins possibles). Note : - différents chemins peuvent représenter le même échantillon. - Prob. (l'unité Uk est observée au ie tirage)  1 / N e.a.s.a.r. Analyse et collecte des données

Échantillonnage aléatoire simple - Prob. (l'unité Ui soit observée au 1er tirage)  1 / N Prob. (l'unité Ui soit observée au 2e tirage) = Prob. (l'unité Ui n'est pas choisie au 1er tirage) x Prob. (l'unité Ui est choisie au 2e tirage | l'unité Ui n'est pas choisie au 1er tirage) = (N-1 / N) (1 / N - 1)  (1 / N ) Prob. (l'unité Ui soit observée au ke tirage) = N-1 N-2 …… N-k+1 1  1 N N-1 N-k+2 N-k+1 N e.a.s.s.r. Analyse et collecte des données

Estimation d ’une moyenne dans un e.a.s.s.r. soit y : le caractère étudié Y : v.a. représentant la valeur du caractère y associé aux unités U1, U2, ..., UN. Y1, Y2, ... YN y1,y2, ..., yn: valeur de l'observation du caractère y aux n tirages. yi  Y1, Y2, ..., YN 1 …... 1 N N Un estimateur sans biais de la moyenne Y = i=1, 2, …, N Yi / N de la population est donné par y = i=1, 2, …, n yi / n. Analyse et collecte des données

Estimation d ’une moyenne dans un e.a.s.s.r. E [y] = i=1, 2, …, n E[yi] / n = Y1 + Y2  + ... + YN = Y  sans biais N N N y est un estimateur sans biais de la moyenne Var [y] = 2 [1 - (n-1)/(N-1)] / n *** à démontrer ***  2 / n ou encore, Var [y] = S2y [1 - n / N] / n avec S2y = i=1, 2, …, N (Yi - Y)2/ (N- 1) Estimation de S2y : posons s2y = i=1, 2, …, n (yi - y)2/ (n- 1)  E[s2y ] = S2y  (1 - n / N) s2y / n est un estimateur sans biais de Var(y). Analyse et collecte des données

Estimation d ’une moyenne dans un e.a.s.a.r. E [yi] = µ  "i et Cov (yi, yj) = 0 (indépendance entre les tirages) Var [yi] = s2 "i  E [y] = µ et Var [y] = 2 / n i=1, 2, …, n (yi - y)2/ (n- 1) est un estimateur sans biais de s2. Analyse et collecte des données

Analyse et collecte des données Comparaison de la variance de l ’estimateur de la moyenne avec ou sans remise Var [y] = S2y [1 - n / N] / n Var [y] = S2y [1 - 1 / N] / n s.r. a.r. Analyse et collecte des données

Estimation d’une proportion Une population est composée d'individus appartenant à la classe C et à la classe C. NC = # individus de la population de la classe C. Ui possède la valeur Yi : 1 Ui  C "i 0 autrement soit P = NC / N: proportion des unités de la population appartenant à C. nc : # unités d'un échantillon de taille n appartenant à C. yi : valeurs observées de Yi. i=1, 2, …, N Yi = NC = NP = i=1, 2, …, N Yi2  P = i=1, 2, …, N Yi / N i=1, 2, …, n yi = nC = np = i=1, 2, …, N yi2 Analyse et collecte des données

Estimation d’une proportion Cas sans remise p = y = i=1, 2, …, n yi / n est un estimateur sans biais de P. Var (p) = (1 - n / N)  NP (1 - P) ** décevant car on ne connaît pas P. ** n(N-1) Un estimateur de Var (p) est (1 - n / N)  p (1 - p) n -1 Cas avec remise Un estimateur sans biais de Var(p) est p(1 - p) / (n - 1). Analyse et collecte des données

Échantillonnage périodique Procédure d'échantillonnage - N = nk, k  N - On tire au hasard un nombre entier i entre 1 et k, 1 £ i £ k - Vous choisissez dans la population Ui, Ui+k, ..., Ui+(n-1)k comme éléments. L'échantillon est obtenue. - Ui  Uj  i  j mod k - Soit Y : total de la population pour le caractère étudié i=1, 2, …, k j=0,1, …, n-1 Yij Y : estimateur de Y  k j=0,1, …, n-1 yij ^ Analyse et collecte des données

Échantillonnage périodique ^ E [Y] = k E [j=0,1, …, n-1 yij ] total des observations du caractère y pour le ie échantillon.  peut prendre les valeurs j  Y1j, j  Y2j, ..., j Ykj avec les probabilités 1/k 1/k ... 1/k  E [Y] = k [i=1,2, …, k j=0,1, …, n-1 Yij / k] = Y \ Y est un estimateur sans biais de Y ou j=0,1, …, n-1 yij / n est un estimateur sans biais de Y = Y / N. Var (Y) = k2 Var (yi.) à estimer. ^ ^ ^ Analyse et collecte des données

Échantillonnage avec probabilités proportionnelles aux tailles Soit x : superficie X1, X2, ..., XN y : caractère étudié Y1, Y2, ..., YN (production de blé) Y : i=1, 2, …, N  Yi total de la production X : i=1, 2, …, N  Xi superficie totale U1  [1, 2, ..., X1] U2  [X1 + 1, X1 + 2, ..., X1 + X2] . UN  [X1 + X2 + ... + XN-1 + 1, ..., X] Pour sélectionner une unité, on choisit un nombre au hasard entre 1 et X. Analyse et collecte des données

Échantillonnage avec probabilités proportionnelles aux tailles e.a.p.a.r. n : taille de l'échantillon y1, y2, ..., yn Yi est observé avec la probabilité pi = Xi / X yi : ie valeur observée qui peut prendre les valeurs Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN. yi : Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN. pi p1 p2 pN E yi =   i=1, …, N pi *  Yi = Y (sans biais) pi pi [ ] Analyse et collecte des données

Échantillonnage stratifié Objectifs : améliorer les estimateurs existants Questions : - Comment stratifier? (Déterminer les critères de stratification) - Combien de strates ? - Comment distribuer la population totale dans l'ensemble des strates ? Soit U1, U2, ..., UN les N unités de la population, S1, S2, ..., SL les L strates, y : le caractère étudié Nh : taille de la population de la strate Sh Th : total de la strate Sh relatif au caractère étudié Analyse et collecte des données

Échantillonnage stratifié nh : taille de l'échantillon tiré de la strate Sh  h=1, …, L  nh  = n Yh : estimateur sans biais du total de la strate Sh  E [Yh] = Th. Y = h=1, …, L  Yh et E [Y] = h=1, …, L  Th = Y \  Y est un estimateur sans biais du total Y de la population. Note : Var (Y) = h=1, …, L  Var(Yh ), les Yh sont indépendants car les strates sont déterminées avant d'échantillonner. ^ ^ ^ ^ ^ ^ ^ Il reste à déterminer la taille n de l’échantillon et à répartir cet échantillon à travers les strates. voir l’exercice à résoudre à ce sujet. Analyse et collecte des données

Échantillonnage par grappes Nous avons N communes (découpage géographique par exemple). Procédures utilisées : A) - On prend un échantillon de n communes : 1 grappe - On observe toutes les unités de chacune des communes. 1 phase B) - On prend un échantillon de n communes : une grappe - On observe un échantillon dans chaque commune. 2 phases Analyse et collecte des données

Échantillonnage par grappes C) - On suppose que les communes peuvent être découpées en quartiers ou en districts : - On prend un échantillon de n communes. - On prend un échantillon de districts/commune. - On prend un échantillon par district. 3 phases FIN Analyse et collecte des données