La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de.

Présentations similaires


Présentation au sujet: "Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de."— Transcription de la présentation:

1 Analyse et collecte des données

2 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de lois de probabilité et on estime les paramètres de cette loi. La cueillette et l'analyse de données est une étape cruciale dans la construction d'un modèle de simulation. À partir des données recueillies, nous devons caractériser les éléments aléatoires d'un système (lois de probabilité, paramètres de ces lois). Jusqu'à maintenant, ces lois étaient supposées connues. En pratique, il faut les estimer à partir de données statistiques.

3 Analyse et collecte des données3 Modélisation des éléments aléatoires dun système B)Non-paramétrique On utilise les données pour construire une fonction de répartition empirique : F (x) = Proportion des valeurs qui sont x. C'est cette fonction qui est utilisée directement. ^

4 Analyse et collecte des données4 Avantages de lapproche paramétrique Les fonctions de densité et de répartition s'expriment souvent sous forme analytique. On dispose de fonctions analytiques pour caractériser les paramètres de ces lois de probabilité. On dispose de procédures toutes faites pour générer des valeurs aléatoires selon ces lois. On peut avoir des raisons théoriques (physiques) de croire qu'une v.a. devrait suivre une loi spécifique.

5 Analyse et collecte des données5 Inconvénients de lapproche paramétrique Il est très difficile, souvent impossible, de choisir le bon type de loi. Rien ne nous garantit que le choix que l'on a fait est le bon. Lors de l'ajustement de la courbe, il y a souvent perte ou distorsion d'informations. L'estimation des paramètres n'est pas toujours facile et robuste. La génération de valeurs pseudo-aléatoires à partir d'une loi théorique n'est pas toujours facile.

6 Analyse et collecte des données6 Familles de lois de probabilité Une famille de lois est définie par un type de fonction de masse ou de densité, dans lequel il y a des paramètres. Exemple :X ~ N (µ, 2 )f X (x) =1 e -(x-µ) 2 / 2 µ et, on a une loi normale particulière. A)Paramètre de localisation correspond à déplacer l'origine sur l'axe des x. B)Paramètre d'échelle correspond à changer l'échelle sur l'axe des x sans modifier la courbe. C)Paramètre de forme détermine la forme de la fonction changement plus profond. On distingue 3 types de paramètres :

7 Analyse et collecte des données7 Familles de lois de probabilité 2 v.a. X et Y se distinguent seulement par leurs paramètres de localisation et d'échelle l'une est fonction affine de l'autre:Y = + Xoù, sont des constantes. En ayant 2 lois de forme équivalente, on peut facilement passer de l'une à l'autre. Exemple : X N (µ, 2 ) paramètre de localisationparamètre d'échelle Y = X - µ: N (0,1) Lorsque X et Y ont des paramètres de forme différents, leur différence est plus fondamentale. On ne peut plus passer de l'une à l'autre par une simple transformation affine.

8 Analyse et collecte des données8 Exemple : Loi de WEIBULL f (x) = x e -(x/ ) x > 0 0sinon = 3 = 2 = 1 = 1/2 : paramètre de forme : paramètre d'échelle loi exponentielle (c.v. = 1) taux de panne (c.v. 1)

9 Analyse et collecte des données9 Exemple : Loi de WEIBULL Note : On peut ajouter un paramètre de localisation. Il suffit de remplacer x par x- dans f(x) : f (x) = (x - ) e -((x - ) / ), x

10 Analyse et collecte des données10 Choix dune loi Exploration graphique Visualiser les données graphiquement pour tenter d'inférer subjectivement la loi suivie. Diagramme à bandes (cas discret) Pour chaque valeur x i, on donne le nombre de fois qu'on a obtenu x i.

11 Analyse et collecte des données11 Choix dune loi -Estimation graphique de la fonction de densité. -Peut permettre de reconnaître une loi. On divise les données en un nombre fini de classes (divise l'abscisse en segments). Au dessus de chaque segment, on trace un rectangle dont la surface est proportionnelle à la fréquence de la classe. Choix des classes : très subjectif. Histogramme :

12 Analyse et collecte des données12 Choix dune loi Histogramme : Histogrammes (pour des temps inter-arrivées) voir sur acétate

13 Analyse et collecte des données13 Choix dune loi Graphiques de probabilité On peut tracer la fonction de répartition empirique F(x) =proportion des valeurs qui sont x et comparer son allure avec celle de lois standard. ^ F(x) ^

14 Analyse et collecte des données14 Choix dune loi Graphiques de probabilité On peut aussi ne tracer que des points (+): (x i, F(x i )) aux endroits de sauts. x i = i ième valeur observée(la i ième plus petite) F(x i )= (i - 1/2)/noù n = nombre de valeurs. Pour faciliter les comparaisons, on peut transformer l'échelle sur l'axe des Y. Pour comparer F avec une fonction de répartition F, on trace les points (x i, F -1 (F(x i ))) et on regarde si les points sont alignés. De plus, si les deux fonctions de répartition ne diffèrent que par leurs paramètres de localisation et d'échelle, on devrait aussi obtenir des points à peu près alignés. F(x) F ((x-a)/b) F -1 (F(x)) (x-a)/b (x i, F -1 (F(x i ))) (x i, (x i -a)/b) En effet, si F équivaut à F, ces points devraient se situer sur la droite Y = X.

15 Analyse et collecte des données15 Exemple Pour voir si des valeurs suivent à peu près une loi normale quelconque, on trace les points : (x i, -1 ( (i - 0.5)/n)) où est la fonction de répartition d'une N(0,1). Il se vend même du papier spécial qui fait automatiquement la transformation. Il suffit de placer les points (i, x i ). "Normal Probability Paper". Voir acétate

16 Analyse et collecte des données16 Tests dhypothèse A) test dindépendance entre 2 mesures A)Test d'indépendance entre 2 mesures. -Lorsqu'on construit un modèle de simulation, plusieurs données sont recueillies -Considérons 2 mesures A et B, l'hypothèse d'indépendance est : H 0 : la mesure A est indépendante de celle de B. H 1 : les mesures A et B ne sont pas indépendantes. Ex :Dans un modèle d'inventaire, nous voulons savoir si le nombre quotidien de commandes est indépendant de la journée de la semaine. But :Tester des hypothèses concernant les propriétés statistiques d'un phénomène. Ces tests sont non-paramétriques puisqu'aucune hypothèse n'est faite sur la loi de probabilité.

17 Analyse et collecte des données17 Tests dhypothèse A) test dindépendance entre 2 mesures Nous considérons un test Chi carré basé sur une table de contingence : où O ij = d'éléments observés avec A dans i et B dans l'intervalle j. n A intervalles pour la mesure A, n B intervalles pour la mesure B, N i. = somme des éléments de la ligne i, N.j = somme des éléments de la colonne j, N = Total des observations.

18 Analyse et collecte des données18 Tests dhypothèse A) test dindépendance entre 2 mesures Sachant queN i. / N est un estimateur de P(A i ) = Prob (une observation soit faite dans la catégorie A i ), N.j / N est un estimateur de P(B j ) = Prob (une observation soit faite dans la catégorie B j ), A et B sont indépendantes P (A i B j ) = P(A i ) P(B j ) lequel peut être estimé par (N i. / N) (N.j / N ). e ij = nombre moyen d'éléments se trouvant dans A i et B j.

19 Analyse et collecte des données19 Tests dhypothèse A) test dindépendance entre 2 mesures Si H o est vrai, e ij = P (A i B j ) N = N i. N.j / N, e ij > 5 et i=1, 2, …, n A j=1, 2, …, n B (0 ij - e ij ) 2 /e ij Chi carré avec (n A -1) (n B - 1) degrés de liberté. Par exemple, si i=1, 2, …, n A j=1, 2, …, n B (0 ij - e ij ) 2 /e ij > 2.05,d.l. alors on rejette H 0.

20 Analyse et collecte des données20 Tests dhypothèse B) test dindépendance à l intérieur de v. a. Soit une suite de v.a. x 1, x 2,..., x n indépendantes, alors f (x i x j ) = f (x i ) i j. L'hypothèse est la suivante : H o : f (x i x j ) = f (x i ) i j H 1 : f (x i x j ) f (x i ), i j En simulation, il est souvent important de vérifier qu'une suite de v.a. sont indépen- dantes, qu'il n'existe pas de dépendance entre des éléments successifs.

21 Analyse et collecte des données21 Tests dhypothèse B) test dindépendance à l intérieur de v. a. 1°) Run test On suppose qu'une v.a. peut prendre 2 valeurs possibles, A et B. Soitn 1 # d'éléments A dans l'échantillon, n 2 # d'éléments B dans l'échantillon, R = la somme des sous-suites de A et de B. si H o est vraie,E (R) = 2 n 1 n n 1 + n 2 Var (R) = 2 n 1 n 2 (2 n 1 n 2 - n 1 - n 2 ) (n 1 + n 2 ) 2 (n 1 + n 2 - 1) si n 1 n 2 > 10, alors R N (µ, ). Exemple : AABAAABBAB R = 6.

22 Analyse et collecte des données22 Tests dhypothèse B) test dindépendance à l intérieur de v. a. 2°) Généralisation du test précédent R = # sous-suites croissantes ou décroissantes. Exemple : 10.1, 12.2, 9.7, 6.1, 4.2, 5.9, 6.8, R = 4 Si H o est vrai,E [R] = (2 n - 1)/3 et Var [R] = (16 n - 29)/90 Si n croît, R suit une loi normale. Lorsque les valeurs possibles des v.a. ne se ramènent pas à 2 valeurs A et B, mais plutôt à un continuum de valeurs, le test devient :

23 Analyse et collecte des données23 Tests dhomogénéité Il s'agit de vérifier si des fichiers différents de données peuvent être considérés comme provenant de populations identiques. Certains tests sont spécifiques à une distribution; d'autres sont indépendants de la distribution en jeu.

24 Analyse et collecte des données24 Tests dhomogénéité A) Test de Kolmogorov-Smirnov (2 échantillons) Soit G (x) et H (x) les fonctions de répartition empiriques de 2 populations, Test:H 0 : G (x) = H (x) H 1 : G (x) H (x) Soit D = sup |G(x) - H(x)|, x si D > D 0.05 = 1.36 ( n 1 + n 2 ) / n 1 n 2 alors on rejette H o, (n 1, n 2 > 15). Les échantillons ne proviennent pas de distribution identique.

25 Analyse et collecte des données25 Tests dhomogénéité B) Test du Chi carré H 0 : F 1 (x) = F 2 (x) =... = F K (x) H 1 : F i F j pour une paire i, j. Une table de contingence est construite (N x K) : O ij :l'élément en position (i, j) de cette table désignant le nombre de données de la i e distribution appartenant au j e intervalle. i = 1, 2,..., K;j = 1, 2,..., N e ij = nombre moyen d'éléments dans la catégorie i, j. Si i=1, 2, …, K j=1, 2, …, N (O ij - e ij ) 2 /e ij > 2.05, d.l. alors on rejette H 0. Cette statistique 2 possède (K-1) (N-1) degrés de liberté.

26 Analyse et collecte des données26 Tests dajustement Après avoir choisi une loi et estimé ses paramètres, on doit se demander : Est-ce que la loi choisie est vraiment en accord avec les données observées? On veut tester l'hypothèse : H o : les données ont été générées selon la loi de probabilité retenue. On essaiera de trouver des indices pouvant nous faire douter de H o.

27 Analyse et collecte des données27 Tests dajustement A) Test du Chi-deux Si i=1, 2, …, k (O i - e i ) 2 /e i , d.l. alors on rejette H o. O i :nombre d'observations dans l'intervalle i, i = 1, 2,..., k e i : nombre moyen d'observations dans l'intervalle i, lorsque H 0 est vraie, i. Le test statistique est basé sur i=1, 2, …, k (O i - e i ) 2 /e i 2 k-1 - nb. paramètres estimés

28 Analyse et collecte des données28 Tests dajustement B) Test de Kolmogorov-Smirnov Semblable au test K.-S. d'homogénéité. D + = Max {i/n - F*(x i )} x i D - = Max {F*(x i ) - (i-1)/n} x i D = max {D +, D - }, oùF* est la distribution théorique, {x i } l'ensemble des observations, n : nombre de données. n, si D > D 0.05 alors rejet de H o, où la valeur critique est D 0.05 = 1.36/ n

29 Analyse et collecte des données29 Choix dune loi en labsence de données Loi uniforme U (a,b) On demande la valeur la plus pessimiste (a) et la plus optimiste (b). Certaines procédures heuristiques subjectives sont utilisées en pratique. Ça vaut ce que ça vaut... Mieux que rien lorsqu'il n'y a rien d'autre à faire, i.e. lorsqu'il est impossible de recueillir des données pertinentes. Soit X une v.a. de loi inconnue, pour tenter d'identifier la loi de X, on demande à des " experts " leur avis on choisit en général la forme de la distribution (à priori) et on tente d'identifier (subjectivement) les paramètres.

30 Analyse et collecte des données30 Choix dune loi en labsence de données Minimum = a Maximum = b Mode = m Loi triangulaire Loi normale Moyenne = Rayon d un intervalle de probabilité.95 = 2 Loi Bêta Offre beaucoup de flexibilité. Minimum = a,maximum = b, mode = m etmoyenne =.

31 Analyse et collecte des données31 Difficultés rencontrées couramment - Peu ou pas de données - Petit échantillon - Données agrégées ou résumés statistiques - Information subjective seulement - Données provenant d'une loi autre (mais reliée à ) que celle qui nous intéresse. - Données sur un autre système - Données censurées (E.G. les ventes au lieu des demandes) - Données pour une autre période dans le temps- etc. IMPORTANT : ÉTUDE DE SENSIBILITÉ.

32 Analyse et collecte des données32 Estimation des paramètres f (x 1, 2,..., k ) déterminer les valeurs des paramètres i. Étant donné un ensemble de données, une distribution de probabilités,

33 Analyse et collecte des données33 A) Méthode des moments On pose E [X i ] = m i, i = 1, 2,..., k où m i est un estimé du i e moment obtenu à partir des données échantillonnées. E [X i ] est une fonction des k paramètres { j }, i = 1, 2,..., k. Il s'agit de résoudre ce système de k équations à k inconnues.

34 Analyse et collecte des données34 A) Méthode des moments Exemple Estimation des paramètres et de la distribution gamma. On sait que E (x) = et Var (x) = 2. On pose : = xoù x = i=1, 2, …, n x i / n = s 2 où s 2 = i=1, 2, …, n (x i - x) 2 / (n - 1) = x 2 / s 2 s 2 / x ^ ^

35 Analyse et collecte des données35 B) Méthode des moindres carrés Il sagit de résoudre le problème doptimisation suivant : Min i=1, 2, …, n (x i - E(x i | )) 2

36 Analyse et collecte des données36 C) Méthode du maximum de vraisemblance Il sagit de résoudre le problème doptimisation suivant : Max L f(x 1, x 2, …, x n | 1, 2, …, k )

37 Analyse et collecte des données37 C) Méthode du maximum de vraisemblance Exemple Distribution normale µ L =1e [- i=1, 2, …, n (x i - ) 2 / 2 2 ] n (2 ) n /2 ln L = n (ln 2 + ln 2 ) - i=1, 2, …, n (x i - ) 2 / 2 2 ln L / = 0 = i=1, 2, …, n (x i - ) / 2 ln L / 2 = 0 = (-1 / 2 2 ) (n + i=1, 2, …, n (x i - ) 2 / 2 ) µ = i=1, 2, …, n x i / n (identique à la méthode des moments) 2 = i=1, 2, …, n (x i - x) 2 / n (le facteur n est remplacé par n-1avec la méthode des moments ^ ^

38 Analyse et collecte des données38 C) Méthode du maximum de vraisemblance Propriétés Les EMV sont habituellement : - assymptotiquement sans biais : n E [ ] - convergents : n P ( - invariants : = h ( ) = h ( ) - suivent assymptotiquement la loi normale : n ( - )N (0,1) (permet de calculer des intervalles de confiance) Var( ) ^ ^ ^ ^ ^ ^

39 Analyse et collecte des données39 Introduction à la théorie de léchantillonnage Étapes du processus d'échantillonnage (planification & déroulement d'une enquête) 1 o ) Définition du domaine a) Population (d'une ville, d'un pays, du monde,...) - bienset services nourriture,loisirs, vêtements, soins médicaux, logements,hôpitaux, voitures,enseignement téléviseurs

40 Analyse et collecte des données40 Introduction à la théorie de léchantillonnage 1 o ) Définition du domaine (suite) b) travail et production - nombre d'heures de travail - population active - nombre de chômeurs - production nationale brute - salaires c) Industries (primaire, secondaire, tertiaire) - nombre d'employés/industrie - productivité d'une entreprise d) Agriculture et ressources naturelles e) Commerce (échange de biens & services, volume des ventes, stocks) f) etc.

41 Analyse et collecte des données41 Introduction à la théorie de léchantillonnage 2 o ) Fixer les objectifs à atteindre les principaux paramètres ou indicateurs sont : - la population totale (ex : nombre total de chômeurs) - la moyenne (ex : rendement moyen d'un champs de maïs) - la proportion dans la population totale, quelle est la proportion de personnes actives - rapport ex : de 1960 à 1990, on fait les rapports suivants : # personnes à Los Angeles en 19xx # personnes à Washington en 19xx 3 o )Population sur laquelle portera l'enquête

42 Analyse et collecte des données42 Introduction à la théorie de léchantillonnage 4 o ) La représentation de la population ex : listes, cartes, etc. 5 o ) Unité d'observation ex : ville, famille, personne,... 6 o ) Choix de l'échantillon - taille de l'échantillon (précision des résultats) - procédures de sélection - caractéristiques à estimer 7 o ) L'information à recueillir (questions à poser) ex : salaire d'un ouvrier

43 Analyse et collecte des données43 Introduction à la théorie de léchantillonnage 8 o ) Cueillette de l'information ex :- correspondance - téléphone - porte-à-porte 9 o ) Période de référence Périodicité du phénomène (saisonnier) 10 o )Questionnaire - présentation claire, précise - questions claires et précises, concises - absence d'éléments de réponse dans les questions - l'ordre des questions 11 o )Entraînement et surveillance des enquêteurs 12 o )Examen des réponses (les réponses sont bien répondues)

44 Analyse et collecte des données44 Introduction à la théorie de léchantillonnage 13 o )Les non-réponses 14 o )Analyse des données réduire le plus possible les sources d'erreurs 15 o )Résultats de l'enquête et conclusions

45 Analyse et collecte des données45 Échantillonnage aléatoire simple Soitune population de N individus (U 1, U 2,..., U N ), n la taille de l'échantillon, à chaque tirage, on suppose que pour chaque individu, la probabilité d'être échantillonné est la même que pour tous les autres. a.r.avec remise(N n chemins possibles) s.r.sans remise(N(N-1)... (N-n+1) chemins possibles). Note : -différents chemins peuvent représenter le même échantillon. - Prob. (l'unité U k est observée au i e tirage) e.a.s.a.r.

46 Analyse et collecte des données46 Échantillonnage aléatoire simple - Prob. (l'unité U i soit observée au 1 er tirage) Prob. (l'unité U i soit observée au 2 e tirage) = Prob. (l'unité U i n'est pas choisie au 1 er tirage) x Prob. (l'unité U i est choisie au 2 e tirage | l'unité U i n'est pas choisie au 1 er tirage) = (N-1 / N) ( - 1) ( ) Prob. (l'unité U i soit observée au k e tirage) = N-1N-2……N-k+11 1 NN-1N-k+2N-k+1N e.a.s.s.r.

47 Analyse et collecte des données47 Estimation d une moyenne dans un e.a.s.s.r. soit y : le caractère étudié Y : v.a. représentant la valeur du caractère y associé aux unités U 1, U 2,..., U N. Y 1, Y 2,... Y N y 1,y 2,..., y n : valeur de l'observation du caractère y aux n tirages. y i Y 1, Y 2,..., Y N 1…...1N Un estimateur sans biais de la moyenne Y = i=1, 2, …, N Y i / N de la population est donné par y = i=1, 2, …, n y i / n.

48 Analyse et collecte des données48 Estimation d une moyenne dans un e.a.s.s.r. E [y] = i=1, 2, …, n E[y i ] / n =Y 1 + Y Y N = Y sans biais N N N y est un estimateur sans biais de la moyenne Var [y] = 2 [1 - (n-1)/(N-1)] / n*** à démontrer *** 2 / n ou encore, Var [y] = S 2 y [1 - n / N] / navec S 2 y = i=1, 2, …, N (Y i - Y) 2 / (N- 1) Estimation de S 2 y :posons s 2 y = i=1, 2, …, n (y i - y) 2 / (n- 1) E[s 2 y ] = S 2 y (1 - n / N) s 2 y / n est un estimateur sans biais de Var(y).

49 Analyse et collecte des données49 Estimation d une moyenne dans un e.a.s.a.r. E [y i ] = µ ietCov (y i, y j ) = 0 (indépendance entre les tirages) Var [y i ] = i E [y] = µet Var [y] = 2 / n i=1, 2, …, n (y i - y) 2 / (n- 1) est un estimateur sans biais de 2.

50 Analyse et collecte des données50 Comparaison de la variance de l estimateur de la moyenne avec ou sans remise Var [y] = S 2 y [1 - n / N] / n Var [y] =S 2 y [1 - 1 / N] / n s.r. a.r.

51 Analyse et collecte des données51 Estimation dune proportion Une population est composée d'individus appartenant à la classe C et à la classe C. N C = # individus de la population de la classe C. U i possède la valeur Y i : 1 U i C i 0autrement soit P = N C / N: proportion des unités de la population appartenant à C. n c : # unités d'un échantillon de taille n appartenant à C. y i : valeurs observées de Y i. i=1, 2, …, N Y i = N C = NP = i=1, 2, …, N Y i 2 P = i=1, 2, …, N Y i / N i=1, 2, …, n y i = n C = np = i=1, 2, …, N y i 2

52 Analyse et collecte des données52 Estimation dune proportion Cas sans remise Cas avec remise Un estimateur sans biais de Var(p) est p(1 - p) / (n - 1). p = y = i=1, 2, …, n y i / n est un estimateur sans biais de P. Var (p) = (1 - n / N) NP (1 - P) ** décevant car on ne connaît pas P. ** n(N-1) Un estimateur de Var (p) est (1 - n / N) p (1 - p) n -1

53 Analyse et collecte des données53 Échantillonnage périodique Procédure d'échantillonnage -N = nk, k N -On tire au hasard un nombre entier i entre 1 et k, 1 i k -Vous choisissez dans la population U i, U i+k,..., U i+(n-1)k comme éléments. L'échantillon est obtenue. -U i U j i j mod k -Soit Y : total de la population pour le caractère étudié i=1, 2, …, k j=0,1, …, n-1 Y ij Y : estimateur de Y k j=0,1, …, n-1 y ij ^

54 Analyse et collecte des données54 Échantillonnage périodique E [Y] = k E [ j=0,1, …, n-1 y ij ] total des observations du caractère y pour le i e échantillon. peut prendre les valeurs j Y 1j, j Y 2j,..., j Y kj avec les probabilités 1/k1/k...1/k E [Y] = k [ i=1,2, …, k j=0,1, …, n-1 Y ij / k] = Y Y est un estimateur sans biais de Y ou j=0,1, …, n-1 y ij / n est un estimateur sans biais de Y = Y / N. Var (Y) = k 2 Var (y i. ) à estimer. ^ ^ ^ ^

55 Analyse et collecte des données55 Échantillonnage avec probabilités proportionnelles aux tailles U 1 [1, 2,..., X 1 ] U 2 [X 1 + 1, X 1 + 2,..., X 1 + X 2 ]. U N [X 1 + X X N-1 + 1,..., X] Pour sélectionner une unité, on choisit un nombre au hasard entre 1 et X. Soitx : superficie X 1, X 2,..., X N y : caractère étudié Y 1, Y 2,..., Y N (production de blé) Y : i=1, 2, …, N Y i total de la production X : i=1, 2, …, N X i superficie totale

56 Analyse et collecte des données56 Échantillonnage avec probabilités proportionnelles aux tailles e.a.p.a.r. n : taille de l'échantillon y 1, y 2,..., y n Y i est observé avec la probabilité p i = X i / X y i : i e valeur observée qui peut prendre les valeurs Y 1, Y 2,..., Y N avec les probabilités p 1, p 2,..., p N. y i : Y 1, Y 2,..., Y N avec les probabilités p 1, p 2,..., p N. p i p 1 p 2 p N E y i = i=1, …, N p i * Y i = Y (sans biais) p i p i [ ]

57 Analyse et collecte des données57 Échantillonnage stratifié Objectifs : améliorer les estimateurs existants Questions : - Comment stratifier? (Déterminer les critères de stratification) - Combien de strates ? - Comment distribuer la population totale dans l'ensemble des strates ? SoitU 1, U 2,..., U N les N unités de la population, S 1, S 2,..., S L les L strates, y : le caractère étudié N h : taille de la population de la strate S h T h : total de la strate S h relatif au caractère étudié

58 Analyse et collecte des données58 Échantillonnage stratifié n h : taille de l'échantillon tiré de la strate S h h=1, …, L n h = n Y h : estimateur sans biais du total de la strate S h E [Y h ] = T h. Y = h=1, …, L Y h et E [Y] = h=1, …, L T h = Y Y est un estimateur sans biais du total Y de la population. Note : Var (Y) = h=1, …, L Var(Y h ), les Y h sont indépendants car les strates sont déterminées avant d'échantillonner. ^^ ^ ^ ^ ^ ^ Il reste à déterminer la taille n de léchantillon et à répartir cet échantillon à travers les strates. voir lexercice à résoudre à ce sujet.

59 Analyse et collecte des données59 Échantillonnage par grappes Nous avons N communes (découpage géographique par exemple). Procédures utilisées : A)- On prend un échantillon de n communes : 1 grappe - On observe toutes les unités de chacune des communes. 1 phase B) - On prend un échantillon de n communes : une grappe - On observe un échantillon dans chaque commune. 2 phases

60 Analyse et collecte des données60 Échantillonnage par grappes - On prend un échantillon de n communes. - On prend un échantillon de districts/commune. - On prend un échantillon par district. C) - On suppose que les communes peuvent être découpées en quartiers ou en districts : 3 phases FIN


Télécharger ppt "Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de."

Présentations similaires


Annonces Google