La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE

Présentations similaires


Présentation au sujet: "STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE"— Transcription de la présentation:

1 STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Jeanne Fine Professeure de Statistique, Université de Toulouse

2 Statistique descriptive 2
La statistique descriptive élémentaire consiste à effectuer le traitement statistique des variables une par une (statistique unidimensionnelle ou « tri à plat ») ou deux par deux (statistique bidimensionnelle ou « tri croisé »). L’existence de deux types de variables, catégorielle et réelle, conduit à considérer cinq traitements statistiques de base. C'est le plan du cours installé en libre accès sur le site pédagogique de l’IUFM Midi-Pyrénées et téléchargeable, dont on donne un extrait dans ce document : Jeanne Fine Statistique descriptive 2

3 Statistique descriptive 3
PLAN DU COURS 1. Introduction : un exemple 2. Traitement statistique d’une variable catégorielle 3. Traitement statistique d’une variable réelle 4. Traitement statistique de deux variables catégorielles 5. Traitement statistique de deux variables réelles 6. Traitement statistique d'une variable catégorielle et d'une variable réelle Jeanne Fine Statistique descriptive 3

4 Tableau individus  variables
UN EXEMPLE SEXE = F : fille G : garçon, GRPE = Groupe de mathématiques : A, B, C FRAN = Note en Français MAT1, MAT2, MAT3 = triple correction d'un devoir de mathématiques commun aux trois groupes IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 a ANDRE G B 10.00 7.75 6.00 b BERNARD 15.00 11.00 9.25 12.00 c CHRISTIAN 7.00 d DANIELLE F 16.00 14.00 13.25 e ETIENNE 9.00 f FRANCK C g GENEVIEVE 13.75 h HERVE 9.75 i IVAN 10.75 j JOELLE A k KARIM 5.00 l LISE 5.75 m MELANIE 5.50 n NICOLE 8.00 o ODILE 13.00 6.25 Tableau individus  variables Jeanne Fine Statistique descriptive 4

5 Statistique descriptive 5
UN EXEMPLE Construction de nouvelles variables variable MATH : MATH = (MAT1 + MAT2 + MAT3) variable EXAM : EXAM = (FRAN + MATH) variable ADMI : si EXAM  10 alors ADMI = O, sinon ADMI = N Jeanne Fine Statistique descriptive 5

6 Tableau individus  variables
UN EXEMPLE IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 EXAM ADMI a ANDRE G B 10.00 7.75 6.00 8.96 N b BERNARD 15.00 11.00 9.25 12.00 12.88 O c CHRISTIAN 7.00 12.50 d DANIELLE F 16.00 14.00 13.25 14.54 e ETIENNE 9.00 10.88 f FRANCK C 10.79 g GENEVIEVE 13.75 13.46 h HERVE 9.75 10.13 i IVAN 10.75 11.63 j JOELLE A 9.33 k KARIM 5.00 l LISE 5.75 9.29 m MELANIE 5.50 8.25 n NICOLE 8.00 8.83 o ODILE 13.00 6.25 10.54 Tableau individus  variables Jeanne Fine Statistique descriptive 6

7 2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.1. Partition de la population engendrée par la variable Jeanne Fine Statistique descriptive 7

8 2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.2. Distribution d'effectifs et de fréquences GRPE Effectifs Fréquences B 5 33% C 4 27% A 6 40% Ensemble 15 100% Distributions des effectifs et des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 8

9 2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.3. Représentation graphique : diagrammes en barres ou en secteurs Diagramme en barres des effectifs et des fréquences de la variable GRPE Diagramme en secteurs des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 9

10 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Distributions d'effectifs et de fréquences Valeurs regroupées en classes Classes Centre Effectifs Fréquences 6 MATH  8 7 6 40% 8 MATH  10 9 3 20% MATH  12 11 4 27% 12 MATH  14 13 2 13% 15 100% Distribution d'effectifs et de fréquences de la variable MATH (valeurs regroupées en classes) Jeanne Fine Statistique descriptive 10

11 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Représentation graphique : l'histogramme Dans le cas où les amplitudes sont différentes, il faut veiller à construire des rectangles dont les aires soient proportionnelles aux effectifs (ou aux fréquences). Jeanne Fine Statistique descriptive 11

12 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Résumés numériques : indices de position et de dispersion Mode et étendue Le mode est la valeur de la variable correspondant au plus grand effectif. L’étendue est la différence entre la plus grande et la plus petite valeur de la variable. Jeanne Fine Statistique descriptive 12

13 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Moyenne, variance et écart-type La moyenne (arithmétique) est la valeur commune à chaque individu s’ils avaient tous la même valeur. La variance est la moyenne des carrés des écarts à la moyenne. La variance est aussi la moyenne des carrés moins le carré de la moyenne. L’écart-type est la racine carrée de la variance. Jeanne Fine Statistique descriptive 13

14 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Propriétés de la moyenne FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 . . Jeanne Fine Statistique descriptive 14

15 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Propriétés de la variance et de l'écart-type Attention à la somme, on a : . FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 Variances 4.12 6.12 7.44 3.29 3.97 3.39 Ecart-types 2.03 2.47 2.73 1.81 1.99 1.84 Jeanne Fine Statistique descriptive 15

16 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Une variable dont la moyenne est égale à 0 est dite centrée. Une variable dont l'écart-type est égal à 1 est dite réduite. Jeanne Fine Statistique descriptive 16

17 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Médiane, quartiles et écart inter-quartiles La médiane est la valeur qui partage la population en deux sous-populations d'effectifs égaux : 50% / 50%. C'est encore la valeur prise par le (N+1) / 2 ième individu. Si la taille de la population est paire on prend pour médiane le milieu des valeurs des rangs N / 2 et (N+2) / 2 . La médiane est la valeur de la variable correspondant à la fréquence cumulée 50%. MATH RANG 6.58 1 7.00 2 7.50 3 7.67 4 5 7.92 6 8.08 7 9.58 8 9.75 9 10.00 10 10.25 11 10.75 12 11.25 13 12.92 14 13.08 15 Les quartiles, notés q1, q2, q3, sont les valeurs de la variable qui partagent la population en quatre sous-populations d'effectifs égaux, 25%, 25%, 25% 25%. Les quartiles sont aussi les valeurs de la variable correspondant aux fréquences cumulées 25%, 50%, 75%. Le deuxième quartile, q2, est donc la médiane. Médiane  L’écart inter-quartiles est la longueur q3 – q1 de l’intervalle inter-quartiles [q1, q3]. On a ici : m = 9.58, q1 = 7.67, q3 = et donc q3 q1 = 3.08. Jeanne Fine Statistique descriptive 17

18 3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Représentation graphique : boîte et moustaches (“box plot”) Exemple : la variable MATH Boîtes et moustaches des distributions de notes de MAT1, MAT2 et MAT3 Jeanne Fine Statistique descriptive 18

19 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Partition croisée Partition croisée associée aux deux variables GRPE et SEXE Jeanne Fine Statistique descriptive 19

20 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Table de contingence : distribution conjointe et distributions marginales des effectifs et des fréquences GRPE \ SEXE B C A Ensemble F 1 5 7 G 4 3 8 6 15 GRPE \ SEXE B C A Ensemble F 7% 33% 47% G 26% 20% 53% 27% 40% 100% Distributions conjointe et marginales des effectifs des variables GRPE et SEXE Distributions conjointe et marginales des fréquences des variables GRPE et SEXE Jeanne Fine Statistique descriptive 20

21 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Distributions conditionnelles : (profils lignes et profils colonnes) GRPE \ SEXE B C A Ensemble F 14% 72% 100% G 50% 38% 12% 33% 27% 40% GRPE \ SEXE B C A Ensemble F 20% 25% 83% 47% G 80% 75% 12%7 53% 100% 100 Tableau des profils lignes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Tableau des profils colonnes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 21

22 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Liaison entre deux variables catégorielles : la distance du KHI2 A \ B ... Ensemble n Tableau de contingence observé Jeanne Fine Statistique descriptive 22

23 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
... Ens. 1 n A \ B ... Ens. 1 n Profils lignes Profils Colonnes On remarque que l'absence de liaison se traduit par une des trois propriétés suivantes qui sont équivalentes : 1. Egalité des profils lignes pour tout i et j 2. Egalité des profils colonnes pour tout i et j pour tout i et j Jeanne Fine Statistique descriptive 23

24 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Le tableau de contingence théorique d'absence de liaison, construit sur les mêmes marges que le tableau de contingence observé, est alors le suivant : A \ B ... Ensemble n Indice du Khi2 Jeanne Fine Statistique descriptive 24

25 4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Autres formules du KHI2 Si on introduit les fréquences on a alors : Indice du PHI2 Le KHI2 est proportionnel à N. On peut alors introduire l'indice du PHI2 égal au KHI2 divisé par n. On obtient pour les variables GRPE et SEXE : KHI2 = 5.42 et PHI2 = 0.36. Jeanne Fine Statistique descriptive 25

26 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Représentation graphique : le graphe plan Graphe plan des variables MAT1 et MAT2 L'ensemble des points, appelé nuage des points, est très étiré et assez rectiligne. Les deux variables MAT1 et MAT2 sont fortement liées. Jeanne Fine Statistique descriptive 26

27 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Résumés numériques : covariance, coefficient de corrélation linéaire La Covariance La covariance de deux variables réelles X et Y est à la moyenne des produits des différences à la moyenne. La covariance est aussi égale à la moyenne des produits moins le produit des moyennes. Jeanne Fine Statistique descriptive 27

28 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Le Coefficient de corrélation linéaire Le coefficient de corrélation linéaire, noté , est défini comme le rapport de la covariance sur le produit des écart-types de X et de Y (supposés non nuls). FRAN MAT1 MAT2 MAT3 MATH EXAM 4.12 3.48 6.12 3.74 6.58 7.44 0.98 1.22 1.66 3.29 2.73 4.64 5.22 2.06 3.97 3.42 4.06 4.48 1.52 3.35 3.39 FRAN MAT1 MAT2 MAT3 MATH EXAM 1.000 0.695 0.675 0.975 0.266 0.273 0.335 0.676 0.941 0.961 0.569 0.917 0.892 0.454 0.914 Covariances des variables deux à deux Coefficients de corrélation linéaire des variables deux à deux Jeanne Fine Statistique descriptive 28

29 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Propriétés de la covariance et du coefficient de corrélation linéaire Le coefficient de corrélation linéaire est compris entre 1 et 1. Il est égal à 1 ou 1 si, et seulement si, il existe une relation linéaire entre les variables (d'où son nom). Jeanne Fine Statistique descriptive 29

30 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Pour simplifier nous notons X la variable MAT1 et Y la variable MAT2. On pose , où E désigne la variable d’erreur ; on cherche a et b rendant minimum la somme (ou la moyenne) des carrés des erreurs (critère de moindre carrés) : La solution est la suivante : Jeanne Fine Statistique descriptive 30

31 5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
La droite ainsi obtenue est dite droite de régression linéaire de Y en X. Jeanne Fine Statistique descriptive 31

32 Statistique descriptive 32
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Décomposition de la variance Exemple GRPE Effectif Moyenne Variance A 6 7.33 0.22 B 5 11.60 1.84 C 4 11.50 4.25 Ensemble 15 9.87 6.12 La moyenne de la variable sur l’ensemble des élèves est la moyenne des moyennes des groupes, pondérées par les effectifs des groupes : Jeanne Fine Statistique descriptive 32

33 Statistique descriptive 33
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE La variance inter-groupes (ou inter-classes) est la variance des moyennes : La variance intra-groupes (ou intra-classes) est la moyenne des variances : La variance de la variable est égale à la somme des variances inter et intra : 6.12 = Jeanne Fine Statistique descriptive 33

34 Statistique descriptive 34
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Formules On note n, et V l'effectif de la population, la moyenne et la variance d'une variable réelle X. On considère une variable catégorielle à K modalités, donc une partition de la population en K classes et on note nk , et Vk l'effectif, la moyenne et la variance de la variable X dans la classe k. On a alors les relations suivantes : et Jeanne Fine Statistique descriptive 34

35 Statistique descriptive 35
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Rapport de corrélation entre une variable catégorielle et une variable réelle Le rapport de corrélation entre une variable catégorielle et une variable réelle, noté  , est la racine carrée de la variance inter sur la variance totale (= inter + intra) de la variable réelle. Ce rapport est évidemment compris entre 0 et 1. Il est égal à 0 lorsque la variance inter est nulle et il exprime alors l'absence de liaison entre la variable réelle et la variable catégorielle. Il est égal à 1 lorsque la variance inter est égale à la variance totale et il exprime alors une forte liaison entre la variable réelle et la variable catégorielle. Dans l'exemple, la variable réelle MAT1 et la variable catégorielle GRPE ont pour rapport de corrélation : L'indice est appelé pouvoir discriminant. Jeanne Fine Statistique descriptive 35


Télécharger ppt "STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE"

Présentations similaires


Annonces Google