Télécharger la présentation
1
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Jeanne Fine Professeure de Statistique, Université de Toulouse
2
Statistique descriptive 2
La statistique descriptive élémentaire consiste à effectuer le traitement statistique des variables une par une (statistique unidimensionnelle ou « tri à plat ») ou deux par deux (statistique bidimensionnelle ou « tri croisé »). L’existence de deux types de variables, catégorielle et réelle, conduit à considérer cinq traitements statistiques de base. C'est le plan du cours installé en libre accès sur le site pédagogique de l’IUFM Midi-Pyrénées et téléchargeable, dont on donne un extrait dans ce document : Jeanne Fine Statistique descriptive 2
3
Statistique descriptive 3
PLAN DU COURS 1. Introduction : un exemple 2. Traitement statistique d’une variable catégorielle 3. Traitement statistique d’une variable réelle 4. Traitement statistique de deux variables catégorielles 5. Traitement statistique de deux variables réelles 6. Traitement statistique d'une variable catégorielle et d'une variable réelle Jeanne Fine Statistique descriptive 3
4
Tableau individus variables
UN EXEMPLE SEXE = F : fille G : garçon, GRPE = Groupe de mathématiques : A, B, C FRAN = Note en Français MAT1, MAT2, MAT3 = triple correction d'un devoir de mathématiques commun aux trois groupes IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 a ANDRE G B 10.00 7.75 6.00 b BERNARD 15.00 11.00 9.25 12.00 c CHRISTIAN 7.00 d DANIELLE F 16.00 14.00 13.25 e ETIENNE 9.00 f FRANCK C g GENEVIEVE 13.75 h HERVE 9.75 i IVAN 10.75 j JOELLE A k KARIM 5.00 l LISE 5.75 m MELANIE 5.50 n NICOLE 8.00 o ODILE 13.00 6.25 Tableau individus variables Jeanne Fine Statistique descriptive 4
5
Statistique descriptive 5
UN EXEMPLE Construction de nouvelles variables variable MATH : MATH = (MAT1 + MAT2 + MAT3) variable EXAM : EXAM = (FRAN + MATH) variable ADMI : si EXAM 10 alors ADMI = O, sinon ADMI = N Jeanne Fine Statistique descriptive 5
6
Tableau individus variables
UN EXEMPLE IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 EXAM ADMI a ANDRE G B 10.00 7.75 6.00 8.96 N b BERNARD 15.00 11.00 9.25 12.00 12.88 O c CHRISTIAN 7.00 12.50 d DANIELLE F 16.00 14.00 13.25 14.54 e ETIENNE 9.00 10.88 f FRANCK C 10.79 g GENEVIEVE 13.75 13.46 h HERVE 9.75 10.13 i IVAN 10.75 11.63 j JOELLE A 9.33 k KARIM 5.00 l LISE 5.75 9.29 m MELANIE 5.50 8.25 n NICOLE 8.00 8.83 o ODILE 13.00 6.25 10.54 Tableau individus variables Jeanne Fine Statistique descriptive 6
7
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.1. Partition de la population engendrée par la variable Jeanne Fine Statistique descriptive 7
8
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.2. Distribution d'effectifs et de fréquences GRPE Effectifs Fréquences B 5 33% C 4 27% A 6 40% Ensemble 15 100% Distributions des effectifs et des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 8
9
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE
2.3. Représentation graphique : diagrammes en barres ou en secteurs Diagramme en barres des effectifs et des fréquences de la variable GRPE Diagramme en secteurs des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 9
10
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Distributions d'effectifs et de fréquences Valeurs regroupées en classes Classes Centre Effectifs Fréquences 6 MATH 8 7 6 40% 8 MATH 10 9 3 20% MATH 12 11 4 27% 12 MATH 14 13 2 13% 15 100% Distribution d'effectifs et de fréquences de la variable MATH (valeurs regroupées en classes) Jeanne Fine Statistique descriptive 10
11
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Représentation graphique : l'histogramme Dans le cas où les amplitudes sont différentes, il faut veiller à construire des rectangles dont les aires soient proportionnelles aux effectifs (ou aux fréquences). Jeanne Fine Statistique descriptive 11
12
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Résumés numériques : indices de position et de dispersion Mode et étendue Le mode est la valeur de la variable correspondant au plus grand effectif. L’étendue est la différence entre la plus grande et la plus petite valeur de la variable. Jeanne Fine Statistique descriptive 12
13
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Moyenne, variance et écart-type La moyenne (arithmétique) est la valeur commune à chaque individu s’ils avaient tous la même valeur. La variance est la moyenne des carrés des écarts à la moyenne. La variance est aussi la moyenne des carrés moins le carré de la moyenne. L’écart-type est la racine carrée de la variance. Jeanne Fine Statistique descriptive 13
14
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Propriétés de la moyenne FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 . . Jeanne Fine Statistique descriptive 14
15
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Propriétés de la variance et de l'écart-type Attention à la somme, on a : . FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 Variances 4.12 6.12 7.44 3.29 3.97 3.39 Ecart-types 2.03 2.47 2.73 1.81 1.99 1.84 Jeanne Fine Statistique descriptive 15
16
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Une variable dont la moyenne est égale à 0 est dite centrée. Une variable dont l'écart-type est égal à 1 est dite réduite. Jeanne Fine Statistique descriptive 16
17
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Médiane, quartiles et écart inter-quartiles La médiane est la valeur qui partage la population en deux sous-populations d'effectifs égaux : 50% / 50%. C'est encore la valeur prise par le (N+1) / 2 ième individu. Si la taille de la population est paire on prend pour médiane le milieu des valeurs des rangs N / 2 et (N+2) / 2 . La médiane est la valeur de la variable correspondant à la fréquence cumulée 50%. MATH RANG 6.58 1 7.00 2 7.50 3 7.67 4 5 7.92 6 8.08 7 9.58 8 9.75 9 10.00 10 10.25 11 10.75 12 11.25 13 12.92 14 13.08 15 Les quartiles, notés q1, q2, q3, sont les valeurs de la variable qui partagent la population en quatre sous-populations d'effectifs égaux, 25%, 25%, 25% 25%. Les quartiles sont aussi les valeurs de la variable correspondant aux fréquences cumulées 25%, 50%, 75%. Le deuxième quartile, q2, est donc la médiane. Médiane L’écart inter-quartiles est la longueur q3 – q1 de l’intervalle inter-quartiles [q1, q3]. On a ici : m = 9.58, q1 = 7.67, q3 = et donc q3 q1 = 3.08. Jeanne Fine Statistique descriptive 17
18
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE
Représentation graphique : boîte et moustaches (“box plot”) Exemple : la variable MATH Boîtes et moustaches des distributions de notes de MAT1, MAT2 et MAT3 Jeanne Fine Statistique descriptive 18
19
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Partition croisée Partition croisée associée aux deux variables GRPE et SEXE Jeanne Fine Statistique descriptive 19
20
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Table de contingence : distribution conjointe et distributions marginales des effectifs et des fréquences GRPE \ SEXE B C A Ensemble F 1 5 7 G 4 3 8 6 15 GRPE \ SEXE B C A Ensemble F 7% 33% 47% G 26% 20% 53% 27% 40% 100% Distributions conjointe et marginales des effectifs des variables GRPE et SEXE Distributions conjointe et marginales des fréquences des variables GRPE et SEXE Jeanne Fine Statistique descriptive 20
21
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Distributions conditionnelles : (profils lignes et profils colonnes) GRPE \ SEXE B C A Ensemble F 14% 72% 100% G 50% 38% 12% 33% 27% 40% GRPE \ SEXE B C A Ensemble F 20% 25% 83% 47% G 80% 75% 12%7 53% 100% 100 Tableau des profils lignes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Tableau des profils colonnes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Jeanne Fine Statistique descriptive 21
22
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Liaison entre deux variables catégorielles : la distance du KHI2 A \ B ... Ensemble n Tableau de contingence observé Jeanne Fine Statistique descriptive 22
23
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
... Ens. 1 n A \ B ... Ens. 1 n Profils lignes Profils Colonnes On remarque que l'absence de liaison se traduit par une des trois propriétés suivantes qui sont équivalentes : 1. Egalité des profils lignes pour tout i et j 2. Egalité des profils colonnes pour tout i et j pour tout i et j Jeanne Fine Statistique descriptive 23
24
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Le tableau de contingence théorique d'absence de liaison, construit sur les mêmes marges que le tableau de contingence observé, est alors le suivant : A \ B ... Ensemble n Indice du Khi2 Jeanne Fine Statistique descriptive 24
25
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES
Autres formules du KHI2 Si on introduit les fréquences on a alors : Indice du PHI2 Le KHI2 est proportionnel à N. On peut alors introduire l'indice du PHI2 égal au KHI2 divisé par n. On obtient pour les variables GRPE et SEXE : KHI2 = 5.42 et PHI2 = 0.36. Jeanne Fine Statistique descriptive 25
26
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Représentation graphique : le graphe plan Graphe plan des variables MAT1 et MAT2 L'ensemble des points, appelé nuage des points, est très étiré et assez rectiligne. Les deux variables MAT1 et MAT2 sont fortement liées. Jeanne Fine Statistique descriptive 26
27
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Résumés numériques : covariance, coefficient de corrélation linéaire La Covariance La covariance de deux variables réelles X et Y est à la moyenne des produits des différences à la moyenne. La covariance est aussi égale à la moyenne des produits moins le produit des moyennes. Jeanne Fine Statistique descriptive 27
28
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Le Coefficient de corrélation linéaire Le coefficient de corrélation linéaire, noté , est défini comme le rapport de la covariance sur le produit des écart-types de X et de Y (supposés non nuls). FRAN MAT1 MAT2 MAT3 MATH EXAM 4.12 3.48 6.12 3.74 6.58 7.44 0.98 1.22 1.66 3.29 2.73 4.64 5.22 2.06 3.97 3.42 4.06 4.48 1.52 3.35 3.39 FRAN MAT1 MAT2 MAT3 MATH EXAM 1.000 0.695 0.675 0.975 0.266 0.273 0.335 0.676 0.941 0.961 0.569 0.917 0.892 0.454 0.914 Covariances des variables deux à deux Coefficients de corrélation linéaire des variables deux à deux Jeanne Fine Statistique descriptive 28
29
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Propriétés de la covariance et du coefficient de corrélation linéaire Le coefficient de corrélation linéaire est compris entre 1 et 1. Il est égal à 1 ou 1 si, et seulement si, il existe une relation linéaire entre les variables (d'où son nom). Jeanne Fine Statistique descriptive 29
30
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
Pour simplifier nous notons X la variable MAT1 et Y la variable MAT2. On pose , où E désigne la variable d’erreur ; on cherche a et b rendant minimum la somme (ou la moyenne) des carrés des erreurs (critère de moindre carrés) : La solution est la suivante : Jeanne Fine Statistique descriptive 30
31
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES
La droite ainsi obtenue est dite droite de régression linéaire de Y en X. Jeanne Fine Statistique descriptive 31
32
Statistique descriptive 32
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Décomposition de la variance Exemple GRPE Effectif Moyenne Variance A 6 7.33 0.22 B 5 11.60 1.84 C 4 11.50 4.25 Ensemble 15 9.87 6.12 La moyenne de la variable sur l’ensemble des élèves est la moyenne des moyennes des groupes, pondérées par les effectifs des groupes : Jeanne Fine Statistique descriptive 32
33
Statistique descriptive 33
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE La variance inter-groupes (ou inter-classes) est la variance des moyennes : La variance intra-groupes (ou intra-classes) est la moyenne des variances : La variance de la variable est égale à la somme des variances inter et intra : 6.12 = Jeanne Fine Statistique descriptive 33
34
Statistique descriptive 34
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Formules On note n, et V l'effectif de la population, la moyenne et la variance d'une variable réelle X. On considère une variable catégorielle à K modalités, donc une partition de la population en K classes et on note nk , et Vk l'effectif, la moyenne et la variance de la variable X dans la classe k. On a alors les relations suivantes : et Jeanne Fine Statistique descriptive 34
35
Statistique descriptive 35
6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Rapport de corrélation entre une variable catégorielle et une variable réelle Le rapport de corrélation entre une variable catégorielle et une variable réelle, noté , est la racine carrée de la variance inter sur la variance totale (= inter + intra) de la variable réelle. Ce rapport est évidemment compris entre 0 et 1. Il est égal à 0 lorsque la variance inter est nulle et il exprime alors l'absence de liaison entre la variable réelle et la variable catégorielle. Il est égal à 1 lorsque la variance inter est égale à la variance totale et il exprime alors une forte liaison entre la variable réelle et la variable catégorielle. Dans l'exemple, la variable réelle MAT1 et la variable catégorielle GRPE ont pour rapport de corrélation : L'indice est appelé pouvoir discriminant. Jeanne Fine Statistique descriptive 35
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.