STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE Jeanne Fine Professeure de Statistique, Université de Toulouse jeanne.fine@math.univ-toulouse.fr
Statistique descriptive 2 La statistique descriptive élémentaire consiste à effectuer le traitement statistique des variables une par une (statistique unidimensionnelle ou « tri à plat ») ou deux par deux (statistique bidimensionnelle ou « tri croisé »). L’existence de deux types de variables, catégorielle et réelle, conduit à considérer cinq traitements statistiques de base. C'est le plan du cours St@ternet, installé en libre accès sur le site pédagogique de l’IUFM Midi-Pyrénées et téléchargeable, dont on donne un extrait dans ce document : http://www2.toulouse.iufm.fr/mathematiques/ Jeanne Fine http://finestat.free.fr Statistique descriptive 2
Statistique descriptive 3 PLAN DU COURS 1. Introduction : un exemple 2. Traitement statistique d’une variable catégorielle 3. Traitement statistique d’une variable réelle 4. Traitement statistique de deux variables catégorielles 5. Traitement statistique de deux variables réelles 6. Traitement statistique d'une variable catégorielle et d'une variable réelle Jeanne Fine http://finestat.free.fr Statistique descriptive 3
Tableau individus variables UN EXEMPLE SEXE = F : fille G : garçon, GRPE = Groupe de mathématiques : A, B, C FRAN = Note en Français MAT1, MAT2, MAT3 = triple correction d'un devoir de mathématiques commun aux trois groupes IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 a ANDRE G B 10.00 7.75 6.00 b BERNARD 15.00 11.00 9.25 12.00 c CHRISTIAN 7.00 d DANIELLE F 16.00 14.00 13.25 e ETIENNE 9.00 f FRANCK C g GENEVIEVE 13.75 h HERVE 9.75 i IVAN 10.75 j JOELLE A k KARIM 5.00 l LISE 5.75 m MELANIE 5.50 n NICOLE 8.00 o ODILE 13.00 6.25 Tableau individus variables Jeanne Fine http://finestat.free.fr Statistique descriptive 4
Statistique descriptive 5 UN EXEMPLE Construction de nouvelles variables variable MATH : MATH = (MAT1 + MAT2 + MAT3) variable EXAM : EXAM = (FRAN + MATH) variable ADMI : si EXAM 10 alors ADMI = O, sinon ADMI = N Jeanne Fine http://finestat.free.fr Statistique descriptive 5
Tableau individus variables UN EXEMPLE IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 EXAM ADMI a ANDRE G B 10.00 7.75 6.00 8.96 N b BERNARD 15.00 11.00 9.25 12.00 12.88 O c CHRISTIAN 7.00 12.50 d DANIELLE F 16.00 14.00 13.25 14.54 e ETIENNE 9.00 10.88 f FRANCK C 10.79 g GENEVIEVE 13.75 13.46 h HERVE 9.75 10.13 i IVAN 10.75 11.63 j JOELLE A 9.33 k KARIM 5.00 l LISE 5.75 9.29 m MELANIE 5.50 8.25 n NICOLE 8.00 8.83 o ODILE 13.00 6.25 10.54 Tableau individus variables Jeanne Fine http://finestat.free.fr Statistique descriptive 6
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.1. Partition de la population engendrée par la variable Jeanne Fine http://finestat.free.fr Statistique descriptive 7
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.2. Distribution d'effectifs et de fréquences GRPE Effectifs Fréquences B 5 33% C 4 27% A 6 40% Ensemble 15 100% Distributions des effectifs et des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 8
2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.3. Représentation graphique : diagrammes en barres ou en secteurs Diagramme en barres des effectifs et des fréquences de la variable GRPE Diagramme en secteurs des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 9
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Distributions d'effectifs et de fréquences Valeurs regroupées en classes Classes Centre Effectifs Fréquences 6 MATH 8 7 6 40% 8 MATH 10 9 3 20% 10 MATH 12 11 4 27% 12 MATH 14 13 2 13% 15 100% Distribution d'effectifs et de fréquences de la variable MATH (valeurs regroupées en classes) Jeanne Fine http://finestat.free.fr Statistique descriptive 10
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Représentation graphique : l'histogramme Dans le cas où les amplitudes sont différentes, il faut veiller à construire des rectangles dont les aires soient proportionnelles aux effectifs (ou aux fréquences). Jeanne Fine http://finestat.free.fr Statistique descriptive 11
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Résumés numériques : indices de position et de dispersion Mode et étendue Le mode est la valeur de la variable correspondant au plus grand effectif. L’étendue est la différence entre la plus grande et la plus petite valeur de la variable. Jeanne Fine http://finestat.free.fr Statistique descriptive 12
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Moyenne, variance et écart-type La moyenne (arithmétique) est la valeur commune à chaque individu s’ils avaient tous la même valeur. La variance est la moyenne des carrés des écarts à la moyenne. La variance est aussi la moyenne des carrés moins le carré de la moyenne. L’écart-type est la racine carrée de la variance. Jeanne Fine http://finestat.free.fr Statistique descriptive 13
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Propriétés de la moyenne FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 . . Jeanne Fine http://finestat.free.fr Statistique descriptive 14
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Propriétés de la variance et de l'écart-type Attention à la somme, on a : . FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 Variances 4.12 6.12 7.44 3.29 3.97 3.39 Ecart-types 2.03 2.47 2.73 1.81 1.99 1.84 Jeanne Fine http://finestat.free.fr Statistique descriptive 15
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Une variable dont la moyenne est égale à 0 est dite centrée. Une variable dont l'écart-type est égal à 1 est dite réduite. Jeanne Fine http://finestat.free.fr Statistique descriptive 16
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Médiane, quartiles et écart inter-quartiles La médiane est la valeur qui partage la population en deux sous-populations d'effectifs égaux : 50% / 50%. C'est encore la valeur prise par le (N+1) / 2 ième individu. Si la taille de la population est paire on prend pour médiane le milieu des valeurs des rangs N / 2 et (N+2) / 2 . La médiane est la valeur de la variable correspondant à la fréquence cumulée 50%. MATH RANG 6.58 1 7.00 2 7.50 3 7.67 4 5 7.92 6 8.08 7 9.58 8 9.75 9 10.00 10 10.25 11 10.75 12 11.25 13 12.92 14 13.08 15 Les quartiles, notés q1, q2, q3, sont les valeurs de la variable qui partagent la population en quatre sous-populations d'effectifs égaux, 25%, 25%, 25% 25%. Les quartiles sont aussi les valeurs de la variable correspondant aux fréquences cumulées 25%, 50%, 75%. Le deuxième quartile, q2, est donc la médiane. Médiane L’écart inter-quartiles est la longueur q3 – q1 de l’intervalle inter-quartiles [q1, q3]. On a ici : m = 9.58, q1 = 7.67, q3 = 10.75 et donc q3 q1 = 3.08. Jeanne Fine http://finestat.free.fr Statistique descriptive 17
3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Représentation graphique : boîte et moustaches (“box plot”) Exemple : la variable MATH Boîtes et moustaches des distributions de notes de MAT1, MAT2 et MAT3 Jeanne Fine http://finestat.free.fr Statistique descriptive 18
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Partition croisée Partition croisée associée aux deux variables GRPE et SEXE Jeanne Fine http://finestat.free.fr Statistique descriptive 19
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Table de contingence : distribution conjointe et distributions marginales des effectifs et des fréquences GRPE \ SEXE B C A Ensemble F 1 5 7 G 4 3 8 6 15 GRPE \ SEXE B C A Ensemble F 7% 33% 47% G 26% 20% 53% 27% 40% 100% Distributions conjointe et marginales des effectifs des variables GRPE et SEXE Distributions conjointe et marginales des fréquences des variables GRPE et SEXE Jeanne Fine http://finestat.free.fr Statistique descriptive 20
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Distributions conditionnelles : (profils lignes et profils colonnes) GRPE \ SEXE B C A Ensemble F 14% 72% 100% G 50% 38% 12% 33% 27% 40% GRPE \ SEXE B C A Ensemble F 20% 25% 83% 47% G 80% 75% 12%7 53% 100% 100 Tableau des profils lignes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Tableau des profils colonnes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 21
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Liaison entre deux variables catégorielles : la distance du KHI2 A \ B ... Ensemble n Tableau de contingence observé Jeanne Fine http://finestat.free.fr Statistique descriptive 22
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES ... Ens. 1 n A \ B ... Ens. 1 n Profils lignes Profils Colonnes On remarque que l'absence de liaison se traduit par une des trois propriétés suivantes qui sont équivalentes : 1. Egalité des profils lignes pour tout i et j 2. Egalité des profils colonnes pour tout i et j 3. pour tout i et j Jeanne Fine http://finestat.free.fr Statistique descriptive 23
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Le tableau de contingence théorique d'absence de liaison, construit sur les mêmes marges que le tableau de contingence observé, est alors le suivant : A \ B ... Ensemble n Indice du Khi2 Jeanne Fine http://finestat.free.fr Statistique descriptive 24
4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Autres formules du KHI2 Si on introduit les fréquences on a alors : Indice du PHI2 Le KHI2 est proportionnel à N. On peut alors introduire l'indice du PHI2 égal au KHI2 divisé par n. On obtient pour les variables GRPE et SEXE : KHI2 = 5.42 et PHI2 = 0.36. Jeanne Fine http://finestat.free.fr Statistique descriptive 25
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Représentation graphique : le graphe plan Graphe plan des variables MAT1 et MAT2 L'ensemble des points, appelé nuage des points, est très étiré et assez rectiligne. Les deux variables MAT1 et MAT2 sont fortement liées. Jeanne Fine http://finestat.free.fr Statistique descriptive 26
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Résumés numériques : covariance, coefficient de corrélation linéaire La Covariance La covariance de deux variables réelles X et Y est à la moyenne des produits des différences à la moyenne. La covariance est aussi égale à la moyenne des produits moins le produit des moyennes. Jeanne Fine http://finestat.free.fr Statistique descriptive 27
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Le Coefficient de corrélation linéaire Le coefficient de corrélation linéaire, noté , est défini comme le rapport de la covariance sur le produit des écart-types de X et de Y (supposés non nuls). FRAN MAT1 MAT2 MAT3 MATH EXAM 4.12 3.48 6.12 3.74 6.58 7.44 0.98 1.22 1.66 3.29 2.73 4.64 5.22 2.06 3.97 3.42 4.06 4.48 1.52 3.35 3.39 FRAN MAT1 MAT2 MAT3 MATH EXAM 1.000 0.695 0.675 0.975 0.266 0.273 0.335 0.676 0.941 0.961 0.569 0.917 0.892 0.454 0.914 Covariances des variables deux à deux Coefficients de corrélation linéaire des variables deux à deux Jeanne Fine http://finestat.free.fr Statistique descriptive 28
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Propriétés de la covariance et du coefficient de corrélation linéaire Le coefficient de corrélation linéaire est compris entre 1 et 1. Il est égal à 1 ou 1 si, et seulement si, il existe une relation linéaire entre les variables (d'où son nom). Jeanne Fine http://finestat.free.fr Statistique descriptive 29
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Pour simplifier nous notons X la variable MAT1 et Y la variable MAT2. On pose , où E désigne la variable d’erreur ; on cherche a et b rendant minimum la somme (ou la moyenne) des carrés des erreurs (critère de moindre carrés) : La solution est la suivante : Jeanne Fine http://finestat.free.fr Statistique descriptive 30
5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES La droite ainsi obtenue est dite droite de régression linéaire de Y en X. Jeanne Fine http://finestat.free.fr Statistique descriptive 31
Statistique descriptive 32 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Décomposition de la variance Exemple GRPE Effectif Moyenne Variance A 6 7.33 0.22 B 5 11.60 1.84 C 4 11.50 4.25 Ensemble 15 9.87 6.12 La moyenne de la variable sur l’ensemble des élèves est la moyenne des moyennes des groupes, pondérées par les effectifs des groupes : Jeanne Fine http://finestat.free.fr Statistique descriptive 32
Statistique descriptive 33 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE La variance inter-groupes (ou inter-classes) est la variance des moyennes : La variance intra-groupes (ou intra-classes) est la moyenne des variances : La variance de la variable est égale à la somme des variances inter et intra : 6.12 = 4.28 + 1.84. Jeanne Fine http://finestat.free.fr Statistique descriptive 33
Statistique descriptive 34 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Formules On note n, et V l'effectif de la population, la moyenne et la variance d'une variable réelle X. On considère une variable catégorielle à K modalités, donc une partition de la population en K classes et on note nk , et Vk l'effectif, la moyenne et la variance de la variable X dans la classe k. On a alors les relations suivantes : et Jeanne Fine http://finestat.free.fr Statistique descriptive 34
Statistique descriptive 35 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Rapport de corrélation entre une variable catégorielle et une variable réelle Le rapport de corrélation entre une variable catégorielle et une variable réelle, noté , est la racine carrée de la variance inter sur la variance totale (= inter + intra) de la variable réelle. Ce rapport est évidemment compris entre 0 et 1. Il est égal à 0 lorsque la variance inter est nulle et il exprime alors l'absence de liaison entre la variable réelle et la variable catégorielle. Il est égal à 1 lorsque la variance inter est égale à la variance totale et il exprime alors une forte liaison entre la variable réelle et la variable catégorielle. Dans l'exemple, la variable réelle MAT1 et la variable catégorielle GRPE ont pour rapport de corrélation : L'indice est appelé pouvoir discriminant. Jeanne Fine http://finestat.free.fr Statistique descriptive 35