STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

Pr. Abdelkrim EL MOUATASIM EST de Guelmim Maroc
Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
Probabilités et statistiques au lycée
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Licence 3ème année de sociologie Semestre 1
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
Indépendance & Khi-deux ²
Statistiques descriptives
INF L14 Initiation aux statistiques
Autres LOIS de PROBABILITES
Les principaux résumés de la statistique
Statistique descriptive, analyse de données
Régression linéaire simple
Groupe 1: Classes de même intervalle
Corrélation et régression linéaire simple
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Séries chronologiques et prévision
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Rappels de statistiques descriptives
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Présentation du marché obligataire
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
La collecte et la description des données
Seconde partie Cours de seconde
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Introduction à une analyse statistique de données
Chapitre 3: Variables aléatoires réelles continues
Statistiques descriptives-Distributions expérimentales à une dimension
Terminale STG 2006 Statistiques à deux variables
Statistiques Cours de seconde.
Statistiques Licence 2 LEA
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Méthodologie de l’observation
PARAMETRES STATISTIQUES
Chapitre 4 Variables aléatoires discrètes
STATISTIQUES DESCRIPTIVES
ou comment savoir si les différences observées sont significatives
STATISTIQUES.
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Statistique Descriptive Les Paramètres de Tendance Centrale
Rapport 20 Final 40 Partiel TD.
Statistiques Première partie Cours de première S.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Paramètres de position et de dispersion
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Les mesures de tendance centrale
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE Jeanne Fine Professeure de Statistique, Université de Toulouse jeanne.fine@math.univ-toulouse.fr

Statistique descriptive 2 La statistique descriptive élémentaire consiste à effectuer le traitement statistique des variables une par une (statistique unidimensionnelle ou « tri à plat ») ou deux par deux (statistique bidimensionnelle ou « tri croisé »). L’existence de deux types de variables, catégorielle et réelle, conduit à considérer cinq traitements statistiques de base. C'est le plan du cours St@ternet, installé en libre accès sur le site pédagogique de l’IUFM Midi-Pyrénées et téléchargeable, dont on donne un extrait dans ce document : http://www2.toulouse.iufm.fr/mathematiques/ Jeanne Fine http://finestat.free.fr Statistique descriptive 2

Statistique descriptive 3 PLAN DU COURS 1. Introduction : un exemple 2. Traitement statistique d’une variable catégorielle 3. Traitement statistique d’une variable réelle 4. Traitement statistique de deux variables catégorielles 5. Traitement statistique de deux variables réelles 6. Traitement statistique d'une variable catégorielle et d'une variable réelle Jeanne Fine http://finestat.free.fr Statistique descriptive 3

Tableau individus  variables UN EXEMPLE SEXE = F : fille G : garçon, GRPE = Groupe de mathématiques : A, B, C FRAN = Note en Français MAT1, MAT2, MAT3 = triple correction d'un devoir de mathématiques commun aux trois groupes IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 a ANDRE G B 10.00 7.75 6.00 b BERNARD 15.00 11.00 9.25 12.00 c CHRISTIAN 7.00 d DANIELLE F 16.00 14.00 13.25 e ETIENNE 9.00 f FRANCK C g GENEVIEVE 13.75 h HERVE 9.75 i IVAN 10.75 j JOELLE A k KARIM 5.00 l LISE 5.75 m MELANIE 5.50 n NICOLE 8.00 o ODILE 13.00 6.25 Tableau individus  variables Jeanne Fine http://finestat.free.fr Statistique descriptive 4

Statistique descriptive 5 UN EXEMPLE Construction de nouvelles variables variable MATH : MATH = (MAT1 + MAT2 + MAT3) variable EXAM : EXAM = (FRAN + MATH) variable ADMI : si EXAM  10 alors ADMI = O, sinon ADMI = N Jeanne Fine http://finestat.free.fr Statistique descriptive 5

Tableau individus  variables UN EXEMPLE IDEN SEXE GRPE FRAN MAT1 MAT2 MAT3 EXAM ADMI a ANDRE G B 10.00 7.75 6.00 8.96 N b BERNARD 15.00 11.00 9.25 12.00 12.88 O c CHRISTIAN 7.00 12.50 d DANIELLE F 16.00 14.00 13.25 14.54 e ETIENNE 9.00 10.88 f FRANCK C 10.79 g GENEVIEVE 13.75 13.46 h HERVE 9.75 10.13 i IVAN 10.75 11.63 j JOELLE A 9.33 k KARIM 5.00 l LISE 5.75 9.29 m MELANIE 5.50 8.25 n NICOLE 8.00 8.83 o ODILE 13.00 6.25 10.54 Tableau individus  variables Jeanne Fine http://finestat.free.fr Statistique descriptive 6

2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.1. Partition de la population engendrée par la variable Jeanne Fine http://finestat.free.fr Statistique descriptive 7

2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.2. Distribution d'effectifs et de fréquences GRPE Effectifs Fréquences B 5 33% C 4 27% A 6 40% Ensemble 15 100% Distributions des effectifs et des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 8

2. TRAITEMENT STATISTIQUE D’UNE VARIABLE CATÉGORIELLE 2.3. Représentation graphique : diagrammes en barres ou en secteurs Diagramme en barres des effectifs et des fréquences de la variable GRPE Diagramme en secteurs des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 9

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Distributions d'effectifs et de fréquences Valeurs regroupées en classes Classes Centre Effectifs Fréquences 6 MATH  8 7 6 40% 8 MATH  10 9 3 20% 10 MATH  12 11 4 27% 12 MATH  14 13 2 13% 15 100% Distribution d'effectifs et de fréquences de la variable MATH (valeurs regroupées en classes) Jeanne Fine http://finestat.free.fr Statistique descriptive 10

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Représentation graphique : l'histogramme Dans le cas où les amplitudes sont différentes, il faut veiller à construire des rectangles dont les aires soient proportionnelles aux effectifs (ou aux fréquences). Jeanne Fine http://finestat.free.fr Statistique descriptive 11

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Résumés numériques : indices de position et de dispersion Mode et étendue Le mode est la valeur de la variable correspondant au plus grand effectif. L’étendue est la différence entre la plus grande et la plus petite valeur de la variable. Jeanne Fine http://finestat.free.fr Statistique descriptive 12

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Moyenne, variance et écart-type La moyenne (arithmétique) est la valeur commune à chaque individu s’ils avaient tous la même valeur. La variance est la moyenne des carrés des écarts à la moyenne. La variance est aussi la moyenne des carrés moins le carré de la moyenne. L’écart-type est la racine carrée de la variance. Jeanne Fine http://finestat.free.fr Statistique descriptive 13

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Propriétés de la moyenne FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 . . Jeanne Fine http://finestat.free.fr Statistique descriptive 14

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Propriétés de la variance et de l'écart-type Attention à la somme, on a : . FRAN MAT1 MAT2 MAT3 MATH EXAM Moyennes 12.13 9.87 8.47 9.67 9.33 10.73 Variances 4.12 6.12 7.44 3.29 3.97 3.39 Ecart-types 2.03 2.47 2.73 1.81 1.99 1.84 Jeanne Fine http://finestat.free.fr Statistique descriptive 15

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Une variable dont la moyenne est égale à 0 est dite centrée. Une variable dont l'écart-type est égal à 1 est dite réduite. Jeanne Fine http://finestat.free.fr Statistique descriptive 16

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Médiane, quartiles et écart inter-quartiles La médiane est la valeur qui partage la population en deux sous-populations d'effectifs égaux : 50% / 50%. C'est encore la valeur prise par le (N+1) / 2 ième individu. Si la taille de la population est paire on prend pour médiane le milieu des valeurs des rangs N / 2 et (N+2) / 2 . La médiane est la valeur de la variable correspondant à la fréquence cumulée 50%. MATH RANG 6.58 1 7.00 2 7.50 3 7.67 4 5 7.92 6 8.08 7 9.58 8 9.75 9 10.00 10 10.25 11 10.75 12 11.25 13 12.92 14 13.08 15 Les quartiles, notés q1, q2, q3, sont les valeurs de la variable qui partagent la population en quatre sous-populations d'effectifs égaux, 25%, 25%, 25% 25%. Les quartiles sont aussi les valeurs de la variable correspondant aux fréquences cumulées 25%, 50%, 75%. Le deuxième quartile, q2, est donc la médiane. Médiane  L’écart inter-quartiles est la longueur q3 – q1 de l’intervalle inter-quartiles [q1, q3]. On a ici : m = 9.58, q1 = 7.67, q3 = 10.75 et donc q3 q1 = 3.08. Jeanne Fine http://finestat.free.fr Statistique descriptive 17

3. TRAITEMENT STATISTIQUE D’UNE VARIABLE RÉELLE Représentation graphique : boîte et moustaches (“box plot”) Exemple : la variable MATH Boîtes et moustaches des distributions de notes de MAT1, MAT2 et MAT3 Jeanne Fine http://finestat.free.fr Statistique descriptive 18

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Partition croisée Partition croisée associée aux deux variables GRPE et SEXE Jeanne Fine http://finestat.free.fr Statistique descriptive 19

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Table de contingence : distribution conjointe et distributions marginales des effectifs et des fréquences GRPE \ SEXE B C A Ensemble F 1 5 7 G 4 3 8 6 15 GRPE \ SEXE B C A Ensemble F 7% 33% 47% G 26% 20% 53% 27% 40% 100% Distributions conjointe et marginales des effectifs des variables GRPE et SEXE Distributions conjointe et marginales des fréquences des variables GRPE et SEXE Jeanne Fine http://finestat.free.fr Statistique descriptive 20

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Distributions conditionnelles : (profils lignes et profils colonnes) GRPE \ SEXE B C A Ensemble F 14% 72% 100% G 50% 38% 12% 33% 27% 40% GRPE \ SEXE B C A Ensemble F 20% 25% 83% 47% G 80% 75% 12%7 53% 100% 100 Tableau des profils lignes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Tableau des profils colonnes. Distributions conditionnelles à la variable SEXE des fréquences de la variable GRPE Jeanne Fine http://finestat.free.fr Statistique descriptive 21

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Liaison entre deux variables catégorielles : la distance du KHI2 A \ B ... Ensemble n Tableau de contingence observé Jeanne Fine http://finestat.free.fr Statistique descriptive 22

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES ... Ens. 1 n A \ B ... Ens. 1 n Profils lignes Profils Colonnes On remarque que l'absence de liaison se traduit par une des trois propriétés suivantes qui sont équivalentes : 1. Egalité des profils lignes pour tout i et j 2. Egalité des profils colonnes pour tout i et j 3. pour tout i et j Jeanne Fine http://finestat.free.fr Statistique descriptive 23

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Le tableau de contingence théorique d'absence de liaison, construit sur les mêmes marges que le tableau de contingence observé, est alors le suivant : A \ B ... Ensemble n Indice du Khi2 Jeanne Fine http://finestat.free.fr Statistique descriptive 24

4. TRAITEMENT STATISTIQUE DE DEUX VARIABLES CATÉGORIELLES Autres formules du KHI2 Si on introduit les fréquences on a alors : Indice du PHI2 Le KHI2 est proportionnel à N. On peut alors introduire l'indice du PHI2 égal au KHI2 divisé par n. On obtient pour les variables GRPE et SEXE : KHI2 = 5.42 et PHI2 = 0.36. Jeanne Fine http://finestat.free.fr Statistique descriptive 25

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Représentation graphique : le graphe plan Graphe plan des variables MAT1 et MAT2 L'ensemble des points, appelé nuage des points, est très étiré et assez rectiligne. Les deux variables MAT1 et MAT2 sont fortement liées. Jeanne Fine http://finestat.free.fr Statistique descriptive 26

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Résumés numériques : covariance, coefficient de corrélation linéaire La Covariance La covariance de deux variables réelles X et Y est à la moyenne des produits des différences à la moyenne. La covariance est aussi égale à la moyenne des produits moins le produit des moyennes. Jeanne Fine http://finestat.free.fr Statistique descriptive 27

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Le Coefficient de corrélation linéaire Le coefficient de corrélation linéaire, noté , est défini comme le rapport de la covariance sur le produit des écart-types de X et de Y (supposés non nuls). FRAN MAT1 MAT2 MAT3 MATH EXAM 4.12 3.48 6.12 3.74 6.58 7.44 0.98 1.22 1.66 3.29 2.73 4.64 5.22 2.06 3.97 3.42 4.06 4.48 1.52 3.35 3.39 FRAN MAT1 MAT2 MAT3 MATH EXAM 1.000 0.695 0.675 0.975 0.266 0.273 0.335 0.676 0.941 0.961 0.569 0.917 0.892 0.454 0.914 Covariances des variables deux à deux Coefficients de corrélation linéaire des variables deux à deux Jeanne Fine http://finestat.free.fr Statistique descriptive 28

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Propriétés de la covariance et du coefficient de corrélation linéaire Le coefficient de corrélation linéaire est compris entre 1 et 1. Il est égal à 1 ou 1 si, et seulement si, il existe une relation linéaire entre les variables (d'où son nom). Jeanne Fine http://finestat.free.fr Statistique descriptive 29

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES Pour simplifier nous notons X la variable MAT1 et Y la variable MAT2. On pose , où E désigne la variable d’erreur ; on cherche a et b rendant minimum la somme (ou la moyenne) des carrés des erreurs (critère de moindre carrés) : La solution est la suivante : Jeanne Fine http://finestat.free.fr Statistique descriptive 30

5. TRAITEMENT STATISTIQUE DE DEUX VARIABLES RÉELLES La droite ainsi obtenue est dite droite de régression linéaire de Y en X. Jeanne Fine http://finestat.free.fr Statistique descriptive 31

Statistique descriptive 32 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Décomposition de la variance Exemple GRPE Effectif Moyenne Variance A 6 7.33 0.22 B 5 11.60 1.84 C 4 11.50 4.25 Ensemble 15 9.87 6.12 La moyenne de la variable sur l’ensemble des élèves est la moyenne des moyennes des groupes, pondérées par les effectifs des groupes : Jeanne Fine http://finestat.free.fr Statistique descriptive 32

Statistique descriptive 33 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE La variance inter-groupes (ou inter-classes) est la variance des moyennes : La variance intra-groupes (ou intra-classes) est la moyenne des variances : La variance de la variable est égale à la somme des variances inter et intra : 6.12 = 4.28 + 1.84. Jeanne Fine http://finestat.free.fr Statistique descriptive 33

Statistique descriptive 34 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Formules On note n, et V l'effectif de la population, la moyenne et la variance d'une variable réelle X. On considère une variable catégorielle à K modalités, donc une partition de la population en K classes et on note nk , et Vk l'effectif, la moyenne et la variance de la variable X dans la classe k. On a alors les relations suivantes : et Jeanne Fine http://finestat.free.fr Statistique descriptive 34

Statistique descriptive 35 6. TRAITEMENT STATISTIQUE D'UNE VARIABLE RÉELLE ET D'UNE VARIABLE CATÉGORIELLE Rapport de corrélation entre une variable catégorielle et une variable réelle Le rapport de corrélation entre une variable catégorielle et une variable réelle, noté  , est la racine carrée de la variance inter sur la variance totale (= inter + intra) de la variable réelle. Ce rapport est évidemment compris entre 0 et 1. Il est égal à 0 lorsque la variance inter est nulle et il exprime alors l'absence de liaison entre la variable réelle et la variable catégorielle. Il est égal à 1 lorsque la variance inter est égale à la variance totale et il exprime alors une forte liaison entre la variable réelle et la variable catégorielle. Dans l'exemple, la variable réelle MAT1 et la variable catégorielle GRPE ont pour rapport de corrélation : L'indice est appelé pouvoir discriminant. Jeanne Fine http://finestat.free.fr Statistique descriptive 35