Statistiques descriptives univariées

Slides:



Advertisements
Présentations similaires
Présentation des données
Advertisements

Groupe 1: Classes de même intervalle
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
STATISTIQUES DESCRIPTIVES
La collecte et la description des données
Seconde partie Cours de seconde
Introduction à une analyse statistique de données
Mesures de description des valeurs des variables
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
S tratification sociale et inégalités M esures des inégalités Une société fluide ? Démocratie et inégalités.
Du chapitre 1 au chapitre 2 1. Les graphiques : introduction (p.15)  Pour prendre possession des données o des chiffres dans un tableau, c’est bien o.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Comparaison des méthodes de calcul de quartiles On considère la série statistique ci-dessous : Effectif total : 12.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Médiane Moyenne Quartile Mode. Exemple 1 : Soit les données suivantes On ordonne les données Moyenne : Somme des données divisée.
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Exercice 4 : Le tableau indique dans un magasin le nombre d’ordinateurs et leur capacité de disque dur. Go nb °) Déterminez.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Notions de statistiques et d’analyse de données
Et maintenant, le mode : fastoche !
Révision – mathématiques 8
Suites ordonnées ou mettre de l’ordre
Tableau à double entrée
Interprétation des indicateurs?
Traitement de données 2.
Loi Normale (Laplace-Gauss)
Statistique descriptive
Plan d’échantillonnage : Rappels statistiques
Exercices corrigés de statistiques
Coefficient de corrélation linéaire
chapitre 3 Les Statistiques
Information sur les causes d’arrêt en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Organisation des Données et Représentations Graphiques
Exercice 1 : Statistiques et calculatrice.
Comment mesurer les inégalités ?
Introduction aux Statistiques Variables aléatoires
Technologies de l’intelligence d’affaires Séance 12
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
4.3 Estimation d’une proportion
4.2 Estimation d’une moyenne
Méthodologie scientifique
Je suis à la MODE! Sauce-moi des nombres!..
Pourquoi étudier la statistique ?
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Chapitre 3 : Caractéristiques de tendance centrale
Statistiques.
POL1803: Analyse des techniques quantitatives
Révision – mathématiques 8
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Chapitre 4: Caractéristiques de dispersion
Mode, moyenne et médiane
2.4 La loi de vitesse d’une réaction chimique
Mesures de Position Dispersion et Forme
Exercice de statistiques
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Conception cartographique
Des chiffres pour être compris
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Statistiques et probabilités
Révision – mathématiques 8
μ = N 3) Moyenne d’une série discrète : ∑ ni xi que l’on peut noter
Les graphiques des relations linéaires
Récapitulation du jour 2ème
Exercice 2 Soient les notes obtenues dans une classe par les élèves, et leur appartenance aux groupes 1 ou 2 : 8(groupe 1), 9(groupe 2), 11(groupe 2),
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Statistiques descriptives univariées Alexandre Popier

Les statistiques descriptives permettent une première exploration des données. Elles sont basées sur des graphiques et des calculs simples. Elles permettent d’avoir un premier aperçu des données qui peut montrer des tendances. Elles permettent aussi de bien caractériser les données, ce qui est nécessaire pour choisir ensuite la manière de les analyser. On commence par décrire les variables une par une (statistiques univariées) puis on peut explorer comment varie une variable en fonction d’une autre (statistiques bivariées).

1- Les distributions de fréquences Pour une variable numérique, on définit des intervalles de valeurs (tous de même largeur) couvrant toute l’étendue des données et on compte le nombre de données dans chaque intervalle. Ex : fréquences cardiaques : 64 ; 67 ; 72 ; 58 ; 60 ; 65 ; 64 ; 57 ; 72 ; 66 ; 65; 59; 66; 63 ; 62 ; 64 ; 62 ; 66 ; 60 ; 61 ; 59 ; 62 ; 64 ; 61 Fréquence cardiaque (pulsations/min) Effectif ou fréquence 57-60 6 61-64 10 65-68 69-72 2

On trace l’histogramme de la distribution des fréquences. 2 4 6 8 10 12 57-60 61-64 65-68 69-72 Fréquence cardiaque Effectif Fréquence cardiaque (pulsations/min) Effectif ou fréquence 57-60 6 61-64 10 65-68 69-72 2

On peut faire varier le point d’origine et la largeur des intervalles. 2 4 6 8 10 12 55-58 59-62 63-66 67-70 71-74 Fréquence cardiaque Effectif 2 4 6 8 10 12 57-60 61-64 65-68 69-72 Fréquence cardiaque Effectif Règle de Moore : nombre d’intervalles environ égal à la racine carrée de l’effectif total

On peut aussi réaliser ce type de graphique pour des données qualitatives. Causes de mort accidentelle chez les résidents américains de 15 à 24 ans : Nombre de cas Cause de la mort Nombre de cas Véhicules à moteur 10500 Autres causes 1130 Poison 870 Noyade 700 Feux et incendies 240 Chutes 210 Armes à feu 150 Diagramme en barres

Causes de mort accidentelle chez les résidents américains de 15 à 24 ans : Cause de la mort Nombre de cas Véhicules à moteur 10500 Autres causes 1130 Poison 870 Noyade 700 Feux et incendies 240 Chutes 210 Armes à feu 150 Diagramme circulaire

Pour les variables numériques, l’histogramme montre la distribution des données. On peut caractériser en particulier : Le centre : valeur moyenne, valeur médiane La dispersion : comment les valeurs s’écartent du centre (étendue, variance, écart-type) La symétrie : répartition des données de part et d’autre du centre Les points extrêmes : valeurs beaucoup plus faibles ou plus fortes que les autres

2- Le centre La moyenne arithmétique : somme des valeurs divisée par le nombre total de valeurs La moyenne représente bien le centre des données quand la distribution est symétrique. Elle est en revanche sensible aux valeurs extrêmes.

La médiane : c’est la valeur centrale quand les données sont triées par ordre croissant (ou décroissant) Quand le nombre de données est pair, la médiane prend la valeur de la moyenne des 2 valeurs centrales Exemple 1 : Données dans l’ordre croissant : 2.05 ; 3.56 ; 4.67 ; 6.90 ; 7.53 Médiane : 4.67 Exemple 2 : Données dans l’ordre croissant : 2.05 ; 3.56 ; 4.67 ; 6.90 ; 7.53 ; 8.75 Médiane : (4.67+6.90) /2 = 5.785

La moitié des données a une valeur supérieure à la médiane, l’autre moitié a une valeur inférieure. Aucune influence des valeurs extrêmes sur la valeur de la médiane => paramètre plus robuste que la moyenne.

Moyenne, médiane et symétrie Distributions asymétriques Distribution symétrique : Données dispersées de manière similaire à gauche et à droite du centre www.ilemaths.net 

L’étendue : différence entre la valeur maximale et la valeur minimale 3- La dispersion L’étendue : différence entre la valeur maximale et la valeur minimale Contrairement aux autres paramètres de dispersion, elle ne prend pas en compte l’ensemble des valeurs.

L’écart type Il dépend de la déviation des valeurs par rapport à la moyenne (x-͞x) et de l’effectif n de l’échantillon. Sans biais : Avec biais :

La variance : écart type au carré Sans biais : Avec biais :

On utilise généralement plus l’écart type que la variance. L’écart type a la même unité que les données. Interprétation de l’écart type : En général, la grande majorité des données est à moins de 2 écarts types de la moyenne (entre ͞x - 2s et ͞x + 2s)

Autres paramètres liés à la dispersion : les quartiles Comme la médiane sépare les données triées par la moitié, les quartiles séparent les données triées en 4 parties égales. Q1 (premier quartile) : sépare les premiers 25% des données triées des 75% restants (aussi : Q1 = médiane des données inférieures à la médiane) Q2 (deuxième quartile) : sépare les premiers 50% des données triées des 50% restants => Q2 = médiane Q3 (troisième quartile) : sépare les premiers 75% des données triées des 25% restants (aussi : Q3 = médiane des données supérieures à la médiane)

Exemple de calcul des quartiles : Masses d’ours en kg : 156.0 ; 157.9 ; 99.8 ; 118.8 ; 163.3 ; 92.5 ; 150.6 ; 81.6 ; 92.5 ; 110.3 ; 130.7 Données triées : 81.6 ; 92.5 ; 92.5 ; 99.8 ; 110.3 ; 118.8 ; 130.7 ; 150.6 ; 156.0 ; 157.9 ; 163.3 Etendue inter-quartiles : EIQ = Q3 –Q1 Elle exprime la dispersion de la portion centrale des données Q1 Médiane = Q2 Q3

4- Graphique de synthèse : boîte à moustaches (EIQ) Boîte délimitée par Q1 et Q3. Moustaches délimitées par le minimum et le maximum => Donne une vue d’ensemble de la répartition des données

Boîte à moustaches de la masse des ours (kg) Q2 = médiane = 118.8 Q1 = 92.5 Q3 = 156.0 Minimum = 81.6 Maximum = 163.3

Les boîtes à moustaches montrent bien si la distribution est symétrique ou non Distribution asymétrique Distribution symétrique : Q3-Q2 = Q2-Q1 Médiane = moyenne

5- Les points extrêmes Lorsqu’il y a des valeurs extrêment faibles ou fortes (par comparaison aux autres), elles méritent qu’on s’y intéresse. Possibilité d’erreur (de mesure, de frappe, …) => corriger ou retirer la valeur Si elles sont confirmées, ces valeurs exceptionnelles peuvent présenter un intérêt (cas particulier intéressant à étudier, …)

On considère comme extrêmes les valeurs inférieures à Q1 - 1 On considère comme extrêmes les valeurs inférieures à Q1 - 1.5 EIQ ou supérieures à Q3 + 1.5 EIQ. Sur une boîte à moustache, ces points sont représentés par des petits cercles à l’extérieur des moustaches. Ex : masse des ours avec un très gros ours en plus kg

6- Comparaison graphique de deux séries de données cm Boîte à moustaches Comparaison des tailles des mâles et des femelles chez une espèce animale Taille des femelles Taille des mâles

Peupliers non irrigués Histogrammes Hauteur de peupliers non irrigués / irrigués Peupliers irrigués Peupliers non irrigués Hauteur (m) Fréquence

On peut superposer les deux graphiques pour les comparer En bleu, peupliers non irrigués En saumon, peupliers irrigués Pas toujours facile à lire Hauteur (m) Fréquence

On peut aussi représenter les deux séries en alternance Plus facile à lire en général Fréquence Ici : peu de différence entre les deux traitements Hauteur (m)

Autres traitements Ici : différence entre les traitements bien visible Fréquence Hauteur (m)