Mesures de description des valeurs des variables

Slides:



Advertisements
Présentations similaires
Introduction aux Statistiques
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Les Variables statistiques continues
Optionnel de Statistique appliquée À la lecture critique d’articles
Licence 3ème année de sociologie Semestre 1
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
Statistiques descriptives
INF L14 Initiation aux statistiques
Les principaux résumés de la statistique
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Lectures Livre du cours :
Comprendre la variation dans les données: Notions de base
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
Statistique descriptive
La statistique descriptive
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
Séries chronologiques et prévision
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Méthodes de Biostatistique
Introduction à l’analyse statistique
Rappels de statistiques descriptives
Sommaire: Mesures numériques de la dispersion d’une distribution
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
ANALYSE D’UN ÉCHANTILLON PORTANT SUR UNE VARIABLE STATISTIQUE
La collecte et la description des données
Seconde partie Cours de seconde
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Td sur la statistique descriptive. Enoncé du problème On a étudié la taille en cm chez 20 enfants de quatrième année primaire à l’école Constantine année.
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
Introduction à une analyse statistique de données
Statistiques descriptives-Distributions expérimentales à une dimension
Concepts fondamentaux: statistiques et distributions
Statistiques Licence 2 LEA
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Méthodologie de l’observation
STATISTIQUES DESCRIPTIVES
Statistiques IUP-1 Statistiques I. Généralités II. Décrire III. Notion de probabilités IV. Tester V. De la corrélation à la cause VI. Évaluation de risques.
PARAMETRES STATISTIQUES
Audit de l’entreprise iA Xperts Robin BUREL Anthony BRANCA Clément GARNIER Alexis SMADJA Groupe B.
Chapitre 4 Variables aléatoires discrètes
Traitement des données individuelles D.I.
Chapitre 2 La statistique descriptive I
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Statistique Descriptive Les Paramètres de Tendance Centrale
Rapport 20 Final 40 Partiel TD.
Statistiques Première partie Cours de première S.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Paramètres de position et de dispersion
ECHANTILLONAGE ET ESTIMATION
Les mesures de tendance centrale
Statistiques Cours de première S. II Indicateurs de dispersion Ils permettent de caractériser la répartition des éléments autour de la moyenne ou de la.
STATISTIQUES DESCRIPTIVES
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.
1 Correction d’exercices : ° soit inclus dans le PowerPoint du cours ; ° soit exécutés au cours (avec corrigés plus complets sur le site).
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

Mesures de description des valeurs des variables d’un échantillon Définition

Tout ensemble de données mesurées sur des variables quantitatives est caractérisé par 2 types de paramètres : Paramètres de position : moyenne, médiane, mode, quantiles Paramètres de dispersion : variance, écart-type, extrêmes, étendue..

Caractéristiques de tendance centrale: 4

Moyenne arithmétique: règles

Moyenne arithmétique: règles 6

Paramètres de position Moyenne arithmétique : Soit un échantillon de n valeurs (x1, x2,......, xn) d’une variable quantitative (continue ou discontinue) X xi m = n

å  1- La variable discontinue : données réparties en k classes ex : moyenne du nombre d ’enfants par famille ? échantillon de 120 familles (N) Modalités x1....x2 .........xk Effectifs n1 .... n2 ........nk Fréquence f1 .... f2 .........fk  n x å f m= i i = x N i i 20x0 . + 60x1 . 1 + 30x2 . 2 + 10x3+4 . 3 0x4 . 4 m = 20 + 60 + 30 + 10 m = 0,16 x 0 + 0,5 x 1 + 0,25 x 2 + 0,085 x 3

åx i ni = 2-La variable continue discrétisée (I): approximation de la moyenne +++ - Les valeurs de X sont placées dans des classes définies préalablement - On utilise alors le centre de chaque classe 167,5 åx i ni = 167,5 m = 45

Médiane : valeur qui partage la série de données en deux groupes de même effectif indicateur de position insensible aux variations extrêmes de la variable COURS N°1

b) Grand échantillon: variable discontinue Valeur x1.....x2.................xk Effectifs n1.....n2.................nk Fréquence cumulée f1….f2………….fk valeur de rang = 1 + N 2

Variable continue discrétisée : Cas où l’on ne dispose que d’un tableau de fréquence • La classe médiane est la classe où est située la médiane = la classe pour laquelle les fréquences cumulées: avant celle-ci sont <50% après celle-ci > 50%

ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Calcul de M par interpolation linéaire : M = ei-1 + a (0.5 – Fi-1) / fi ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Fi-1 = fréquence cumulée de la classe inférieure fi = fréquence relative de la classe médiane

Mode Valeur la plus fréquente (ou classe la plus fréquente) Si toutes les valeurs sont différentes = mode n’existe pas C ’est le seul paramètre utilisable pour les données qualitatives nominales distribution symétrique des valeurs : mode = moyenne = médiane

Quantiles et quartiles: les quartiles partagent la distribution des valeurs en 4 portions égales médiane : 2 portions égales = 2ème quartile qème quantile : valeur en dessous de laquelle se trouvent q% des observations

Quartiles

Quantiles et quartiles : poids 300 hommes 1er quartile Q1: 25ème quantile Médiane : 2ème quartile Q2 , 50ème quantile 3ème quartile Q3 : 75ème quantile Fréquence cumulée Histogramme cumulatif 1 0,75 0,5 0,25 poids 1er quartile = 67 médiane = 69,5 3èmequartile = 72 58,5 61,5 64,5 67,5 70,5 73,5 76,5 79,5

Percentiles : Sont les valeurs qui partagent la distribution en 100 groupes de taille égale Le 10ème percentile = 1er décile Le 25ème percentile = 1er quartile Le 50ème percentile = médiane

Indice de masse corporelle = Poids en kg/ (taille en m)2

Paramètres de dispersion

21

quantifient la variabilité des valeurs dans un échantillon Variance - Ecart type : quantifient la variabilité des valeurs dans un échantillon plus la variabilité d’une valeur est grande par rapport à la moyenne de la valeur dans l ’échantillon, plus la variance et l’écart-type de cette valeur seront grands +++ 22

Variance = paramètre de dispersion des valeurs autour de la moyenne (= écart par rapport à la moyenne) Variance = moyenne du carré des « écarts à la moyenne » n ( ) 2 å X - X i S 2 = i = 1 n COURS N°1

Exemple variance avec classes

racine carré de la variance Ecart-type racine carré de la variance la majorité des valeurs biologiques sont situées dans un intervalle formé par la moyenne ± 2 écarts types +++ COURS N°1

Aspect graphique

Autres paramètres de dispersion : Extrêmes = valeurs minimale et maximale Etendue = valeur maximale – valeur minimale Coefficient de variation : CV = S / m ( exprimé en%) Etendue inter-quartile: IQR = Q3 -Q1 (englobe 50% des observations)

Box – plot Box plots (ou boîte de distribution) représentation graphique +++ permet une comparaison rapide des résultats évaluation distribution symétrique ou non

Exemple: analyse descriptive de la durée d ’incubation de 3 maladies virales A,B,C ( en jours)

Histogramme des durées d ’incubation en jours 0,16 0,10 0,06 0,00 10 15 20 0,08 0,04 0,02 25 30 35 40 45 50 55 0,14 0,12 30 35 40 45 50

Boxplots des durées d ’incubation en jours Q3+1,5 (Q3-Q1) 50 40 30 20 10 Q3 médiane Nombre de jours d ’incubation Q1 Q1-1,5 (Q3-Q1) 50% des valeurs A B C COURS N°1

Intérêt des boxplots Représentation synthétique extrêmement efficace des principales caractéristiques d’une variable 5 synthèses numériques ( médiane, quartiles, limites) sont représentées de façon à visualiser les informations essentielles ( position, dispersion, asymétrie) de l’échantillon