Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques
Lectures Livre du cours: –Sections 3.1, 3.2, 3.6 et annexe 3.2 Volume recommandé: "Statistique et gestion en économie" –Sections 2.3.1, 2.3.2
Étape 3 : Calcul des mesures caractéristiques Si les données sont issues dun échantillon de n éléments, les mesures numériques sont calculées en utilisant ces n observations –Ces mesures sont appelées des statistiques déchantillon Si elles sont issues dune population, on parle alors de paramètres de la population –Paramètres souvent inconnus, on cherche à les estimer en calculant des statistiques d'échantillon aussi appelées estimateurs ponctuels.
Calcul des mesures caractéristiques Méthodes numériques qui permettent de résumer les données Ces nombres représentatifs que nous nommons caractéristiques des séries statistiques permettent dajouter une signification concrète à linterprétation des résultats et faciliteront la comparaison de deux ou plusieurs séries de données
Calcul des mesures caractéristiques On distingue deux types de caractéristiques : –Les caractéristiques de tendance centrale (de position) Elles permettent d'obtenir une idée de l'ordre de grandeur des valeurs de la série et indiquent la position où semble se rassembler les valeurs de la série –Les caractéristiques de dispersion: Elle quantifient les fluctuations des valeurs observées et leur étalement
Calcul des mesures caractéristiques Les caractéristiques de position (tendance centrale): –La moyenne arithmétique –La médiane –Le mode –Les percentiles (fractiles, quantiles)
La moyenne pour des données non- groupées Lorsque les données à traiter sont celles de toute une population Lorsque les données à traiter proviennent dun échantillon
Pour données non-groupées : (si on utilise les fréquences absolues) La moyenne échantillonnale (si on utilise les fréquences relatives) k est le nombre de modalités différentes que prend la variable X
La statistique la plus utilisée Affectée par les valeurs extrêmes Moyenne = Moyenne = 6 La moyenne
Notation n =le nombre total dobservations f i =la fréquence absolue de la classe i M i =le centre de la classe i x i =les différentes modalités dun caractère ou les différentes valeurs prises par une variable statistique. Moyenne pour données groupées
Pour données groupées : Où M i est le point milieu de la i ème classe Moyenne pour données groupées Lorsque les données proviennent d'une population Lorsque les données proviennent d'un échantillon
La médiane La médiane est la valeur qui sépare, aussi exactement que possible, une série statistique en deux parties égales par rapport au nombre de données, une fois celles-ci classées en ordre ascendant
La médiane (pour valeurs non groupées) Lorsque les données sont classées en ordre croissant, la médiane correspond à la valeur centrale. Si le nombre dobservations est pair, la médiane est la moyenne des deux observations centrales. S'il est impair, la médiane est la valeur de la série dont le rang est dans le classement ascendant Médiane = Pas affectée par les valeurs extrêmes
L Mé : la limite inférieure de la classe contenant la médiane n: le nombre total de données dans la série F Mé : la fréquence cumulée jusquà la classe médiane (excluant la fréquence de cette classe) f Mé : la fréquence de la classe médiane C :lamplitude de la classe La médiane (pour valeurs groupées)
La médiane (pour valeurs groupées) par interpolation linéaire ClassesFréquences absolues Fréquences cumulées croissantes Moins de 25 ans 18 25X < X < X < X < X < ans et plus14300 = 35,36 Dans le cas de valeurs groupées, on pose l'hypothèse selon laquelle les valeurs sont uniformément réparties à l'intérieur de chaque classe.
Le mode (Mo) Le mode dune série (sil existe) est la valeur la plus fréquente. –Pour valeurs non groupées: exemple ci-dessous –Pour valeurs groupées, on parle plutôt de classe modale –Pas affecté par les valeurs extrêmes – Il peut y avoir plusieurs modes – Il peut ne pas y avoir de mode – OK avec données qualitatives et quantitatives Mode = Aucun mode
Extrait du volume Martel et Nadeau (p. 55) L Mo = la limite inférieure de la classe modale = la différence entre la fréquence de la classe modale et la fréquence de la classe précédente = la différence entre la fréquence de la classe modale et la fréquence de la classe suivante C = lamplitude de la classe modale Le mode (pour valeurs groupées) par interpolation linéaire
Le mode (pour valeurs groupées) Classes Salaires hebdomadaires FréquencesFréquences relatives Fréquences relatives cumulées ,9940, ,9960,08000, ,99130,17340, ,99220,29330, ,99150,20000, ,9960,08000, ,9950,06670, ,9940,05331 Mo = 286,25 Tableau 2.5 Extrait de Martel et Nadeau (p. 29),
Les percentiles (fractiles, quantiles) pour données non groupées - Le p e percentile est une valeur telle quau moins p% des observations ont une valeur inférieure ou égale à cette valeur - Le percentile fournit des informations sur la manière dont les observations sont réparties dans l'intervalle entre la plus petite et la plus grande valeur Étape 1 : classer les données en ordre croissant Étape 2 : calculer un indice i Étape 3 : - Si i nest pas un nombre entier, larrondir. La position du p e percentile correspond à lentier supérieur à i. - Si i est un nombre entier, la position du p e percentile correspond à la moyenne des valeurs des observations i et i+1.
Les percentiles (fractiles, quantiles) pour données non groupées - Exemple: 85 e percentile de la série des salaires mensuels : Étape 1 : classer les données en ordre croissant Étape 2 : calculer un indice i Étape 3 : - Si i nest pas un nombre entier, larrondir. La position du p e percentile correspond à lentier supérieur à i (i non arrondi). i = 11, 85 e percentile = Si i est un nombre entier, la position du p e percentile correspond à la moyenne des valeurs des observations i et i+1.
Percentiles pour les données groupées On peut utiliser la formule d'interpolation linéaire (règle de 3) pour estimer les valeurs individuelles dans une classe, et ensuite appliquer la formule pour calculer un percentile pour des données non-groupées. Ou on peut calculer le p ème percentile comme suit:
L x p : La limite inférieure de la classe qui contient x p F x p : La fréquence cumulative jusqu'à la classe contenant x p (excluant la fréquence de cette classe) f x p : La fréquence de la classe qui contient x p C :L'amplitude de la classe qui contient x p Percentiles pour données groupées
Cas particulier de percentiles : Q 1 = premier quartile (p=25) cest donc la moyenne des valeurs des 3 e et 4 e observations = ( )/2= Q 2 = deuxième quartile (p=50) (médiane) Q 3 = troisième quartile (p=75) Les quartiles 25% Q1Q1 Q2Q2 Q3Q3
Les quartiles - données groupées L Qi :limite inférieure de la classe qui contient Q i n: nombre de données dans la série F Qi : somme des fréquences absolues des classes précédant la classe qui contient le premier (troisième) quartile f Qi : fréquence absolue de la classe contenant le i ème quartile C: amplitude de la classe
Les caractéristiques de dispersion Elles quantifient les fluctuations des valeurs observées et leur étalement.
Cest la différence entre la plus grande valeur et la plus petite valeur de la série statistique. E = *Ignore comment les données sont réparties Létendue (E) Étendue = = Étendue = = 5
Mesure létendue de la moitié centrale des observations Étendue interquartile = Pas affectée par les valeurs extrêmes. Etendue interquartile EIQ
Variance et écart type Cette mesure (la variance) évalue létalement dune série par rapport à la moyenne. Variance pour données non groupées : Variance dun échantillon Variance dune population
Ou encore (pour données non groupées): Variance et écart type Lécart type est simplement la racine carrée de la variance.
Calcul de la variance déchantillon Salaire mensuel Moyenne déchantillon Écart par rapport à la moyenne Écart au carré par rapport à la moyenne
Variance et écart type Variance pour données groupées : Si on a un élément par classe, alors M i correspond à x i
Variance Une autre façon de la calculer pour des données groupées:
Comparaison décarts types Moy. = 15,5 s = 3, Groupe B Groupe A Moy. = 15,5 s = 0, Moy. = 15,5 s = 4,57 Groupe C
Le coefficient de variation est une mesure de dispersion relative, il permet dapprécier la représentativité de la moyenne arithmétique par rapport à lensemble des observations (souvent exprimé en %). Le coefficient de variation
Exemple 3 Vous trouverez dans le tableau ci-dessous la distribution des fréquences de la taille en mm de 100 poissons choisis au hasard à partir de pêches effectuées au large de la Californie: –Estimer la taille moyenne des poissons et l'écart type. 382,75; 32,31 –Trouver la taille médiane des poissons et le mode. 383,3; 387,5 –Dessiner l'histogramme de ces données –Quels sont les premier et troisième quartiles? Plusieurs réponses sont acceptées: Q 1 =362,5 ou 359,38 ou 358,85 Plusieurs réponses sont acceptées: Q 3 =412,5 ou 405,68 ou 405,13
Exemple 4 Selon une étude faite en septembre 1997 par lInstitut de recherche et dinformation sur la rémunération (IRIR), les employés municipaux gagnent cette année 30 % de plus que les fonctionnaires provinciaux du Québec. Pour vérifier le bien-fondé de cette recherche, vous avez recueilli les données suivantes: Employés municipaux Fonctionnaires provinciaux Classe de revenu Fréquence X < X < X < X < X < X < X X a) Estimez le pourcentage des employés municipaux qui ont un salaire annuel supérieur à $ 50% b) Quel est le salaire annuel moyen des employés municipaux ? $ c) Quel est lécart type du salaire annuel des employés municipaux ? 9574,27 $ d) Trente-trois pour cent (33 %) des fonctionnaires provinciaux les mieux payés ont un salaire annuel supérieur à quelle valeur ? $ e) Si le salaire annuel moyen des fonctionnaires provinciaux est de $ et si lécart type de ce salaire annuel est 8 255,78 $, est-il vrai de dire, daprès notre échantillonnage, que les employés municipaux gagnent cette année 30 % de plus que les fonctionnaires provinciaux du Québec ? Justifier votre réponse.