La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.

Présentations similaires


Présentation au sujet: "1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire."— Transcription de la présentation:

1 1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire

2 2 Rappels du cours n°1 Quand utilise t-on la statistique? Pourquoi a-t-on besoin de l’utiliser? Qu’est ce qu’une variable aléatoire? Qu’est ce que la loi de distribution d’une variable aléatoire?

3 3 Statistique descriptive: des méthodes et des techniques pour présenter, décrire, résumer des données nombreuses et variées porte sur l'ensemble des individus effectivement étudiés, sans chercher à étendre les constatations faites à une population plus vaste Analyse univariée Analyse bivariée Indicateurs résumés

4 4 Analyse univariée Tableaux Effectifs Fréquences Effectifs cumulés Graphiques pour des variables qualitatives pour des variables quantitatives discrètes pour des variables quantitatives continues

5 5 Var1Var2Var 3…Var n Unité stat 1 Unité stat 2 … Unité stat 3 Organisation des données Dans une étude statistique, les données sont recueillies sur une série de sujets; 1 sujet=1 unité statistique

6 6 Trier à plat des données : décompte des modalités ou valeurs obtenues, sert de base à la construction de tableaux et de graphiques. Résumer la série statistique

7 7 4 variables 150 individus Déterminer le nombre d'individus pour lesquels une variable statistique a pris une valeur donnée si, sur 150 familles, 50 ont 2 enfants, on dira que l'effectif ni correspondant à la valeur xi = 2 de la variable "nombre d'enfants", est 50.

8 8 Situation familiale Nombre de personnes dans cette situation célibataire150 marié120 veuf10 divorcé80 X1 X2 X3 X4 n1 n2 n3 n4 Variable Modalités de la variable Effectif associé à chaque modalité de la variable

9 9 Nombre d'enfants x i Effectifs n i 06 14 25 32 41 L'ensemble des couples { ( x i, n i ), i = 1,..., K } est une série statistique (ordonnée), ou distribution observée de la variable. On notera ceci :

10 10 Tri à plat pour des variables continues : Une variable continue ne prend pas des valeurs isolées, mais des valeurs appartenant à des intervalles. Au lieu de définir des effectifs par valeurs, on définit des effectifs par intervalles, appelés classes (1.70 m a en fait une taille comprise entre 1.695m et 1.705m La variable continue est transformée en variable qualitative ordinale. On découpe ainsi l'intervalle des valeurs en classes contigües, de la forme : [ e1 ; e2 [ [e2 ; e3 [ [ e3 ; e4 [........ [ ek ; ek+1 [ et on note n1, n2,..., nk les effectifs associés. Regrouper les données en classe=discrétisation

11 11 Taille (cm) Effectifs Taille (cm) Effectifs 15911697 16001707 16101719 16201726 16321735 16431742 16531751 16601762 16751771 1686Total :60

12 12 Taille en cm Classes de taille (en cm)Effectifs [159 - 165 [6 [165 - 168 [8 [168 - 171 [20 [171 - 174 [20 [174 - 177 [5 [177 - 179 [1 Classes de taille (en cm)Effectifs moins de 1601 [160 - 165 [5 [165 - 170 [21 [170 - 175 [29 175 et plus4 Classes de valeurs = modalités de la variable Effectifs de chacune des classes Variable Taille en cm Effectifs

13 13 Choix des classes Échelle d’amplitude (intervalles de même longueur, effectifs irréguliers), Échelle par fréquence : division en groupe d’effectifs égaux, intervalles irréguliers Échelle de convenance en nombre suffisant (ne pas trop schématiser les données par exemple ne pas limiter la série précédente à : "moins d'1.70 m" et "plus d'1.70 m"), et à l’inverse ne pas avoir un tableau interminable avec beaucoup de tout petits effectifs).

14 14 Série de 80 sujet dont on a mesure le poids en kg 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 78 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 Regroupement par échelle d ’amplitude de 10 kg classe de poids (en kg)40-4950-5960-6970-7980-89 nombre de sujets13164614 Regroupement par échelle de fréquence classe de poids (en kg)40-6870-7374-7778-86 nombre de sujets20202020 Regroupement par échelle de convenance (poids faible 79kg) classe de poids (en kg) 79 nombre de sujets85814

15 15 Effectifs :nombre de sujets dans chaque classe, c’est un nombre entier Fréquences relatives (comparer des séries statistiques): mesure le poids relatif de l’effectif d’une classe par rapport à l’effectif total de la série étudiée fréquence relative = n/N (n=effectif de la classe, N=effectif total) souvent exprimé en %, le total des effectifs relatifs est de 100% Effectifs cumulés ou fréquences cumulées : Lorsque les classes d ’une variables sont ordonnées, on peut ajouter à l’effectif de chaque classe le total des effectifs des classes inférieures. On obtient des effectifs cumulés. Les fréquences cumulées sont obtenues en divisant les effectifs cumulés par l ’effectif total de la série. Calculer des fréquences relatives ou cumulées

16 16 Répartition d ’une série de 30 sujets selon la composition de leur fratrie (nombre de frères et sœurs dans la famille)

17 17 Pour étudier les appels téléphoniques arrivant à un central, on a noté, sur 96 jours comparables, le nombre d'appels reçus entre 9 h et 9 h 10. Les résultats sont consignés dans ce tableau : Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes 022.08 11414.5816.66 22323.96 40,62 32425.0065.62 41818.7584.37 599.3893.75 666.25 100 Total :961002.08 Proportion de jours où le nombre d'appels a été de 2 ? Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? Proportion de jours où le nombre d'appels a été inférieur 3 ? Pourcentage de jours où le nombre d'appels a été inférieur à 3 ?

18 18 Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes 022.08 11414.5816.66 22323.96 40,62 32425.0065.62 41818.7584.37 599.3893.75 666.25 100 Total :961002.08 Proportion de jours où le nombre d'appels a été de 2 ? 23/96=0,2396 Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? 2+14+23=39 Proportion de jours où le nombre d'appels a été inférieur 3 ? (2+14+23)/96= 0,0208 + 0,1458+0,2396 = 0,4062 Pourcentage de jours où le nombre d'appels a été inférieur à 3 ? 40,62

19 19 Les représentations graphiques Variable qualitative Diagramme circulaire : chaque modalité est représentée par un secteur circulaire dont l'angle (et donc la surface) est proportionnel à son effectif. Le rayon du cercle est arbitraire. Diagramme en barre: chaque rectangle a une base constante et une hauteur proportionnelle à l’effectif de la modalités (ni) ou à la fréquence de la modalité (fi)

20 20 Situation familiale Effectifs Célibataire30 Marié80 Divorcé20 Veuf20 Total :150 Situation familiale Effectif s Fréquenc es % Célibataire300.200020.00 Marié800.533353.33 Divorcé200.133313.33 Veuf200.133313.33 Total :150  1  100 Pour "célibataires" l'angle est de 72°. Pour " Marié " l'angle est de 192°. Pour " Divorcé " l'angle est de 48°. Pour " Veuf " l'angle est de 48°.

21 21 Les représentations graphiques Variable quantitative discrète les valeurs observées, numériques, seront toujours placées selon un axe, en suivant une échelle précise. Diagramme en bâton : chaque modalité est représentée sur l’axe des abscisses en ordre croissant et l’effectif est représenté par un bâton proportionnel à l’effectif. Courbe cumulative croissante (ou fonction de répartition) : –Elle s'obtient au moyen des effectifs cumulés croissants. C'est le tracé de la fonction N qui à tout x associe N ( x ) = nombre d'observations  x. –Si on raisonne en fréquences (au lieu d'effectifs), on a le tracé de la fonction de répartition (F ( x ) = proportion d'observations  x)

22 22 Nombre d'enfants x i Effectif s n i Fréquences f i 060.33 140.22 250.28 320.11 410.06 Total :181 Diagramme en bâton

23 23 Courbe cumulative Nombre d'enfants x i Effectifs n i Effectifs cumulés croissants N i 066 1410 2515 3217 4118

24 24 Fonction de répartition Nombre d'appels Fréquences en % Fréquences cumulées croissantes Fréquences cumulées décroissantes 02.08 100 114.5816.6697.92 223.9640.6283.34 325.0065.6259.38 418.7584.3734.38 59.3893.7515.63 66.251006.25

25 25 Les représentations graphiques Variable quantitative continue Histogramme des effectifs : –les classes étant de même amplitude, on place en ordonnée les effectifs et on obtient des rectangles dont la surface est proportionnelle à l'effectif associé. –Les classes ne sont pas de même amplitude, on met en ordonnée le rapport effectif/amplitude de sorte que chaque observation soit représentée par la même unité de surface (c'est ce que l'oeil retient de l'histogramme) Courbe cumulative (fonction de répartition): –Si l'on ne dispose que des données regroupées en classes, on utilise les effectifs (ou les fréquences) cumulés, mais seuls les points d'abscisses limites de classes sont exacts, on les relie par des segments de droite pour avoir une représentation approchée.

26 26 Classes de tailles (en cm)Effectifs [ 155 - 160 [1 [ 160 - 165 [5 [165-170[21 [ 170 - 175 [ 29 [ 175 - 180 [4

27 27 supposons qu'on veuille détailler davantage : l'effectif 21 entre 1.65 m et 1.70 m se répartit en 8 dans [1.65- 1.675 [ et 13 dans [1.675 -1.70[ il faut doubler les effectifs si on diminue la largeur du rectangle de moitié.

28 28 Surfaces (ha) Effectifs n i Fréquences f i Amplitude a i fi/aifi/ai [ 0 - 3 [8300.390630.13 [ 3 - 5 [6150.289420.14 [ 5 - 10 [5100.240050.048 [ 10 - 20 [920.0433100.004 [ 20 - 30 [630.0296100.003 [ 30 - 50 [150.0071200.0004 Total :2 1251

29 29 Taille (cm) Effect ifs Taille (cm) Effect ifs 15911697 16 0 01707 16101719 16201726 16321735 16431742 16531751 16601762 16751771 1686Total :60 Fonction de répartition

30 30 Analyse bivariée voir les liens existant entre les variables prises deux à deux. Entre 2 variables qualitatives Entre 2 variables quantitatives Une variable qualitative et une variable quantitative

31 31 2 critères qualitatifs Tableau de contingence On construit un tableau dont les lignes représentent chaque modalité de la variable qualitative X les colonnes représentent chaque modalité de la variable qualitative Y. Pour chaque modalité du couple (Xi, Yi) on note l’effectif

32 32 Chaque couple est représenté par une pastille dont la taille est proportionnelle à l’effectif

33 33 On colorie le plan ( X, Y ) avec une palette de couleur qui représente l’effectif.

34 34 2 critères quantitatifs Le nuage de points Ensemble de points isolés représentés dans un graphique à deux dimensions : points M1, M2,..., Mn de coordonnées ( x1, y1 ) ; ( x2, y2 ) ;... ; ( xn, yn ). taille et poids de 60 enfants

35 35 2 critères quantitatifs Le coefficient de corrélation linéaire mesure l'aspect plus ou moins "allongé" du nuage de points.

36 36 un critère quantitatif Y et un critère qualitatif X la distribution conditionnelle de Y, pour chaque groupe d'individus associé à une modalité de X, est représentée par des histogrammes, diagrammes en bâtons ou en boîtes. Catégori e Age (années) A 32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58 B 22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 ; 34 ; 36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53 C 20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 27 ; 28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 ; 38 ; 41 ; 43 ; 45 ; 45

37 37 un critère quantitatif Y et un critère qualitatif X profils des modalités de X, représentés par des diagrammes circulaires ou en barres, peuvent être comparés pour les différentes valeurs ou classes de valeurs

38 38 Indicateurs de position (moyenne, médiane, quartiles, mode) Indicateurs de dispersion (variance, écart type, coefficient de variation Dispersion Position Indicateurs résumés

39 39 PARAMETRES DE POSITION La moyenne  : c’est un paramètre de tendance centrale. Elle est calculée pour des variables quantitatives Définition: la moyenne est une valeur calculée résultant de la somme algébrique des valeurs observées (x) dans la série, divisée par le nombre de sujet (N) La moyenne est sensible au poids des valeurs extrêmes.

40 40 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 5 6 6 6 6 6 Mesure du nombre d’enfants dans 32 familles Moyenne= ((2+2+2+2+2+2+2+2)+3x8+4x6+5x5+6x5)/32 =119/32

41 41 PARAMETRES DE POSITION La médiane : paramètre de tendance centrale Définition: valeur qui partage la série des individus en 2 groupes d’effectifs égaux. La moitié des sujets présente une valeur inférieure à la médiane, l’autre moitié une valeur supérieure à la médiane Calcul: Classer les sujets par ordre de valeur croissante de la variable. Si nombre de sujets n est impair, la médiane est la valeur observé pour le sujet médian (le ((n+1)/2))ème sujet) Si le nombre de sujets n est pair, la médiane est la moyenne de la valeur pour le (n/2)ème sujet et le ((n/2)+1) ème sujet

42 42 Médiane Moitié de l ’effectif Médiane 73,5

43 43 PARAMETRES DE POSITION Les quartiles : valeurs qui partagent la distribution en 4 groupes d’effectifs égaux Définition: Le 1er quartile est la valeur qui partage d’un côté de la distribution 1/4 des valeurs les plus faibles et de l’autre 3/4 des valeurs les plus élevées Le 2ème quartile est la médiane Le 3ème quartile est la valeur qui partage d’un côté de la distribution 3/4 des valeurs les plus faibles et de l’autre 1/4 des valeurs les plus élevées

44 44 1/4 de l ’effectif 2/4 de l ’effectif 3/4 de l ’effectif 1 er quartile 2 ème quartile3 ème quartile 73,56977 1 er quartile 2 ème quartile 3 ème quartile

45 45 PARAMETRES DE POSITION Les déciles : valeurs qui partagent la distribution en 10 groupes d’effectifs égaux, chaque groupe contient 10% des effectifs. Les percentiles : valeurs qui partagent la distribution en 100 groupes d’effectifs égaux, chaque groupe contient 1% des effectifs. Le percentile 10% équivaut au premier décile, c’est la valeur qui partage d ’un côté de la distribution, 10% des valeurs les plus faibles, et de l’autre 90% des valeurs les plus élevées Le percentile 25% équivaut au 1 er quartile Le percentile 50% équivaut à la médiane

46 46

47 47 PARAMETRES DE POSITION Le mode : c’est la valeur qui revient le plus souvent, c’est le pic de la distribution. C’est un paramètre purement descriptif. Lorsqu’il y a un seul pic, la distribution est modale Lorsqu’il y a 2 pics, la distribution est bimodale. Lorsqu’une distribution est symétrique, moyenne, médiane et mode sont confondus

48 48 Distribution bimodale

49 49

50 50 PARAMETRES DE DISPERSION Extrêmes : Ce sont les valeurs maximum et minimum de la distribution. Ils donnent une idée brute de la dispersion de part et d ’autre de la médiane Etendue : c’est la différence entre les 2 valeurs extrêmes

51 51 PARAMETRES DE DISPERSION Variance  2 : paramètre de dispersion le plus utilisé. Il résume l’ensemble des écarts de chaque valeur d’une distribution par rapport à la moyenne Définition: moyenne des carrés des écarts à la moyenne de chacune des valeurs Calcul : Si on appelle x chaque valeur de la distribution d’une variable quantitative,  la moyenne et N le nombre de sujets, la variance  2 est : La formule pour faire les calculs:

52 52 PARAMETRES DE DISPERSION Ecart type  : c’est la racine carré de la variance. Il s’exprime dans les mêmes unités que la moyenne. Coefficient de variation CV: c’est un indicateur combinant la moyenne et l’écart type. C’est le rapport de l’écart type sur la moyenne CV exprime le degré de dispersion d’une distribution en fonction de la valeur moyenne. Utile pour comparer la dispersion de 2 variables quantitatives de nature différentes

53 53 EXERCICE 1 On a mesuré la taille (en cm) de 50 étudiants: 158 160 161 162 162 163 164 164 165 165 166 166 167 167 168 168 168 169 169 169 170 170 170 170 170 170 170 171 171 171 172 172 172 173 174 174 174 175 176 176 177 177 177 177 177 178 178 179 180 181 Discrétisez la variable continue Cas 1: selon une échelle d ’amplitude de 4 cm Cas 2: selon une échelle de fréquence de 20% selon une échelle de convenance petits 177 cm. Pour chacune des classe du cas 1, calculez le fréquence relative de la classe et la fréquence cumulée. Construire un histogramme et une courbe de fréquence cumulée. Sur cette courbe, déterminez graphiquement le pourcentage d’étudiants mesurant plus de 175 cm. Quelle est la taille au dessus de laquelle on ne retrouve que 5% des individus

54 54 EXERCICE 2 On a noté le poids d ’une série de 11 nouveaux nés poids (g) 3250 3482 3122 3498 3743 3854 3359 2985 3043 3634 3507 Quelle est la médiane Calculez la moyenne EXERCICE 3 Estimez la médiane de la série suivante poids (g) 2512 2872 2956 3128 3359 3482 3546 3678 3720 3987

55 55 EXERCICE 4 Série de 80 sujets dont on a mesure le poids en kg 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 78 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 Quel est la valeur du mode? Quelle est la moyenne? Quelles sont les valeurs des extrêmes? Quelle est l ’étendue? Quelle est la variance? Quel est l ’écart type? Quel est le coefficient de variation?

56 56 EXERCICE 5 Soit la série de valeurs suivantes (n=53) 9,75,811,916,115,717,92,21015,3 6,68,24,23,677,92,58,79,3 11,59,59,69,516,310,610,28,918,8 14,420,58,317,64,513,114,618,610,6 8,913,79,4145,27,64,99,56,8 10,811,19,719,7480,616,7 Calculer la médiane, le 1er quartile, le 3ème quartile, le mode, l ’étendue, la moyenne, la variance, l ’écart type, le coefficient de variation.

57 57 Discrétisation par échelle d'amplitude de 4cm TailleEfffectifclasseeffectiffréquence relative%effectif cumulé fréquence cumulée % 1581 1590158-16255/50=105 5/50=8 1601 1611 1622 1631 1642 1652163-16799/50=9/50*1005+9=1414/50=28 1662 1672 1683 1693 1707 1713168-1721919/50=385+9+19=3333/50=66 1723 1731 1743 1751173-1771212/50=245+9+19+12=4545/50=90 1762 1775 1782 1791178-18255/50=105+9+19+12+5=5050/50=100 1801 Exercice 1

58 58 Discrétisation par échelle de fréquence de 20% TailleEfffectifClasseeffectif Fréquence relative % 1581 1590 1601 1611158 - 1651020 1622 1631 1642 1652 1662 1672166 - 1691020 1683 1693 1707170-1711020 1713 1723 1731172 - 1761020 1743 1751 1762 1775 1782 1791177-1811020 1801 1811

59 59 Discrétisation par échelle de convenance TailleEfffectifClasseeffectif Fréquence relative % 1581 1590 1601Petits 1611158 - 1671428 1622 1631 1642 1652 1662 1672 1683 1693 1707 1713 1723Normaux 1731168-1773162 1743 1751 1762 1775 1782Grands 1791178-181510 1801 1811

60 60 Tail le Efffec tif fréquen ce relative % Fréquen ce cumulée % 158122 159002 160124 161126 1622410 1631212 1642416 1652420 1662424 1672428 1683634 1693640 17071454 1713660 1723666 1731268 1743674 1751276 1762480 17751090 1782494 1791296 1801298 18112100 25% des étudiants mesurent plus de 175 cm il n'y a que 5% des étudiants qui mesurent plus de 179 cm

61 61 taille au dessus de laquelle on ne retrouve plus que 5% des effectif % d'effectif mesurant plus de 175 cm

62 62 Ordonner les poids 2985, 3043, 3122, 3250, 3359, 3482, 3498, 3507, 3634, 3743, 3854 Médiane = valeur du sujet médian (11+1/2)=6, valeur du 6ème sujet=3482 g moyenne =37477/11=3407g Exercice 2

63 63 Nombre pair d'observations (n=10) Médiane est la valeur moyenne pour le (n/2)ème sujet et le n/2+1 ème sujet valeur du 5ème sujet = 3359 valeur du 6ème sujet = 3482 moyenne=(3359+3482)/2=3420 g EXERCICE 3

64 64 EXERCICE 4 Mode: la valeur de 73 kg est la plus fréquente, elle représente 12,5% des valeurs La médiane=valeur moyenne entre le 20ème sujet et le 21ème sujet médiane=73+74=73,5 kg La moyenne est de 5824/80=72,8 kg Le minimum est 45 kg, Le maximum est 86 kg L'étendue est 86-45=41 kg La variance (somme x²=428126, somme x=5825, N=80) = 51,7 L'écartype 7,2 kg Coefficient de variation=7,2/72,8*100=9,9%

65 65 EXERCICE 5 Remettre en ordre croissant 0,6 2,2 2,5 3,6 4 4,2 4,5 4,9, 5,2, 5,8 6,6 6,8 7 7,6 7,9 8 8,2 8,3 8,7 8,9 8,9 9,3 9,4 9,5 9,5 9,5 9,6 9,7 9,7 10 10,2 10,6 10,6 10,8 11,1 11,5 11,9 13,1 13,7 14 14,4 14,6 15,3 15,7 16,1 16,3 16,7 17,6 17,9 18,6 18,8 19,7 20,5 Médiane = 9,6 (valeur du 27ème sujet) 1er quartile = 7,6 3ème quartile=14,0 mode=9 à 9,9 minimum=0,6 maximum=20,5 Etendue=19,9 moyenne=10,38 Variance=(6922,71-(550,3)²/53)/53=23,25 Ecart type = 4,82 Coefficient de variation =4,82/10,38x100=46,4%


Télécharger ppt "1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire."

Présentations similaires


Annonces Google