1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire
2 Rappels du cours n°1 Quand utilise t-on la statistique? Pourquoi a-t-on besoin de l’utiliser? Qu’est ce qu’une variable aléatoire? Qu’est ce que la loi de distribution d’une variable aléatoire?
3 Statistique descriptive: des méthodes et des techniques pour présenter, décrire, résumer des données nombreuses et variées porte sur l'ensemble des individus effectivement étudiés, sans chercher à étendre les constatations faites à une population plus vaste Analyse univariée Analyse bivariée Indicateurs résumés
4 Analyse univariée Tableaux Effectifs Fréquences Effectifs cumulés Graphiques pour des variables qualitatives pour des variables quantitatives discrètes pour des variables quantitatives continues
5 Var1Var2Var 3…Var n Unité stat 1 Unité stat 2 … Unité stat 3 Organisation des données Dans une étude statistique, les données sont recueillies sur une série de sujets; 1 sujet=1 unité statistique
6 Trier à plat des données : décompte des modalités ou valeurs obtenues, sert de base à la construction de tableaux et de graphiques. Résumer la série statistique
7 4 variables 150 individus Déterminer le nombre d'individus pour lesquels une variable statistique a pris une valeur donnée si, sur 150 familles, 50 ont 2 enfants, on dira que l'effectif ni correspondant à la valeur xi = 2 de la variable "nombre d'enfants", est 50.
8 Situation familiale Nombre de personnes dans cette situation célibataire150 marié120 veuf10 divorcé80 X1 X2 X3 X4 n1 n2 n3 n4 Variable Modalités de la variable Effectif associé à chaque modalité de la variable
9 Nombre d'enfants x i Effectifs n i L'ensemble des couples { ( x i, n i ), i = 1,..., K } est une série statistique (ordonnée), ou distribution observée de la variable. On notera ceci :
10 Tri à plat pour des variables continues : Une variable continue ne prend pas des valeurs isolées, mais des valeurs appartenant à des intervalles. Au lieu de définir des effectifs par valeurs, on définit des effectifs par intervalles, appelés classes (1.70 m a en fait une taille comprise entre 1.695m et 1.705m La variable continue est transformée en variable qualitative ordinale. On découpe ainsi l'intervalle des valeurs en classes contigües, de la forme : [ e1 ; e2 [ [e2 ; e3 [ [ e3 ; e4 [ [ ek ; ek+1 [ et on note n1, n2,..., nk les effectifs associés. Regrouper les données en classe=discrétisation
11 Taille (cm) Effectifs Taille (cm) Effectifs Total :60
12 Taille en cm Classes de taille (en cm)Effectifs [ [6 [ [8 [ [20 [ [20 [ [5 [ [1 Classes de taille (en cm)Effectifs moins de 1601 [ [5 [ [21 [ [ et plus4 Classes de valeurs = modalités de la variable Effectifs de chacune des classes Variable Taille en cm Effectifs
13 Choix des classes Échelle d’amplitude (intervalles de même longueur, effectifs irréguliers), Échelle par fréquence : division en groupe d’effectifs égaux, intervalles irréguliers Échelle de convenance en nombre suffisant (ne pas trop schématiser les données par exemple ne pas limiter la série précédente à : "moins d'1.70 m" et "plus d'1.70 m"), et à l’inverse ne pas avoir un tableau interminable avec beaucoup de tout petits effectifs).
14 Série de 80 sujet dont on a mesure le poids en kg Regroupement par échelle d ’amplitude de 10 kg classe de poids (en kg) nombre de sujets Regroupement par échelle de fréquence classe de poids (en kg) nombre de sujets Regroupement par échelle de convenance (poids faible 79kg) classe de poids (en kg) 79 nombre de sujets85814
15 Effectifs :nombre de sujets dans chaque classe, c’est un nombre entier Fréquences relatives (comparer des séries statistiques): mesure le poids relatif de l’effectif d’une classe par rapport à l’effectif total de la série étudiée fréquence relative = n/N (n=effectif de la classe, N=effectif total) souvent exprimé en %, le total des effectifs relatifs est de 100% Effectifs cumulés ou fréquences cumulées : Lorsque les classes d ’une variables sont ordonnées, on peut ajouter à l’effectif de chaque classe le total des effectifs des classes inférieures. On obtient des effectifs cumulés. Les fréquences cumulées sont obtenues en divisant les effectifs cumulés par l ’effectif total de la série. Calculer des fréquences relatives ou cumulées
16 Répartition d ’une série de 30 sujets selon la composition de leur fratrie (nombre de frères et sœurs dans la famille)
17 Pour étudier les appels téléphoniques arrivant à un central, on a noté, sur 96 jours comparables, le nombre d'appels reçus entre 9 h et 9 h 10. Les résultats sont consignés dans ce tableau : Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes , Total : Proportion de jours où le nombre d'appels a été de 2 ? Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? Proportion de jours où le nombre d'appels a été inférieur 3 ? Pourcentage de jours où le nombre d'appels a été inférieur à 3 ?
18 Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes , Total : Proportion de jours où le nombre d'appels a été de 2 ? 23/96=0,2396 Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? =39 Proportion de jours où le nombre d'appels a été inférieur 3 ? ( )/96= 0, ,1458+0,2396 = 0,4062 Pourcentage de jours où le nombre d'appels a été inférieur à 3 ? 40,62
19 Les représentations graphiques Variable qualitative Diagramme circulaire : chaque modalité est représentée par un secteur circulaire dont l'angle (et donc la surface) est proportionnel à son effectif. Le rayon du cercle est arbitraire. Diagramme en barre: chaque rectangle a une base constante et une hauteur proportionnelle à l’effectif de la modalités (ni) ou à la fréquence de la modalité (fi)
20 Situation familiale Effectifs Célibataire30 Marié80 Divorcé20 Veuf20 Total :150 Situation familiale Effectif s Fréquenc es % Célibataire Marié Divorcé Veuf Total :150 1 100 Pour "célibataires" l'angle est de 72°. Pour " Marié " l'angle est de 192°. Pour " Divorcé " l'angle est de 48°. Pour " Veuf " l'angle est de 48°.
21 Les représentations graphiques Variable quantitative discrète les valeurs observées, numériques, seront toujours placées selon un axe, en suivant une échelle précise. Diagramme en bâton : chaque modalité est représentée sur l’axe des abscisses en ordre croissant et l’effectif est représenté par un bâton proportionnel à l’effectif. Courbe cumulative croissante (ou fonction de répartition) : –Elle s'obtient au moyen des effectifs cumulés croissants. C'est le tracé de la fonction N qui à tout x associe N ( x ) = nombre d'observations x. –Si on raisonne en fréquences (au lieu d'effectifs), on a le tracé de la fonction de répartition (F ( x ) = proportion d'observations x)
22 Nombre d'enfants x i Effectif s n i Fréquences f i Total :181 Diagramme en bâton
23 Courbe cumulative Nombre d'enfants x i Effectifs n i Effectifs cumulés croissants N i
24 Fonction de répartition Nombre d'appels Fréquences en % Fréquences cumulées croissantes Fréquences cumulées décroissantes
25 Les représentations graphiques Variable quantitative continue Histogramme des effectifs : –les classes étant de même amplitude, on place en ordonnée les effectifs et on obtient des rectangles dont la surface est proportionnelle à l'effectif associé. –Les classes ne sont pas de même amplitude, on met en ordonnée le rapport effectif/amplitude de sorte que chaque observation soit représentée par la même unité de surface (c'est ce que l'oeil retient de l'histogramme) Courbe cumulative (fonction de répartition): –Si l'on ne dispose que des données regroupées en classes, on utilise les effectifs (ou les fréquences) cumulés, mais seuls les points d'abscisses limites de classes sont exacts, on les relie par des segments de droite pour avoir une représentation approchée.
26 Classes de tailles (en cm)Effectifs [ [1 [ [5 [ [21 [ [ 29 [ [4
27 supposons qu'on veuille détailler davantage : l'effectif 21 entre 1.65 m et 1.70 m se répartit en 8 dans [ [ et 13 dans [ [ il faut doubler les effectifs si on diminue la largeur du rectangle de moitié.
28 Surfaces (ha) Effectifs n i Fréquences f i Amplitude a i fi/aifi/ai [ [ [ [ [ [ [ [ [ [ [ [ Total :2 1251
29 Taille (cm) Effect ifs Taille (cm) Effect ifs Total :60 Fonction de répartition
30 Analyse bivariée voir les liens existant entre les variables prises deux à deux. Entre 2 variables qualitatives Entre 2 variables quantitatives Une variable qualitative et une variable quantitative
31 2 critères qualitatifs Tableau de contingence On construit un tableau dont les lignes représentent chaque modalité de la variable qualitative X les colonnes représentent chaque modalité de la variable qualitative Y. Pour chaque modalité du couple (Xi, Yi) on note l’effectif
32 Chaque couple est représenté par une pastille dont la taille est proportionnelle à l’effectif
33 On colorie le plan ( X, Y ) avec une palette de couleur qui représente l’effectif.
34 2 critères quantitatifs Le nuage de points Ensemble de points isolés représentés dans un graphique à deux dimensions : points M1, M2,..., Mn de coordonnées ( x1, y1 ) ; ( x2, y2 ) ;... ; ( xn, yn ). taille et poids de 60 enfants
35 2 critères quantitatifs Le coefficient de corrélation linéaire mesure l'aspect plus ou moins "allongé" du nuage de points.
36 un critère quantitatif Y et un critère qualitatif X la distribution conditionnelle de Y, pour chaque groupe d'individus associé à une modalité de X, est représentée par des histogrammes, diagrammes en bâtons ou en boîtes. Catégori e Age (années) A 32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58 B 22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 ; 34 ; 36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53 C 20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 27 ; 28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 ; 38 ; 41 ; 43 ; 45 ; 45
37 un critère quantitatif Y et un critère qualitatif X profils des modalités de X, représentés par des diagrammes circulaires ou en barres, peuvent être comparés pour les différentes valeurs ou classes de valeurs
38 Indicateurs de position (moyenne, médiane, quartiles, mode) Indicateurs de dispersion (variance, écart type, coefficient de variation Dispersion Position Indicateurs résumés
39 PARAMETRES DE POSITION La moyenne : c’est un paramètre de tendance centrale. Elle est calculée pour des variables quantitatives Définition: la moyenne est une valeur calculée résultant de la somme algébrique des valeurs observées (x) dans la série, divisée par le nombre de sujet (N) La moyenne est sensible au poids des valeurs extrêmes.
Mesure du nombre d’enfants dans 32 familles Moyenne= (( )+3x8+4x6+5x5+6x5)/32 =119/32
41 PARAMETRES DE POSITION La médiane : paramètre de tendance centrale Définition: valeur qui partage la série des individus en 2 groupes d’effectifs égaux. La moitié des sujets présente une valeur inférieure à la médiane, l’autre moitié une valeur supérieure à la médiane Calcul: Classer les sujets par ordre de valeur croissante de la variable. Si nombre de sujets n est impair, la médiane est la valeur observé pour le sujet médian (le ((n+1)/2))ème sujet) Si le nombre de sujets n est pair, la médiane est la moyenne de la valeur pour le (n/2)ème sujet et le ((n/2)+1) ème sujet
42 Médiane Moitié de l ’effectif Médiane 73,5
43 PARAMETRES DE POSITION Les quartiles : valeurs qui partagent la distribution en 4 groupes d’effectifs égaux Définition: Le 1er quartile est la valeur qui partage d’un côté de la distribution 1/4 des valeurs les plus faibles et de l’autre 3/4 des valeurs les plus élevées Le 2ème quartile est la médiane Le 3ème quartile est la valeur qui partage d’un côté de la distribution 3/4 des valeurs les plus faibles et de l’autre 1/4 des valeurs les plus élevées
44 1/4 de l ’effectif 2/4 de l ’effectif 3/4 de l ’effectif 1 er quartile 2 ème quartile3 ème quartile 73, er quartile 2 ème quartile 3 ème quartile
45 PARAMETRES DE POSITION Les déciles : valeurs qui partagent la distribution en 10 groupes d’effectifs égaux, chaque groupe contient 10% des effectifs. Les percentiles : valeurs qui partagent la distribution en 100 groupes d’effectifs égaux, chaque groupe contient 1% des effectifs. Le percentile 10% équivaut au premier décile, c’est la valeur qui partage d ’un côté de la distribution, 10% des valeurs les plus faibles, et de l’autre 90% des valeurs les plus élevées Le percentile 25% équivaut au 1 er quartile Le percentile 50% équivaut à la médiane
46
47 PARAMETRES DE POSITION Le mode : c’est la valeur qui revient le plus souvent, c’est le pic de la distribution. C’est un paramètre purement descriptif. Lorsqu’il y a un seul pic, la distribution est modale Lorsqu’il y a 2 pics, la distribution est bimodale. Lorsqu’une distribution est symétrique, moyenne, médiane et mode sont confondus
48 Distribution bimodale
49
50 PARAMETRES DE DISPERSION Extrêmes : Ce sont les valeurs maximum et minimum de la distribution. Ils donnent une idée brute de la dispersion de part et d ’autre de la médiane Etendue : c’est la différence entre les 2 valeurs extrêmes
51 PARAMETRES DE DISPERSION Variance 2 : paramètre de dispersion le plus utilisé. Il résume l’ensemble des écarts de chaque valeur d’une distribution par rapport à la moyenne Définition: moyenne des carrés des écarts à la moyenne de chacune des valeurs Calcul : Si on appelle x chaque valeur de la distribution d’une variable quantitative, la moyenne et N le nombre de sujets, la variance 2 est : La formule pour faire les calculs:
52 PARAMETRES DE DISPERSION Ecart type : c’est la racine carré de la variance. Il s’exprime dans les mêmes unités que la moyenne. Coefficient de variation CV: c’est un indicateur combinant la moyenne et l’écart type. C’est le rapport de l’écart type sur la moyenne CV exprime le degré de dispersion d’une distribution en fonction de la valeur moyenne. Utile pour comparer la dispersion de 2 variables quantitatives de nature différentes
53 EXERCICE 1 On a mesuré la taille (en cm) de 50 étudiants: Discrétisez la variable continue Cas 1: selon une échelle d ’amplitude de 4 cm Cas 2: selon une échelle de fréquence de 20% selon une échelle de convenance petits 177 cm. Pour chacune des classe du cas 1, calculez le fréquence relative de la classe et la fréquence cumulée. Construire un histogramme et une courbe de fréquence cumulée. Sur cette courbe, déterminez graphiquement le pourcentage d’étudiants mesurant plus de 175 cm. Quelle est la taille au dessus de laquelle on ne retrouve que 5% des individus
54 EXERCICE 2 On a noté le poids d ’une série de 11 nouveaux nés poids (g) Quelle est la médiane Calculez la moyenne EXERCICE 3 Estimez la médiane de la série suivante poids (g)
55 EXERCICE 4 Série de 80 sujets dont on a mesure le poids en kg Quel est la valeur du mode? Quelle est la moyenne? Quelles sont les valeurs des extrêmes? Quelle est l ’étendue? Quelle est la variance? Quel est l ’écart type? Quel est le coefficient de variation?
56 EXERCICE 5 Soit la série de valeurs suivantes (n=53) 9,75,811,916,115,717,92,21015,3 6,68,24,23,677,92,58,79,3 11,59,59,69,516,310,610,28,918,8 14,420,58,317,64,513,114,618,610,6 8,913,79,4145,27,64,99,56,8 10,811,19,719,7480,616,7 Calculer la médiane, le 1er quartile, le 3ème quartile, le mode, l ’étendue, la moyenne, la variance, l ’écart type, le coefficient de variation.
57 Discrétisation par échelle d'amplitude de 4cm TailleEfffectifclasseeffectiffréquence relative%effectif cumulé fréquence cumulée % /50=105 5/50= /50=9/50*1005+9=1414/50= /50= =3333/50= /50= =4545/50= /50= =5050/50= Exercice 1
58 Discrétisation par échelle de fréquence de 20% TailleEfffectifClasseeffectif Fréquence relative %
59 Discrétisation par échelle de convenance TailleEfffectifClasseeffectif Fréquence relative % Petits Normaux Grands
60 Tail le Efffec tif fréquen ce relative % Fréquen ce cumulée % % des étudiants mesurent plus de 175 cm il n'y a que 5% des étudiants qui mesurent plus de 179 cm
61 taille au dessus de laquelle on ne retrouve plus que 5% des effectif % d'effectif mesurant plus de 175 cm
62 Ordonner les poids 2985, 3043, 3122, 3250, 3359, 3482, 3498, 3507, 3634, 3743, 3854 Médiane = valeur du sujet médian (11+1/2)=6, valeur du 6ème sujet=3482 g moyenne =37477/11=3407g Exercice 2
63 Nombre pair d'observations (n=10) Médiane est la valeur moyenne pour le (n/2)ème sujet et le n/2+1 ème sujet valeur du 5ème sujet = 3359 valeur du 6ème sujet = 3482 moyenne=( )/2=3420 g EXERCICE 3
64 EXERCICE 4 Mode: la valeur de 73 kg est la plus fréquente, elle représente 12,5% des valeurs La médiane=valeur moyenne entre le 20ème sujet et le 21ème sujet médiane=73+74=73,5 kg La moyenne est de 5824/80=72,8 kg Le minimum est 45 kg, Le maximum est 86 kg L'étendue est 86-45=41 kg La variance (somme x²=428126, somme x=5825, N=80) = 51,7 L'écartype 7,2 kg Coefficient de variation=7,2/72,8*100=9,9%
65 EXERCICE 5 Remettre en ordre croissant 0,6 2,2 2,5 3,6 4 4,2 4,5 4,9, 5,2, 5,8 6,6 6,8 7 7,6 7,9 8 8,2 8,3 8,7 8,9 8,9 9,3 9,4 9,5 9,5 9,5 9,6 9,7 9, ,2 10,6 10,6 10,8 11,1 11,5 11,9 13,1 13, ,4 14,6 15,3 15,7 16,1 16,3 16,7 17,6 17,9 18,6 18,8 19,7 20,5 Médiane = 9,6 (valeur du 27ème sujet) 1er quartile = 7,6 3ème quartile=14,0 mode=9 à 9,9 minimum=0,6 maximum=20,5 Etendue=19,9 moyenne=10,38 Variance=(6922,71-(550,3)²/53)/53=23,25 Ecart type = 4,82 Coefficient de variation =4,82/10,38x100=46,4%