1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

Pr. Abdelkrim EL MOUATASIM EST de Guelmim Maroc
Présentation des données
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Les Variables statistiques continues
Inférence statistique
Notions de variable aléatoire et de probabilité d’un événement
Statistique et probabilités au collège
Les principaux résumés de la statistique
Groupe 1: Classes de même intervalle
Tableaux de distributions
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
La corrélation et la régression multiple
Séries chronologiques et prévision
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Rappels de statistiques descriptives
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Introduction à une analyse statistique de données
Chapitre 3: Variables aléatoires réelles continues
Statistiques descriptives-Distributions expérimentales à une dimension
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Statistiques Cours de seconde.
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Méthodologie de l’observation
PARAMETRES STATISTIQUES
STATISTIQUES DESCRIPTIVES
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Statistique Descriptive Les Paramètres de Tendance Centrale
Distribution à deux variables
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Opération et systèmes de décision Faculté des Sciences de l ’administration MQT Probabilités et statistique Les statistiques descriptives.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Paramètres de position et de dispersion
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Les mesures de tendance centrale
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation.
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
1 Biostatistique et lecture critique d’articles médicaux Pr A Venot UFR SMBH Université Paris 13.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Maths en Jean : Nager dans le brouillard. Présentation du sujet Une personne part du bord de la plage et nage 500 mètres en ligne droite dans une direction.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et Introduction au principe des test statistiques.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
1 M1 MQSE 1 - L’outil statistique pour tirer des conclusions dans un monde de variabilité 2 - Utiliser la statistique: se confronter au hasard 3 - La statistique:
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
Mesures de tendance centrale et mesures de dispersion.
STATISTIQUE DESCRIPTIVE
Les Statistiques.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
II. Les variables quantitatives
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
En prélude Quelques brefs rappels 1. Moyenne  Un exercice (3.6, p. 34) o Données o Quelle est la densité moyenne de l’ensemble formé par le Bénin et.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Chapitre 3 : Caractéristiques de tendance centrale
Mesures de Position Dispersion et Forme
Transcription de la présentation:

1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire

2 Rappels du cours n°1 Quand utilise t-on la statistique? Pourquoi a-t-on besoin de l’utiliser? Qu’est ce qu’une variable aléatoire? Qu’est ce que la loi de distribution d’une variable aléatoire?

3 Statistique descriptive: des méthodes et des techniques pour présenter, décrire, résumer des données nombreuses et variées porte sur l'ensemble des individus effectivement étudiés, sans chercher à étendre les constatations faites à une population plus vaste Analyse univariée Analyse bivariée Indicateurs résumés

4 Analyse univariée Tableaux Effectifs Fréquences Effectifs cumulés Graphiques pour des variables qualitatives pour des variables quantitatives discrètes pour des variables quantitatives continues

5 Var1Var2Var 3…Var n Unité stat 1 Unité stat 2 … Unité stat 3 Organisation des données Dans une étude statistique, les données sont recueillies sur une série de sujets; 1 sujet=1 unité statistique

6 Trier à plat des données : décompte des modalités ou valeurs obtenues, sert de base à la construction de tableaux et de graphiques. Résumer la série statistique

7 4 variables 150 individus Déterminer le nombre d'individus pour lesquels une variable statistique a pris une valeur donnée si, sur 150 familles, 50 ont 2 enfants, on dira que l'effectif ni correspondant à la valeur xi = 2 de la variable "nombre d'enfants", est 50.

8 Situation familiale Nombre de personnes dans cette situation célibataire150 marié120 veuf10 divorcé80 X1 X2 X3 X4 n1 n2 n3 n4 Variable Modalités de la variable Effectif associé à chaque modalité de la variable

9 Nombre d'enfants x i Effectifs n i L'ensemble des couples { ( x i, n i ), i = 1,..., K } est une série statistique (ordonnée), ou distribution observée de la variable. On notera ceci :

10 Tri à plat pour des variables continues : Une variable continue ne prend pas des valeurs isolées, mais des valeurs appartenant à des intervalles. Au lieu de définir des effectifs par valeurs, on définit des effectifs par intervalles, appelés classes (1.70 m a en fait une taille comprise entre 1.695m et 1.705m La variable continue est transformée en variable qualitative ordinale. On découpe ainsi l'intervalle des valeurs en classes contigües, de la forme : [ e1 ; e2 [ [e2 ; e3 [ [ e3 ; e4 [ [ ek ; ek+1 [ et on note n1, n2,..., nk les effectifs associés. Regrouper les données en classe=discrétisation

11 Taille (cm) Effectifs Taille (cm) Effectifs Total :60

12 Taille en cm Classes de taille (en cm)Effectifs [ [6 [ [8 [ [20 [ [20 [ [5 [ [1 Classes de taille (en cm)Effectifs moins de 1601 [ [5 [ [21 [ [ et plus4 Classes de valeurs = modalités de la variable Effectifs de chacune des classes Variable Taille en cm Effectifs

13 Choix des classes Échelle d’amplitude (intervalles de même longueur, effectifs irréguliers), Échelle par fréquence : division en groupe d’effectifs égaux, intervalles irréguliers Échelle de convenance en nombre suffisant (ne pas trop schématiser les données par exemple ne pas limiter la série précédente à : "moins d'1.70 m" et "plus d'1.70 m"), et à l’inverse ne pas avoir un tableau interminable avec beaucoup de tout petits effectifs).

14 Série de 80 sujet dont on a mesure le poids en kg Regroupement par échelle d ’amplitude de 10 kg classe de poids (en kg) nombre de sujets Regroupement par échelle de fréquence classe de poids (en kg) nombre de sujets Regroupement par échelle de convenance (poids faible 79kg) classe de poids (en kg) 79 nombre de sujets85814

15 Effectifs :nombre de sujets dans chaque classe, c’est un nombre entier Fréquences relatives (comparer des séries statistiques): mesure le poids relatif de l’effectif d’une classe par rapport à l’effectif total de la série étudiée fréquence relative = n/N (n=effectif de la classe, N=effectif total) souvent exprimé en %, le total des effectifs relatifs est de 100% Effectifs cumulés ou fréquences cumulées : Lorsque les classes d ’une variables sont ordonnées, on peut ajouter à l’effectif de chaque classe le total des effectifs des classes inférieures. On obtient des effectifs cumulés. Les fréquences cumulées sont obtenues en divisant les effectifs cumulés par l ’effectif total de la série. Calculer des fréquences relatives ou cumulées

16 Répartition d ’une série de 30 sujets selon la composition de leur fratrie (nombre de frères et sœurs dans la famille)

17 Pour étudier les appels téléphoniques arrivant à un central, on a noté, sur 96 jours comparables, le nombre d'appels reçus entre 9 h et 9 h 10. Les résultats sont consignés dans ce tableau : Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes , Total : Proportion de jours où le nombre d'appels a été de 2 ? Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? Proportion de jours où le nombre d'appels a été inférieur 3 ? Pourcentage de jours où le nombre d'appels a été inférieur à 3 ?

18 Nombre d'appels x i Nombre de jours n i Fréquences f i Fréquences cumulées croissantes , Total : Proportion de jours où le nombre d'appels a été de 2 ? 23/96=0,2396 Combien y a t-il eu de jours où le nombre d'appels a été inférieur 3 ? =39 Proportion de jours où le nombre d'appels a été inférieur 3 ? ( )/96= 0, ,1458+0,2396 = 0,4062 Pourcentage de jours où le nombre d'appels a été inférieur à 3 ? 40,62

19 Les représentations graphiques Variable qualitative Diagramme circulaire : chaque modalité est représentée par un secteur circulaire dont l'angle (et donc la surface) est proportionnel à son effectif. Le rayon du cercle est arbitraire. Diagramme en barre: chaque rectangle a une base constante et une hauteur proportionnelle à l’effectif de la modalités (ni) ou à la fréquence de la modalité (fi)

20 Situation familiale Effectifs Célibataire30 Marié80 Divorcé20 Veuf20 Total :150 Situation familiale Effectif s Fréquenc es % Célibataire Marié Divorcé Veuf Total :150  1  100 Pour "célibataires" l'angle est de 72°. Pour " Marié " l'angle est de 192°. Pour " Divorcé " l'angle est de 48°. Pour " Veuf " l'angle est de 48°.

21 Les représentations graphiques Variable quantitative discrète les valeurs observées, numériques, seront toujours placées selon un axe, en suivant une échelle précise. Diagramme en bâton : chaque modalité est représentée sur l’axe des abscisses en ordre croissant et l’effectif est représenté par un bâton proportionnel à l’effectif. Courbe cumulative croissante (ou fonction de répartition) : –Elle s'obtient au moyen des effectifs cumulés croissants. C'est le tracé de la fonction N qui à tout x associe N ( x ) = nombre d'observations  x. –Si on raisonne en fréquences (au lieu d'effectifs), on a le tracé de la fonction de répartition (F ( x ) = proportion d'observations  x)

22 Nombre d'enfants x i Effectif s n i Fréquences f i Total :181 Diagramme en bâton

23 Courbe cumulative Nombre d'enfants x i Effectifs n i Effectifs cumulés croissants N i

24 Fonction de répartition Nombre d'appels Fréquences en % Fréquences cumulées croissantes Fréquences cumulées décroissantes

25 Les représentations graphiques Variable quantitative continue Histogramme des effectifs : –les classes étant de même amplitude, on place en ordonnée les effectifs et on obtient des rectangles dont la surface est proportionnelle à l'effectif associé. –Les classes ne sont pas de même amplitude, on met en ordonnée le rapport effectif/amplitude de sorte que chaque observation soit représentée par la même unité de surface (c'est ce que l'oeil retient de l'histogramme) Courbe cumulative (fonction de répartition): –Si l'on ne dispose que des données regroupées en classes, on utilise les effectifs (ou les fréquences) cumulés, mais seuls les points d'abscisses limites de classes sont exacts, on les relie par des segments de droite pour avoir une représentation approchée.

26 Classes de tailles (en cm)Effectifs [ [1 [ [5 [ [21 [ [ 29 [ [4

27 supposons qu'on veuille détailler davantage : l'effectif 21 entre 1.65 m et 1.70 m se répartit en 8 dans [ [ et 13 dans [ [ il faut doubler les effectifs si on diminue la largeur du rectangle de moitié.

28 Surfaces (ha) Effectifs n i Fréquences f i Amplitude a i fi/aifi/ai [ [ [ [ [ [ [ [ [ [ [ [ Total :2 1251

29 Taille (cm) Effect ifs Taille (cm) Effect ifs Total :60 Fonction de répartition

30 Analyse bivariée voir les liens existant entre les variables prises deux à deux. Entre 2 variables qualitatives Entre 2 variables quantitatives Une variable qualitative et une variable quantitative

31 2 critères qualitatifs Tableau de contingence On construit un tableau dont les lignes représentent chaque modalité de la variable qualitative X les colonnes représentent chaque modalité de la variable qualitative Y. Pour chaque modalité du couple (Xi, Yi) on note l’effectif

32 Chaque couple est représenté par une pastille dont la taille est proportionnelle à l’effectif

33 On colorie le plan ( X, Y ) avec une palette de couleur qui représente l’effectif.

34 2 critères quantitatifs Le nuage de points Ensemble de points isolés représentés dans un graphique à deux dimensions : points M1, M2,..., Mn de coordonnées ( x1, y1 ) ; ( x2, y2 ) ;... ; ( xn, yn ). taille et poids de 60 enfants

35 2 critères quantitatifs Le coefficient de corrélation linéaire mesure l'aspect plus ou moins "allongé" du nuage de points.

36 un critère quantitatif Y et un critère qualitatif X la distribution conditionnelle de Y, pour chaque groupe d'individus associé à une modalité de X, est représentée par des histogrammes, diagrammes en bâtons ou en boîtes. Catégori e Age (années) A 32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58 B 22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 ; 34 ; 36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53 C 20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 27 ; 28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 ; 38 ; 41 ; 43 ; 45 ; 45

37 un critère quantitatif Y et un critère qualitatif X profils des modalités de X, représentés par des diagrammes circulaires ou en barres, peuvent être comparés pour les différentes valeurs ou classes de valeurs

38 Indicateurs de position (moyenne, médiane, quartiles, mode) Indicateurs de dispersion (variance, écart type, coefficient de variation Dispersion Position Indicateurs résumés

39 PARAMETRES DE POSITION La moyenne  : c’est un paramètre de tendance centrale. Elle est calculée pour des variables quantitatives Définition: la moyenne est une valeur calculée résultant de la somme algébrique des valeurs observées (x) dans la série, divisée par le nombre de sujet (N) La moyenne est sensible au poids des valeurs extrêmes.

Mesure du nombre d’enfants dans 32 familles Moyenne= (( )+3x8+4x6+5x5+6x5)/32 =119/32

41 PARAMETRES DE POSITION La médiane : paramètre de tendance centrale Définition: valeur qui partage la série des individus en 2 groupes d’effectifs égaux. La moitié des sujets présente une valeur inférieure à la médiane, l’autre moitié une valeur supérieure à la médiane Calcul: Classer les sujets par ordre de valeur croissante de la variable. Si nombre de sujets n est impair, la médiane est la valeur observé pour le sujet médian (le ((n+1)/2))ème sujet) Si le nombre de sujets n est pair, la médiane est la moyenne de la valeur pour le (n/2)ème sujet et le ((n/2)+1) ème sujet

42 Médiane Moitié de l ’effectif Médiane 73,5

43 PARAMETRES DE POSITION Les quartiles : valeurs qui partagent la distribution en 4 groupes d’effectifs égaux Définition: Le 1er quartile est la valeur qui partage d’un côté de la distribution 1/4 des valeurs les plus faibles et de l’autre 3/4 des valeurs les plus élevées Le 2ème quartile est la médiane Le 3ème quartile est la valeur qui partage d’un côté de la distribution 3/4 des valeurs les plus faibles et de l’autre 1/4 des valeurs les plus élevées

44 1/4 de l ’effectif 2/4 de l ’effectif 3/4 de l ’effectif 1 er quartile 2 ème quartile3 ème quartile 73, er quartile 2 ème quartile 3 ème quartile

45 PARAMETRES DE POSITION Les déciles : valeurs qui partagent la distribution en 10 groupes d’effectifs égaux, chaque groupe contient 10% des effectifs. Les percentiles : valeurs qui partagent la distribution en 100 groupes d’effectifs égaux, chaque groupe contient 1% des effectifs. Le percentile 10% équivaut au premier décile, c’est la valeur qui partage d ’un côté de la distribution, 10% des valeurs les plus faibles, et de l’autre 90% des valeurs les plus élevées Le percentile 25% équivaut au 1 er quartile Le percentile 50% équivaut à la médiane

46

47 PARAMETRES DE POSITION Le mode : c’est la valeur qui revient le plus souvent, c’est le pic de la distribution. C’est un paramètre purement descriptif. Lorsqu’il y a un seul pic, la distribution est modale Lorsqu’il y a 2 pics, la distribution est bimodale. Lorsqu’une distribution est symétrique, moyenne, médiane et mode sont confondus

48 Distribution bimodale

49

50 PARAMETRES DE DISPERSION Extrêmes : Ce sont les valeurs maximum et minimum de la distribution. Ils donnent une idée brute de la dispersion de part et d ’autre de la médiane Etendue : c’est la différence entre les 2 valeurs extrêmes

51 PARAMETRES DE DISPERSION Variance  2 : paramètre de dispersion le plus utilisé. Il résume l’ensemble des écarts de chaque valeur d’une distribution par rapport à la moyenne Définition: moyenne des carrés des écarts à la moyenne de chacune des valeurs Calcul : Si on appelle x chaque valeur de la distribution d’une variable quantitative,  la moyenne et N le nombre de sujets, la variance  2 est : La formule pour faire les calculs:

52 PARAMETRES DE DISPERSION Ecart type  : c’est la racine carré de la variance. Il s’exprime dans les mêmes unités que la moyenne. Coefficient de variation CV: c’est un indicateur combinant la moyenne et l’écart type. C’est le rapport de l’écart type sur la moyenne CV exprime le degré de dispersion d’une distribution en fonction de la valeur moyenne. Utile pour comparer la dispersion de 2 variables quantitatives de nature différentes

53 EXERCICE 1 On a mesuré la taille (en cm) de 50 étudiants: Discrétisez la variable continue Cas 1: selon une échelle d ’amplitude de 4 cm Cas 2: selon une échelle de fréquence de 20% selon une échelle de convenance petits 177 cm. Pour chacune des classe du cas 1, calculez le fréquence relative de la classe et la fréquence cumulée. Construire un histogramme et une courbe de fréquence cumulée. Sur cette courbe, déterminez graphiquement le pourcentage d’étudiants mesurant plus de 175 cm. Quelle est la taille au dessus de laquelle on ne retrouve que 5% des individus

54 EXERCICE 2 On a noté le poids d ’une série de 11 nouveaux nés poids (g) Quelle est la médiane Calculez la moyenne EXERCICE 3 Estimez la médiane de la série suivante poids (g)

55 EXERCICE 4 Série de 80 sujets dont on a mesure le poids en kg Quel est la valeur du mode? Quelle est la moyenne? Quelles sont les valeurs des extrêmes? Quelle est l ’étendue? Quelle est la variance? Quel est l ’écart type? Quel est le coefficient de variation?

56 EXERCICE 5 Soit la série de valeurs suivantes (n=53) 9,75,811,916,115,717,92,21015,3 6,68,24,23,677,92,58,79,3 11,59,59,69,516,310,610,28,918,8 14,420,58,317,64,513,114,618,610,6 8,913,79,4145,27,64,99,56,8 10,811,19,719,7480,616,7 Calculer la médiane, le 1er quartile, le 3ème quartile, le mode, l ’étendue, la moyenne, la variance, l ’écart type, le coefficient de variation.

57 Discrétisation par échelle d'amplitude de 4cm TailleEfffectifclasseeffectiffréquence relative%effectif cumulé fréquence cumulée % /50=105 5/50= /50=9/50*1005+9=1414/50= /50= =3333/50= /50= =4545/50= /50= =5050/50= Exercice 1

58 Discrétisation par échelle de fréquence de 20% TailleEfffectifClasseeffectif Fréquence relative %

59 Discrétisation par échelle de convenance TailleEfffectifClasseeffectif Fréquence relative % Petits Normaux Grands

60 Tail le Efffec tif fréquen ce relative % Fréquen ce cumulée % % des étudiants mesurent plus de 175 cm il n'y a que 5% des étudiants qui mesurent plus de 179 cm

61 taille au dessus de laquelle on ne retrouve plus que 5% des effectif % d'effectif mesurant plus de 175 cm

62 Ordonner les poids 2985, 3043, 3122, 3250, 3359, 3482, 3498, 3507, 3634, 3743, 3854 Médiane = valeur du sujet médian (11+1/2)=6, valeur du 6ème sujet=3482 g moyenne =37477/11=3407g Exercice 2

63 Nombre pair d'observations (n=10) Médiane est la valeur moyenne pour le (n/2)ème sujet et le n/2+1 ème sujet valeur du 5ème sujet = 3359 valeur du 6ème sujet = 3482 moyenne=( )/2=3420 g EXERCICE 3

64 EXERCICE 4 Mode: la valeur de 73 kg est la plus fréquente, elle représente 12,5% des valeurs La médiane=valeur moyenne entre le 20ème sujet et le 21ème sujet médiane=73+74=73,5 kg La moyenne est de 5824/80=72,8 kg Le minimum est 45 kg, Le maximum est 86 kg L'étendue est 86-45=41 kg La variance (somme x²=428126, somme x=5825, N=80) = 51,7 L'écartype 7,2 kg Coefficient de variation=7,2/72,8*100=9,9%

65 EXERCICE 5 Remettre en ordre croissant 0,6 2,2 2,5 3,6 4 4,2 4,5 4,9, 5,2, 5,8 6,6 6,8 7 7,6 7,9 8 8,2 8,3 8,7 8,9 8,9 9,3 9,4 9,5 9,5 9,5 9,6 9,7 9, ,2 10,6 10,6 10,8 11,1 11,5 11,9 13,1 13, ,4 14,6 15,3 15,7 16,1 16,3 16,7 17,6 17,9 18,6 18,8 19,7 20,5 Médiane = 9,6 (valeur du 27ème sujet) 1er quartile = 7,6 3ème quartile=14,0 mode=9 à 9,9 minimum=0,6 maximum=20,5 Etendue=19,9 moyenne=10,38 Variance=(6922,71-(550,3)²/53)/53=23,25 Ecart type = 4,82 Coefficient de variation =4,82/10,38x100=46,4%