La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Chapitre 1 Généralités sur les données 1. Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Thème traité (avec d’autres.

Présentations similaires


Présentation au sujet: "Chapitre 1 Généralités sur les données 1. Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Thème traité (avec d’autres."— Transcription de la présentation:

1 Chapitre 1 Généralités sur les données 1

2 Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Thème traité (avec d’autres en plus) : état nutritionnel de la pop. d’un pays de 11 habitants tableau 1.1, la variable RJC (Ration Journalière en (grandes) Calories) problème simple : pourquoi simple ?  seulement 11 individus  avantage  inconvénient (mais généralisation aisée) 2

3 Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Thème traité (avec d’autres en plus) Tableau de données initiales (début du tableau 1.1, p. 2) 3 Individu i RJC X Age A Descendance E Sexe S Poids P Revenus Y État civil EC Visites méd. VM 12.0004521650,813 22.5004222510,512 31.8002001720,240

4 Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » État nutritionnel dans un pays Avant tout, 2 éléments à identifier pourquoi ?  éviter des erreurs grossières en confondant ces 2 éléments  ex. examen : l’âge moyen des jeunes de 0 à 15 ans = 262.375 2 questions correspondant aux 2 éléments  sur qui porte l’étude ?  sur quoi porte l’étude ? 4

5 Chapitre 1. Généralités sur les données Sur qui porte l’étude ? les personnes/choses au SUJET desquelles l’étude s’intéresse  de qui/de quoi connait-on une caractéristique ?  à qui a-t-on posé des questions ?  qui a répondu aux questions ?  SOUPLESSE & IMAGINATION : taille des enfants à la naissance  = les « INDIVIDUS » ou « UNITÉS » SOUS OBSERVATION dans l’exemple : les 11 habitants du pays 5

6 Chapitre 1. Généralités sur les données Sur qui porte l’étude ? les personnes/choses au SUJET desquelles l’étude s’intéresse dans l’exemple : les 11 habitants du pays désignation/notation mathématique :  les individus 1, 2, 3… i … 10, 11 (parfois a, b, c…)  « i » désigne un individu parmi les 11  « n » = le nombre total d’individus observés, soit 11  « i » peut donc varier de 1 à 11 population sous observation =  population de référence  ensemble des unités sous obs.  ensemble des « i » sous obs. 6

7 Chapitre 1. Généralités sur les données Sur qui porte l’étude ? (Fini) Sur quoi porte l’étude ? dans l’exemple, sur l’ÉTAT NUTRITIONNEL = le phénomène étudié choix d’une VARIABLE pour analyser le phénomène étudié  « variable » = CARACTÈRE mesurable pour les « i » o bon révélateur du phénomène étudié o mesurable (classiquement ou répartition en catégories)  quelle question posée aux « i » à propos de l’état nutritionnel ? o RJC dans notre exemple o RJC = la variable pour analyser l’état nutritionnel (on peut mieux faire) 7

8 Chapitre 1. Généralités sur les données Sur qui porte l’étude ? (Fini) Sur quoi porte l’étude ? dans l’exemple, sur l’ÉTAT NUTRITIONNEL choix d’une VARIABLE pour analyser le  désignation/notation (si une seule variable)  « X » = la variable(MAJUSCULE)  « x i » = la valeur de X pour i(minuscule)  exemples (tableau 1.1) : o pour l’individu 3, RJC vaut 1.800 C/J○ pour 11, 1.100 o x 3 = 1.800 C/J○ X 11 = 1.100 C/J 8 Individu i RJC X 12.000 22.500 31.800

9 Chapitre 1. Généralités sur les données Thème = l’état nutritionnel de la population d’un pays 2 e ex. = la taille des étudiant(e)s de l’ISFSC un individu sous observation =  un(e) étudiant(e) inscrit(e) à l’ISFSC  un « i » sous observation la pop. sous observation =  l’ensemble des étudiant(e)s de l’ISFSC  si 903 inscrit(e)s, n = 903 la variable = X = la taille la valeur de la variable pour l’étudiant(e) 231 : x 231 = 1,65 mètre 9

10 Chapitre 1. Généralités sur les données Thème = l’état nutritionnel de la population d’un pays 2 e ex. = la taille des étudiant(e)s de l’ISFSC 3 e ex. = la couleur des voitures vendues en Belgique en 2012 une unité sous observation =  une voiture vendue en Belgique en 2012  à un « i », on ne peut poser de question  imagination ! la pop. sous observation =  l’ensemble des voitures vendues en Belgique en 2012 la variable = X = la couleur la valeur de X pour la 1.106 e voiture : x 1.106 = rouge 10

11 Chapitre 1. Généralités sur les données Sur qui porte l’étude (bref retour) ? Attention : en prenant l’exemple de la couleur des voitures un « individu » : pas nécessairement un être humain une « pop. statistique » : pas nécessairement une pop. humaine 11  Souplesse et imagination!

12 Chapitre 1. Généralités sur les données Les types de variables ( pp. 2-4 ) Tableau 1.1 (extrait)  Que vaut : o x 2 ? 2.500 C/J o a 3 ?20 ans o s 1 ?1 = sexe masculin o y 1 ?0,8 (soit 0,8*100.000 = 80.000 CFA) 12 Individu i RJC X Age A Descendance E Sexe S Poids P Revenus Y État civil EC Visites méd. VM 12.0004521650,813 22.5004222510,512 31.8002001720,240 Cette façon d’exprimer les données est considérée comme acquise !

13 Chapitre 1. Généralités sur les données Les types de variables sur le plan MATHÉMATIQUE ( pp. 2-4 ) Pourquoi les distinguer ? Pour éviter des calculs vides de sens ! Variables quALitatives :  nombres = codes arbitraires, sans valeur numérique : interchangeables  exemples : sexe et état civil Variables quANTitatives :  nombres = valeurs numériques (42 ans = 3 ans de moins que 45)  deux sous catégories o discrètes : peu de valeurs ≠ possibles (descendance et VM) o (implicitement) continue : bcp de valeurs ≠ possibles (les autres) 13 Individu i RJC X Age A Descendance E Sexe S Poids P Revenus Y État civil EC Visites méd. VM 12.0004521650,813 22.5004222510,512 31.8002001720,240

14 Chapitre 1. Généralités sur les données Les types de variables ( pp. 2-4 ) Tableau 1.1 2 questions pour identifier le type de la variable  Codes interchangeables (sans perte d’information) ?  Oui  variable QUALITATIVE (exemples dans le tableau)  Non  variable QUANTITATIVE (exemples dans le tableau)  Entre 2 valeurs de X, infinité (théorique) de valeurs possibles ?  Non  variable DISCRÈTE (exemples dans le tableau)  Oui  variable CONTINUE (exemples dans le tableau)  Si beaucoup de valeurs & écarts non significatifs  variable IMPLICTEMENT CONTINUE ( ex. : revenu en € et cents ) Rem. : les deux dernières catégories ne seront pas différenciées. Ouf ! 14 Individu i RJC X Age A Descendance E Sexe S Poids P Revenus Y État civil EC Visites méd. VM 12.0004521650,813 22.5004222510,512 31.8002001720,240

15 Chapitre 1. Généralités sur les données Les types de variables : résumé 3 types de variable :  QUALITATIVE (nationalité, couleur des voitures…)  QUANTITATIVE DISCRÈTE (descendance…)  QUANTITATIVE (implicitement) CONTINUE (âge, revenus…) Nomenclatures plus diversifiées avec notamment les var. ordinales Pas pour nous ! 15

16 Chapitre 1. Généralités sur les données Observations ou données brutes ( p. 4 ) Tableau 1.1 Valeurs telles que collectées sur le terrain = réponses telles qu’entendues quand la question a été posée Et maintenant, les traitements sur les données ! 16 Individu i RJC X Age A Descendance E Sexe S Poids P Revenus Y État civil EC Visites méd. VM 12.0004521650,813 22.5004222510,512 31.8002001720,240

17 Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Exemple simple : tableau 1.1 et les 11 RJC Mettre de l’ordre et réduire le nombre de lignes : 3 étapes 17

18 Chapitre 1. Généralités sur les données Mettre de l’ordre et réduire le nombre de lignes : 3 étapes Ordre croissant Nombre de lignes réduit 18 Suite ordonnée xixi RJC 1x 11 1.100 2x4x4 1.600 3x3x3 1.800 4x9x9 5x 10 1.800 6x1x1 2.000 7x2x2 2.500 8x7x7 2.800 9x8x8 2.950 10x6x6 3.100 11x5x5 3.500 Données iRJC 12.000 22.500 31.800 41.600 53.500 63.100 72.800 82.950 91.800 101.800 111.100 Distribution selon les valeurs pxpxp npnp 11.1001 21.6001 31.8003 42.0001 52.5001 62.8001 72.9501 83.1001 93.5001 Tot.−11 Étape 3 : distribution en classes Distribution en classes p/kClassesnpnp 1 1.000 −< 2.000 5 2 2.000 −< 3.000 4 3 3.000 −< 4.000 2 Tot. SO11

19 Suite ordonnée (croissante) (p. 5) Objectif classer les données par ordre croissant Exemple : Résultat : suite ordonnée croissante : 1 re valeur : la plus petite ; la dernière : la plus élevée amplitude des données : 3.500 – 1.100 = 2.400 1 re information sur la dispersion, l’écart entre le max et le min 19 Suite ordonnée xixi RJC 1x 11 1.100 2x4x4 1.600 3x3x3 1.800 4x9x9 5x 10 1.800 6x1x1 2.000 7x2x2 2.500 8x7x7 2.800 9x8x8 2.950 10x6x6 3.100 11x5x5 3.500 Données iRJC 12.000 22.500 31.800 41.600 53.500 63.100 72.800 82.950 91.800 101.800 111.100

20 Les distributions ou grouper les données Idée générale (très importante pour votre étude) données trop nombreuses (pas dans notre exemple, mais souvent si)  mettre ENSEMBLE des observations (données, valeurs)  identiques  voisines objectif : plus facile de lire les données, d’en prendre possession Deux exemples (concernant des pays différents) Deux types de distributions : selon les valeurs observées selon des classes  données dites « groupées », « distribuées », « par paquets » par opposition aux données « individuelles » du tableau 1.1 20 Familles classées par tailleIndividus classés par âge 1107.5670-< 5 ans203 907 2187.9875-<10 ans217 312 3160 34210-<15 ans234 942...… …

21 Les distributions selon les valeurs observées Tableau 1.3 au départ du tableau 1.2 Comment passer du tableau 2 au tableau 3 ? dans nos exemples, peu de lignes en moins, mais si n = 10.000.000… un peu de théorie à propos des distributions pour suivre 21

22 Les distributions selon les valeurs observées Le retournement statistique (p. 6) données individuelles <> données (re)groupées ou distribuées  individuelles (tableau 1.1)  une ligne = un individu et sa réponse (si on ne s’occupe que de RJC)  i x i  à chaque « i », on associe « x i »  groupées (tableau 1.3)  une ligne = ●une valeur observée, soit x p ●le nombre de « i » concernés, soit n p  n p x p  à chaque « x p », on associe un « n p » 22

23 Les distributions selon les valeurs observées Le retournement statistique (p. 6) données individuelles <> données (re)groupées ou distribuées  individuelles (tableau 1.1) : à chaque « i », on associe « x i »  groupées (tableau 1.3) : à chaque « x p », on associe un « n p » notation avec changement d’indices (risque de confusion)  données individuelles (tab. 1.1) :  « n » lignes dans le tableau, avec n = le nombre de personnes interrogées  avec « i » variant de 1 à « n »  données groupées (tab. 1.3) :  « P » lignes actives dans le tableau, hors en-tête et total  avec « p » variant de 1 à « P » 23 Notation pour les données groupées Cette notation est considérée comme acquise !

24 Les distributions selon les valeurs observées Distributions et variables qualitatives (p. 10) Sens de distribuer les valeurs d’une variable qualitative  oui ou non ?  pourquoi ?  si nécessaire : rappel de l’idée générale = mettre ensemble… Au point de vue méthode : si hésitation, retour à l’idée générale Exemple au départ du tableau 1.1 Intéressant à établir pour comparer avec d’autres pays, par ex. 24 Distribution de la variable « sexe » (source : tab.1.1) p Valeur de X x p Effectif ou poids n p 1Hommes4 2Femmes7 Total−11

25 Les distributions selon les valeurs observées Distributions et variables qualitatives (p. 10) Sens de distribuer les valeurs d’une variable qualitative Retour au quantitatif avec des données réelles (ex. : revenus de tous les Belges) selon les valeurs, trop de lignes  distributions en classes  un tableau avec moins de lignes  données lisibles, utilisables 25

26 Les distributions en classes Tableau 1.4 au départ du tableau 1.3 Comment passer du tableau 1.3 au tableau 1.4 ?  mettre ensemble les valeurs comprises entre :1.000 -< 2.000 2.000 -< 3.000 3.000 -< 4.000  au départ d’une distribution selon les valeurs : facile ! 26 Pourquoi un effectif de 5 ? 1 + 1 + 3 = 5

27 Les distributions en classes Tableau 1.4 : tableau des effectifs et des fréquences ( début ) Observer les 3 premières colonnes : description des classes :  « p/k » : numéro de la ligne (double numérotation nécessaire après)  « Bornes des classes » = les limites de chaque classe  « Centre de classe » : o pour la 1 re classe : (1.000 + 2.000)/2 o c’est bien le centre o valeur utile pour la suite o valeur symbolisée par « x p » 27

28 Les distributions en classes Tableau 1.4 : tableau des effectifs et des fréquences ( début ) Observer les 3 premières colonnes : description des classes Comment obtenir les colonnes :  effectif (n p ) ? Déjà expliqué !  effectif cumulé (N k ) ? o 2 e ligne : 9 = 5 + 4 o ligne total : « SO » = « sans objet » = on ne met rien ! Imitation pour l’exercice d’application :  au départ du tableau 2, remplir les 5 premières colonnes du tableau 3 28

29 Les distributions en classes : théorie Tableau 1.4 Méthode d’application pour :  variables (implicitement) continues  aussi pour d’autres types, mais parfois seulement en partie (qualitatives) Les classes  groupements de valeurs contiguës  bornes / doubles comptes & omissions  amplitude  centre de (la) classe  classes ouvertes (pas pour nous) 29

30 Les distributions en classes : théorie Tableau 1.4 Les effectifs (absolus) ou n p  nombre d’observations dans la classe p   observations distribuées dans les classes   « DISTRIBUTION »  notation :  1.500  5  à 1.500, on associe 5, soit le nombre d’observations de la 1 re classe  x 1  n 1 : généralisation pour la 1 re ligne de tous les tableaux  x p  n p : généralisation pour toutes les lignes de tous les tableaux 30

31 Les distributions en classes : théorie Tableau 1.4 Idée : la somme de l’effectif de toutes les classes donne « n » Traduction de l’idée en langage mathématique, en équation 31 application… au tableau 1.4 application… à tous les tableaux de 3 lignes introduction du sigle de sommation généralisation à un tableau quelconque formule « officielle » (cf. formulaire)

32 Les distributions en classes : théorie Sigle de sommation pour les hésitant(e)s 32 explication pas à pas sigle de sommation : on veut faire une somme, une addition on veut faire une somme d’effectifs  n p à droite du sigle  « p = 1 » : le 1 er élément de la somme = l’effectif de la 1 re ligne « 3 » : le dernier élément de la somme = l’effectif de la 3 e ligne entre le 1 er et le dernier, on prend « tout » !

33 Les distributions en classes : théorie Effectif cumulé définition : somme des effectifs  de la classe k  des classes qui précèdent (selon un ordre croissant) exemple du tab. 1.5 : si k = 2, N 2 = l’effectif de la 2 e classe  Interprétation : 9 observations avant 3.000 C/J  33

34 Les distributions en classes : théorie Effectif cumulé exemple du tab. 1.5 : si k = 2, N 2 = l’effectif de la 2 e classe autre exemple : si k = 6 et P = 10 (toujours 1 ≤ k ≤ P) si k et P quelconques (1 ≤ k ≤ P) l’effectif cumulé de la dernière classe, soit k = P : 34

35 Les distributions en classes : théorie Effectif cumulé Formule générale : si k et P quelconques (1 ≤ k ≤ P) Autres effectifs cumulés (pas pour nous) :  sans prendre en compte la classe k  en prenant en compte les classes supérieures (ou égales) Variables qualitatives et N k ?  Sens ou pas ? Pourquoi ?  Pas de sens, car ordre n’a pas de sens ! Variables quantitatives groupées selon les valeurs et N k ?  Sens ou pas ? Pourquoi ?  Sens, car ordre a du sens ! 35

36 Les distributions en classes Les fréquences (cumulées) Observer les 2 dernières colonnes Sur la 2 e ligne, comment obtenir la colonne des  fréquences (f p ) ? 0,36 = 4/11  fréquences cumulées (F k ) ? 0,82 = 9/11 Imitation pour l’exercice d’application :  au départ du tableau 2 de l’exercice d’application  remplir les 2 dernières colonnes du tableau 3 36

37 Les distributions en classes Les fréquences ou « f p » définition : proportion des observations dans la classe p proportion = part = pourcentage = % Si p = 2, f 2 = fréquence de la 2 e classe  sous forme décimale, arrondie à 2 décimales  sous forme de % sans décimale  interprétation : 36 % des observations sont dans la 2 e classe 37

38 Les distributions en classes Les pourcentages (%) Pour calculer un pourcentage : Pour f 2 :  le tout = 11 = n = l’ensemble des individus interrogés  la partie = 4 = n 2 = l’effectif de la classe 2 qui est une partie des 11  en %, arrondi à 0 décimale  en %, arrondi à 2 décimales  si pas déjà fait, urgent de trouver la fonction « fix » 38

39 Les distributions en classes Les fréquences ou « f p » généralisation : la somme de la fréquence de toutes les classes donne 1 ou 100 %  « démonstration » :  attention aux effets d’arrondis : 0,45+0,36+0,18 ≠ 1,00 ! (Plus tard)  Une question ? Pourquoi calculer les fréquences ? 39

40 Les distributions en classes Fréq. cumulées ou « F k » 2 « définitions » :  somme des fréquences de la classe k et des classes qui précèdent  effectif cumulé de la classe k divisé par n Si k = 2, F 2 = fréquence cumulée de la 2 e classe  formule 1  formule 2   Interprétation : 82 % des observations avant 3.000 C/J 40

41 Les distributions en classes Fréquences cumulées : quelle formule choisir ? Si k = 2, F 2 = fréquence cumulée de la 2 e classe  formule 1  formule 2 Mais 0,81 ≠ 0,82 !  Problème ? Non, car arrondis :   une fois de plus : utilisation de la fonction « fix »  à vous de réagir maintenant + exercice dans le syllabus 41 Plutôt prendre la 2 e formule : moins de problèmes d’arrondis

42 Les distributions en classes Fréquences cumulées Généralisation : pour k et P quelconques (1 ≤ k ≤ P) Si k = P (fréquence cumulée de la dernière classe) 42

43 Les distributions en classes Exercices 1, 2 et 3 : remplir rapidement les colonnes « fréquence (simple) » ou « f p » « fréquence cumulée » ou « F k » Exercice 4 (type de question souvent posé) Exercice 5 (idem) Exercice 6 (sur données réelles) Exercice 7 (idem) Exercice 8 (idem) : calculs déjà faits  commentaires Rappel des formules : 43

44 Les distributions en classes Pourquoi calculer les fréquences ? Soit à comparer les résultats en stat dans 2 sections (A et B) : dans quelle section les résultats sont-ils les meilleurs ? Résultats sous forme d’effectifs Conclusion : comparaison difficile  pourquoi ?  car totaux différents : 190 ≠ 92 (même si ici du simple au double…)  difficile voir si résultats meilleurs en A ou B. Or, c’est la question !  solution : passer par les fréquences 44 pFilière AFilière B 10 -< 2616 22 -< 85423 38 -< 103618 410 -< 123213 512 et +6222 Total−19092

45 Les distributions en classes Pourquoi calculer les fréquences ? Résultats sous forme d’effectifs et de fréquences Conclusion : comparaison bien plus aisée  Où les meilleurs résultats ? Justifiez.  Si hésitation, calculez les n p et les f p  Que choisir pour analyser une situation ? Variable selon la question :  Si comparaison de classes ou d’écoles ? f p  Si prévoir le nombre de copies en 2 e session ? n p  Même si une seule section, lecture avec les %  plus aisée  plus parlante 45 En gros, TOUJOURS intéressant de calculer les fréquences !

46 Les distributions en classes Pourquoi calculer les fréquences cumulées ? Indications précieuses pour la comparaison % en échec profond (< 8) ? % en échec (< 10) ? % inférieur à 12 ? Très utiles dans certains calculs ( médiane, quantiles… chap. 3 ) Si hésitation, les calculer et voir… 46 Fréquences (%)Fréquences cumulées (%) pFilière AFilière BFilière AFilière B 10 -< 23,217,43,217,4 22 -< 828,425,031,642,4 38 -< 1018,919,650,562,0 410 -< 1216,814,167,476,1 512 et +32,623,9100,0 Total−100,0 SO b

47 Les distributions en classes Variables qualitatives et distribution (p. 10) Peut-on calculer des  effectifs ?Oui  effectifs cumulés ?Non  fréquences ?Oui  fréquences cumulées ?Non Exemple en page 10 47 p/kxpxp npnp NkNk fpfp FkFk 1 Cohabitant(e) 2SO0,18 SO 2 Marié(e) 2 SO 0,18 SO 3 Divorcé(e) 1 SO 0,09 SO 4 Célibataire 6 SO 0,55 SO 5 Veuf(ve) 0 SO 0,00 SO 6 Séparé(e) 0 SO 0,00 SO Tot. ― 11 SO 1,00 SO Sans objet

48 Les distributions en classes Variables qualitatives et distribution Peut-on constituer des « classes » ?  Oui : en union <> pas en union 48 p/kxpxp npnp NkNk fpfp FkFk 1 Cohabitant(e) 2SO0,18 SO 2 Marié(e) 2 SO 0,18 SO 3 Divorcé(e) 1 SO 0,09 SO 4 Célibataire 6 SO 0,55 SO 5 Veuf(ve) 0 SO 0,00 SO 6 Séparé(e) 0 SO 0,00 SO Tot. ― 11 SO 1,00 SO p/kxpxp npnp NkNk fpfp FkFk 1En union4SO0,36SO 2Pas en union7SO0,64SO Tot. ― 11SO1,00SO

49 Les distributions en classes Commentaires finals (ou finaux : au choix) Vocabulaire : une généreuse pagaille  effectifs absolus ou relatifs  fréquences absolues ou relatives  dans ce cours :  effectif = nombre absolu  fréquence = nombre relatif (%)  ailleurs ou autre prof ? Exercices : exercez-vous !  écrire les calculs (au moins quelques uns)  en extension avec les chiffres  en extension avec les symboles  avec les formules condensées  si problème avec les %, les arrondis, la calculette… 49

50 Tableau à double entrée ou Tableau de contingence ou … 50

51 Tableau à double entrée  Tableau 1.8 (p. 12)  Constitué sur la base du tableau 1.1  Interprétation de quelques données : o 4 : parmi les 11, 4 sont des femmes célibataires o 6 : au total, 6 célibataires dans le tableau o 7 : au total, 7 femmes dans le tableau  Pour classer un « i » que faut-il connaitre à son sujet ?  Quoi en bout de ligne ou de colonne ?  Données individuelles ou groupées ? Distribution ou pas ?  Possibilité d’une critique à propos de la cohérence…  Exercice d’application (Exercice 1.a) Statut matrimonial Sexe Célibataire (q = 1) Cohabi. (q = 2) Marié(e) (q = 3) Divorcé(e) (q = 4) Total Homme (p = 1) 21104 Femmes (p = 2) 41117 Total 622111 51

52 Tableau à double entrée  Tableau 1.8 (p. 12)  Originalité : classement selon 2 variables (et plus une seule)  Dans le tableau 1.8, classement selon : o le sexe (indice « p » variant de 1 à 2, avec P = 2) homme = 1 femme = 2 o le statut matrimonial (indice « q » variant de 1 à 4, avec Q = 4)  Pas toujours 2 variables qualitatives (cf. syllabus) Statut matrimonial Sexe Célibataire (q = 1) Cohabi. (q = 2) Marié(e) (q = 3) Divorcé(e) (q = 4) Total Homme (p = 1) 21104 Femmes (p = 2) 41117 Total 622111 célibataire = 1 cohabitant(e) = 2 marié(e) = 3 divorcé(e) = 4 52

53 Tableau à double entrée  Tableau 1.8 (p. 12)  Notation des effectifs (absolus) : o n 14 lire : « n un quatre » (et pas « n quatorze ») = l’effectif des hommes (p = 1) divorcés ( q = 4) vaut 0 (soit un nombre comme un autre…) o n pq = l’effectif de sexe p et de statut matrimonial q = un des 8 effectifs dans les cases internes du tableau Statut matrimonial Sexe Célibataire (q = 1) Cohabi. (q = 2) Marié(e) (q = 3) Divorcé(e) (q = 4) Total Homme (p = 1) 21104 Femmes (p = 2) 41117 Total 622111 53

54 Tableau à double entrée  Contenu des marges o somme de la 2 e ligne le total des femmes, tous statuts matrimoniaux confondus généralisation pour le sexe p : 54

55 Tableau à double entrée  Les effectifs  Notation symbolique  Total général : n ●● = 11= somme des 8 cases internes du tableau = somme de la colonne « Total » = somme de la ligne « Total » = n Statut matrimonial Sexe Célibataire (q = 1) Cohabi. (q = 2) Marié(e) (q = 3) Divorcé(e) (q = 4) Total Homme (p = 1) 21104 Femmes (p = 2) 41117 Total 622111 Statut matrimonial Sexe Célibataire (q = 1) Cohabi. (q = 2) Marié(e) (q = 3) Divorcé(e) (q = 4) Total Homme (p = 1) n 11 n 12 n 13 n 14 n1●n1● Femmes (p = 2) n 21 n 22 n 23 n 24 n2●n2● Total n●1n●1 n●2n●2 n●3n●3 n●4n●4 n ●● 55

56 Tableau à double entrée  Fréquences (relatives = part, proportion, %...) o = fréquence pour le sexe p et le statut matrimonial (SM) q = part des observations de sexe p et le SM q = (fois 100 si en %) o Idem fréquences déjà vues, MAIS 3 totaux ≠ possibles ! o Cf. tableaux 1.10, 1.11 et 1.12 (en page 13, établis au départ du tableau 1.8) 56

57 Tableau à double entrée  Fréquences (relatives = part, proportion, %...) o Tableau 1.10 (1 er total possible) Comment les % sont-ils calculés au départ du tableau 1.8 ? Applicable à TOUTES les cellules de 1.10 sans état d’âme « Logique de ligne » = le diviseur est en bout de ligne dans tableau 1.8 –Exemple : le % de célibataires parmi les femmes – –Interprétation : 57,14% des femmes sont célibataires o Application à l’exercice 1.b (en commençant par les 3 calculs sous le tableau) 57

58 Tableau à double entrée  Fréquences (relatives = part, proportion, %...) o Tableau 1.11 (2 e total possible) Comment les % sont-ils calculés au départ du tableau 1.8 ? Applicable à TOUTES les cellules de 1.11 sans état d’âme « Logique de colonne » = le diviseur est en bas de colonne du tableau 1.8 –Exemple : le % de femmes parmi les célibataires – –Interprétation : 66,67% des célibataires sont des femmes –À comparer à « 57,14% des femmes sont célibataires » ! o Application à l’exercice 1.c (en commençant par les 3 calculs sous le tableau) 58

59 Tableau à double entrée  Fréquences (relatives = part, proportion, %...) o Tableau 1.12 (3 e total possible) Comment les % sont-ils calculés au départ du tableau 1.8 ? Applicable à TOUTES les cellules de 1.12 sans état d’âme « Logique par rapport au total » = le diviseur est le total (général) du tableau 1.8 –Exemple : le % de femmes célibataires dans le total (général) – –Interprétation : 36,36% du total sont des femmes célibataires o Application à l’exercice 1.d (en commençant par les 2 calculs sous le tableau) 59

60 Tableau à double entrée  Fréquences (relatives = part, proportion, %...) o 3 types différents de fréquences selon le diviseur o Interprétation ≠  autre type de renseignement ! o À ne pas confondre ! o À choisir en fonction de la question posée ! 60

61 Tableau à double entrée  Choix du type de fréquence selon la question posée o Soit à comparer le % de mariés parmi les hommes et les femmes o Si difficultés, y aller pas à pas : identifier le 1 er % nécessaire, soit dans l’exemple : –le % de mariés parmi les hommes (expression « habituelle ») –le % d’hommes mariés par rapport au total des hommes (expression inhabituelle) identifier le dénominateur : –le mot après « parmi » –soit « les hommes », sous-entendu « le total des HO » = 4 identifier le numérateur : cf. écran suivant le % de mariés parmi les hommes 61

62 Tableau à double entrée  Choix du type de fréquence selon la question posée o Soit à comparer le % de mariés parmi les hommes et les femmes o Si difficultés, y aller pas à pas : identifier le 1 er % nécessaire : le % de mariés parmi les hommes (HO) identifier le dénominateur : les hommes (le total des HO) = 4 identifier le numérateur : les hommes mariés = 1 procéder à la division (ou choisir le bon tableau) : même procédure pour le 2 e % : comparer les 2 % et conclure : « le % de mariés est plus important parmi les HO (25%) que parmi les FE (14%) » ce qui est potentiellement une information intéressante 62

63 Tableau à double entrée  Choix en cas de questions directes : soit à comparer le % o de célibataires parmi les hommes et les femmes ? o d’hommes et de femmes parmi les célibataires ? o d’hommes parmi les célibataires et les divorcés ? o d’HO célibataires et de FE divorcées dans la population totale ?  Choix en cas de questions moins directes : o parmi les célibataires, quel sexe domine ? o le déséquilibre HO/FE est-il le même parmi les célib. et les divorcés? o le célibat touche-t-il proportionnellement plus les HO que les FE ? Éventuellement 2 façons de comprendre la dernière question : le célibat touche-t-il une plus grande % d’individus parmi les HO (HO = 100% ) que parmi les FE (FE = 100%) ? les célibataires comptent-ils plus d’HO. que de FE. (célibataires = 100%) ? Si hésitation, tout calculer et regarder ! 63

64 Tableau à double entrée  Exercices prioritaires (avec correction au cours) : o Exercice 1 (si pas déjà fait complètement) o Exercice 4 (question d’un examen d’une année antérieure) o Exercice 5 (idem + une apparence de contradiction)  À faire, mais sans correction au cours (cf. site) : o Exercice 2 o Exercice 3  Pour les plus rapides : syllabus, exercice 1.9 & 1.10, p. 15  Pour tous, au travail ! 64

65 Chapitre 1. Résumé  Que diriez-vous ?  Voici mon résumé. À vous de voir si cela vous convient !  Super-résumé en 2 questions : si étude statistique, o que faire avant de commencer ? o que faire pour commencer ?  Avant de commencer, identifier : o les unités et la population sous observation (i et n) o la variable et ses caractéristiques (X et x i ; quali.<>quanti. ; discrète<>discrète)  Ensuite, mettre de l’ordre et GROUPER o tableau des effectifs et des fréquences (mécanique + p, x p, n p, f p, N k et F k ) o tableau à double entrée : choix du type de fréquence  Bref, commencer à s’approprier les données (rappel : idée générale) 65


Télécharger ppt "Chapitre 1 Généralités sur les données 1. Chapitre 1. Généralités sur les données Objectif : « prendre possession des données » Thème traité (avec d’autres."

Présentations similaires


Annonces Google