Licence 3ème année de sociologie Semestre 1 Analyse de données quantitatives Séance 2 Enseignant: F. Lebaron
Séance 2: Les variables numériques. Indices de tendance centrale. Idée générale: on veut résumer la distribution observée par une valeur « centrale » qui la représente bien. Exemple: les notes d’un élève au Bac. Première réponse: on prend la valeur observée la plus fréquente. Exemple: l’élève a eu deux fois 11, et une seule fois toutes ses autres notes. Cette valeur s’appelle le mode.
Séance 2: Les variables numériques. Indices de tendance centrale. Autre réponse: on calcule la moyenne pondérée du protocole des notes. Exemple: les « coefficients » des différentes matières sont les pondérations retenues. Autre réponse: on cherche une modalité qui « sépare » les notes en deux groupes d’effectifs égaux ou quasi-égaux. C’est la problématique de la médiane, cas particulier des quantiles (protocoles ordinaux).
Notations I support du protocole : ensemble d’individus. À l’élément i de I on associe sa valeur xi Le protocole est noté xI et l’effectif nI. Fréquence
Définitions Total Moyenne Par définition, un protocole centré est de moyenne nulle
Somme des carrés (SC) Somme des carrés bruts (SCB): Somme des carrés centrés Identité de Huyghens:
Les limites de la moyenne La moyenne n’est pas toujours un « bon » indice de tendance centrale. Soit un pays à la population stable où le revenu annuel moyen est de 30000 dollars. En 5 ans, les revenus des 1% les plus riches, qui disposent de 20% du total de tous les revenus, augmentent de +50%, alors que tous les autres revenus restent stables. Le total des revenus augmente de +10% sans variation de population: le revenu annuel moyen est désormais de 33000 dollars. Pourtant la situation de 99% de la population n’a pas changé ! D’où le recours à la médiane.
Structure d’échelle ordinale On appelle échelle ordinale un ensemble d’observables muni d’un ordre total noté < ; les modalités (échelons) sont notées u1, u2,…, ul, … uL, avec u1 < u2 … < ul… < uL. Deux échelons successifs d’une échelle ordinale déterminent une coupure : la coupure entre u1 et u2 est notée 1|2, … celle entre ul et u(l+1) est notée l|l+1, etc.
Effectifs des modalités La distribution d’un protocole ordinal (protocole à valeur dans une échelle ordinale) est définie par l’effectif de chaque échelon : n1 (effectif de u1), n2 (effectif de u2), … nl (effectif de ul), avec
Effectifs cumulés A la coupure l|l+1, on associe l’effectif cumulé à gauche: Et l’effectif cumulé à droite:
La médiane Un protocole ordinal peut admettre : Une coupure médiane si cette coupure a autant d’observations (n/2) à gauche qu’à droite ; plus généralement, un intervalle médian s’il existe un ensemble d’échelons compris entre deux coupures, tels que le nombre d’observations à gauche de la coupure de gauche et le nombre d’observations à droite de la coupure de droite sont tous deux égaux à n/2 ; Un échelon médian, s’il existe un échelon observé pour lequel on a autant d’observations à droite qu’à gauche ; Sinon, le protocole admet un échelon quasi-médian, défini comme l’échelon pour lequel l’effectif cumulé à gauche et l’effectif cumulé à droite de cet échelon sont tous deux (strictement) inférieurs à n/2 ; parmi les deux coupures encadrant l’échelon quasi-médian, la coupure quasi-médiane est la coupure de gauche si l’effectif cumulé à gauche de l’échelon quasi-médian est supérieur à l’effectif cumulé à droite ; dans le cas contraire, c’est la coupure de droite. Protocoles numériques regroupés en classes : on calcule la médiane interpolée.