Méthodologie de l’observation

Slides:



Advertisements
Présentations similaires
Pr. Abdelkrim EL MOUATASIM EST de Guelmim Maroc
Advertisements

Présentation des données
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Inférence statistique
Licence 3ème année de sociologie Semestre 1
L’analyse de graphique
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
Statistiques descriptives
INF L14 Initiation aux statistiques
Traitement de données socio-économiques et techniques d’analyse :
Les principaux résumés de la statistique
Statistique descriptive, analyse de données
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Tableaux de distributions
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
La traitement des données
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
Séries chronologiques et prévision
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Méthodes de Biostatistique
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Activité 1 sommaire Vous avez redécouvert ce que l'on appelle le principe 68%-95%-99,7% : Ce principe est valable pour des distributions de fréquences.
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Analyse statistique de base
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Intervalles de confiance pour des proportions L’inférence statistique
ANALYSE D’UN ÉCHANTILLON PORTANT SUR UNE VARIABLE STATISTIQUE
Seconde partie Cours de seconde
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Td sur la statistique descriptive. Enoncé du problème On a étudié la taille en cm chez 20 enfants de quatrième année primaire à l’école Constantine année.
Introduction à une analyse statistique de données
Collège Fontaine des Ducs
Statistiques Cours de seconde.
Concepts fondamentaux: statistiques et distributions
Statistiques Licence 2 LEA
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
PARAMETRES STATISTIQUES
Chapitre 4 Variables aléatoires discrètes
STATISTIQUES DESCRIPTIVES
Chapitre 2 La statistique descriptive I
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Analyse des semis de point
Statistique Descriptive Les Paramètres de Tendance Centrale
Seconde 8 Chapitre 4: Les statistiques
Rapport 20 Final 40 Partiel TD.
Statistiques Première partie Cours de première S.
Opération et systèmes de décision Faculté des Sciences de l ’administration MQT Probabilités et statistique Les statistiques descriptives.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Paramètres de position et de dispersion
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Les mesures de tendance centrale
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

Méthodologie de l’observation Partie B Statistiques Cours 4

Recherche de description Rappel = décrire les caractéristiques (les distributions) d’une ou plusieurs variables mesurées sur un échantillon ou une population. 2 caractéristiques à dégager : les indices de tendance centrale des données les indices de dispersion Présentation des informations et données les transformations possibles et nécessaires des données les représentations graphiques des résultats

L’indice de tendance centrale = indique la caractéristique la plus représentative de tous les individus du groupe en la ramenant à un individu type qui se situerait au « centre » de la distribution Il rend possible la comparaison entre des groupes d’individus différents sur base de la mesure d’une même variable Ex : les éléphants d’Afrique ont « en moyenne » une masse supérieure à celle des éléphants d’Asie

L’indice de dispersion = exprime l’étendue de la variabilité des observations Les données peuvent être concentrées autour de la tendance centrale ou au contraire très dispersées Exemple : un groupe d’élèves (classe A) avec une moyenne de 10/20 mais dont les résultats en fin d’année s’étendent de 5/20 à 18/20 un groupe d’élèves (classe B) avec une moyenne de 10/20 mais dont les cotes s’établiraient de 9/20 à 14/20  La classe A a un indice de dispersion supérieur à la classe B

Les indices de tendance centrale Echelle nominale  le mode Echelle ordinale  la médiane Echelle intervalle  la moyenne

Pour les échelles nominales : le mode Le mode (Mo) = la modalité de la variable nominale dont la fréquence (absolue et relative) est la plus élevée 2 modes  distribution bimodale 3 modes  distribution trimodale Exemple : tableau des fréquences pour la variable « type d’étude » Le mode de la variable « type d’étude » est la modalité « médecine » Modalités Fréquences (fi) Pourcentages (Pi) économie médecine droit philo 40 80 30 50 20 15 25 Total 200 100

Pour les échelles ordinales : la médiane La médiane (Md) = la valeur qui divise exactement en deux la distribution de l’échantillon, de manière qu’il y ait 50% des observations qui la précèdent et 50% qui la suivent (les catégories ou les scores étant rangés au préalable). Remarque: Le mode (Mo) peut également être utilisé pour résumer une distribution constituée de catégories ordonnées . Il définit la modalité qui recueille la plus haute fréquence.

Calcul du médian Il faut commencer par classer les modalités par ordre croissant !! Si n est pair, le rang médian tombe à mi-chemin entre les deux résultats centraux. On choisit de considérer comme médian, celui qui est immédiatement au-dessus Md = (N/2) +1 Si n est impair, la médiane est exactement l’observation du milieu : Md = (N+1) /2

Exemple On examine, sur base d’un échantillon de 20 étudiants, quel serait leur degré de motivation à suivre une session de formation : 1= très peu motivé , 2 = peu motivé , 3 = motivé , 4 = très motivé N = 20 = pair  N/2 +1 = 11 l’observation à prendre en considération est la 11ème. la modalité médiane = la catégorie 2 (peu motivé) Modalités Effectifs (fi) Effectifs cumulés 1 2 3 4 8 6 12 18 20 Total

Exemple Scores Effectifs (fi) effectifs cumulés 156 160 162 166 167 169 170 175 177 182 185 1 2 3 4 6 7 8 11 12 14 15 Total On classe un échantillon de 15 élèves en fonction d’un score (sur 200 points) obtenu à un test N = 15 = impair  (N+1) /2 = 8  l’observation qui nous intéresse est la 8ème La valeur de ce 8ème rang est de 170  La médiane = 170

Pour les échelles d’intervalle : la moyenne La Moyenne est l’indice le plus fréquemment utilisé dans le cas des échelles d’intervalle. Pour calculer la moyenne, il suffit d’additionner tous les résultats et de diviser cette somme par l’effectif : m = (Somme Xi/n) Remarque: Le mode peut également être utilisé La médiane = la valeur de la variable telle qu’il existe autant de mesures qui lui soient inférieures que de mesures qui lui soient supérieures

Exemple On a relevé la taille exprimée en cm de 30 individus adultes Tailles Effectifs effectifs c. 158 160 162 164 168 170 172 175 179 180 183 185 188 189 2 1 3 4 5 6 7 11 12 15 20 22 24 25 26 29 30 Total On a relevé la taille exprimée en cm de 30 individus adultes µ = 5198 / 30  La moyenne = 173.27 cm La médiane = 175 cm Le mode = la modalité 175 cm

Remarques La moyenne est très fort influencée par les extrêmes Ex : Calculer le salaire moyen de 5 joueurs de foot 4 joueurs gagnent 100.000 Euros par année, le 5ème joueur gagne 1.000.000 par année. Le salaire moyen = 280.000 Euros  Dans ce cas, la moyenne ne reflète pas nécessairement bien toute la réalité La médiane permettra alors de synthétiser ces données sous un autre angle

Remarques Le mode est facilement repérable et interprétable. Cependant, il ne tient pas compte de toutes les données et ne se prête pas au traitement arithmétique La médiane est facilement interprétable et aisée à déterminer mais elle ne se prête pas aux traitements arithmétiques La moyenne est facilement interprétable, aisée à calculer et se prête bien aux traitements arithmétiques

Les indices de dispersion Les indices de dispersion nous fournissent une information sur la façon dont les données sont distribuées autour de la tendance centrale Deux séries statistiques peuvent avoir une même moyenne mais présenter un étalement différent autour de cette valeur moyenne

Les indices de dispersion Echelle nominale  (l’entropie) Echelle ordinale  l’espace interquartile Echelle intervalle  l’écart-type

Pour les échelles nominales S’il existe un indice de dispersion approprié à une échelle nominale (l’entropie), dans la pratique, il est rarement calculé et utilisé Une distribution d’une variable caractérisée par des effectifs égaux dans toutes les classes sera considérée comme peu homogène, fort dispersée Une distribution où une des modalités reçoit tout l’effectif de l’échantillon sera définie comme très homogène, non dispersée

Pour les échelles ordinales L’espace interquartile = comprend 50% des observations, celles qui sont les plus centrales  espace interquartile  I----------------I--------------------I---------------------I----------------------I 0 25% 50% 75% 100% = l’espace compris entre les quartiles 1 et 3  Q1 = la valeur en dessous de laquelle se trouvent 25% des observations inférieurs Q3 = la valeur en dessous de laquelle se trouvent 75% des observations inférieures

Calcul de l’espace interquartile Le rang de Q1  on calcule N/4, puis on cherche dans l’effectif cumulé à quelle modalité ce rang appartient Le rang de Q3  on calcule (N/4) x 3, puis on cherche dans l’effectif cumulé à quelle modalité ce rang appartient Espace interquartile = Q3-Q1 Modalités Effectifs (fi) effectif cumulé 1 2 3 4 8 6 12 18 20 Total Exemple: Le rang de Q1 est : n/4 = 20/4 = 5  modalité 2 Le rang de Q3 est 3*n/4 = 3*20/4 = 15  modalité 3 L’espace interquartile = Q3-Q1 = 3-2=1

Autre exemple Scores Effectifs (fi) effectifs cumulés 156 160 162 166 167 169 170 175 177 182 185 1 2 3 4 6 7 8 11 12 14 15 Total Le rang de Q1 = 3.75 = rang 4 Le rang 4 correspond à un score de 166 Le rang de Q3 = 11.25 = rang 11 Le rang 4 correspond à un score de 175 Q3-Q1 = 175-166 = 9  c’est sur l’espace de 9 intervalles que se répartissent les 50% d’observations les plus centrales

Pour les échelles d’intervalle L’écart-type est l’indice de dispersion qui, correspondant à la moyenne, est le plus utilisé pour les échelles d’intervalle L’écart-type nous donne un indice de la dispersion des observations Il correspond à la racine carrée de la variance. La variance = la moyenne arithmétique des carrés des écarts à la moyenne  =  (  (xi – m)² / n – 1 )

L’écart-type Il sert à caractériser l’écart plus ou moins grand de l’ensemble des valeurs par rapport à la valeur moyenne Si la dispersion est faible, cela signifie que les résultats sont groupés autour de la moyenne. Si la dispersion est forte, cela signifie que les résultats sont fort dispersés autour de la moyenne. Remarque : l’écart-type est différent de l’étendue. L’étendue est la différence entre la plus grande et la plus petite de s valeurs observées

Exemple Imaginons que deux professeurs procèdent à la correction de 5 copies La moyenne des deux professeurs est la même : 11/20 Pourtant les 2 profs ont coté de manière différente : les notes du prof A se situent entre 6 et 16 les notes du prof B se situent entre 3 et 19. L’écart type des notes pour le prof A = 3.81 L’écart-type des notes pour le prof B = 6.20 Elèves A B C D E Prof A 9 11 9 13 16 Prof B 8 10 3 15 19

Exemple Moyenne Médiane Ecart-type Ensemble 1 : 20, 20, 20 20 Ensemble 2 : 10, 20, 30 8.16 Ensemble 3 : 1, 2, 39 15.51 Dans les trois cas, la moyenne est égale à 20, ainsi que la valeur de la médiane. On ne saurait pour autant conclure que les trois ensemble sont identiques.  la variabilité des données est plus grande dans l’ensemble 3 que dans l’ensemble 2 et 1

Les Transformations de données Pour les échelles nominales la transformation de fréquence absolue en fréquence relative (%) le pourcentage = (fréquence / n) *100 Modalités Fréquence absolue Fréquence relative (%) A B C D 50 40 30 80 25 20 15 Total 200 100

Les Transformations de données Pour les échelles ordinales Pour comparer plusieurs variables ordinales observées sur un même échantillon, on peut déterminer, pour chacune de ces variables, les déciles ou les centiles Le premier décile (D1) = la valeur correspondant à l’observation telle que 10% des observations soient inférieurs et 90% des observations supérieures Rang de D1 = (n*1)/10 Les centiles sont obtenus en divisant l’effectif par 100 et en le multipliant par le nombre correspondant au centile voulu : Rang du C35=(n*35)/100

Les Transformations de données Pour les échelles d’intervalle  Pour comparer deux distributions obtenues sur des échelles d’intervalle d’un même échantillon, on transforme les données de chaque distribution en scores centrés réduits. Cette transformation consiste essentiellement à exprimer les données dans un système de mesure standard, correspondant à la courbe normale réduite, symbolisé par Z Zi = (Xi – m) / σ

Caractéristiques de la distribution normale réduite mode = médiane = moyenne = 0 l’écart-type vaut toujours 1 (σ =1) la distribution est symétrique par rapport à la moyenne On peut considérer que: 68% des sujets ont un score compris entre –1 σ et +1 σ 95% ont un score compris entre –2 σ et +2 σ 99,8 % ont un score compris entre –3 σ et +3 σ

Caractéristiques de la distribution normale réduite graphique de cette courbe : courbe de Gauss –3 σ –2 σ –1 σ µ 1 σ 2 σ –3 σ

Les représentations graphiques le graphique à barres (histogramme)  pour les échelles nominales, ordinales et d’intervalle le diagramme circulaire (pie, tarte)  pour les échelles nominales et ordinales la ligne brisée des fréquences  pour les échelles ordinales et d’intervalle

Graphique à barres

Diagramme circulaire

La ligne brisée des fréquences

Tableau de synthèse Nominale Ordinale Intervalle Indice de tendance centrale mode médiane moyenne Indice de dispersion Espace interquartile Écart-type Transformation de données % Déciles, centiles Scores centrés réduits Graphiques Histogramme, tarte Histogramme, tarte, ligne

Techniques spécifiques Quelques techniques souvent utilisées en statistiques descriptives … Uniquement dans le cas des échelles d’intervalle ! Les taux de croissance Les indices Les tableaux et figures Les transformations de données

Les taux de croissance  permet d’étudier l’évolution ou la variation d’un phénomène dans le temps Ex: le nombre d’étudiants à l’université Calcul de l’écart relatif = (valeur d’arrivée – valeur de départ) / valeur de départ =0.221 Calcul du taux de croissance = l’écart relatif *100 = 22% Année scolaire Nombre d’étudiants 1990-91 1991-92 1992-93 1993-94 1994-95 1995-96 1996-97 1997-98 1.182.784 1.237.616 … 1.469.423 1.444.038

Les indices Il est fréquent d’utiliser l’indice en base 100. Celui-ci est obtenu en multipliant par 100 la valeur d’arrivée divisée par la valeur de départ Indice en base 100 = (valeur d’arrivée / valeur de départ )*100 Dans notre exemple: l’indice en base 100 = (1.444.038 / 1.182.784) *100 = 122

Les tableaux et figures Pour les tableaux, figures, etc.: Une légende permet de préciser les différentes variables et leurs modalités respectives En dessous, indiquer les sources des données recueillies (ONSS, FOREM, …) Préciser les caractéristiques essentielles de la population concernée Un titre clair

Les transformations de données 1) proportion et pourcentage Ex: dans un échantillon, le nombre d’hommes = 20  en valeur relative, les hommes représentent donc 2/5 de l’échantillon (20/50)  soit 40% 2) Taux, parts, coefficients = proportions sous d’autres noms Ex: taux de scolarité 3) Les rapports à une donnée extérieure on rapport la partie à une donnée extérieure Ex: ratio financier, densité de population, rendement