Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives Analyse des fréquences Les distributions.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Echantillonnage Introduction
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Optionnel de Statistique appliquée À la lecture critique d’articles
Licence 3ème année de sociologie Semestre 1
1. Les caractéristiques de dispersion. 11. Utilité.
Échantillonnage-Estimation
Les tests d’hypothèses
Régression -corrélation
L’OUTIL STATISTIQUE.
INF L14 Initiation aux statistiques
Les principaux résumés de la statistique
L’inférence statistique
Régression linéaire simple
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
19 février 2002 marketing - Danielle Léger 1 Réalisation : Danielle Léger Travail produit dans le cadre du cours EDU-7492 Réalisation : Danielle Léger.
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Modeles Lineaires.
La corrélation et la régression
La statistique descriptive
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
Plan la séance 10 Analyse des données quantitatives
Séries chronologiques et prévision
Les intervalles de confiance pour la moyenne d’une population
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Introduction à l’analyse statistique
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Analyse statistique de base
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
JEAN-MARC FONTAN SOC-1101 COURS 3
Intervalles de confiance pour des proportions L’inférence statistique
ANALYSE D’UN ÉCHANTILLON PORTANT SUR UNE VARIABLE STATISTIQUE
La collecte et la description des données
Seconde partie Cours de seconde
Introduction à une analyse statistique de données
Concepts fondamentaux: statistiques et distributions
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Dominic Beaulieu-Prévost Mars 2015, UQÀM
PARAMETRES STATISTIQUES
Statistique Descriptive Les Paramètres de Tendance Centrale
BIOSTATISTIQUES Définitions.
Paramètres de position et de dispersion
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Transcription de la présentation:

Introduction Les concepts de base

Thèmes La statistique - pourquoi? Les statistiques descriptives Analyse des fréquences Les distributions Les mesures de tendance centrale Quelle mesure faut-il prendre ? Les mesures de la dispersion La relation entre deux variables La statistique inférentielle

La statistique sert à ... La description des données Inférence: étude des caractéristiques d’une population à partir d’un sous-ensemble (échantillon) tiré de cette population Estimation des paramètres Vérification des hypothèses

Présentation de toutes les données

La statistique descriptive Hypothèse Données Conclusion Les étapes Poser une question Élaborer une étude (choix de l’échantillon, choix des mesures) Récolter les données Décrire les données Interpréter les données

Un exemple Question: Développement de la population Méthode: Recensions de la population au Canada

Tracé en arborescence

Type de variables Variable: Une variable est une caractéristique qui peut supposer plus d'un ensemble de valeurs auquel il est possible d'attribuer une mesure numérique Les variables nominales servent uniquement à catégoriser, aucun ordre et aucune métrique ne correspond à la classification (ex: couleur des yeux) Les variables ordinales fournissent un ordre. Pourtant les intervalles entre les catégories correspondant aux chiffres peuvent être variables (ex: mise en rang des préférences) Les variables par intervalles sont métriques. Des intervalles égaux et mesurables existent entre chacune des catégories, pourtant le point zéro est arbitraire (ex: échelles de température Fahrenheit et Celsius) Les variables de rapport sont des variables par intervalle avec un zéro absolu (ex: les fréquences absolues, l’échelle de température Kelvin)

Analyse des fréquences

Taille des personnes 59.0 62.0 70.0 72.5 74.5 59.5 70.5 60.5 63.5 71.0 73.0 61.0 75.0 64.0 71.5 67.5 72.0 68.0 73.5 76.0 69.5 76.5 77.0 74.0 79.0

Forme de la distribution Distribution bimodale Distribution symétrique moyenne = médiane = mode Biais positif: moyenne > médiane > mode Biais négatif: mode > médiane > moyenne

SPSS - Frequencies

Mesures de la tendance centrale Mode : Valeur ou catégorie d’une variable ayant la plus forte fréquence Médiane : Valeur qui divise le nombre des observations d’une distribution en deux parts égales Moyenne arithmétique : Somme pondérée des valeurs d’une variable

Exemple Données: nombre de partenaires sexuelles

Calcul du mode La valeur la plus fréquente

Calcul de la médiane Trier les observations selon leur ordre de magnitude Identifiez le chiffre au milieu Ex. : Quelle est la médiane de la série suivante ?: 11, 11, 13, 15, 17, 17, 17, 19, 19, 19, 19 et de celle-ci ?: 1,5,6,9,11,12

Calcul de moyenne µ = Sx/n Ex. : la moyenne de 1,2,3,6,6,7,9 est: La somme Sx est (1+2+3+…+9) = 34 Il y a n = 7 observations µ = 34 / 7 = 4.9

Autre types de moyennes Trimean: La somme du 25e quartile (Q1) plus deux fois le 50e quartile (Q2) plus le 75e quartile (Q3) divisé par 4. Donc: (Q1 + (2*Q2) + Q3)/4 Moyenne tronquée (trimmed mean): Avant de calculer la moyenne 5% des valeurs extrêmes sont enlevées (Ex: Notes de patinage artistique)

Exemple Tendence centrale Femmes Hommes Mode 1 Median 4 Moyenne 3.37 10.92 Trimean 1.50 4.75 Trimmed mean 2.40 6.92

SPSS - Explore

Quelle mesure faut-il prendre ? Échelle de mesure Distribution des données

Distribution Un chercheur pose la question à savoir combien de livres de statistique et de méthodologie possèdent les étudiants. Dans un groupe cours les 5 étudiants ont tous un livre de stats de leurs cours du CEGEP, du Bac et du Doctorat ainsi que deux livres de métho. Pour chaque cours - quelle mesure represente le mieux la tendence central de la distribution ? Il existe de maintes cas ou la médiane est effectivement la mesure qui represente le mieux ou se situent la plupart des cas. Des examples classiques sont des salaires des employés dans un entreprise ou la prix des maisons dans une ville. Les statistiques parametriques sont basées sur la moyenne. Dans ce cas l'analyse des cas extrème devient très importante.

Dans un autre cours, plusieurs étudiants ont vendu certains livres alors que d’autres étudiants ont acheté des livres plus spécialisés.

Finalement, dans un autre groupe cours, il y a une personne qui possède maintenant 12 livres.

Mesures de la dispersion Pourquoi? Les mesures de tendance centrale décrivent les observations "en général" ou "en moyenne". Les mesures de la dispersion nous informent jusqu'à quel point ces observations sont proche ou loin de leur "moyenne".

L’étendue La différence entre la valeur la plus grande et la valeur la plus petite. Cette mesure est très sensible aux valeurs extrêmes. Ex: 3 5 7 8 9 10 12 13 l’étendu: 13-3 = 10 Femmes: 100 Hommes: 253

Intervalle semi-interquartile La moitié de la différence entre le 75e quartile (Q3) et le 25e quartile (Q1). Donc: (Q3-Q1)/2. Cette mesure est très peu sensible au valeurs extrêmes. Femmes: 2 Hommes: 9

Écart-type Sommes des carrés (SC) = Variance (s2) = SS/N-1 Femmes: 39.08 Hommes: 552.63 Écart-type (s) = Femmes: 6.25 Hommes: 23.51

Erreur-type

La relation entre deux variables Galton voulait savoir si les enfants auront un peu près la même taille que leur parents. C-è-dire les enfants des parents qui eux sont grand sont grand eux-aussi et vice versa pour les enfants des parents qui sont petit. La question est donc s'il est possible de prédire la taille des enfants ou bien s'il y a un lien entre la taille des parents et la taille des enfants. Afin de répondre à cette question il faut mettre en relation la taille de chaque parent avec la taille de l'enfant pour tous les pairs. Il s'agit donc de connaître la variation simultanée des deux variables par rapport à leur moyenne respective. Une manière de faire sera de calculer la moyenne du produit des déviations des valeurs des variables par rapport à leur moyenne. Par contre, cette mesure varié selon l'échelle de mesure. On obtiendra une autre valuer quand on mesure la taille en pouce que quand on mesure la taille en centimetre. C'est pourquoi on privilège le coefficient de la correlation qui n'est rien que la covariance divisée par le produit des écart types des variables.

La covariance La moyenne du produit des déviations des valeurs des variables par rapport à leur moyenne. Cette mesure varie selon l'échelle de mesure. Ex: On obtient une valeur différente pour la taille quand on la mesure soit en pouce soit en centimètre.

La corrélation: La covariance divisée par le produit des écart types des variables Le coefficient de corrélation varie entre -1 et 1. Le signe correspond à la direction de la corrélation. Quand les deux valeurs augmentent ou diminuent ensemble il s'agit d'une corrélation positive. Quand une valeur augmente alors que l'autre diminue il s'agit d'une corrélation négative La taille absolue correspond au degré du lien entre les deux variables

Corrélation Dans le cas des données de Galton on retrouve efectivement une correlation positive entre les tailles des parents et les tailles des enfants. Par ailleurs, il était un étudiant de Galton, Karl Pearson qui avait calculer la taille d'un fils comme étant taille du fils = 35 + .5 * taille du père Ce calcul est basé sur une régression en utilisant les moindre carrés

Exemple Sir Francis Galton 1822-1911 Sir Francis Galton se posa la question à savoir s’il y a un lien entre la taille des parents et la taille de leurs enfants. Il a donc mesuré la taille de 952 parents et de leurs enfants.

Régression vers la moyenne

SPSS - Corrélations

Fenêtre des variables

Output

Scatterplot

Scatterplot

LE THÉORÈME DES LIMITES CENTRALES La statistique inférentielle LE THÉORÈME DES LIMITES CENTRALES

Un dé

Deux dés

Trois dés

Quatre dés

Le théorème des limites centrales Pour une variable x avec une distribution de moyenne µ et d’un écart-type , la distribution d’échantillonnage de la moyenne x , basé sur un échantillon aléatoire de la taille n, a: une forme qui approche la courbe normale pour les tailles d’échantillons larges une moyenne égale à µ et un écart-type égal à:

Les tests d’hypothèses Comparaison entre deux moyennes Estimation des paramètres

Stendhal (1839) La chartreuse de Parme J'avouerai que j'ai eu la hardiesse de laisser au personnages les aspérités de leurs caractères; mais, en revanche, je le déclare hautement, je déverse le blâme le plus moral sur beaucoup de leurs actions. A quoi bon leur donner la haute moralité et les grâces des caractères français, lesquels aiment l'argent par-dessus tout et ne font guère de péchés par haine ou par amour? Les Italiens de cette nouvelle sont à peu près le contraire.

Étude de Stieglitz et al.

Intervalle de confiance La moyenne m est un estimé de µ L’erreur-type (se) est un estimé de s Dans une distribution normale 68% des valeur se retrouvent dans la région d’un E.T. autour de la moyenne, 95% se retrouvent dans la région de deux E.T. autours de la moyenne

Intervalles de confiance 10 14 16 20

Intervalle de confiance de la différence m = 19.8-13.4 = 6.4

Statistique inférentielle Tests d’hypothèses

Logique du Test - T Si les deux échantillons proviennent d’une même population les moyennes devraient être à peu près identiques Nous comparons la différence entre les deux moyennes avec un estimé de la dispersion des moyennes dans la population (erreur-type). Quand la différence est plus grande que notre estimé de la dispersion laisse croire, les deux moyennes sont soit: Atypiques pour une seule population Typiques pour leur population et proviennent de populations différentes

Courbe t avec s = .06 Carl Friedrich Gauss Avril, 30 1777 (Braunschweig, Allemagne) - Février, 23 1855 (Göttingen, Allemagne)

SPSS - T-test W.S. Gosset (1905)