Comprendre la variation dans les données: Notions de base

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Comprendre la variation dans les données: Notions de base

Expérience de la pièce de monnaie

La Statistique c ’est quoi? C’est la science de la collecte, de l’organisation et de l’interprétation de faits numériques, ce que l’on appelle les données (Moore et McCabe). Collecte: par exemple, lors de la planification des sondages, population cible, organisation de questionnaires, plan de sondage, etc. Organisation: une fois les données obtenues, il faut les traiter, les coder, avant de procéder aux analyses. Interprétation: choix des techniques statistiques, partie scientifique mais aussi artistique.

Vocabulaire de base de la statistique: Population: ensemble des personnes, objets ou éléments sur lesquels on veut effectuer l ’étude. Individu: chacun des éléments de la population. Caractère (variable) : caractéristique relative à chacun des individus de la population et sur laquelle on veut faire porter l ’étude.

Les mesures de tendance centrale Moyenne: Somme des données / Nombre de données.

Médiane: La médiane est un nombre tel que la proportion des observations qui lui sont inférieures est tout au plus de 50% et la proportion des observations qui lui sont supérieures est tout au plus de 50%. P(X < Md)  50% et P(X > Md)  50% .

Si N (ou n) est impair, la médiane correspond alors précisément à la donnée du milieu lorsque les données sont mises en ordre croissant. Si N (ou n) est pair, la médiane correspond alors à tout nombre situé entre les deux données du centre des données mises en ordre croissant

Les mesures de dispersion Maintenant que nous connaissons la tendance centrale d ’une distribution, nous pouvons nous demander si les valeurs de la variable sont fortement concentrées autour de cette tendance centrale ou, au contraire, si elles sont très différentes, très dispersées.

L ’étendue: L ’étendue d ’une distribution est la largeur totale de celle-ci. L ’étendue = Maximum - Minimum. Pour une variable continue ou discrète avec valeurs regroupées en classes: l ’étendue = borne supérieure de la dernière classe - borne inférieure de la première classe. Exemples.

La variance: La variance d ’une distribution (2) est la moyenne des carrés des écarts, par rapport à la moyenne, de toutes les valeurs de celle-ci.

L ’écart type: L ’écart type d ’une distribution () est simplement défini comme la racine carré de la variance.

Interprétation de l ’écart type En général on retrouve : une grande proportion des données dans l ’intervalle [  -  ,  +  ] (souvent entre 50 et 70%), souvent plus de 95% des données dans l ’intervalle [  - 2 ,  + 2 ], toutes les données (ou presque 100%) dans l ’intervalle [  - 3 ,  + 3 ].

Représentation graphique des données Histogramme

L ’échantillonnage Notre connaissance, nos attitudes et nos actions sont basés, en grande partie, sur des échantillons. Par exemple, l’opinion d’une personne sur une institution ou une entreprise qui fait des milliers de transactions dans une journée est souvent déterminé par seulement une ou deux rencontres avec cette institution.

Recensement vs Échantillon Recensement = vérité l’information que l’on désire est disponible pour tous les individus de la population étudiée. Échantillon = estimation de la vérité l’information n’est disponible que pour un sous-ensemble des individus de la population étudiée.

Avantages d’un échantillon Coût réduit Rapidité accrue Offre plus de possibilités dans certains cas il peut être impossible de faire un recensement (ex: contrôle de qualité) Peut-être plus précis! cas où une main-d’œuvre hautement qualifiée est requise pour la collecte des données

Échantillons probabilistes et non probabilistes

Les erreurs d’échantillonnages Erreur aléatoire différents échantillons vont produire différentes estimations de la caractéristique de la population à l’étude Erreurs systématiques - biais échantillon non probabiliste échantillon probabiliste mais avec un taux élevé de non-répondants instrument de mesure biaisé

Remarques : Les résultats obtenus dépendent de l ’échantillon prélevé. Si les échantillons sont prélevés selon les règles de l ’art, tous les résultats devraient se ressembler. Pour un tirage aléatoire simple, chaque individu de la population a la même chance d ’être sélectionné à chaque tirage. Pour un tirage aléatoire simple, il y a plusieurs échantillons possibles et qui sont différents. Tous les échantillons possibles de même taille ont la même chance d ’être sélectionnés.

Qu’est-ce qu’une statistique Mesure calculée à partir d’un échantillon Ex: moyenne, écart-type Cette estimation varie donc d’un échantillon à l’autre. La distribution d’une statistique est obtenue à partir de l’histogramme des valeurs potentielles de la statistique Suppose une distribution , comme la distribution normale On utilise des méthodes de simulation appelées méthodes de Monté-Carlo