Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCyprien Monette Modifié depuis plus de 5 années
1
Partie 1 Retour aux sources (Back to basics)
2
Introduction Those who don’t know statistics are condemned
to reinvent it… David Freedman ( )
3
Introduction : Donner du sens aux données
4
Opérationnalisation des concepts en Sciences de Gestion
Section 1 Opérationnalisation des concepts en Sciences de Gestion
5
Du concept à la variable
opérationnalisation Une variable = une quantité ou qualité susceptible de fluctuer ou de varier. Souvent en sciences de gestion, les variables utilisées ne peuvent pas être mesurées de manière « objective » => On mobilise plutôt des variables latentes ou construit Exemple : Notoriété, image de marque, motivation, intention d’achat, implication, fidélité, engagement, confiance, utilité,… CONCEPT VARIABLE Ou CONSTRUIT
6
Cadre de base Boite : variable
Nature : nominale, ordinale, quantitative (ratio/métrique) Fleche : influence directionnelle ou non d’une variable sur une autre Sens, Forme, Force Dépendante (Y) et indépendante (X) X X Y
7
Variables quantitatives
Il existe 2 types de variables : Les variables quantitatives : mesurables sur une échelle … avec une unité: des valeurs réelles : donnée continue âge, CA, Prix ... de valeurs isolées : donnée discrète nombres d’enfants, nombre de voiture par foyer, ... NB. Parfois les variables discrètes sont traitées comme des variables continues
8
Variables qualitatives
Les variables qualitatives : non mesurables sur une échelle (notion de jugement), mais… - avec relation d’ordre : données ordinales (semi-quantitatives) - L’ordre est important Ex : Client classe A, B ou C selon la règle de Pareto - L’ampleur n’est pas importante: le client A n’est pas deux fois plus important que le client B Ex: intention d’achat : faible, modérée, forte sinon : données catégoriques (nominale) homme/femme marié/célibataire
9
Cadre de base Variable modératrice (1) : elle modifie la relation entre deux autres variables Variable médiatrice (2) : elle est intermédiaire pour expliquer la relation entre deux variables Ce n’est pas parce qu’une variable vous intéresse qu’elle est la plus importante Variables de contrôle 1 Z X Y 2 X Z Y W X Y
10
Des Variables aux construits latents
Des construits de ces variables « latentes » (non mesurables directement) sont obtenus à partir de la moyenne des réponses à des questions (items) Les items retenus forment une « échelle de mesure » Ils doivent correspondre au « construit » Soit en représentant différentes facettes (formative F1) Soit en étant le reflet d’une variable inconnue (approche réflective F2) Comme dans chaque réponse, il y a une part d’aléa, on réduit cet aléa en prenant une synthèse de plusieurs mesures Par une moyenne sur les réponses brutes ou standardisées Par le calcul d’un facteur qui ne reprend que ce que les items ont en commun (analyse factorielle) Par la « formation » du construit (avec PLS par exemple) e X1 X1 F1 F2 X2 X2 e e
11
Section 2 Statistiques descriptives
(the must)
12
Deux grands principes La loi des grands nombres
Le théorème central limite
13
1. La loi des grands nombres
Kerrich (1903–1985) Jacob Bernoulli (1654 –1705) La loi des grands nombres
14
La distribution binominale
Quincunx µ = n p V(x) = s2 = n p (1-p)
15
La loi Normale ou la loi Laplace-Gauss
Quand n ∞
16
Loi normale N(,) La loi Normale Une variable aléatoire X suit
une loi normale N(, ) si, pour toute valeur de x, x Résultats : - Moyenne de X = - Variance de X = 2 - 95% des valeurs de X sont comprises entre et
18
et le théorème central limite Théorème Central Limite
2. L’échantillonnage et le théorème central limite Echantillon1 Population µ,s X , S1 1 Echantillon2 2, S2 X Echantillon3 3, S3 = X Théorème Central Limite X s n S = X = (X1 + X2 + X3) /3 X X X
19
Inférence Population µ,s Echantillon X , S1 1 n N
20
Intervalle de confiance pour estimer la moyenne
Si n est assez grand (n > 50) alors:
21
Tests d’hypothèses (nulle et alternative)
Permettent de déterminer si une affirmation au sujet de la valeur d’un paramètre de la population doit être rejetée L’hypothèse nulle est une hypothèse sur la valeur d’un paramètre de la population. Elle est notée H0. Sera rejetée uniquement s’il y a suffisamment d’évidence contre elle Le test d’hypothèses est similaire à un procès criminel. On donne le bénéfice du doute à l'hypothèse nulle: H0: L’accusé est innocent Ha: L’accusé est coupable
22
Rejeter H0 ? Ou ne pas rejeter H0 ?
Règle de décision Quelle conclusion tirer? Rejeter H0 ? Ou ne pas rejeter H0 ? On rejette H0 si la statistique estimée à partir de l’échantillon est éloignée de la valeur du paramètre supposée dans H0 (valeur hypothétique). - On rejette H0 lorsque l'écart entre la valeur hypothétique du paramètre et la valeur de la statitstique est grand, ce qui signifie que l'écart n'est pas uniquement dû au hasard de l’échantillonnage.
23
Erreurs de 1ère et 2ème espèce
Les hypothèses nulle et alternative sont des affirmations contraires au sujet d’un paramètre de la population Soit l’hypothèse nulle est vraie, soit l’hypothèse alternative est vraie, mais pas les deux Puisque les tests d’hypothèses sont basés sur des données d’échantillon, nous devons admettre la possibilité d’erreurs
24
Test des Hypothèses - t s t s a / 2
25
Loi de Student Si X N(, ) alors :
Gosset ( ) Créa le t -test pour traiter les petits échantillons dans le but de controler la qualité des produits à Guiness à Dublin. Il a publié sous le nom de "Student". Si X N(, ) alors : suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].
26
Loi de Student représentation graphique de la loi de STUDENT
. courbe en cloche symétrique, plus aplatie que la courbe de Gauss (courbe hyper-normale) t courbe normale courbe hyper-normale P (t) . d’autant plus aplatie que n est plus petit
27
Possibilités d'erreurs
Décisions États de H0 Ne pas rejeter H0 Rejeter H0 E1 = erreur de type I H0 vraie Bonne décision H0 fausse E2 = erreur de type II Bonne décision
28
Erreurs type I and type II
29
Moyenne et écart-type
30
Section 3 : Analyse explicative
31
Analyse explicative Régression RLS RLM RLog ANOVA ANCOVA MANOVA
MANCOVA
32
Étude du lien entre deux variables X et Y
Variable X explicative Variable Y à expliquer
33
Covariance = 0 peut signifier une relation non linéaire.
La covariance Dividende x Covxy Prix de l’action en bourse y Covariance > 0 les variables ont tendance à varier dans le même sens Covariance < 0 les variables ont tendance à varier en sens opposée Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation entre les variables est forte La covariance est un indicateur de relation linéaire entre les variables Covariance = 0 peut signifier une relation non linéaire.
34
Coefficient de corrélation
Le coefficient de corrélation est défini par Il mesure l’erreur d’estimation Il mesure le lien linéaire entre les variables Il mesure la distance entre la droite de régression et le nuage de points
35
RLS - Régression linéaire simple
Dividende x 1 Prix de l’action en bourse y Modèle de régression linéaire simple y = 0 + 1x + Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) = 0 + 1x Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique)
36
Estimer les méthodes théoriques
Il existe plusieurs méthodes permettant d’estimer le modèle théorique par le modèle empirique Méthode des moindres carrés Méthode de la vraisemblance …
37
La méthode des moindres carrés
=> Critère des moindres carrés où: yi = valeur observée de la variable dépendante pour pour la ième observation = valeur estimée de la variable dépendante pour la ième observation
38
* L’objectif de la méthode des moindres carrés est de
déterminer la droite de régression qui minimise On cherche 0 et 1 minimisant valeur observée erreur ei yi valeur prédite * 1 xi
39
b0 et b1 Autre formule pour b1 Taille de l’échantillon
40
Le modèle de la régression simple
Modèle : Y = b0 + b1X + , avec N(0, ) Y y = b0 + b1x + b Loi de Y x * x= ax+b 95% des valeurs de Y x * x X L’écart-type représente à peu près le quart de l’épaisseur du nuage
41
Répartition de la somme des carrés
Y + = SC Totale SC Type I (Expliquée) SC inexpliquée (erreur)
42
Coefficient de détermination R2, Coefficient de corrélation Cor(X,Y)
A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) carrés expliquée (Regression Sum of carrés résiduelle (Residual Sum of B) R2 = C)
43
Le coefficient de détermination
fournit une indication de la force de la liaison qui existe entre Y et X
44
Le R2 mesure la force de la liaison linéaire entre X et Y
* Y * * * * * * * * * * * * * * * * X X
45
Le coefficient de corrélation
NB Le coefficient de corrélation peut être déterminé aussi : Ou Sachant que :
46
La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y
* * * * * * * * * * * * * * X X 1 1
47
Erreur-type de la pente
L’erreur-type de la pente sb et l’IC de la pente 100(1- a): Alors pour un N fixe, on peut diminuer sb en augmentant l’étendue des valeurs de X échantillonées Y sb plus petit X
48
test des paramètres du modèle
Tester chaque hypothèse par un test de t Y Y a H01: a = 0 Y Y a a H02: b = 0 X X
49
RLM - La Régression Linéaire Multiple
VI1 VI2 VI2 VD VI3 Equation de régression multiple VI2
50
Graphiques des liaisons deux à deux
51
Problème de multicolinéarité
VI1 VI2 VD VI2 VI1 VI2 VD VI2 r > 0,70
52
Mesure de la multi-colinéarité : Tolérance et VIF
Tolérance (Xj) = 1 - R2 (Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.
53
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich
54
Analyse de la variance : ANOVA
Sir Ronald Fischer
55
Introduction C’est une extension du test t (Student)
Compare les variances des differents sous- échantillons (groupes) Facteurs = Variables (Exemple : Le genre) Niveaux (levels) = Le nombre d’options que les facteurs possèdent (Exemple : Le genre a deux niveaux : Homme et femme) There is one more point to note: the basic assumptions of the analysis of variance. These are: 1. The general linear model is adequate for the data 2. The values are normally distributed in the population 3. The samples have homogenous variances 4. The samples are independant Violation of assumption 1 is untestabl; however its violatio has serious consequences. violation of assumption 4 is easily avoided. Regarding violations of assumptions 2 and 3. As regards assmption 3 we can say that: 1. if the sample sizes are equal violation of this assmption does not lead to problems. ANOVA is robust against this violation. (ratio largest/smallest = 1.5) 2. If sample sizes and variances are unequal and the larger sample has also the smaller variance than the probability of making a Type 1 error is larger than alpha. 3. If sample sizes and variances are unequal and the larger sample has the greater variance than the probability of making a Type 1 error is smaller than alpha. Regarding assumption 2 - normal distribution of the values in the population, we can say that this effect is minial if the sample is relatively large. In sum, for equal cell sizes ANOVA is robust against violations of the basic assumptions regarding homogeneity of variances and normal distribution of values in the population.
56
Quand utiliser l’ANOVA
Rendement Fréquence mC mN mN+P Pour tester l’effet d’une variable indépendante “discrète” chaque variable indépendante peut avoir deux ou plusieurs niveaux de traitements (ex: Homme/femme…) l’ANOVA teste si toutes les moyennes sont égales On l’utilise quand le nombre de niveaux est supérieur à deux Témoin Expérimental (N) Expérimental (N+P)
57
ANOVA Population 1 Population 2 M1,s1 M2, s2 m1,s1 m2,s2
Echantillon1 Echantillon2 m1,s1 m2,s2 - Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes/ variances
58
Principe Égalité des moyennes
H0 = les moyennes des groupes sont identiques (m1=m2=m3) H1 = au moins une moyenne est différente des autres Terminologie Variations ou Somme de carrés = S ni (mx1 – mx.)2 Variations factorielles : expliquées par le facteur Variations résiduelles : non expliquées par les facteurs Les groupes (i) et les individus dans les groupes (k) Théorème de la décomposition de la variance (intra et inter) VT=VF+VR les facteurs contrôlés sont différents ENTRE les groupes mais identiques à l'intérieur de chaque groupe (VF variations factorielles, between) les facteurs incontrôlés ont la même influence quel que soit le groupe (VR variations résiduelles, within) Inter-groupe between Intra-groupe within
59
Test de Khi deux -Chi-squared test
Résultats : 61 fois pile 39 fois face Chance ?????
60
Test de Khi deux -Chi-squared test
Résultats : 61 fois pile 39 fois face Chance ????? Oi Les valeurs observées Ei Les valeurs attendues
61
Tabkle de Khi deux – Chi-squared table
Valeur critique (Erreur) Si Khi-deux > Valeur dans la table => On rejete l’Hypothèse H0 et => On accepte l’Hypothèse H1 Degré de liberté
62
William Sealy Gosset en 1908
Test-t (t de Student) William Sealy Gosset en 1908 À quoi sert cette technique? Vérifier si la moyenne de la variable dépendante varie selon l’état de la variable indépendante Vérifier si la différence des moyennes des deux groupes de la VI est significative (ex.: hommes/femmes)
63
Test des Hypothèses On définit alors deux types d'hypothèses:
H0: Hypothèse nulle, appelée hypothèse à rejeter => Il n’y a pas de différence entre Oi et Ei H1: Hypothèse alternative à H0, toute hypothèse qui diffère de H0 => Oi est différent de Ei
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.