Partie 1 Retour aux sources (Back to basics).

Slides:



Advertisements
Présentations similaires
Régression -corrélation
Advertisements

Régression linéaire simple
La régression simple Michel Tenenhaus
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
I) mesure et erreurs de mesure 1) le vocabulaire à connaitre
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Notions de statistiques et d’analyse de données
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Outils de Recherche Opérationnelle en Génie MTH 8414
Les Observations.
Analyse, Classification,Indexation des Données ACID
Statistiques descriptives univariées
Valeurs de toutes les différences observables sous H0
Comparaison de deux pourcentages.
Madame/Monsieur le professeur ,,,,,
Élection québécoise du 2 décembre 1881.
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Élection canadienne du 20 juillet-12 oct
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Introduction aux Statistiques Variables aléatoires
Objectifs du chapitre 5: Plans corrélationnels
Technologies de l’intelligence d’affaires Séance 12
Révision et preparation à l’examen
Risque d’erreur de 1ère espèce : α
« Méthodes quantitatives »
4.3 Estimation d’une proportion
Les modèles linéaires (Generalized Linear Models, GLM)
Statistiques industrielles – Exemple d’application
4.4 Tests D’hypothèses sur une moyenne
4.2 Estimation d’une moyenne
Introduction aux statistiques Intervalles de confiance
Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation.
ACP Analyse en Composantes Principales
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Statistiques.
La méthode scientifique
CHAPITRE 5: Méthodes multivariables
Rappel (3): les étapes des tests statistiques
Statistique descriptive Bivariée
P LAMBOLEZ Partie maths V GILLOT Partie anglais
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Comment analyser en fonction du genre et du sexe?
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Titre de la communication
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Programme d’appui à la gestion publique et aux statistiques
PROGRAMMATION SCIENTIFIQUE EN C
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Récapitulation du jour 2ème
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Outils de Recherche Opérationnelle en Génie MTH 8414
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Partie 1 Retour aux sources (Back to basics)

Introduction Those who don’t know statistics are condemned to reinvent it… David Freedman (1938-2008)

Introduction : Donner du sens aux données

Opérationnalisation des concepts en Sciences de Gestion Section 1 Opérationnalisation des concepts en Sciences de Gestion

Du concept à la variable opérationnalisation Une variable = une quantité ou qualité susceptible de fluctuer ou de varier. Souvent en sciences de gestion, les variables utilisées ne peuvent pas être mesurées de manière « objective » => On mobilise plutôt des variables latentes ou construit Exemple : Notoriété, image de marque, motivation, intention d’achat, implication, fidélité, engagement, confiance, utilité,… CONCEPT VARIABLE Ou CONSTRUIT

Cadre de base Boite : variable Nature : nominale, ordinale, quantitative (ratio/métrique) Fleche : influence directionnelle ou non d’une variable sur une autre Sens, Forme, Force Dépendante (Y) et indépendante (X) X X Y

Variables quantitatives Il existe 2 types de variables : Les variables quantitatives : mesurables sur une échelle … avec une unité: des valeurs réelles : donnée continue âge, CA, Prix ... de valeurs isolées : donnée discrète nombres d’enfants, nombre de voiture par foyer, ... NB. Parfois les variables discrètes sont traitées comme des variables continues

Variables qualitatives Les variables qualitatives : non mesurables sur une échelle (notion de jugement), mais… - avec relation d’ordre : données ordinales (semi-quantitatives) - L’ordre est important Ex : Client classe A, B ou C selon la règle de Pareto - L’ampleur n’est pas importante: le client A n’est pas deux fois plus important que le client B Ex: intention d’achat : faible, modérée, forte sinon : données catégoriques (nominale) homme/femme marié/célibataire

Cadre de base Variable modératrice (1) : elle modifie la relation entre deux autres variables Variable médiatrice (2) : elle est intermédiaire pour expliquer la relation entre deux variables Ce n’est pas parce qu’une variable vous intéresse qu’elle est la plus importante Variables de contrôle 1 Z X Y 2 X Z Y W X Y

Des Variables aux construits latents Des construits de ces variables « latentes » (non mesurables directement) sont obtenus à partir de la moyenne des réponses à des questions (items) Les items retenus forment une « échelle de mesure » Ils doivent correspondre au « construit » Soit en représentant différentes facettes (formative F1) Soit en étant le reflet d’une variable inconnue (approche réflective F2) Comme dans chaque réponse, il y a une part d’aléa, on réduit cet aléa en prenant une synthèse de plusieurs mesures Par une moyenne sur les réponses brutes ou standardisées Par le calcul d’un facteur qui ne reprend que ce que les items ont en commun (analyse factorielle) Par la « formation » du construit (avec PLS par exemple) e X1 X1 F1 F2 X2 X2 e e

Section 2 Statistiques descriptives (the must)

Deux grands principes La loi des grands nombres Le théorème central limite

1. La loi des grands nombres Kerrich (1903–1985) Jacob Bernoulli (1654 –1705) La loi des grands nombres

La distribution binominale Quincunx µ = n p V(x) = s2 = n p (1-p) http://www.mathsisfun.com/data/quincunx.html

La loi Normale ou la loi Laplace-Gauss Quand n  ∞

Loi normale N(,) La loi Normale Une variable aléatoire X suit une loi normale N(, ) si, pour toute valeur de x, x Résultats : - Moyenne de X =  - Variance de X = 2 - 95% des valeurs de X sont comprises entre  - 1.96 et  + 1.96

http://onlinestatbook.com/stat_sim/sampling_dist/index.html

et le théorème central limite Théorème Central Limite 2. L’échantillonnage et le théorème central limite Echantillon1 Population µ,s X , S1 1 Echantillon2 2, S2 X Echantillon3 3, S3 µ = X Théorème Central Limite X s  n S = X = (X1 + X2 + X3) /3 X X X

Inférence Population µ,s Echantillon X , S1 1 n N

Intervalle de confiance pour estimer la moyenne  Si n est assez grand (n > 50) alors:

Tests d’hypothèses (nulle et alternative) Permettent de déterminer si une affirmation au sujet de la valeur d’un paramètre de la population doit être rejetée L’hypothèse nulle est une hypothèse sur la valeur d’un paramètre de la population. Elle est notée H0. Sera rejetée uniquement s’il y a suffisamment d’évidence contre elle Le test d’hypothèses est similaire à un procès criminel. On donne le bénéfice du doute à l'hypothèse nulle: H0: L’accusé est innocent Ha: L’accusé est coupable

Rejeter H0 ? Ou ne pas rejeter H0 ? Règle de décision Quelle conclusion tirer? Rejeter H0 ? Ou ne pas rejeter H0 ? On rejette H0 si la statistique estimée à partir de l’échantillon est éloignée de la valeur du paramètre supposée dans H0 (valeur hypothétique). - On rejette H0 lorsque l'écart entre la valeur hypothétique du paramètre et la valeur de la statitstique est grand, ce qui signifie que l'écart n'est pas uniquement dû au hasard de l’échantillonnage.

Erreurs de 1ère et 2ème espèce Les hypothèses nulle et alternative sont des affirmations contraires au sujet d’un paramètre de la population Soit l’hypothèse nulle est vraie, soit l’hypothèse alternative est vraie, mais pas les deux Puisque les tests d’hypothèses sont basés sur des données d’échantillon, nous devons admettre la possibilité d’erreurs

Test des Hypothèses - t s t s a / 2

Loi de Student Si X  N(, ) alors : Gosset (1876-1937) Créa le t -test pour traiter les petits échantillons dans le but de controler la qualité des produits à Guiness à Dublin. Il a publié sous le nom de "Student". Si X  N(, ) alors : suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].

Loi de Student représentation graphique de la loi de STUDENT . courbe en cloche symétrique, plus aplatie que la courbe de Gauss (courbe hyper-normale) t courbe normale courbe hyper-normale P (t) . d’autant plus aplatie que n est plus petit

Possibilités d'erreurs Décisions États de H0 Ne pas rejeter H0 Rejeter H0 E1 = erreur de type I H0 vraie Bonne décision H0 fausse E2 = erreur de type II Bonne décision

Erreurs type I and type II

Moyenne et écart-type

Section 3 : Analyse explicative

Analyse explicative Régression RLS RLM RLog ANOVA ANCOVA MANOVA MANCOVA

Étude du lien entre deux variables X et Y Variable X explicative Variable Y à expliquer

 Covariance = 0 peut signifier une relation non linéaire. La covariance Dividende x Covxy Prix de l’action en bourse y Covariance > 0  les variables ont tendance à varier dans le même sens Covariance < 0  les variables ont tendance à varier en sens opposée Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation entre les variables est forte  La covariance est un indicateur de relation linéaire entre les variables  Covariance = 0 peut signifier une relation non linéaire.

Coefficient de corrélation Le coefficient de corrélation est défini par Il mesure l’erreur d’estimation Il mesure le lien linéaire entre les variables Il mesure la distance entre la droite de régression et le nuage de points

RLS - Régression linéaire simple Dividende x 1 Prix de l’action en bourse y Modèle de régression linéaire simple y = 0 + 1x +  Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) = 0 + 1x Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique)

Estimer les méthodes théoriques Il existe plusieurs méthodes permettant d’estimer le modèle théorique par le modèle empirique Méthode des moindres carrés Méthode de la vraisemblance …

La méthode des moindres carrés => Critère des moindres carrés où: yi = valeur observée de la variable dépendante pour pour la ième observation = valeur estimée de la variable dépendante pour la ième observation

* L’objectif de la méthode des moindres carrés est de déterminer la droite de régression qui minimise On cherche 0 et 1 minimisant valeur observée erreur ei yi valeur prédite * 1 xi

b0 et b1 Autre formule pour b1 Taille de l’échantillon

Le modèle de la régression simple Modèle : Y = b0 + b1X +  , avec   N(0, ) Y y = b0 + b1x + b Loi de Y x + 1.96 * x= ax+b 95% des valeurs de Y x - 1.96 * x X L’écart-type  représente à peu près le quart de l’épaisseur du nuage

Répartition de la somme des carrés Y + = SC Totale SC Type I (Expliquée) SC inexpliquée (erreur)

Coefficient de détermination R2, Coefficient de corrélation Cor(X,Y) A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) carrés expliquée (Regression Sum of carrés résiduelle (Residual Sum of B) R2 = C)

Le coefficient de détermination fournit une indication de la force de la liaison qui existe entre Y et X

Le R2 mesure la force de la liaison linéaire entre X et Y * Y * * * * * * * * * * * * * * * * X X

Le coefficient de corrélation NB Le coefficient de corrélation peut être déterminé aussi : Ou Sachant que :

La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y * * * * * * * * * * * * * * X X 1 1

Erreur-type de la pente L’erreur-type de la pente sb et l’IC de la pente 100(1- a): Alors pour un N fixe, on peut diminuer sb en augmentant l’étendue des valeurs de X échantillonées Y sb plus petit X

test des paramètres du modèle Tester chaque hypothèse par un test de t Y Y a H01: a = 0 Y Y a a H02: b = 0 X X

RLM - La Régression Linéaire Multiple VI1 VI2 VI2 VD VI3 Equation de régression multiple VI2

Graphiques des liaisons deux à deux

Problème de multicolinéarité VI1 VI2 VD VI2 VI1 VI2 VD VI2 r > 0,70

Mesure de la multi-colinéarité : Tolérance et VIF Tolérance (Xj) = 1 - R2 (Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich

Analyse de la variance : ANOVA Sir Ronald Fischer 1890-1962

Introduction C’est une extension du test t (Student) Compare les variances des differents sous- échantillons (groupes) Facteurs = Variables (Exemple : Le genre) Niveaux (levels) = Le nombre d’options que les facteurs possèdent (Exemple : Le genre a deux niveaux : Homme et femme) There is one more point to note: the basic assumptions of the analysis of variance. These are: 1. The general linear model is adequate for the data 2. The values are normally distributed in the population 3. The samples have homogenous variances 4. The samples are independant Violation of assumption 1 is untestabl; however its violatio has serious consequences. violation of assumption 4 is easily avoided. Regarding violations of assumptions 2 and 3. As regards assmption 3 we can say that: 1. if the sample sizes are equal violation of this assmption does not lead to problems. ANOVA is robust against this violation. (ratio largest/smallest = 1.5) 2. If sample sizes and variances are unequal and the larger sample has also the smaller variance than the probability of making a Type 1 error is larger than alpha. 3. If sample sizes and variances are unequal and the larger sample has the greater variance than the probability of making a Type 1 error is smaller than alpha. Regarding assumption 2 - normal distribution of the values in the population, we can say that this effect is minial if the sample is relatively large. In sum, for equal cell sizes ANOVA is robust against violations of the basic assumptions regarding homogeneity of variances and normal distribution of values in the population.

Quand utiliser l’ANOVA Rendement Fréquence mC mN mN+P Pour tester l’effet d’une variable indépendante “discrète” chaque variable indépendante peut avoir deux ou plusieurs niveaux de traitements (ex: Homme/femme…) l’ANOVA teste si toutes les moyennes sont égales On l’utilise quand le nombre de niveaux est supérieur à deux Témoin Expérimental (N) Expérimental (N+P)

ANOVA Population 1 Population 2 M1,s1 M2, s2 m1,s1 m2,s2 Echantillon1 Echantillon2 m1,s1 m2,s2 - Comment comparer les deux populations à partir d'un échantillon réduit?  Comparaison de moyennes/ variances

Principe Égalité des moyennes H0 = les moyennes des groupes sont identiques (m1=m2=m3) H1 = au moins une moyenne est différente des autres Terminologie Variations ou Somme de carrés = S ni (mx1 – mx.)2 Variations factorielles : expliquées par le facteur Variations résiduelles : non expliquées par les facteurs Les groupes (i) et les individus dans les groupes (k) Théorème de la décomposition de la variance (intra et inter) VT=VF+VR les facteurs contrôlés sont différents ENTRE les groupes mais identiques à l'intérieur de chaque groupe (VF variations factorielles, between) les facteurs incontrôlés ont la même influence quel que soit le groupe (VR variations résiduelles, within) Inter-groupe between Intra-groupe within

Test de Khi deux -Chi-squared test Résultats : 61 fois pile 39 fois face Chance ?????

Test de Khi deux -Chi-squared test Résultats : 61 fois pile 39 fois face Chance ????? Oi Les valeurs observées Ei Les valeurs attendues

Tabkle de Khi deux – Chi-squared table Valeur critique (Erreur) Si Khi-deux > Valeur dans la table => On rejete l’Hypothèse H0 et => On accepte l’Hypothèse H1 Degré de liberté

William Sealy Gosset en 1908 Test-t (t de Student) William Sealy Gosset en 1908 À quoi sert cette technique? Vérifier si la moyenne de la variable dépendante varie selon l’état de la variable indépendante Vérifier si la différence des moyennes des deux groupes de la VI est significative (ex.: hommes/femmes)

Test des Hypothèses On définit alors deux types d'hypothèses: H0: Hypothèse nulle, appelée hypothèse à rejeter => Il n’y a pas de différence entre Oi et Ei H1: Hypothèse alternative à H0, toute hypothèse qui diffère de H0 => Oi est différent de Ei