2. Modèles linéaires.

Slides:



Advertisements
Présentations similaires
3. Modèles agrégés 2.
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
Classification des signaux exemples de signaux réels
Echantillonnage Introduction
La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
Régression ou corrélation
Les K plus proches voisins
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Régression -corrélation
La régression multiple
Autres LOIS de PROBABILITES

Le modèle linéaire et l'approche multivariée en statistique
La Régression Multiple
Structure de causalité bivariée
Analyse de la variance : ANOVA à un facteur
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Méthodes de prévision (STT-3220)
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
Le test t.
Corrélation Principe fondamental d’une analyse de corrélation
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Le comportement des coûts Chapitre 3
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Structure discriminante (analyse discriminante)
Objectifs du chapitre sur les distributions déchantillonnage Comprendre la relation entre les distributions déchantillonnage et les tests dinférence statistique.
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Corrélation et régression linéaire
Méthodes de Biostatistique
Méthodes de Biostatistique
Méthodologie expérimentale : l’analyse des données
LA REGRESSION MULTIPLE
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
PRINCIPE DES TESTS D’HYPOTHÈSE
Lien entre deux variables
STATISTIQUES DESCRIPTIVES
ANOVA à 1 facteur en groupes de mesure indépendants
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Séries chronologiques univariées (STT-6615)
Rappels sur les fonctions et les suites aléatoires
Régression linéaire (STT-2400)
Séries chronologiques univariées (STT-6615)
Méthodes de prévision (STT-3220)
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
MENU 1 Modèles de choix.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
MENU 1 Modèles de diffusion d’une innovation Parfitt & Collins Archives de l’AMA
Transcription de la présentation:

2. Modèles linéaires

Hypothèses YO = YT + e 2 blocs d’hypothèses Sur les relations entre les variables Sur le comportement de la variable aléatoire

Hypothèses statistiques La variable aléatoire est un « bruit blanc » Hypothèse i.i.d. Normal (distribution identique et indépendante) Elle suit une distribution normale de moyenne nulle Diagnostic Test de normalité, Graphique PP ou QQ Traitement Transformation des variables (Log, Sqrt, Inv,…) Introduction d’autres variables explicatives De variance stable (Homoskédasticité / Hétéro) N’est pas reliée aux valeurs des variables Graphique dispersion des résidus Transformation

Hypothèses statistiques Sans autocorrélation Les valeurs de deux périodes ne sont pas corrélées Souvent problème de spécification du modèle Diagnostic Test D-W (Durbin Watson, référence = 2)

Hypothèses statistiques Les variables indépendantes ont connues sans erreur Les variables indépendantes ne sont pas corrélées (colinéarité) Directement X1=f(X2) ou indirectement par une combinaison linéaire X1=f(X2, X3,…) (Multi-colinéarité) Diagnostic Tolérance : X1 = f(X2, …Xn) Tol = 1-R². <0.1 à étudier; <0.01 variable intutile VIF (facteur d’inflation de la variance) = 1 / Tol Faire une ACP, chaque variable quantitative devrait avoir son facteur Traitement Enlever une variable Intégrer les variables corrélées dans une variable (ACP,…)

Prendre en main la base de données

Décrire les données Faire un constat Sur les moyennes Sur les dispersions Sur les relations entre les moyennes des variables (ratios,…) Etudier la dynamique Evolution des valeurs observées Taux de croissance Traitement Tableaux de synthèse Graphiques

Choisir la période à étudier Quelle longueur de période ? Trop longue ? Les facteurs externes modifient les effets des variables (paramètres) Trop courte ? Les coefficients sont mal estimés, instables,… Quel périodicité ? Trop grande ? Peu de points, coefficients instables Agrégation de différents effets Trop petite ? Fortes variations non expliquées si toutes les variables n’ont pas la même périodicité Intégrer la saisonnalité Mensuelle et hebdomadaire Désaisonnaliser ou intégrer une variable d’activité ou des variables auxiliaires (dummy / dummies)

Choisir le niveau d’agrégation des données Problème de l’hétérogénéité Les comportements en super/hypermarchés sont-ils identiques ? Faut-il séparer les modèles (éventuellement après une segmentation) Faire une estimation globale Attention ! C’est la première source d’erreur d’interprétation…. Le prix moyen baisse… simplement parce que les hypermarchés qui vendent moins cher ont vendu plus pendant cette période…

Identifier et traiter les valeurs aberrantes

Valeurs « aberrantes » Les valeurs très éloignées de la moyenne ont un poids plus que proportionnellement important dans l’estimation des paramètres « régression des moindres carrés » = (Yi – moyenne)² C’est l’effet de « levier » d’une observation Il est important d’identifier, de comprendre ces points et de neutraliser leur effet Identifier : écart standardisé > 3 = très faible probabilité d’observation (normalité) Comprendre : rechercher les raisons Traitement Élimination (mais garder la trace de cette élimination)

Identifier des points de rupture Des évènements peuvent entraîner des conséquences importantes sur les comportements Lancement d’un nouveau produit (direct ou indirect) Arrivée d’un concurrent Évènement économique ou crise Modifier de manière durable les relations entre les variables Faire des modèles différents Intégrer ce changement dans de nouveaux coefficients

Choisir les variables explicatives (indépendantes)

Démarche Théorique Relation existante entre les variables dépendante et indépendante Qui ne provienne pas d’une relation exacte Qui ne soit pas déterminée par la variable dépendante Des variables contrôlées (var d’action) Des variables déterminantes externes (importantes et différences) Environnement Concurrence Pratique Matrice de corrélation (Pearson)… Linéaire ! Graphiques Y = X Y(t) et x(t)

Intégration de l’interaction entre les variables explicatives

Modèle additif et multiplicatif Modèle additif Y = a + b.X Les effets des variables sont fixes La sensibilité est constante (DY / Dx = cste) L’élasticité est variable Modèle multiplicatif Y = a.Xb Les effets des variables dépendent des valeurs des autres variables L’élasticité est constante Linéarisation par une transformation logarithmique

Intégration de la concurrence

Intégration de la concurrence Le marché est influencé par les décisions des autres acteurs QUI ? Comment définir la concurrence ? Toutes les marques Les principales marques Les marques les plus « proches » Quid si enseignes différentes (mdd, assortiment,…) QUOI ? La demande pour une marque (i) est influencée par les décisions des autres marques … Qui dépendent aussi des choix de la marque (i)… Des comportements décisionnels hypothèses économiques sur l’oligopole: Cournot : chaque firme s’adapte à la décision (q) de l’autre Stackelberg : le leader décide (q), le challenger s’ajuste Bertrand : les deux firmes décident simultanément des prix

Quels effets croisés ? Proximité : Plus les produits ont des marketing mix proches Plus ils sont en concurrence (élasticités croisées fortes) Validé pour les prix Asymétrie : une marque de moins bonne qualité (moins chère) souffre plus lors de la baisse d’une marque de meilleure qualité (plus chère) Des validations empiriques mais sujettes à caution Notamment corriger le fait que les marques de qualité (Mnationales) sont plus chères que les MDD

Modèles en Parts de marché On ne modélise que la PdM du produit considéré Décomposition en deux étapes (additif ou multiplicatif) qi= mi . Q mi = a + b . pi* ou mi = a. pi*b Transformation des variables explicatives en variables relatives Exprimer les variables en relatif : pi* = pi / pr Quel point de référence (r) ? Moyenne marché ? (linéaire, géométrique), Concurrent proche ?… Caractéristique Simple et facile à comprendre Robustesse ? Rien n’assure que (mi) sera compris dans [0,1] et que la somme = 1 Quid si la part de marché est très importante ? Les ventes du produit influencent alors beaucoup le « marché »

Exemple : Cas Shamp http://www.mastermarketingdauphine.com/charge/Shamp.xls Vous êtes la firme B, faut-il poursuivre la promotion ?