Statistiques, deuxième séance

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Université de Ouagadougou
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression ou corrélation
David Bounie Thomas Houy
Corrélations et ajustements linéaires.
Régression -corrélation
Christelle Scharff IFI 2004
Psychologie, Première année, Questionnaire.
Corrélation linéaire et la droite de régression
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
indépendance linéaire
La Régression Multiple
Structure de causalité bivariée
Régression linéaire simple
LE DISCOURS PHILOSOPHIQUE
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Séminaire d’Analyses comparatives et enquête sociologique
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Relations et fonctions
Le comportement des coûts Chapitre 3
Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
l’algorithme du simplexe
Techniques de prévision quantitatives
Méthodes de prévision (STT-3220)
Ch. 4 - Les modèles macroéconomiques de la synthèse - Diapo 2
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
Corrélation et régression linéaire
Objectifs Lire un manuel de référence
Méthodes de Biostatistique
Méthodologie expérimentale : l’analyse des données
Initiation à la Méthodologie de Recherche
La firme Les techniques à deux facteurs La demande de facteurs
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
GESTION DE PRODUCTION ET OPERATIONS – GPO-
Les fonctions Les propriétés.
Cours NOMBRES COMPLEXES ET TRANSFORMATIONS.
Lien entre deux variables
La régression simple Michel Tenenhaus
Programmation linéaire en nombres entiers
Présentation du marché obligataire
Les fonctions linéaires et affines
Probabilités et Statistiques Année 2010/2011
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
1/16 Chapitre 3: Représentation des systèmes par la notion de variables d’état Contenu du chapitre 3.1. Introduction 3.2. Les variables d’état d’un système.
ETUDE DE 2 VARIABLES QUANTITATIVES
Relations et fonctions
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Post-optimisation, analyse de sensibilité et paramétrage
Régression linéaire (STT-2400)
Tout comprendre au Taux de Croissance Annuel Moyen (TCAM)
Distribution à deux variables
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
COURS DE TECHNIQUES QUANTITATIVES
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
Transcription de la présentation:

Statistiques, deuxième séance Licence de psychologie

2. Régression linéaire double Cas de deux facteurs

Plan Un exemple et sa formalisation Les conditions d’application La procédure L’interprétation des résultats Exemples supplémentaires

Psychologie du « travail » 2.1. Un exemple Psychologie du « travail »

Greeley, Colorado You can smell Greeley, Colorado, long before you can see it. The smell is hard to forget but not easy to describe, a combination of live animals, manure, and dead animals being rendered into dog food. Eric Schlosser, Fast Food Nation, Peguin Books, 2002. P 149. On sent Greeley (Colorado) bien avant de le voir. L’odeur est difficile à oublier, mais pas facile à décrire. Une combinaison d’animaux vivants, de fumier, de cadavres transformés en pâtée pour chiens.

Satisfaction au travail… Grâce à un questionnaire détaillé, nous pouvons mesurer la satisfaction au travail d’employés attachés à des entreprises de l’industrie alimentaire. Le résultat du questionnaire, une fois codé, nous donne un score S de satisfaction Nous aimerions savoir dans quelle mesure cette satisfaction dépend de l’ancienneté A (en années) et des responsabilités R (score) incombant aux employés.

Formalisation de l’exemple Nous cherchons à déterminer dans quelle mesure la satisfaction dépend des responsabilités et de l’ancienneté Cela pourrait permettre de prédire la satisfaction des futurs employés On étudie le lien entre deux facteurs catégoriels quantitatifs X1 et X2, et une variable dépendante, également quantitative, X0 Afin de prédire la VD en fonction des deux VI

Formalisation de l’exemple Nous voulons un modèle linéaire Nous voulons généraliser la régression linéaire simple

On cherche :

Il faut donc Pouvoir mesurer l’erreur d’estimation Minimiser cette erreur pour déterminer les coefficients ci Déterminer les rôles respectifs des deux facteurs et leur éventuelle interaction dans leur effet sur la variable dépendante

2.2. Conditions d’application De la régression multiple

Situation statistique Nous disposons de deux facteurs numériques Et d’une variable dépendante numérique

Notations Nous noterons la variable X0 et les facteurs X1 et X2. Nous noterons les coefficients de corrélation simples

2.3. Procédure Méthode, calculs

Coefficients de corrélation simples On calcule les coefficients de corrélations simples Qui donnent la matrice des coefficients de corrélation simples

Coefficients de corrélation simples On calcule les coefficients de corrélations simples Qui donnent la matrice des coefficients de corrélation simples

Alpha On calcule ensuite les coefficients de régression partiels

Corrélation double Qui donnent le coefficient de corrélation double

Enfin ! De là, on tire les coefficients de régression :

Interprétation graphique On cherche le meilleur plan pour représenter le nuage en dimension 3. C’est illisible, aussi ne représente-t-on pas habituellement le nuage de points.

Corrélation partielle Il arrive qu’on ait besoin des coefficients de corrélation partiels

2.4. Interprétation Des valeurs obtenues

Premières remarques Le coefficient de corrélation double R(0;1,2) est l’équivalent double de |r|, et non de r Les « alpha » mesurent le caractère plus ou moins important des facteurs sur la VD Les c renseignent sur le sens des liens entre facteurs et VD. Ils sont de même signe que les « alpha » correspondant. Il s’agit du sens du lien dans le modèle incorporant les deux facteurs!

Corrélation simple et partielle r(0,1) mesure le lien qui existe, de fait, entre X1 et X0 Entre « glace » et « lunette », le coefficient est élevé R(0,1.2) mesure le lien qui existerait entre X1 et X0 si X2 n’intervenait pas Entre « glace » et « lunette », si l’on supprime l’effet du soleil, le coefficient est faible

Causalités possibles X(0) et X(1) sont liés Causalité directe 0-1 1-0 Causalité double 2-0; 2-1 « Aucune Causalité » Salaire Satisfaction Maladie de foie Alcool Glace Lunettes Note, Évolution

Alpha et c Alors que les « alpha » mesurent le caractère plus ou moins prédictif des facteurs Les « c » mesurent le caractère plus ou moins discriminant des facteurs Est discriminant un facteur tel qu’une petite variation entraîne une grande variation de la VD Est prédictif un facteur dont la connaissance renseigne efficacement sur celle de la VD

Discriminant vs prédictif

Discriminant vs prédictif

Discriminant vs prédictif

Discriminant vs prédictif

De la régression linéaire double 2.5. Exemple pratique De la régression linéaire double

Retour à l’abattoir

Situation Nous disposions d’un échantillon d’employés, appartenant à la population des employés travaillant dans les abattoirs. Nous avions relevé sur cet échantillon les trois variables numériques suivantes : La satisfaction au travail S (VD) L’ancienneté A (en années, VI) Les responsabilités R (score, VI)

Données prétraitées La matrice des corrélations simples est, en posant VI(1)=A :

Écarts types et moyennes

Coefficients simples L’ancienneté est liée aux responsabilités La satisfaction est liée aux responsabilités La satisfaction est peu liée linéairement à l’ancienneté Tous les liens sont positifs

Alpha On calcule à partir des coefficients de corrélation simple :

Interprétation On voit également que les responsabilités sont plus prédictives de la satisfaction (le alpha correspondant étant plus grand en valeur absolue). On voit que le premier facteur est lié négativement, dans l’équation de régression, à la VD. Ainsi, le modèle prévoit que la satisfaction diminue avec l’ancienneté, à responsabilités égales. (pourtant le r est positif).

Mystère La satisfaction est liée négativement à l’ancienneté (c1) La satisfaction est liée positivement à l’ancienneté (r(01)) On peut concevoir les choses comme suit : L’ancienneté à un effet négatif (1 an: -1) Les responsabilités ont un effet positif (1 point: +2) L’ancienneté est les responsabilités sont liées: (1 an: +1) Dans ce cas, bien que l’ancienneté ait un effet négatif, visible dans le modèle double, le r est positif à cause de R Mais il est également évident qu’on a pu oublier un facteur important…

R On en déduit

Interprétation Le coefficient ne semble pas mauvais. On a donc raison ici d’utiliser (avec prudence toutefois !) le modèle de régression linéaire, qui permet de prévoir la satisfaction. On peut presque affirmer que la satisfaction dépend de l’ancienneté et des responsabilités

Et enfin

Interprétation On voit donc que la responsabilité est plus discriminante que l’ancienneté. L’équation de régression ainsi obtenu permet de prédire les valeurs de S connaissant A et T, en remplaçant tout simplement A et T par leur valeurs.

Et enfin

Interprétation Il semble donc que l’ancienneté ait un effet plutôt négatif. Cela provient entre autre (on a déjà donné une explication) sans doute du fait que si l’ancienneté augmente mais pas les responsabilités, cela est considéré comme un déclassement, peu ou prou. Pour augmenter la satisfaction, il faut sans doute donner plus de responsabilités. Cela n’est pourtant pas sûr : ne donne-t-on pas déjà les responsabilités aux personnes les plus motivées ?

Prudence avec la régression Quelques pièges à éviter

Il n’y a rien de surprenant à obtenir un lien croissant ou décroissant selon la deuxième VI avec les mêmes données Du fait que la représentation graphique est illisible, on ne voit pas bien les valeurs aberrantes. La régression linéaire double (multiple) dépend grandement du choix des facteurs. (conditions de travail, lieu de travail) Comme dans le cas simple, corrélation n’est pas causalité R est une estimation