Corrélation et causalité

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

La mesure des inégalités
Gestion de portefeuille Support n° 5 Catherine Bruneau
GESTION DE PORTEFEUILLE chapitre n° 4 C. Bruneau
GESTION DE PORTEFEUILLE chapitre n° 7
Université de Ouagadougou
Politique économique et rôle des anticipations
C1 Bio-statistiques F. KOHLER
Inférence statistique
Corrélations et ajustements linéaires.
FONCTIONS EXPONENTIELLES ET LOGARITHMES
Fiche méthode : Réaliser un graphique
Régression -corrélation
Corrélation linéaire et la droite de régression
Les traitements croisés
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Zéros de polynômes (La loi du produit nul) Remarque :
Statistique descriptive, analyse de données
La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Équations différentielles.
Régression linéaire simple
Groupe 1: Classes de même intervalle
Calcul Intégral Au XVIIIème siècle, les mathématiciens progressent dans deux domaines séparés : les problèmes des tangentes (et la longueur des arcs) et.
Résolution d’équation du second degré
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009.
La corrélation et la régression multiple
La corrélation et la régression
La régression logistique
La corrélation et la régression
Modélisation Nuage de points.
Zéros de polynômes ( La loi du produit nul ) Remarque :
Les fonctions leurs propriétés et.
Modélisation Nuage de points.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Régression linéaire (STT-2400)
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Méthodes de Biostatistique
Etudier une relation de proportionnalité
LA REGRESSION LINEAIRE
Présentation du marché obligataire
La fonction polynomiale de degré 0
Micro-intro aux stats.
L’étude du mouvement.
Exploitation de mesures scientifiques.
Les fonctions de référence
Fabienne BUSSAC FONCTIONS LINEAIRES – PROPORTIONNALITE
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
Les Diagrammes de dispersion
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Correction du devoir 4 Première S Mathématiques. Exercice 1. Après avoir répondu à la question 1., il y a deux écritures possibles pour f (x) : Il faut.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Approximation linéaire –Méthode du moindre carré u Exemple.
Les fonctions Les propriétés. Chaque fonction possède ses propres caractéristiques: Ainsi l’analyse de ces propriétés permet de mieux cerner chaque type.
Distribution à deux variables
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
COURS DE TECHNIQUES QUANTITATIVES
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Transcription de la présentation:

Corrélation et causalité

La dépendance (corrélation) Lorsqu’une distribution présente 2 caractères, il est parfois légitime de se demander s’il existe un lien entre eux. On s’interroge alors sur la possible dépendance, dans un sens ou dans l’autre de ces deux variables.

L’ajustement linéaire L’ajustement à une courbe se fait généralement en minimisant les carrés des distances des points du nuage à la courbe. L’ajustement à une droite (ajustement linéaire) est le plus fréquemment utilisé. Cependant, il faut garder à l’esprit qu’il n’est pas toujours adapté.

Nuage de points et ajustements Lorsque le nuage de points présente une forme allongée, l’ajustement linéaire (une droite permet de résumer au mieux l’allure générale du phénomène) est acceptable :

Nuage de points et ajustements Mais la forme du nuage peut suggérer d’autres types de courbes.

Droites de régression (méthode des moindres carrés) Il s’agit de déterminer 2 droites D et D’ telles que, pour chacune d’elles, les distances prises entre chaque point du nuage et la droite soient les plus petites possibles. Les distances di et dj entre la droite et chaque point du nuage sont prises parallèlement aux axes.

La détermination de l’équation des droites D et D’ Si l’on note y=ax+b l’équation de D alors pour déterminer les valeurs de a et b, il faut minimiser l’expression : On obtient ainsi la valeur de a (pente de la droite D) :

La détermination de l’équation des droites D et D’ Or, on sait que les droites D et D’ passent par le point moyen de coordonnées ( ), ce qui permet de déterminer les valeurs de b et b’ une fois connues les valeurs de a et a’.

Le coefficient de corrélation linéaire La plus ou moins grande dépendance entre les deux variables x et y peut être appréhendée par la valeur de l’angle que forment les droites de régression D et D’. Plus cet angle est ouvert, moins la liaison est forte.

Le coefficient de corrélation linéaire Pour traduire l’intensité de la liaison par un nombre, on utilise le coefficient de corrélation linéaire dont le carré est égal au produit des pentes des droites de régression : r² = aa’ D’où Avec -1 ≤ r ≤ 1

Le coefficient de corrélation linéaire Il y a une forte corrélation linéaire entre x et y quand r est voisin de + 1 ou – 1. Quand r est nul, cela suggère une indépendance. Un lien de dépendance entre deux séries est jugé significatif à partir du moment où en valeur absolue r est supérieur à 0,87 (r²≥0,76).

Le coefficient de corrélation linéaire

Le coefficient de corrélation linéaire

La représentation graphique : le nuage de points Le graphique en nuage de points permet de mettre en évidence la relation entre 2 variables. En abscisses, on porte la variable explicative X et en ordonnée, la variable expliquée Y.

De la dépendance à la causalité La détermination d’une droite des moindres carrés ne signifie pas qu’un lien de causalité existe entre les 2 variables.

Exemple : Fautes d’orthographe et pointure Les élèves ayant les plus grands pieds font moins de fautes. Ces deux grandeurs apparemment indépendantes s'avèrent en fait liées négativement Diagramme de dispersion du nombre de fautes d'orthographe en fonction de la pointure Nombre de fautes d’orthographe Source : Nicolas Gauvrit, Statistiques : méfiez-vous, Ellipses, 2007. Pointure

Les variables de confusion Si deux grandeurs sont liées, il se peut qu'il n'y ait en fait aucune causalité entre elles. Il se peut qu'aucune relation logique ne puisse alors être établie entre les deux variables. Mais il se peut aussi qu'on trouve une causalité indirecte, passant par une autre variable (ou grandeur). Dans un tel cas, on appelle cette variable cachée variable de confusion.

Exemple : Fautes d’orthographe et pointure Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion âge Source : Nicolas Gauvrit, Statistiques : méfiez-vous, Ellipses, 2007. L'exemple des fautes d'orthographe et de la taille des pieds est un cas où une telle variable de confusion intervient : il s’agit de l'âge. Dans une école, les plus grands pieds correspondent, en moyenne et globalement, aux élèves les plus vieux, donc à ceux de CM2, meilleurs que les CE1 ou les CP en orthographe...

Corrélation contraire au lien causal Les variables de confusion peuvent faire apparaître des liens de corrélation entre des variables indépendantes. Mais, il existe des cas, où la corrélation est le contraire du lien causal.

Exemple : espérance de vie et consommation d’alcool Le diagramme ci-contre montre une liaison positive entre les 2 variables. Cela voudrait donc dire que lorsque l’on boit plus d’alcool, on vit plus vieux. Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays Espérance de vie Consommation d’alcool Source : Joseph Klatzman, Attention stisitiques !, La Découverte 1996.

Exemple : espérance de vie et consommation d’alcool Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays Espérance de vie La figure ci-contre nous permet de mieux analyser la relation entre ces 2 variables. On y découvre que : les pays les plus riches sont ceux où l’on boit le plus Les pays les plus riches sont aussi ceux où l’on vit le plus longtemps. Consommation d’alcool Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996.

Exemple : espérance de vie et consommation d’alcool En fait, il faut considérer la variable de confusion "richesse du pays". Cette variable agit sur l'espérance de vie de manière inverse de la consommation d'alcool. Autrement dit, si l'on considère un pays comme la France, on peut dire que dans ce pays : les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de réduire l'espérance de vie. Mais d'un autre côté, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considérablement l'espérance de vie. Cette augmentation fait plus que compenser la réduction d'espérance de vie due à la consommation d'alcool. Le diagramme causal de la figure ci dessous donne une représentation de la situation.

La corrélation partielle La corrélation partielle est la corrélation observée quand les autres variables sont maintenues à une valeur constante. La corrélation partielle est souvent plus significative que la corrélation totale

Exemple : Corrélation partielle Supposons par exemple qu’une banque découvre que, dans la tranche d’âge 25-60 ans, les variables « âge » et « portefeuille d’actions » sont fortement corrélées positivement. Doit-on conclure que le désir d’investir en bourse augmente avec l’âge ?

Exemple : corrélation partielle Supposons qu’une troisième variable, « le revenu », soit prise en compte. Le nuage de points dans l’espace devient alors :

Exemple : corrélation partielle Supposons maintenant que l’on découpe la population en groupes de telle manière que tous les individus d’un même groupe aient approximativement le même revenu.

Exemple : corrélation partielle Ainsi, à l’intérieur de chaque groupe de revenu, la corrélation entre âge et portefeuille est beaucoup moins marquée que sur l’ensemble de la population. Ainsi, la corrélation observée entre âge et portefeuille n’est qu’une conséquence de la tendance à l’augmentation des revenus avec l’âge.

Corrélation partielle – Corrélation totale A l’inverse, il peut exister des cas où deux variables ont une corrélation totale nulle et une corrélation partielle forte.