La corrélation et régression, approfondissement

Slides:



Advertisements
Présentations similaires
Qu’est-ce qu’une problématique ? (1)
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Evaluer la compétence 3 : « culture scientifique et technologique » Gray le 23/01/2010.
C1 Bio-statistiques F. KOHLER
Régression ou corrélation
Méthodes statistiques. Ajustements et corrélation
Corrélations et ajustements linéaires.
Régression -corrélation
Réalisation d’une ligne de tramway et développement durable Pilier environnemental Qu’apporte la réalisation d’une ligne de tramway pour la protection.
Corrélation linéaire et la droite de régression
Les traitements croisés
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Les principaux résumés de la statistique
Structure de causalité bivariée
Régression linéaire simple
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
La corrélation et la régression multiple
La corrélation et la régression
Systèmes semi-linéaires
Cours n° 5 : Grandeurs énergétiques
Le comportement des coûts Chapitre 3
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Josée Lemire Conseillère pédagogique CSCN
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
Régression linéaire (STT-2400)
La méthode sociologique
La régression multiple
Les séries chronologiques
Le candidat traite un sujet au choix parmi deux proposés dans la même discipline. Pour traiter le sujet choisi, en histoire comme en géographie : - il.
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Programmation linéaire en nombres entiers : les méthodes de troncature
Séries chronologiques et prévision
Chapitre 5 Prévisions.
Régression linéaire (STT-2400)
Méthodes de Biostatistique
Méthodologie de recherche
La régression simple Michel Tenenhaus
Présentation du marché obligataire
Vers les fonctions …. Objectifs Travailler sur les tableaux (type tableaux de proportionnalité, mais pas seulement !) Travailler sur la représentation.
ANALYSE D’UN ÉCHANTILLON PORTANT SUR UNE VARIABLE STATISTIQUE
Probabilités et Statistiques Année 2010/2011
Bureautique M1 Publipostage.
N6: Déterminer une racine carrée approximative des nombres rationnels et positifs qui sont les carrés non parfaits.
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
Chapitre 4 Variables aléatoires discrètes
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Interpolation et Approximation
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Statistiques à 2 variables
Distribution à deux variables
COURS DE TECHNIQUES QUANTITATIVES
La Maîtrise Statistique des Procédés
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Corrélation et causalité
Paramètres de position et de dispersion
Les mesures de tendance centrale
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Estimation du coefficient de corrélation par la méthode des rectangles.
Écart moyen et écart type
Transcription de la présentation:

La corrélation et régression, approfondissement Plan de la présentation Causalité chez Hume Des questions de base Des données simples Des formules Un exercice collectif: le «cercle des corrélations» Jean-Herman Guay

David Hume (1711-1776) «Tous les raisonnements sur les faits paraissent se fonder sur la relation de la cause à l'effet. C'est au moyen de cette seule relation que nous dépassons l'évidence de notre mémoire et de nos sens. Si vous demandiez à quelqu'un pourquoi il croit à la réalité d'un fait qu'il ne constate pas effectivement, par exemple que son ami est à la campagne ou en France, il vous donnerait une raison ; cette raison serait un autre fait : une lettre qu'il a reçue ou la connaissance de ses résolutions antérieures et de ses promesses. Un homme qui trouverait une montre ou une autre machine dans une île déserte conclurait qu'il y a eu précédemment des hommes sur cette île. Tous nos raisonnements sur les faits sont de même nature. On y suppose constamment qu'il y a une connexion entre le fait présent et ce qu'on en infère. (...)
Si donc nous désirons nous satisfaire au sujet de la nature de l'évidence qui nous donne la certitude des faits, il faut que nous recherchions comment nous arrivons à la connaissance de la cause et de l'effet.
J'oserai affirmer, comme une proposition générale qui n'admet pas d'exception, que la connaissance de cette relation ne s'obtient, en aucun cas, par des raisonnements a priori; mais qu'elle naît entièrement de l'expérience quand nous trouvons que des objets particuliers sont en conjonction constante l'un avec l'autre. » Hume, Enquête sur l'entendement humain

Organiser en une série chronologique Concret

R Concret

À partir de là, que pouvons-nous dégager pour élaborer un modèle?

Corrélation et régression: des cousines! Forte positive Forte négative Assez forte R=+.5 R=0 R=0 Non linéaire, Effet de cycle? Non linéaire Absence Abstrait

Corrélation et régression: des cousines! Forte positive Forte négative Assez forte Non linéaire Non linéaire Absence linéaire ou non-linéaire Abstrait

R Abstrait

R

Les résidus : ce que le modèle n’explique pas

Les équations de régression La base de notre modèle   valeur de Y = (coefficient*valeur de X) + constante + erreur Nombre de tuées par million estimé coefficient Année constante R R carré Coefficient de détermination France 154 = -7,80 1997 15721,63 .9652 .9193 Bulgarie 127 +,84 2015 -1565,31 .4141 .1715 Allemagne 31 -4,39 8876,58 .9949 .9898

Et dans Excel? E Avec la matrice de gauche: 1. faites un graphique «Nuage de points»; 2) en cliquant sur les points, «Ajouter une droite de tendance», puis choisissez les options «Équation» et «R carré». Vous devriez obtenir le même résultat. Abstrait

Relations et relations Rares mais possibles Phénomène A Phénomène B Phénomène X |||||||| Phénomène y Relativement fréquentes: des exceptions Phénomène A Phénomène B Phénomène X ||||||| || Phénomène y ||| Relativement fréquentes: trop d’exceptions? Phénomène A Phénomène B Phénomène X ||||| |||| Phénomène y

Des mots Corrélation : cor< cum, relation avec. Corrélation et causalité? Synonymes? NON! Concomitance? Contiguïté et antériorité de la cause sur l’effet: Direction de la causalité? La corrélation y répond-elle? NON! Force de la causalité? La corrélation y répond-elle? OUI! Régression: réduction des données d’un phénomène complexe en vue de le représenter par une loi simplificatrice Droite de régression, par opposition d’autres fonctions Des moindres carrés ordinaires: la méthode des Moindres Carrés Ordinaires (MCO) consiste à minimiser la Somme des Carrés des Résidus (SCR) elle se démarque des Moindres Carrés Pondérés (MCP) que nous ne voyons pas.

Exercice en classe Comprendre chaque variable Choisir les variables appropriées en éliminant celles qui ne sont plus nécessaires Dresser la liste des relations les plus intéressantes et être en mesure de les mettre en mots, bref de les décrire. Qu’est ce qui explique le nombre de personnes tuées par million en prenant les variables une à une?

Pctconducteuratttaché pop2007 pct1524ans police2007 nbrecontravitesse passesoviétique txmotorisation2006 tueesparm2007 consalcool2003 loialcool corru2006 Pctconducteuratttaché densite2007 ratiopolice ratiocontra ratiopoliceeffi Le «cercle des corrélations»

5 questions, 5 réponses à trouver! Quel pays s’approche le plus de la médiane si on regarde le nombre de personnes tuées en 2009? Et si on regarde le nombre de personnes tuées par million en 2009? Discutez brièvement les implications de ces résultats. De façon générale, existe-t-il une différence concernant le nombre de personnes tuées par million en 2009 entre les pays d’Europe de l’Ouest et les pays d’Europe de l’Est (ancien espace soviétique)? Utilisez quelques mesures de dispersion (écart- type, variance, étendue, quartile...) et de tendance centrale (moyenne, médiane, mode...) pour étayer votre affirmation. Quel est l’estimé du nombre de personnes tuées par million sur les routes de Bulgarie en 2012? Faut-il nuancer cet estimé et pourquoi? Quel est l’estimé du nombre de personnes tuées sur les route de l’Allemagne en 2012? Faut-il nuancer cet estimé et pourquoi? Bien que cela puisse être trompeur, en quelle année, voire quel mois et quel jour, le nombre de personnes tuées par million en France et Allemagne devrait être identique?