La corrélation et l’analyse de régression

Slides:



Advertisements
Présentations similaires
GEOGRAPHIE DU CANADA 1232 Lenquête, lanalyse et la pensée critique.
Advertisements

Éthique de la recherche sociale Loleen Berdahl Université de la Saskatchewan This material is distributed under an Attribution-NonCommercial- ShareAlike.
Corrélation Position du problème Définition covariance (X,Y) r =
Algorithmes et structures de données avancés
Les tests d’hypothèses (I)
La régression logistique: fondements et conditions d’application
Mesures d'association: La corrélation par paire Mitchell Brown Université d'Auburn This material is distributed under an Attribution-NonCommercial-ShareAlike.
Une introduction à quelques concepts clés Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression -corrélation
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Les liens entre les variables et les tests d’hypothèse
Les méthodes mixtes Andrea Lawlor Université McGill
Chapitre 2: Les régularités et les relations
La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Analyse de la variance : ANOVA à un facteur
Régression linéaire simple
Corrélation et régression linéaire simple
13/09/07 MATHÉMATIQUES FINANCIÈRES I Quatrième cours.
Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009.
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Introduction à l’algèbre
La régression multiple
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Chapitre 5 Prévisions.
Régression linéaire (STT-2400)
Indices Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License,
Populations et échantillons Anthony Sealey Université de Toronto
Analyse factorielle Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative.
Régression linéaire multiple : hypothèses & tests. Partie 3.
Démarches de résolution de problèmes © R. & M. Lyons Janvier 2010.
Théorème de la limite centrale l’inférence statistique
© Copyright Showeet.com S OCIAL M EDIA T HINKING.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Programmation linéaire en nombres entiers
LA REGRESSION LINEAIRE
Présentation du marché obligataire
Intervalles de confiance pour des proportions L’inférence statistique
Mesures d'association non paramétriques Mitchell Brown Université d'Auburn This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0.
Utilisation de la calculatrice
Les approches qualitatives et quantitatives pour la recherche comparative Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike.
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Exploitation de mesures scientifiques.
Gestion budgétaire des ventes
Pour les boucles FOR on a fait intervenir la boucles TANT QUE équivalentes dont on connaît calculer le temps d’exécution. Toutes le procédures de comptage.
ETUDE DE 2 VARIABLES QUANTITATIVES
Relations et fonctions
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
Statistiques à 2 variables
Distribution à deux variables
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Corrélation et causalité
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
Transcription de la présentation:

La corrélation et l’analyse de régression Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License, the full details of which may be found online here: http://creativecommons.org/licenses/by-nc-sa/3.0/. You may re-use, edit, or redistribute the content provided that the original source is cited, it is for non-commercial purposes, and provided it is distributed under a similar license.

La régression simple et la corrélation Aujourd'hui, nous allons discuter une technique statistique efficace pour examiner s'il y a une relation entre deux variables. Spécifiquement, nous allons parler des idées de la régression simple et de la corrélation. Une raison pour laquelle la régression est efficace, c'est que nous pouvons l'utiliser pour démontrer la causalité; autrement dit, nous pouvons utiliser la régression pour montrer qu’une variable indépendante provoque un changement dans une variable dépendante.

Des nuages de points La chose la plus simple que nous pouvons faire avec deux variables que nous croyons liées, c'est tracer un nuage de points. Un nuage de points est un simple graphique qui trace les valeurs de notre variable dépendanteY et notre variable indépendante X. Normalement, nous représentons graphiquement notre variable dépendante sur l'axe vertical et la variable indépendante sur l'axe horizontal.

En prenant le parti de l'industrie d'incontinence Par exemple, faisons un nuage de points des données suivantes: Individu # de sodas consommés # de visites aux toilettes Rick 1 2 Janice Paul 3 Susan 4 Cindy 6 John 5 Donald

Le nuage de points de ces données 6 ● 5 ● ● Trips.to.Bathroom 4 ● 3 ● 2 ● 1 ● 1 2 3 4 Sodas.Consumed 5 6

Une évaluation à l'œil de la droite de régression Parfois, notre nuage de points peut donner une assez bonne idée de la relation entre nos variables. Dans notre nuage de points, il semble qu’une ligne qui monte ver la droite soit bien ajusté aux données. Essentiellement, il nous reste à déterminer la droite de meilleur ajustement, c’est-à-dire, la ligne qui représente une ‘moyenne’ de nos points de données. Notez que parfois nos données ne seront pas liées de façon linéaire. Parfois, il pourrait y avoir une relation ‘curvilinéaire’ ou une autre relation non linéaire. S’il semble que les données soient liées mais la régression ne soit pas ajustée, il est très possible que tel soit le cas.

Le nuage de points avec une droite de meilleur ajustement 6 ● 5 ● ● Trips.to.Bathroom 4 ● 3 ● 2 ● 1 ● 1 2 3 4 Sodas.Consumed 5 6

La régression linéaire simple Tandis que notre nuage de points nous donne une bonne idée de la relation entre les variables et même une idée de la façon dont la droite de régression devrait ressembler, nous devons faire le calcul pour déterminer exactement sa direction. Pour déterminer cela, tout d'abord, on doit avoir une idée de l'équation générale d’une ligne. De l'algèbre, une ligne droite peut être décrite comme: Y = a + bX, où a est l’intersection et b est la pente

En comprenant a et b ∑ XY – ∑X – En bref, le problème de la régression est de savoir quelles valeurs de a et b à utiliser. Pour faire cela, nous utilisons les deux formules suivantes: (∑X)(∑Y) n ∑ XY – et a = Y¯ − bX¯ b = ∑X – 2 (∑X) n 2 Encore une fois, cela semble laid mais c'est la même mathématique simple que vous déjà connaissez et aimez: il suffit d’utiliser PEMA et vous allez obtenir la bonne réponse.

La solution de notre exemple Alors, revenons aux données de notre exemple et trouvons la pente et l‘intersection pour la droite de régression. Individu # de sodas consommés # de visites aux toilettes Rick 1 2 Janice Paul 3 Susan 4 Cindy 6 John 5 Donald

La solution de notre exemple D'abord, nous devons calculer b: (∑X)(∑Y) n 104 – (24)(26) 7 ∑ XY – b = = = 0.8387 ∑X – 2 (∑X) n 2 100 – (24) 7 2 Et maintenant, c'est simple à calculer a: a = Y¯ − bX¯ = (26/7) − 0.8387(24/7) = 3.7142 − (0.8387)(3.4285) = 3.7142 − 2.8754 = 0.8388.

Le coefficient de corrélation de Pearson (r) Maintenant, après avoir calculé a et b, nous connaissons l'intersection et la pente de la droite de régression et il semble que les variables X et Y soient liées d'une certaine manière. Mais cette relation, est-elle solide? C'est le moment quand le r de Pearson entre en jeu. Le r de Pearson est une mesure de la corrélation; parfois, nous l'appelons simplement le coefficient de corrélation. Le r nous démontre la force de la relation entre X et Y.

Le calcul du coefficient de corrélation de Pearson La formule du coefficient de corrélation de Pearson (r) est quelque peu similaire à la formule de la pente (b): Nous avons déjà calculé la pente et ainsi nous savons le numérateur. Le seul élément qui est un peu compliqué, c'est le dénominateur, où nous devons calculer chaque racine carrée séparément et puis les multiplier ensemble. Pour notre exemple, r = 0.8008.

Les corrélations et les déterminations Un coefficient de corrélation d'environ 0.8 indique que les deux variables sont fortement associées. Si l'on élève le r au carré, l'on obtient le coefficient of détermination r2, qui nous indique la proportion de la variation dans Y expliquée par X. Dans ce cas, r2 = .6412 qui signifie que nous estimons que 64% de la variation est expliquée par X, tandis que le reste est dû à une erreur. La seule autre chose qu'on veut, c'est de déterminer si la corrélation est statistiquement significative. Ou, en termes d'une hypothèse nulle, nous voulons déterminer si H0 : r = 0 est vraie.

√ Le test de signification pour t n − 2 r2 Pour déterminer si r est significativement différent de zéro, nous utilisons le test t pour le r de Pearson: √ n − 2 tob = r 1 − r2 Puisque c'est comme les autres tests d'hypothèse, nous voulons comparer tob à tcrit. Pour ce test, nous utilisons notre niveau alpha (conventionnellement, .05 or .01) et df = n − 2. Dans ce cas, nous soustrayons 2 de la taille de l'échantillon parce que nous avons deux variables. Donc, avec α = .05, la corrélation, est-elle significative?

√ √ Une exemple du test de signification n − 2 5 r2 = .8008 √ √ 7 − 2 = .8008 5 tob = r r2 = .8008 1 − 1 − .6412 .3588 = .8008 13.9353 = (.8008)(3.733) = 2.9893 √ Maintenant, comme dans les autres tests de signification, nous trouvons notre valeur critique du t dans le tableau (α = .05, df = 5: 2.571) et la comparons à la valeur obtenue. Puisque 2.571 ≤ 2.9893, nous rejetons l'hypothèse nulle et concluons que la corrélation est statistiquement significative.

La régression multiple La plupart du temps, les régressions sont plus complexes que cet exemple. Plutôt que tester la signification du r, quand nous avons plusieurs variables explicatives nous testons la signification du coefficient (b) associé à chaque variable indépendante. Cependant, le principe est exactement le même. La plupart des logiciels informatiques (y compris le logiciel R) considère régression bivariée (simple) comme un cas particulier de la régression multiple, donc les tests de signification qu'ils produisent seront basés sur b plutôt que r.

La corrélation et la régression dans R Vous pouvez faire des nuages de points dans R avec la commande de menu Graphs → Scatterplot ... (Graphiques → Nuage de points). Cette boîte de dialogue vous permet également de superposer la droite de régression sur le graphique. (Si vous avez plus de deux variables, la commande de menu Scatterplot matrix ... (Matrice de corrélation ...) peut être utile.) Les corrélations sont disponibles avec la commande de menu Statistics → Summaries → Correlation matrix ... (Statistiques → Résumés → Matrice de corrélation). L’analyse de régression peut être effectuée par la commande de menu Statistics → Fit models → Linear regression ... (Statistiques → Modèles d'ajustement → Régression linéaire).