La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La corrélation et l’analyse de régression

Présentations similaires


Présentation au sujet: "La corrélation et l’analyse de régression"— Transcription de la présentation:

1 La corrélation et l’analyse de régression
Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License, the full details of which may be found online here: You may re-use, edit, or redistribute the content provided that the original source is cited, it is for non-commercial purposes, and provided it is distributed under a similar license.

2 La régression simple et la corrélation
Aujourd'hui, nous allons discuter une technique statistique efficace pour examiner s'il y a une relation entre deux variables. Spécifiquement, nous allons parler des idées de la régression simple et de la corrélation. Une raison pour laquelle la régression est efficace, c'est que nous pouvons l'utiliser pour démontrer la causalité; autrement dit, nous pouvons utiliser la régression pour montrer qu’une variable indépendante provoque un changement dans une variable dépendante.

3 Des nuages de points La chose la plus simple que nous pouvons faire avec deux variables que nous croyons liées, c'est tracer un nuage de points. Un nuage de points est un simple graphique qui trace les valeurs de notre variable dépendanteY et notre variable indépendante X. Normalement, nous représentons graphiquement notre variable dépendante sur l'axe vertical et la variable indépendante sur l'axe horizontal.

4 En prenant le parti de l'industrie d'incontinence
Par exemple, faisons un nuage de points des données suivantes: Individu # de sodas consommés # de visites aux toilettes Rick 1 2 Janice Paul 3 Susan 4 Cindy 6 John 5 Donald

5 Le nuage de points de ces données
6 5 Trips.to.Bathroom 4 3 2 1 1 2 3 4 Sodas.Consumed 5 6

6 Une évaluation à l'œil de la droite de régression
Parfois, notre nuage de points peut donner une assez bonne idée de la relation entre nos variables. Dans notre nuage de points, il semble qu’une ligne qui monte ver la droite soit bien ajusté aux données. Essentiellement, il nous reste à déterminer la droite de meilleur ajustement, c’est-à-dire, la ligne qui représente une ‘moyenne’ de nos points de données. Notez que parfois nos données ne seront pas liées de façon linéaire. Parfois, il pourrait y avoir une relation ‘curvilinéaire’ ou une autre relation non linéaire. S’il semble que les données soient liées mais la régression ne soit pas ajustée, il est très possible que tel soit le cas.

7 Le nuage de points avec une droite de meilleur ajustement
6 5 Trips.to.Bathroom 4 3 2 1 1 2 3 4 Sodas.Consumed 5 6

8 La régression linéaire simple
Tandis que notre nuage de points nous donne une bonne idée de la relation entre les variables et même une idée de la façon dont la droite de régression devrait ressembler, nous devons faire le calcul pour déterminer exactement sa direction. Pour déterminer cela, tout d'abord, on doit avoir une idée de l'équation générale d’une ligne. De l'algèbre, une ligne droite peut être décrite comme: Y = a + bX, où a est l’intersection et b est la pente

9 En comprenant a et b ∑ XY – ∑X –
En bref, le problème de la régression est de savoir quelles valeurs de a et b à utiliser. Pour faire cela, nous utilisons les deux formules suivantes: (∑X)(∑Y) n ∑ XY – et a = Y¯ − bX¯ b = ∑X – 2 (∑X) n 2 Encore une fois, cela semble laid mais c'est la même mathématique simple que vous déjà connaissez et aimez: il suffit d’utiliser PEMA et vous allez obtenir la bonne réponse.

10 La solution de notre exemple
Alors, revenons aux données de notre exemple et trouvons la pente et l‘intersection pour la droite de régression. Individu # de sodas consommés # de visites aux toilettes Rick 1 2 Janice Paul 3 Susan 4 Cindy 6 John 5 Donald

11 La solution de notre exemple
D'abord, nous devons calculer b: (∑X)(∑Y) n 104 – (24)(26) 7 ∑ XY – b = = = ∑X – 2 (∑X) n 2 100 – (24) 7 2 Et maintenant, c'est simple à calculer a: a = Y¯ − bX¯ = (26/7) − (24/7) = − (0.8387)(3.4285) = − =

12 Le coefficient de corrélation de Pearson (r)
Maintenant, après avoir calculé a et b, nous connaissons l'intersection et la pente de la droite de régression et il semble que les variables X et Y soient liées d'une certaine manière. Mais cette relation, est-elle solide? C'est le moment quand le r de Pearson entre en jeu. Le r de Pearson est une mesure de la corrélation; parfois, nous l'appelons simplement le coefficient de corrélation. Le r nous démontre la force de la relation entre X et Y.

13 Le calcul du coefficient de corrélation de Pearson
La formule du coefficient de corrélation de Pearson (r) est quelque peu similaire à la formule de la pente (b): Nous avons déjà calculé la pente et ainsi nous savons le numérateur. Le seul élément qui est un peu compliqué, c'est le dénominateur, où nous devons calculer chaque racine carrée séparément et puis les multiplier ensemble. Pour notre exemple, r =

14 Les corrélations et les déterminations
Un coefficient de corrélation d'environ 0.8 indique que les deux variables sont fortement associées. Si l'on élève le r au carré, l'on obtient le coefficient of détermination r2, qui nous indique la proportion de la variation dans Y expliquée par X. Dans ce cas, r2 = qui signifie que nous estimons que 64% de la variation est expliquée par X, tandis que le reste est dû à une erreur. La seule autre chose qu'on veut, c'est de déterminer si la corrélation est statistiquement significative. Ou, en termes d'une hypothèse nulle, nous voulons déterminer si H0 : r = 0 est vraie.

15 √ Le test de signification pour t n − 2 r2
Pour déterminer si r est significativement différent de zéro, nous utilisons le test t pour le r de Pearson: n − 2 tob = r 1 − r2 Puisque c'est comme les autres tests d'hypothèse, nous voulons comparer tob à tcrit. Pour ce test, nous utilisons notre niveau alpha (conventionnellement, .05 or .01) et df = n − 2. Dans ce cas, nous soustrayons 2 de la taille de l'échantillon parce que nous avons deux variables. Donc, avec α = .05, la corrélation, est-elle significative?

16 √ √ Une exemple du test de signification n − 2 5 r2 = .8008 √ √
7 − 2 = .8008 5 tob = r r2 = .8008 1 − 1 − .6412 .3588 = = (.8008)(3.733) = Maintenant, comme dans les autres tests de signification, nous trouvons notre valeur critique du t dans le tableau (α = .05, df = 5: 2.571) et la comparons à la valeur obtenue. Puisque ≤ , nous rejetons l'hypothèse nulle et concluons que la corrélation est statistiquement significative.

17 La régression multiple
La plupart du temps, les régressions sont plus complexes que cet exemple. Plutôt que tester la signification du r, quand nous avons plusieurs variables explicatives nous testons la signification du coefficient (b) associé à chaque variable indépendante. Cependant, le principe est exactement le même. La plupart des logiciels informatiques (y compris le logiciel R) considère régression bivariée (simple) comme un cas particulier de la régression multiple, donc les tests de signification qu'ils produisent seront basés sur b plutôt que r.

18 La corrélation et la régression dans R
Vous pouvez faire des nuages de points dans R avec la commande de menu Graphs → Scatterplot ... (Graphiques → Nuage de points). Cette boîte de dialogue vous permet également de superposer la droite de régression sur le graphique. (Si vous avez plus de deux variables, la commande de menu Scatterplot matrix ... (Matrice de corrélation ...) peut être utile.) Les corrélations sont disponibles avec la commande de menu Statistics → Summaries → Correlation matrix ... (Statistiques → Résumés → Matrice de corrélation). L’analyse de régression peut être effectuée par la commande de menu Statistics → Fit models → Linear regression ... (Statistiques → Modèles d'ajustement → Régression linéaire).


Télécharger ppt "La corrélation et l’analyse de régression"

Présentations similaires


Annonces Google