La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La corrélation et lanalyse de régression Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike.

Présentations similaires


Présentation au sujet: "La corrélation et lanalyse de régression Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike."— Transcription de la présentation:

1 La corrélation et lanalyse de régression Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License, the full details of which may be found online here: You may re-use, edit, or redistribute the content provided that the original source is cited, it is for non-commercial purposes, and provided it is distributed under a similar license.

2 Aujourd'hui, nous allons discuter une technique statistique efficace pour examiner s'il y a une relation entre deux variables. Spécifiquement, nous allons parler des idées de la régression simple et de la corrélation. Une raison pour laquelle la régression est efficace, c'est que nous pouvons l'utiliser pour démontrer la causalité; autrement dit, nous pouvons utiliser la régression pour montrer quune variable indépendante provoque un changement dans une variable dépendante. La régression simple et la corrélation

3 La chose la plus simple que nous pouvons faire avec deux variables que nous croyons liées, c'est tracer un nuage de points. Un nuage de points est un simple graphique qui trace les valeurs de notre variable dépendanteY et notre variable indépendante X. Normalement, nous représentons graphiquement notre variable dépendante sur l'axe vertical et la variable indépendante sur l'axe horizontal. Des nuages de points

4 Par exemple, faisons un nuage de points des données suivantes: Individu# de sodas consommés# de visites aux toilettes Rick12 Janice21 Paul33 Susan34 Cindy46 John55 Donald65 En prenant le parti de l'industrie d'incontinence

5 Sodas.Consumed Trips.to.Bathroom Le nuage de points de ces données

6 Parfois, notre nuage de points peut donner une assez bonne idée de la relation entre nos variables. Dans notre nuage de points, il semble quune ligne qui monte ver la droite soit bien ajusté aux données. Essentiellement, il nous reste à déterminer la droite de meilleur ajustement, cest-à-dire, la ligne qui représente unemoyenne de nos points de données. Notez que parfois nos données ne seront pas liées de façon linéaire. Parfois, il pourrait y avoir une relation curvilinéaire ou une autre relation non linéaire. Sil semble que les données soient liées mais la régression ne soit pas ajustée, il est très possible que tel soit le cas. Une évaluation à l'œil de la droite de régression

7 Sodas.Consumed Trips.to.Bathroom Le nuage de points avec une droite de meilleur ajustement

8 Tandis que notre nuage de points nous donne une bonne idée de la relation entre les variables et même une idée de la façon dont la droite de régression devrait ressembler, nous devons faire le calcul pour déterminer exactement sa direction. Pour déterminer cela, tout d'abord, on doit avoir une idée de l'équation générale dune ligne. De l'algèbre, une ligne droite peut être décrite comme: Y = a + bX, où a est lintersection et b est la pente La régression linéaire simple

9 En bref, le problème de la régression est de savoir quelles valeurs de a et b à utiliser. Pour faire cela, nous utilisons les deux formules suivantes: b =b = XY – (X)(Y) n 2 eta = Y ¯ bX ¯ Encore une fois, cela semble laid mais c'est la même mathématique simple que vous déjà connaissez et aimez: il suffit dutiliser PEMA et vous allez obtenir la bonne réponse. En comprenant a et b X – 2 (X) n

10 Alors, revenons aux données de notre exemple et trouvons la pente et lintersection pour la droite de régression. Individu# de sodas consommés# de visites aux toilettes Rick12 Janice21 Paul33 Susan34 Cindy46 John55 Donald65 La solution de notre exemple

11 D'abord, nous devons calculer b : b =b = XY – (X)(Y) n 2 X – 2 (X) n La solution de notre exemple Et maintenant, c'est simple à calculer a : a = Y ¯ bX ¯ = (26/7) (24/7) = (0.8387)(3.4285) = = = 104 – (24)(26) – (24) 7 2 =

12 Maintenant, après avoir calculé a et b, nous connaissons l'intersection et la pente de la droite de régression et il semble que les variables X et Y soient liées d'une certaine manière. Mais cette relation, est-elle solide? C'est le moment quand le r de Pearson entre en jeu. Le r de Pearson est une mesure de la corrélation; parfois, nous l'appelons simplement le coefficient de corrélation. Le r nous démontre la force de la relation entre X et Y. Le coefficient de corrélation de Pearson (r)

13 La formule du coefficient de corrélation de Pearson (r) est quelque peu similaire à la formule de la pente (b): Nous avons déjà calculé la pente et ainsi nous savons le numérateur. Le seul élément qui est un peu compliqué, c'est le dénominateur, où nous devons calculer chaque racine carrée séparément et puis les multiplier ensemble. Pour notre exemple, r = Le calcul du coefficient de corrélation de Pearson

14 Un coefficient de corrélation d'environ 0.8 indique que les deux variables sont fortement associées. Si l'on élève le r au carré, l'on obtient le coefficient of détermination r 2, qui nous indique la proportion de la variation dans Y expliquée par X. Dans ce cas, r 2 =.6412 qui signifie que nous estimons que 64% de la variation est expliquée par X, tandis que le reste est dû à une erreur. La seule autre chose qu'on veut, c'est de déterminer si la corrélation est statistiquement significative. Ou, en termes d'une hypothèse nulle, nous voulons déterminer si H 0 : r = 0 est vraie. Les corrélations et les déterminations

15 Pour déterminer si r est significativement différent de zéro, nous utilisons le test t pour le r de Pearson: t ob = r n 2 Donc, avec α =.05, la corrélation, est-elle significative? 1 r2r2 Puisque c'est comme les autres tests d'hypothèse, nous voulons comparer t ob à t crit. Pour ce test, nous utilisons notre niveau alpha (conventionnellement,.05 or.01) et df = n 2. Dans ce cas, nous soustrayons 2 de la taille de l'échantillon parce que nous avons deux variables. Le test de signification pour t

16 t ob = r n 2 1 r 2 = = = = (.8008)(3.733) = Maintenant, comme dans les autres tests de signification, nous trouvons notre valeur critique du t dans le tableau (α =.05, df = 5: 2.571) et la comparons à la valeur obtenue. Puisque , nous rejetons l'hypothèse nulle et concluons que la corrélation est statistiquement significative. Une exemple du test de signification

17 La plupart du temps, les régressions sont plus complexes que cet exemple. Plutôt que tester la signification du r, quand nous avons plusieurs variables explicatives nous testons la signification du coefficient (b) associé à chaque variable indépendante. Cependant, le principe est exactement le même. La plupart des logiciels informatiques (y compris le logiciel R) considère régression bivariée (simple) comme un cas particulier de la régression multiple, donc les tests de signification qu'ils produisent seront basés sur b plutôt que r. La régression multiple

18 Vous pouvez faire des nuages de points dans R avec la commande de menu Graphs Scatterplot... (Graphiques Nuage de points). Cette boîte de dialogue vous permet également de superposer la droite de régression sur le graphique. (Si vous avez plus de deux variables, la commande de menu Scatterplot matrix... (Matrice de corrélation...) peut être utile.) Les corrélations sont disponibles avec la commande de menu Statistics Summaries Correlation matrix... (Statistiques Résumés Matrice de corrélation). Lanalyse de régression peut être effectuée par la commande de menu Statistics Fit models Linear regression... (Statistiques Modèles d'ajustement Régression linéaire). La corrélation et la régression dans R


Télécharger ppt "La corrélation et lanalyse de régression Chris Lawrence Middle Georgia State College This material is distributed under an Attribution-NonCommercial-ShareAlike."

Présentations similaires


Annonces Google