La corrélation et la régression

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Université de Ouagadougou
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Tests non paramétriques
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
Corrélations et ajustements linéaires.
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique

La Régression Multiple
Fonction puissance Montage préparé par : André Ross
L’inférence statistique
Régression linéaire simple
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Méthodes de prévision (STT-3220)
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
L’analyse de variance.
La puissance statistique
La puissance statistique
La régression logistique
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
La régression multiple
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Statistique Cours #4 Régression linéaire simple et multiple
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Gestion budgétaire des ventes
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
Stat-infoCM6a : 1 Rappels.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

La corrélation et la régression

Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidents Attention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales La relation est décrite par le coefficient de corrélation (r) Il varie entre -1 et 1: 1 (ou -1) = relation parfaite 0 = absence de relation Il existe donc trois cas possibles: Relation positive : x augmente; y augmente Relation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pas

Exemples de relation

Exemples de relation

Exemple

Exemple Mesure la direction et la grandeur de la relation

Note

Exemple Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.

Coefficient de détermination Variance commune = 0 % x y Variance commune = 25 % x y Variance commune = 80 % x y

Exemple 77% de la variance en y peut être expliquée par la variance en x Exemple 2 (SAT) 36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT

Coefficients de corrélation erronés Restriction de l’étendue: diminue la corrélation

Coefficients de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.75 L H

Coefficients de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.50 L H x

Coefficients de corrélation erronés Combiner des groupes: augmente ou diminue la corrélation r2 = 0 r1 > 0 r1 = 0 r2 > 0 r2 > 0 r1 > 0

Coefficients de corrélation erronés Score extrême: augmente ou diminue la corrélation x x x x x x x x x x x x x x x x x x x

Coefficients de corrélation erronés Relation non linéaire: diminue la corrélation

Note Même si le coefficient de corrélation est celui rapporté, il n’est pas un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.

Inférence

Inférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux. Ou

Exemple Comme le tobs >tcrit (3.209>3.182) on rejette H0 et on accepte H1. Les 2 populations sont donc dépendantes.

Degrés de liberté au numérateur Degrés de liberté au dénominateur Distribution F Degrés de liberté au numérateur 1-a Degrés de liberté au dénominateur

Distribution F dl1=1 (2 groupes)

Exemple (F) Comme le Fobs >Fcrit (10.37>10.13) on rejette H0 et on accepte H1. Les 2 populations sont donc dépendantes.

Régression linéaire

Régression linéaire On veut une relation fonctionnelle entre 2 variables et non seulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédiction y1 Rappel des caractérisiques (pente, constante) de l’équation d’une droite x1

Les paramètres de la droite de régression Si on remplace b0

Note On sait que Si on remplace la covariance par sa valeur

Exemple 2

Exemple 2

Prédiction À partir de l’équation de régression, il est possible de faire des prédiction Ex. 1 Si x = 7.5, que vaut ?

Prédiction De façon similaire on peut prédire x à partie de y Ex. 2 Si y = 9.65, que vaut ?

Prédiction Enfin! Ex. 3 Si x = 3, que vaut ? Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur

Erreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.

Note Pour des grands échantillons 

Intervalles de confiance Prédiction à partir d’un nouveau score L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera plus petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.

Intervalles de confiance Prédiction à partir d’un nouveau score Exemple xnew= 7.5 pour un IC de 95%

Intervalles de confiance Prédiction pour l’ensemble des données Il peut être intéressant de connaître la région de confiance pour l’ensemble de la droite de régression.

Exemple

Exemple

Exemple

Relation entre le test t et la corrélation

Exemple (groupes indépendants) Test t

Exemple (groupes indépendants) Modèle général linéaire (corrélation) L’idée est de construire une variable indépendante qui permettra d’identifier à quel groupe appartient la variable dépendante. Ex1: 1 = le premier groupe et 0 le deuxième Ex2: 1 = le premier groupe et -1 le deuxième

Exemple (groupes indépendants) 1 = le premier groupe et -1 = le deuxième

Exemple (groupes indépendants) Modèle général linéaire (corrélation) Donc, le test t (indépendant) est un cas particulier de la corrélation/régression

Exemple (groupes dépendants) Test t

Exemple (groupes dépendants) Modèle général linéaire (corrélation) L’idée est de décomposer la variabilité en deux parties. Ainsi, dans le schème à mesures répétées il y a une part de variabilité attribuable aux sujets et une autre à la condition (effet possible de traitement).

Exemple (groupes dépendants) Modèle général linéaire (corrélation) Variabilité des sujets Pour estimer cette variabilité on élimine l’effet condition:

Exemple (groupes dépendants) Modèle général linéaire (corrélation) Variabilité des sujets Pour estimer cette variabilité on élimine l’effet condition:

Exemple (groupes dépendants) Modèle général linéaire (corrélation) Variabilité de la condition Pour estimer cette variabilité on élimine l’effet mesure répétée; on procède comme si les groupes étaient indépendants:

Exemple (groupes dépendants) Modèle général linéaire (corrélation) Test de signification

Exemple (groupes dépendants) Modèle général linéaire (corrélation) Donc, le test t (dépendant) est aussi un cas particulier de la corrélation/régression