La corrélation et la régression

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Université de Ouagadougou
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Tests non paramétriques
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
Corrélations et ajustements linéaires.
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie Cours 6
Laboratoire Inter-universitaire de Psychologie
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique

La Régression Multiple
Structure de causalité bivariée
Fonction puissance Montage préparé par : André Ross
L’inférence statistique
Régression linéaire simple
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
L’Analyse de Covariance
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La puissance statistique
La puissance statistique
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Statistique Cours #4 Régression linéaire simple et multiple
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Probabilités et Statistiques Année 2009/2010
Gestion budgétaire des ventes
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
Stat-infoCM6a : 1 Rappels.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
Régression linéaire (STT-2400)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

La corrélation et la régression

Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidents Attention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales La relation est décrite par le coefficient de corrélation (r) Il varie entre -1 et 1: 1 (ou -1) = relation parfaite 0 = absence de relation Il existe donc trois cas possibles: Relation positive : x augmente; y augmente Relation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pas

Exemples de relation

Exemples de relation

Exemple

Exemple Mesure la direction et la grandeur de la relation

Note

Exemple Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.

Coefficient de détermination Variance commune = 0 % x y Variance commune = 25 % x y Variance commune = 80 % x y

Exemple 77% de la variance en y peut être expliquée par la variance en x Exemple 2 (SAT) 36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT

Coefficient de corrélation erronés Restriction de l’étendue: diminue la corrélation

Coefficient de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.75 L H

Coefficient de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.50 L H x

Coefficient de corrélation erronés Combiner des groupes: augmente ou diminue la corrélation r2 = 0 r1 > 0 r1 = 0 r2 > 0 r2 > 0 r1 > 0

Coefficient de corrélation erronés Score extrême: augmente ou diminue la corrélation x x x x x x x x x x x x x x x x x x x

Coefficient de corrélation erronés Relation non linéaire: diminue la corrélation

Note Même si le coefficient de corrélation est celui rapporté, il n’est pas un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.

Inférence

Inférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.

Exemple Comme le tobs >tcrit (3.209>3.182) on rejette H0 et on accepte H1. Les 2 populations sont donc dépendantes.

Régression linéaire

Régression linéaire On veut une relation fonctionnelle entre 2 variables et non seulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédiction y1 Rappel des caractérisiques (pente, constante) de l’équation d’une droite x1

Les paramètres de la droite de régression Si on remplace b0

Note On sait que Si on remplace la covariance par sa valeur

Exemple 2

Exemple 2

Prédiction À partir de l’équation de régression, il est possible de faire des prédiction Ex. 1 Si x = 7.5, que vaut ?

Prédiction De façon similaire on peut prédire x à partie de y Ex. 2 Si y = 9.65, que vaut ?

Prédiction Enfin! Ex. 3 Si x = 3, que vaut ? Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur

Erreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.

Note Pour des grands échantillons

Intervalles de confiance Prédiction à partir d’un nouveau score L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.

Intervalles de confiance Prédiction à partir d’un nouveau score Exemple xnew= 7.5 pour un IC de 95%

Relation entre le test t et la corrélation

Groupes indépendants Variabilité dans l’estimation des paramètres (erreur type) a c b Par Pythagore Si on remplace « a » par sa valeur

Groupes dépendants Variabilité dans l’estimation des paramètres (erreur type) c a q b Par la loi du Cosinus Si on remplace « a » par sa valeur

Groupes dépendants