Les liens entre les variables et les tests d’hypothèse But: Est-ce qu’il y a un lien entre 2 variables? Ex: Consommation de viande et la taille d’un individu…vertical ou horizontal !!!
Lien entre le nb de personnes qui méditent en même temps et la paix dans une région!
Types de liens entre variables S’il n’y a aucun lien entre les variables on dit qu’elles sont… Indépendantes Ex: Est-ce qu’il y a un lien entre la couleur des yeux d’une personne et ses notes scolaires? S’il y a un lien entre 2 variables, elles sont… Corrélées Ex: est-ce qu’il y a un lien entre le sexe et la calvitie?
Corrélations Corrélation positive (faire graphique) Ex: Plus tu as un niveau de scolarité élevé, plus ton salaire risque d’être élevé Corrélation négative Ex: Prix d’un billet pour un film p/r au nombre de spectateurs Interdépendance: Dépendance mutuelle, réciproque. Ex: Il y a plus de clients dans un resto de sushi si le poisson est frais et le poisson est plus frais s’il y a beaucoup de clients.
Variables Causalité: Rapport d'une cause à son effet Ex: Garçon et la porcherie de son oncle. Variable indépendante Variable dépendante Concomitance: Existence ou évolution simultanée de deux choses ; simultanéité : La concomitance de deux phénomènes. 2 phénomènes se produisent en même temps sous l’influence d’un 3e facteur Ex: faible natalité et nb élevé de voitures/habitant Difficile de déterminer la variable dépendante Peut avoir plusieurs facteurs et certains pourraient être « non-contrôlables ». Ex: taille familles dans les pays pauvres
Principes du test d’indépendance du khi carré Ce test permet de déterminer s’il y a un lien entre 2 variables qualitatives Notre hypothèse de base est que les 2 variables sont indépendantes. Il va falloir alors confirmer ou infirmer cette hypothèse! Tableau de contingence (ou à double entrée) Voir tableau Excel On veut déterminer s’il existe un lien entre le type de fumeur et le type d’haleine
Le carré de contingence Maintenant qu’on sait comment calculer les fréquences théoriques, il faut être capable de dire si les écarts entre f(o) et f(t) sont significatifs ou non. On commence par calculer le carré de contingence (mesure de l’écart relatif). Si le carré de contingence est très petit, ça veut dire qu’il y a peu de différences entre les f(o) et f(t) et alors, on accepte l’hypothèse de base que les 2 variables sont indépendantes. Formule Voir feuille Excel.
Seuil de signification Probabilité (ou risque) qu’on rejette l’hypothèse nulle même si les variables sont indépendantes. Donc c’est le risque de se tromper. Donc, c’est le risque que le carré de contingence soit supérieur à la valeur critique lorsque les variables sont indépendantes. Les seuils les plus courants sont 1% ou 5%. Dans la vraie vie, si on veut avoir un risque de 5%, la taille de notre échantillon devra être de 1056 personnes. Si on veut avoir un risque de 1%, il va falloir avoir un échantillon de combien? plus de 9000 personnes!!!
Valeur critique du khi carré Si le carré de contingence est supérieur à la valeur critique on rejette l’hypothèse d’indépendance des variables Pour trouver la valeur critique, ça nous prend le « alpha » et le « v » (nb de degrés de liberté) V= nb catégories 1ère variable -1 x nb catégories 2e variable -1 Ex: si on choisit un alpha de 5% et on sait que v=4 (3-1)x(3-1), alors la valeur critique est de: 9.49 Alors puisque notre carré de contingence 47.75>9.49, on rejette l’hypothèse nulle. Ceci veut dire que les variables ne sont pas indépendantes. Il y a un risque d’accepter l’hypothèse nulle quand les variables sont dépendantes. Ce risque s’appelle Beta et c’est un risque de 2e espèce.
Quelle est la force du lien? Coefficient de contingence Coefficient de Cramér (préférable d’utiliser celui-ci) Valeur entre 0 et 1 Si c’est près de 1 c’est fort et si c’est près de 0, le lien est faible V=racine du (carré de contingence/n*(h-1)) h=nb de catégories(modalités) de la variable qui en a le moins.