La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ANALYSE DE DONNEES TESTS D’ASSOCIATION

Présentations similaires


Présentation au sujet: "ANALYSE DE DONNEES TESTS D’ASSOCIATION"— Transcription de la présentation:

1 ANALYSE DE DONNEES TESTS D’ASSOCIATION

2 Analyses bivariée L'examen de variables uniques est une première lecture nécessaire des résultats mais elle ne présente pas de véritable intérêt en termes d'analyse. Les descriptions faites sur les variables soulèvent toute une série de questions sur leurs relations, qui devront être mises en lumière en les rapprochant deux à deux dans des analyses bivariée. Les tris croisés, par exemple, permettent d'examiner les relations entre deux ou plusieurs variables. Ces relations peuvent être symétriques -l'analyse cherche à mesurer la liaison entre les deux variables et à en tester la signification -, ou dissymétriques - l'analyse cherche à expliquer les variations d'une variable dépendante par les variations d'une variable indépendante. Ce dernier cas appelle des méthodes explicatives (ANOVA, régression, etc.)

3 2.1. Tris croisés Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des mesures d'association qui permettent de démontrer la signification statistique d'une association observée entre les variables. Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de fréquences ou d'effectifs de deux ou plusieurs variables. Ce premier outil d'analyse des relations entre deux variables, ou relations bivariée, permet de répondre à des questions qui se posent dès l'origine de l'étude (par exemple: « Les hommes dépensent-ils plus que les femmes sur le point de vente? » ; « Le sexe et les revenus ont-ils une influence sur le montant moyen dépensé? ») ou de mettre en lumière des relations dont on soupçonne l'existence à l'issue des traitements réalisés variable par variable. Le principe du tableau croisé est de proposer une ventilation des fréquences de réponse par variable et par modalité.

4 Tests et mesures d'association de deux variables
qualitatives Les tris croisés ne permettent pas de démontrer l'existence d'une association de deux variables du point de vue statistique. Pour mesurer véritablement la relation entre les variables, il est nécessaire de mettre en place des tests de signification statistique de l'association. Le test très simple du khi-deux pour vérifier l'association de deux variables qualitatives constitue une bonne introduction.

5 Existence d'une association significative
d'indépendance: le test du Khi-deux Le test du Khi-deux est couramment utilisé. Il cherche à tester si deux variables qualitatives (nominales ou ordinales) sont significativement associées. En réalité, c'est l'indépendance des variables qualitatives, présentées dans un tableau croisé, qui est testée. On cherche à vérifier si l'association des deux variables est suffisamment forte pour que l'hypothèse de leur indépendance puisse être rejetée.

6 Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les effectifs que l'on peut lire dans le tableau croisé, à une distribution théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux variables sont indépendantes. Normalement, si les variables étaient indépendantes, l'effectif observé ne devrait dépendre que des effectifs marginaux, c'est-à-dire de l'effectif total de chaque modalité.

7 EXEMPLE DE CALCUL DE LA « distribution théorique (Tij) »
Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes Femmes 100 100 200 200 200 400 Imaginons que l'on cherche à savoir si la possession d'une carte de fidélité et le sexe sont associés. L'effectif théorique des possesseurs d'une carte de fidélité femme est égal au nombre de possesseurs d'une carte de fidélité multiplié par le nombre de femmes divisé par l'effectif total de l'échantillon. 300 300 600

8 TAF: Calculer les fréquences théoriques
Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes Femmes 250 750 1 000 150 450 600 400 1 200 1 600 25% des clients possèdent une carte fidélité

9 La statistique 2 Où: i = numéro de la ligne;
Le 2 observé sur l'échantillon se calcule de la manière suivante: Où: i = numéro de la ligne; j = numéro de la colonne; r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en lignes; c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en colonnes.

10 TAF: calculer la valeur de
Reprenons le même exemple des clients fidèle sachant que les données collectées auprès de l’échantillon sont les suivantes: Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes T O Femmes 250 220 750 1 000 780 420 600 150 180 450 1 600 400 1 200

11 Procédure de test 2 > 20,05 [(r-1)(c-1)]
On pose l’hypothèse nulle : H0 : Il n’y a pas de relation entre les deux variables. H1 ; Il existe une relation statistiquement significative entre les deux variables. On rejette l’hypothèse nulle (on conclut que la relation existe dans la population) si : 2 > 20,05 [(r-1)(c-1)]

12 La loi du 2 suit une distribution asymétrique dont la forme dépend du nombre de degrés de liberté n. Le nombre de degrés de liberté varie en fonction du nombre de modalités des variables et se calcule de la manière suivante: (r-1)(c -1). dl=1 dl=2 dl=3 dl=5

13 H0 : Il n’y a pas de relation entre les deux variables.
On rejettera l'hypothèse nulle d'indépendance entre les variables si le 2 calculé est supérieur à la valeur de référence du 2 se trouvant dans la table de 2 pour n degrés de liberté (en lignes dans la table) et pour un (niveau de risque de se tromper en rejetant l'hypothèse nulle donné en colonnes, fixé généralement à 5. 2 > 20,05 [(r-1)(c-1)] H0 : Il n’y a pas de relation entre les deux variables.

14 Les logiciels statistiques, dont SPSS, donnent une signification ou p-value, s'interprétant comme le niveau risque de se tromper en rejetant Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse d'indépendance entre les deux variables, qui sont alors significativement associées. Il est important de noter que ce test est assez sensible à la taille de l'échantillon, à la taille du tableau croisé et que, normalement, chaque case du tableau devrait avoir un effectif théorique au moins égal à cinq. Si l'on cherche à établir le profil des clients les plus fidèles en croisant le statut marital et la possession d'une carte de fidélité, par exemple, le test du khi-deux permettra de définir si ces deux variables sont indépendantes. SPSS précise le pourcentage des cellules ne satisfaisant pas à cette condition. Si ce pourcentage est inférieur à 20 %, l'usage est de considérer le test comme interprétable.

15

16

17

18 Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à la fois élevée et supérieure à la valeur critique correspondant au seuil de signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous permet de rejeter l'hypothèse nulle (<< Marital et carte sont indépendantes ») et de conclure qu'il existe bien une relation entre le statut marital et la possession d'une carte de fidélité dans la population observée.

19 Indicateurs mesurant la force de l'association
Dans le cas particulier des tableaux carrés 2 x 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux modalités, il est recommandé d'appliquer une correction au 2 , ou d'utiliser le coefficient phi ( ). Celui-ci correspond à la racine carrée du t divisé par la taille de l'échantillon, soit: Le coefficient de contingence (C) peut être appliqué pour des mesures d'association sans contrainte de taille de tableau.

20 Le coefficient d'association prédictive (lambda) permet de mesurer dans quelle proportion une variable qualitative indépendante influence une variable qualitative dépendante. C'est donc une mesure dissymétrique qui contrairement aux précédentes - a pour objet une force de prédiction. On peut mesurer la force de la relation entre les deux variables par le biais de l’indice V de Cramer : n = nombre d’observations (total des fréquences) L = minimum des lignes et des colonnes du tableau 0   < V < 1

21

22 Interprétation qualitative de la statistique V


Télécharger ppt "ANALYSE DE DONNEES TESTS D’ASSOCIATION"

Présentations similaires


Annonces Google