Les traitements croisés Cette partie du cours abordera les traitements croisés que l’on peut exécuter entre les questions. Les analyses bi-variées, ou tris croisés, sont en fait le dépouillement des réponses à une question en fonction des réponses à une autre question.
Traitement à mettre en oeuvre Test statistique validant la relation La méthodologie Le type de traitement diffère selon que l'on croise des questions fermées (ou nominales) ou des questions numériques. Trois méthodes de traitements peuvent être employées selon le type des questions : Cas Exemple Traitement à mettre en oeuvre Test statistique validant la relation Fermée X Genre x Sport pratiqué Tri croisé Chi deux Numérique Objectif de salaire Analyse de variance Test de Fisher Âge Régression Coefficient de corrélation
Principe Il s’agit de comparer chaque modalité de la question A en fonction de ses réponses à la question B. Exemple : voir comment chaque tranche d’âge apprécie la qualité d'un produit. Il s’agit de déterminer si les réponses à la question B varient en fonction des réponses à la question A. On étudie donc les liens statistiques entre A et B. N.B : on parle bien de lien statistique, de relation, et non pas d’influence de A sur B.
Entre deux questions fermées Le point de départ est un tableau croisé, dont il existe plusieurs modes de représentation : En effectif En pourcentage en ligne Ici, 56,4% des joggers sont des garçons.
Le test du Chi-deux NS = non significatif PS = peu significatif S = significatif TS = très significatif Le test du Chi-deux indique si la relation entre les deux variables est significative. Aides à l'interprétation, les cases colorées nous montrent les informations essentielles (les Chi-deux partiels les plus forts). en bleu, les sur-représentations en rose, les sous-représentations Dans cet exemple, les pratiques sportives sont liées au genre : les garçons pratiquent particulièrement le football, les filles pratiquent plutôt la danse et la natation…
Représentation graphique Un graphique permet de bien visualiser la répartition par genres, pour chacun des sports.
Entre fermées et numériques Le tableau de moyennes croisées va nous présenter pour chaque catégorie : la moyenne l'écart-type l'effectif éventuellement la somme ou le pourcentage L'écart-type nous indique la dispersion du phénomène dans la catégorie étudiée. Ici, avec un écart-type de près de 15000 F, les objectifs de salaire des garçons sont très hétérogènes.
Le test du F de Fisher A partir d'une analyse de variance, le test F de Fisher nous indique si la relation entre les deux variables est significative. Aides à l'interprétation, les cases colorées nous montrent les catégories dont les moyennes sont statistiquement différentes de la moyenne générale (par le test de Student). Le test de Fisher est significatif si la probabilité de rejet (p) est < 5%. Dans cet exemple, l'objectif de salaire varie en fonction du genre, d'une manière très significative : les filles ont un objectif de salaire nettement inférieur à la moyenne
Entre deux questions numériques Pour représenter le lien statistique entre 2 questions numériques, on utilise un nuage de points, avec une variable en abscisse (ici l'âge) et l'autre en ordonnée (le salaire escompté). La droite de régression linéaire, de type y=ax+b, permet de décrire la tendance, c'est à dire l'évolution générale du salaire objectif en fonction de l'âge. Equation de la droite de régression dans notre exemple : OBJECTIF = 76,06 x AGE + 23827,07 Le coefficient de corrélation indique la dépendance entre les deux variables. Le signe du coefficient montre le sens de la relation (positive ou négative). Compris entre 0 et 1, le coefficient nous informe de la force de la dépendance. En Sciences Humaines, à partir de 0,5, on peut parler d'une relation très forte. Dans cet exemple, avec un coefficient égal à 0,01, l'objectif de salaire n'est pas lié à l'âge, d'une manière significative.
Entre variables numériques mises en classes Pour présenter un croisement entre deux questions numériques, on peut aussi mettre les deux variables en classes et dresser un tableau croisé. Le test du Chi-deux pourra alors être appliqué. Tableau croisé de questions numériques mises en classes Ici, le salaire escompté n'est pas lié d'une manière significative à l'âge (chi² non significatif).
Avec une question échelle Rappel : les questions "échelle" ont la particularité de pouvoir être traitées comme des questions fermées ou numériques (à chaque échelon correspond un nombre, de 1 à n). On les traite ensuite, soit comme une question fermée avec un tableau de fréquence. C’est le test du chi-deux qui s’applique. Soit comme une question numérique, avec la moyenne des échelons et le test de Fisher permet de conclure.
Avec une question texte Une question texte peut être croisée comme une question fermée, à condition : qu’elle ait été recodée en question fermée que le tableau des mots ait été constitué et limité (ici aux 17 premiers mots) Les résultats et les tests statistiques nous indiquent donc que les mots cités varient en fonction du genre. Garçons et filles n'ont pas ici la même conception d'une vie réussie.
Passons maintenant aux exercices… Les exercices qui suivent concernent la partie du cours sur les tris croisés. Ils sont de différents niveaux et portent sur des aspects variés. Les questions se rapportent au questionnaire sur les valeurs des étudiants. Dans un exercice, le lien réponses vous amène à la correction. Quand vous êtes dans un corrigé d'exercice, le symbole vous permet de revenir à l'énoncé de l'exercice.
Exercice 1 Quel est le pourcentage des étudiants étrangers de l’établissement qui pratiquent la photographie ? Accès aux résultats de l'étude réponses
Exercice 2 Quelles sont les activités culturelles où les filles sont sur-représentées ? Accès aux résultats de l'étude réponses
Exercice 3 Quels sont les comportements universitaires qui varient statistiquement en fonction du genre ? Accès aux résultats de l'étude réponses
Exercice 4 Les valeurs privilégiées varient-elles en fonction du genre des personnes ? Accès aux résultats de l'étude réponses
Exercice 5 Le projet professionnel des étudiants est-il plus ou moins précis en fonction de l’âge ? Accès aux résultats de l'étude réponses
Exercice 6 Quelle variable influence le plus les qualités privilégiées par les étudiants : - le genre ? - l’origine géographique ? - l’âge ? Accès aux résultats de l'étude réponses
Voici les corrigés des exercices Corrigé de l’exercice 1 Corrigé de l’exercice 2 Corrigé de l’exercice 3 Corrigé de l’exercice 4 Corrigé de l’exercice 5 Corrigé de l’exercice 6
Corrigé de l’exercice 1 Le pourcentage d’étudiants étrangers de l’établissement pratiquant la photographie est : 27,6%.
Corrigé de l’exercice 2 Si l’on se réfère aux cases encadrées en bleu (Chi deux partiels significatifs), il s’agit du chant.
Corrigé de l’exercice 3 Seules les variables « participation » et « bourre au travail » font apparaître des différences significatives avec respectivement p=1,0% et p=1,1%. Les garçons (3,24) participent plus que les filles (2,94), mais celles-ci sont moins souvent en retard dans leur travail (3,23) que leurs collègues masculins (3,58).
Corrigé de l’exercice 4 Non, le test du Chi deux n’est pas significatif (p=14,1%).
Corrigé de l’exercice 5 Oui, les moyennes sur la variable « projet pro » sont statistiquement différentes (p=1,1%). Les plus âgés (âge+) ont un projet plus élaboré avec une moyenne de 3,94 sur 5.
Corrigé de l’exercice 6 Aucune de ces 3 variables n’influence les qualités privilégiées de manière significative. Parmi les 3, c’est tout de même le genre qui obtient une probabilité de rejet plus faible avec p=14,1% contre 20,4% pour l’âge et 86,5% pour l’origine géographique.