Structure discriminante (analyse discriminante) X1 Y X2 X3
Analyse discriminante vs analyse de régression logistique Le format de Tacq associé à l’analyse discriminante est identique à celui que nous avions utilisé dans le cadre de l’analyse de régression logistique Ceci n’est pas accidentel: les deux techniques veulent répondre à la même question de recherche à l’aide de modèles mathématiques différents
Les postulats à respecter Indépendance des observations entre les individus Multi-normalité des variables X à l’intérieur de chacun des groupes Égalité des structures de variance-covariance des variables X entre les groupes Le respect total de ces postulats est rarement atteint et l’analyse donne souvent des résultats valables malgré des écarts assez importants L’analyse de régression logistique est une alternative intéressante puisque cette dernière ne nécessite pas de rencontrer ces postulats exigeants
L’analyse discriminante permet d’adopter deux perspectives complémentaires: Descriptive: elle vise à identifier des variables (X1, X2, X3…) qui permettent de différencier les individus qui appartiennent à l’un ou l’autre de deux groupes (ou plus) Dans cette perspective l’analyse discriminante est souvent utilisée suite à l’obtention de différences significatives à une analyse MANOVA Prédictive: elle vise à prédire l’appartenance des individus à l’un ou l’autre de deux groupes (ou plus)
Caractéristiques Existence de groupe réels distincts et bien définis: Au moins 2 groupes Différence qualitative entre les groupes, ou zone de séparation naturelle sur un continuum Catégories exhaustives et mutuellement exclusives Les groupes doivent être définis à l’avance, contrairement à l’analyse de regroupement La sélection des variables discriminatrices n’est pas facile: c’est le but de la perspective descriptive
La perspective descriptive Des transformations linéaires sont faites sur les variables X1, X2, X3 de manière à créer de nouvelles variables composites nommées fonctions canoniques discriminantes La pondération des variables définissant les fonctions discriminantes est faite de manière à maximiser la séparation des groupes Le nombre maximal de fonctions est déterminé par le plus petit de: (nombre de variables X) ou de (nombre de groupes – 1)
L’interprétation des fonctions Si plusieurs fonctions discriminantes sont extraites, elles sont classées en ordre décroissant de capacité de séparation (la 1ère fonction extraite étant donc la meilleure) Un test statistique est disponible pour déterminer si une 2e ou une 3e fonction ajoute au pouvoir de discrimination de la 1ère fonction extraite Il est rare que l’on puisse réussir à interpréter plus de deux ou trois fonctions discriminantes
La perspective prédictive Des scores individuels sont calculés pour chacune des fonctions discriminantes extraites Pour chaque individu de l’échantillon, des scores discriminants sont calculés en tenant compte des pondérations des variables et des scores obtenus par cet individu. Ce calcul s’applique de la même façon que si nous avions une équation de régression: Score discriminant 1 = constante + B1 X1 + B2 X2 + B3X3 Pour chaque individu, des calculs de probabilité sont effectués pour déterminer dans quel groupe la probabilité P(G/D) est la plus forte et le sujet est classé dans ce groupe