Structure discriminante (analyse discriminante)

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
Chapitre 5. Description numérique d’une variable statistique.
La régression logistique: fondements et conditions d’application
Collecte de données F. Kohler.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Les classifications hiérarchiques
Méthodes statistiques. Ajustements et corrélation
Échantillonnage-Estimation
Régression -corrélation
Vérification des données
Christelle Scharff IFI 2004
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Les principaux résumés de la statistique

Statistique descriptive, analyse de données
La Régression Multiple
Structure de causalité bivariée
Fonction puissance Montage préparé par : André Ross
Régression linéaire simple
Fonctions de partition
Groupe 1: Classes de même intervalle
La segmentation
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Analyse de la variance multivariée
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
Lanalyse de la covariance. X y ANOVA Lanalyse de la covariance y X ANOVA.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Les analyses multivariées
Régression linéaire (STT-2400)
La méthode sociologique
La régression multiple
MAXIMISER les RESULTATS
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
2. Modèles linéaires.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
CALCUL AUTOMATISÉ et CALCUL RÉFLÉCHI. Dans le calcul automatisé les résultats sont immédiatement disponibles Soit parce qu’ils sont mémorisés - tables,
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Méthode des moindres carrés (1)
Échantillonnage aléatoire simple
Traitement de la turbulence
Chapitre 2 La statistique descriptive I
MODULE FTH 2007 Diversité génétique
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Budgets flexibles et coûts standard
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Bienvenue au cours MAT-350 Probabilités et statistiques.
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
Transcription de la présentation:

Structure discriminante (analyse discriminante) X1 Y X2 X3

Analyse discriminante vs analyse de régression logistique Le format de Tacq associé à l’analyse discriminante est identique à celui que nous avions utilisé dans le cadre de l’analyse de régression logistique Ceci n’est pas accidentel: les deux techniques veulent répondre à la même question de recherche à l’aide de modèles mathématiques différents

Les postulats à respecter Indépendance des observations entre les individus Multi-normalité des variables X à l’intérieur de chacun des groupes Égalité des structures de variance-covariance des variables X entre les groupes Le respect total de ces postulats est rarement atteint et l’analyse donne souvent des résultats valables malgré des écarts assez importants L’analyse de régression logistique est une alternative intéressante puisque cette dernière ne nécessite pas de rencontrer ces postulats exigeants

L’analyse discriminante permet d’adopter deux perspectives complémentaires: Descriptive: elle vise à identifier des variables (X1, X2, X3…) qui permettent de différencier les individus qui appartiennent à l’un ou l’autre de deux groupes (ou plus) Dans cette perspective l’analyse discriminante est souvent utilisée suite à l’obtention de différences significatives à une analyse MANOVA Prédictive: elle vise à prédire l’appartenance des individus à l’un ou l’autre de deux groupes (ou plus)

Caractéristiques Existence de groupe réels distincts et bien définis: Au moins 2 groupes Différence qualitative entre les groupes, ou zone de séparation naturelle sur un continuum Catégories exhaustives et mutuellement exclusives Les groupes doivent être définis à l’avance, contrairement à l’analyse de regroupement La sélection des variables discriminatrices n’est pas facile: c’est le but de la perspective descriptive

La perspective descriptive Des transformations linéaires sont faites sur les variables X1, X2, X3 de manière à créer de nouvelles variables composites nommées fonctions canoniques discriminantes La pondération des variables définissant les fonctions discriminantes est faite de manière à maximiser la séparation des groupes Le nombre maximal de fonctions est déterminé par le plus petit de: (nombre de variables X) ou de (nombre de groupes – 1)

L’interprétation des fonctions Si plusieurs fonctions discriminantes sont extraites, elles sont classées en ordre décroissant de capacité de séparation (la 1ère fonction extraite étant donc la meilleure) Un test statistique est disponible pour déterminer si une 2e ou une 3e fonction ajoute au pouvoir de discrimination de la 1ère fonction extraite Il est rare que l’on puisse réussir à interpréter plus de deux ou trois fonctions discriminantes

La perspective prédictive Des scores individuels sont calculés pour chacune des fonctions discriminantes extraites Pour chaque individu de l’échantillon, des scores discriminants sont calculés en tenant compte des pondérations des variables et des scores obtenus par cet individu. Ce calcul s’applique de la même façon que si nous avions une équation de régression: Score discriminant 1 = constante + B1 X1 + B2 X2 + B3X3 Pour chaque individu, des calculs de probabilité sont effectués pour déterminer dans quel groupe la probabilité P(G/D) est la plus forte et le sujet est classé dans ce groupe