Analyse Discriminante

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
La microbiologie prévisionnelle
Association entre variables
Les modèles à choix discrets
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
5 critères de qualité d'un test
C1 Bio-statistiques F. KOHLER
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Comparaison de plusieurs moyennes Analyse de variance
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Scoring Séance II.
Dr DEVILLE Emmanuelle J D V 12/07/2006
Comparaison de plusieurs moyennes Analyse de variance
Régression -corrélation
Le remplacement moléculaire
Psychologie, Première année, Questionnaire.
Tests de comparaison de moyennes
Un neurone élémentaire
la statistique descriptive se compose de 3 domaines distincts :   
Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Nombre de sujets nécessaires en recherche clinique
DEA Perception et Traitement de l’Information
L’Analyse de Covariance
Corrélation et régression linéaire simple
La régression logistique
Les modèles linéaires (Generalized Linear Models, GLM)
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
Les analyses multivariées
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Echantillonage pour une Evaluation d’Impact
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Les Techniques d’enquête quantitative
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Probabilités et Statistiques Année 2010/2011
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Post-optimisation, analyse de sensibilité et paramétrage
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
BIOSTATISTIQUES Définitions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
LECTURE CRITIQUE D’UN ARTICLE
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Transcription de la présentation:

Analyse Discriminante Agrocampus

Hémochromatose Hémochromatose : pathologie se traduisant par une absorption anormale du fer au niveau digestif entraînant à terme l’apparition d’une cirrhose.

L’objectif Le problème consiste ici à détecter la présence de cirrhose chez les patients atteints d’hémochromatose sans recourir à un examen pénible et risqué pour le sujet (biopsie du foie).

Les données La population étudiée comporte 136 sujets, tous atteints d’hémochromatose. Certains (37) présentent une cirrhose (groupe 1), les autres (99) en sont indemnes (groupe 2).

Les variables SEXE : sexe du patient AGEDIAG : âge du patient au diagnostic HM : Hépatomégalie IHC : insuffisance hépato cellulaire AST : enzymes de la cellule hépatique ALT : idem GGT : gamma GT FER : teneur en fer dans le sang (quantité de fer par unité de volume) FRT : ferritine (quantité de la protéine vecteur du fer) CS : coefficient de saturation CHFAGE : concentration hépatique divisée par l’âge BMI : index de biomasse (poids en kg divisé par le carré de la taille) OH : présence d’alcoolisme

2 - Choix des variables Seules les variables continues peuvent être traitées directement, soit : AGEDIAG, AST, ALT, GGT, FER, CS, FRT, CHFAGE et BMI

3 - Choix a priori 1 - Estimation des densités (*) 2 - Probabilités a priori 3 - Echantillon test 4 - Coûts d’erreur de classement

4 - Fonction de densité normale Sous l’hypothèse d’identité des matrices de variance-covariance intra (Wk = W), la règle de classement obtenue est linéaire : Fonction discriminante de FISHER

5 - La règle de classement

Le classement

Les résultats

La validation croisée

6 - La qualité du classement

L’introduction d’un seuil

Avec un seuil il faut examiner : le pourcentage de bien classés le taux d’erreur majeure de classement le pourcentage de non classés

Taux d’erreur et seuil

7 - La sélection des variables Le modèle après sélection (STEPDISC) : FRT - AST - AGEDIAG

Optique prédictive Les critères de la procédure STEPDISC sont adaptés à l’optique descriptive Dans une optique prédictive il vaudrait mieux utiliser le % de bien classés, global ou sur le groupe d’intérêt

Sélection du meilleur modèle

Quelques points à considérer Il vaut mieux retenir pour un même % de bien classés, le modèle comportant le moins de paramètres Le choix entre plusieurs modèles peut s’opérer sur l’intérêt des variables Une variable non significative sur le plan statistique peut être jugée importante sur le plan médical

8 - Qualité de la règle de classement Maximum chance criterion : Tous les individus sont classés dans le groupe le plus nombreux : 137 patients classés dans le groupe 2, donc 99 bien classés, soit un % global de bien classés de 72.8 % Problème : 0 bien classés dans le groupe d’intérêt Remarque : attention au % global de bien classés

82.1 patients bien classés (60.4 %) Autre critère Proportional chance criterion Allocation au hasard des patients dans l’un des deux groupes Probabilité de placer un patient dans le groupe k : nk / n Nombre de bien classés dans le groupe k : nk2 / n % global de bien classés : (n12 + n22) / n2 Application : 82.1 patients bien classés (60.4 %)

Comparaisons MCC : 99 bien classés (72.8%) PCC : 82.1 bien classés (60.4 %) FDL : 127 bien classés (93.4 %) Règle empirique : faire au moins 25 % de mieux Test : comparer le nombre de bien classés de la FD avec celui obtenu au hasard (PCC)

Remarques terminales Le choix des probabilités a priori : Des probabilités a priori proportionnelles aux effectifs dans l’échantillon favorisent le classement dans le groupe le plus nombreux

pr2 f2(x) c1/2 < pr1 f1(x) c2/1 Suite ... Les coûts d’erreur de classement Objectif : minimiser le coût moyen a posteriori Affectation au groupe 1 si : pr2 f2(x) c1/2 < pr1 f1(x) c2/1 prk : probabilité a priori du groupe k fk(x) : densité dans le groupe k cj/k : coût d’erreur de classement dans le groupe j d’un élément du groupe k

... Les résultats (Bootstrap - SPAD.N)

Les variables qualitatives La méthode DISQUAL : Analyse Discriminante sur les facteurs d’une ACM

Sélection des variables Problème : un facteur est combinaison de toutes les variables de base Solutions : - Examiner les résultats de l’ACM dans laquelle la variable d’intérêt est placée en supplémentaire - Réaliser un test du khi-2 entre la variable d’intérêt et chaque variable de base (codée)

AXE 2 --------------------------------------------------------------------------------------------------ihc1 | | | 2.4 + | | 1.6 + | | sex2 | | .8 + | | | age2 | | | | | fer1 | hm1 | cs1chf1 | bmi2 ast2 cir1 | | | ggt2 | | | fib2 | | oh2 | alt2 | .0 frt1alt1cir2--------ihc2----------------------------------------frt2---------------------------------| | hm2 | oh1 | ast1ggt1 | cs2 | | bmi1 | | | | fer2sex1 | | | chf2 | ---+------fib1-----+--age1---------+---------------+---------------+---------------+---------------+ -.4 .0 .4 .8 1.2 1.6 2.0 AXE 1

Sélection des variables

Les résultats

Variante Analyse directe sur les modalités :

Résultats variante 1 % de mal classés (validation croisée) : Groupe 1 : 5.4 % Groupe 2 : 9.0 %

Variante avec sélection Variables retenues : FRT - HM - AST - OH - ALT

Classement % de mal classés (validation croisée) : Groupe 1 : 5.41 % Global : 6.6 % (9 patients sur 136)

Comparaison Peu de variation des coefficients

La régression LOGISTIQUE Autre méthode : La régression LOGISTIQUE