La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Michel Tenenhaus La Régression Logistique Michel Tenenhaus.

Présentations similaires


Présentation au sujet: "1 Michel Tenenhaus La Régression Logistique Michel Tenenhaus."— Transcription de la présentation:

1 1 Michel Tenenhaus La Régression Logistique Michel Tenenhaus

2 2 Méthodes explicatives : une réponse Y Loi de probabilité de la réponse dans la famille exponentielle (Binomiale, Poisson, Normale, Gamma, Gauss Inverse,...) : Modèle linéaire généralisé (Proc GENMOD) X 1, X 2, …,X k Y QuantitativesQualitativesMélange Quantitatif Régression multipleAnalyse de la varianceModèle linéaire général Qualitatif- Régression Logistique - Segmentation - Analysefactorielle discriminante - Analyse discriminante bayesienne - Régression Logistique - Segmentation - Analysefactorielle discriminante - Régression Logistique - Segmentation - Analysefactorielle discriminante Variable à expliquer Variables explicatives Réseaux de neurones : Optimiser la prévision pour les modèle non- linéaires (!!!!)

3 3 Plan du cours Régression logistique binaire simple (chd) Régression logistique binaire multiple -Données individuelles (faillite, bébé) -Données agrégées (job satisfaction) Régression logistique ordinale (bordeaux) - pentes égales - partiellement à pentes égales (Proc Genmod) Régression logistique multinomiale (bordeaux, alligator) - utilisation de SPSS et de la Proc Catmod Utilisation de SPSS et de la Proc Logistic

4 4 Références P. Allison (1999): LogisticRegressionUsing the SAS System: Theory and Applications Cary, NC: SASInstituteInc. Collet D. (1999): Modelling binary data, Chapman & Hall/CRC, Londres Tenenhaus M. (2007): Statistique, Dunod

5 5 A. La régression logistique binaire Les données Y = variable à expliquer binaire X 1,…, X k = variables explicatives numériques ou binaires (indicatrices de modalités) Régression logistique simple (k = 1) Régression logistique multiple (k > 1)

6 6 I. La régression logistique simple Variable dépendante : Y = 0 / 1 Variable indépendante : X Objectif : Modéliser Le modèle linéaire (x) = x convient mal lorsque X est continue. (x) = Prob(Y = 1/X = x) Le modèle logistique est plus naturel.

7 7 Exemple : Age and Coronary Heart Disease Status (CHD) Les données

8 8 Plot of CHD by Age

9 9 Description des données regroupées par classe dage Tableau des effectifs de CHD par classe dage Graphique des proportions de CHD par classe dage

10 10 Le modèle logistique ou Fonction de lien : Logit

11 11 Fonctions de lien Fonction logit g(p) = log(p / (1 - p)) Fonction normit ou probit g(p) = -1 (p) où est la fonction de répartition de la loi normale réduite Fonction « complementary log-log » g(p) = log(-log(1-p))

12 12 Estimation des paramètres du modèle logistique Les données y i = 1 si caractère présent, 0 sinon Le modèle

13 13 Vraisemblance des données Probabilité dobserver les données [(x 1,y 1 ), …, (x i,y i ), …, (x n,y n )]

14 14 Log-Vraisemblance

15 15 Estimation du maximum de vraisemblance On cherche maximisant la Log-vraisemblance. La matrice est estimée par la matrice

16 16 Résultats Test LRT pour H 0 : 1 = 0

17 17 Résultats Estimated Covariance Matrix Variable Intercept age Intercept age Ecart-type de la constante = /2 = Ecart-type de la pente = /2 =.024 Covariance entre la constante et la pente =

18 18 Test de Wald Le modèle Test H 0 : 1 = 0 H 1 : 1 0 Statistique utilisée Décision de rejeter H 0 au risque Rejet de H 0 si Wald ou NS = P( 2 (1) Wald)

19 19 Test LRT Le modèle Test H 0 : 1 = 0 H 1 : 1 0 Statistique utilisée Décision de rejeter H 0 au risque Rejet de H 0 si ou NS = P( 2 (1) ) Le test LRT est plus puissant que le test de WALD.

20 20 Intervalle de confiance de (x) au niveau 95% De on déduit lintervalle de confiance de

21 21 Intervalle de confiance de (x) au niveau 95%

22 22 Intervalle de confiance de (x) au niveau 95%

23 23 Comparaison entre les proportions observées et théoriques Proportion observée : Proportion théorique : puisque E(y i ) = i estimé par

24 24 Comparaison entre les proportions observées et théoriques

25 25 Test de Hosmer & Lemeshow (Goodness of fit test) Les données sont rangées par ordre croissant des probabilités calculées à laide du modèle, puis partagées en 10 classes au plus. Effectif observé : Effectif théorique : puisque E(y i ) = i estimé par

26 26 Le test du khi-deux est utilisé pour comparer les effectifs observés f ci aux effectifs théoriques : Nb de degrés de liberté = Nb de groupes - 2

27 27 Résultat Ce test est malheureusement peu puissant. Modèle acceptable

28 28 Mesure de la qualité de la modélisation R 2 de Cox & Snell R 2 ajusté de Nagelkerke Pseudo R 2 (McFadden)

29 29 Tableau de classification Une observation i est affectée à la classe [Y=1] si c. Tableau de classification (c = 0.5) Sensibilité = 29/43 Spécificité = 45/57 taux de faux positifs = 12/41 taux de faux négatifs = 14/59 TABLE OF CHD BY PREDICTS CHD PREDICTS Frequency 0 1 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total

30 30 Objectifs Sensibilité = capacité à diagnostiquer les malades parmi les malades Spécificité = capacité à reconnaître les non-malades parmi les non-malades 1 - Spécificité = risque de diagnostiquer un malade chez les non-malades. Trouver un compromis acceptable entre forte sensibilité et forte spécificité.

31 31 Graphique ROC (Receiver Operating Characteristic) Sensibilité : capacité à prédire un évènement Spécificité : capacité à prédire un non-événement Graphique ROC : y = Sensibilité(c) x = 1 - Spécificité (c) C = 0.5 Laire sous la courbe ROC est une mesure du pouvoir prédictif de la variable X. Ici cette surface est égale à 0.8.

32 32 Coefficients d association entre les probabilités calculées et les réponses observées N = effectif total t = nombre de paires avec des réponses différentes = nb(0)*nb(1) nc = nombre de paires concordantes (y i < y j et ) nd = nombre de paires discordantes (y i < y j et ) t - nc - nd = Nb dex-aequo (y i < y j et ) D de Somer = (nc - nd) / t Gamma = (nc - nd) / (nc + nd) Tau-a = (nc - nd) /.5N(N-1) c = (nc +.5(t - nc - nd)) / t c = aire sous la courbe ROC

33 33 Analyse des résidus données individuelles Résidu de Pearson (Standardized Residual) à comparer à 2 en valeur absolue

34 34 Autres statistiques pour lanalyse des résidus Influence de chaque observation sur la déviance (DifDev) i D = D(toutes les obs.) - D(toutes les obs. sauf lobs. i) Résidu déviance (Deviance) à comparer à 2 en valeur absolue Déviance : Studentized residual :

35 35 Analyse des résidus 100 N = Deviance valueStudentized residualStandardized residual

36 36 II. La régression logistique multiple Exemple : Prévision de faillite Les données Les ratios suivants sont observés sur 46 entreprises : Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.

37 37 Les données des entreprises

38 38 Boîtes à moustaches des ratios financiers selon le critère de Faillite

39 39 Intervalle de confiance des moyennes des ratios financiers selon le critère de Faillite

40 40 Régressions logistiques simples de Y sur les ratios X NS <.05 Prédicteur significatif

41 41 ACP des entreprises

42 42 ACP des entreprises (sans X4)

43 43 Le modèle de la régression logistique Le modèle

44 44 Vraisemblance des données Probabilité dobserver les données [(x 1,y 1 ), …, (x i,y i ), …, (x n,y n )]

45 45 Résultats

46 46 Résultats

47 47 Le modèle estimé Prévision de faillite

48 48 Test de Hosmer & Lemeshow

49 49 Régression logistique pas à pas descendante Sans X 2

50 50 Régression logistique pas à pas descendante Sans X 4

51 51 Carte des entreprises dans le plan (x 1, x 3 )

52 52 Équation de la droite frontière X 3 = ( X 1 )/ X X 3 = 0

53 53 Carte des entreprises dans le plan (x 1, x 3 ) avec la droite frontière issue de la régression logistique X 3 = ( X 1 )/3.019 Droite diso-probabilité 0.5 F NF

54 54 Carte des entreprises dans le plan (x 1, x 3 ) avec la droite frontière et le « no-mans land » issues de la méthode SVM

55 55 Carte des entreprises dans le plan (x 1, x 3 ) avec la courbe frontière et le « no-mans land » issues de la méthode SVM

56 56 Exemple II : Low birth weight baby (Hosmer & Lemeshow) Y = 1 si le poids du bébé < grammes, = 0 sinon n 1 = 59, n 0 = 130 Facteurs de risque : -Age -LWT (Last Menstrual Period Weight) -Race (White, Black, Other) -FTV ( Nb of First Trimester Physician Visits) -Smoke (1 = oui, 0 = non)

57 57 Résultats Aucun problème de multicolinéarité

58 58 Validité du modèle Test de Hosmer et Lemeshow

59 59 Odds-Ratio Pour un événement rare lodds-ratio est peu différent du risque relatif défini par :

60 60 Intervalle de confiance de lOdds-Ratio au niveau 95% De on déduit lintervalle de confiance de OR(Smoke) :

61 61 Intervalle de confiance de lOdds-Ratio au niveau 95%

62 62 Influence dun groupe de variables Le modèle Test H 0 : r+1 = … = k = 0 H 1 : au moins un j 0 Statistiques utilisées 1. = [-2L(Modèle simplifié)] - [-2L(Modèle complet)] 2. - Proc GENMOD (type 3) - Régression backwardLR avec Removal = 1 dans SPSS - Proc Logistic - Proc Genmod (type 3 et wald) - SPSS

63 63 Règle de décision On rejette H 0 : r+1 = … = k = 0 au risque de se tromper si ou Wald ou si NS = Prob(

64 64 Test du facteur Race (Wald) Modèle sans le facteur Race :

65 65 Test du facteur Race (LRT) Utiliser Backward:LR

66 66 Test de lhypothèse linéaire générale Le modèle Test H 0 : C( 0, 1, … k ) = 0 H 1 : C( 0, 1, … k ) 0 Statistiques utilisées 1. = [-2L(H 0 )] - [-2L(H 1 )] 2. Proc GENMOD Proc Logistic Proc Genmod

67 67 Règle de décision On rejette H 0 : C( 0, 1, …, k ) = 0 au risque de se tromper si ou Wald ou si NS = Prob(

68 68 La régression logistique pas-à-pas descendante On part du modèle complet. A chaque étape, on enlève la variable ayant le Wald le moins significatif (plus fort niveau de signification) à condition que son niveau de signification soit supérieur à 10 %.

69 69 La régression logistique pas-à-pas ascendante dans la Proc Logistic de SAS A chaque étape on sélectionne la variable X j qui aura le niveau de signification du 2 Score (X j ) le plus faible une fois introduite dans le modèle, à condition que lapport de X j soit significatif. Linfluence des variables hors-modèle est testée globalement à laide de la statistique 2 Score ( Residual Chi-Square dans SAS ), mais ce test est peu puissant.

70 70 Modèle TestH 0 : j = 0 vs H 1 : j 0 Statistique suit une loi du khi-deux à 1 degré de liberté sous H 0. Test du Score pour la variable X j est calculé sur le modèle à t+1 variables.

71 71 Test du Score pour les variables hors modèle Modèle Test H 0 : t+1 =…= k = 0 vs H 1 : au moins un j 0 Statistique suit une loi du khi-deux à k-t degré de liberté sous H 0. est calculé sur le modèle à k variables.

72 72 Régression logistique multiple (Données agrégées) Exemple : Job satisfaction (Models for discrete data, D. Zelterman, Oxford Science Publication, 1999) 9949 employees in the craft job (travail manuel) within a company Response : Satisfied/Dissatisfied Factors :Sex (1=F, 0=M) Race (White=1, Nonwhite=0) Age ( 44) Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific) Explain Job satisfaction with all the main effects and the interactions.

73 73

74 74 Utilisation de la Proc Logistic data job; input sat nsat race age sex region; label sat='satisfied with job' nsat='dissatisfied' race='0=non-white, 1=white' age='3 age groups' sex='0=M, 1=F' region='7 regions' total='denominator'; total = sat+nsat; propsat = sat/total; cards; ;

75 75 Utilisation de la Proc Logistic proc logistic data=job; class race age sex region/param=effect; model sat/total = race age sex region race*age race*sex race*region age*sex age*region sex*region /selection = forward hierarchy = none ; run;

76 76 Résultat de la Proc Logistic (option Forward et hierarchy =none) Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq race age <.0001 sex region <.0001 race*sex age*sex

77 77 Utilisation de la Proc Logistic avec l option Param=effect Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 race age <.0001 age sex region <.0001 region region region region region race*sex age*sex age*sex

78 78 Calcul et test des derniers coefficients proc logistic data=job; class race age sex region/param=effect; model sat/total = race age sex region race*sex age*sex ; contrast 'Age >44' age -1 -1/estimate = parm; contrast 'Pacific' region / estimate=parm; contrast 'Age>44,Homme' age*sex -1 -1/ estimate=parm; run;

79 79 Résultats Contrast Rows Estimation and Testing Results Standard Wald Contrast Estimate Error Chi-Square Pr > ChiSq Age > <.0001 Pacific Age>44,Homme

80 80 Utilisation de la Proc Logistic avec l option Param=effect Chez les hommes, les non-blancs sont plus satisfaits que les blancs. Chez les femmes, les blanches sont plus satisfaites que les non-blanches.

81 81 Questions Estimer la différence du Logit(Prob(Satisfait)) entre les hommes et les femmes par région. Estimer la différence du Logit(Prob(Satisfait)) entre les blancs et les non-blancs par sexe. Représenter les résultats graphiquement.

82 82 Sorties SPSS Utiliser « deviation »

83 83

84 84 Utilisation de Backward:LR

85 85 Utilisation du Generalized Linear Model de SPSS Pour modéliser la probabilité de la modalité « Satisfait »

86 86

87 87 Utilisation du Generalized Linear Model de SPSS Estimated Marginal Means for linear predictor Race = '0=non-white, 1=white' Sex = '0=M, 1=F' Chez les hommes, les non-blancs sont plus satisfaits que les blancs. Chez les femmes, les blanches sont plus satisfaites que les non-blanches.

88 88 Calcul des EM means for linear predictor Modèle Estimation de la moyenne globale

89 89 Estimated Marginal Means for Response Race = '0=non-white, 1=white' Sex = '0=M, 1=F' Chez les hommes, les non-blancs sont plus satisfaits que les blancs. Chez les femmes, les blanches sont plus satisfaites que les non-blanches.

90 90 Construction d un modèle hiérarchique proc logistic data=job; class race age sex region/param=effect; model sat/total= sex region race(sex) age(sex) /scale=none ; contrast 'Pacific' region /estimate=parm; contrast 'Age>44,Homme' age(sex) /estimate = parm; contrast 'Age>44,Femme' age(sex) /estimate=parm; run;

91 91 Résultats Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq sex region <.0001 race(sex) age(sex) <.0001

92 92 Résultats Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 sex region <.0001 region region region region region race(sex) race(sex) age(sex) age(sex) age(sex) <.0001 age(sex) Standard Wald Contrast Estimate Error Chi-Square Pr > ChiSq Pacific Age>44,Homme <.0001 Age>44,Femme <.0001

93 93 Utilisation de la Proc Logistic avec l option Param=effect ns BlancNon-blanc Femme Homme Pacific Southwest Northwest Midwest Southern AtlanticMid Northeast Femme Homme.650 ))(SatisfaitLogit(Prob Différence entre races par sexe : Race(Sexe) Différence entre les ages par sexe : Age(Sexe) ns Chez les hommes, les non-blancs sont plus satisfaits que les blancs. Chez les femmes, les blanches sont plus satisfaites que les non-blanches.

94 94 Utilisation du Generalized Linear Model de SPSS Pour modéliser la probabilité de la modalité « Satisfait »

95 95

96 96 Utilisation du Generalized Linear Model de SPSS BlancNon-blanc Femme Homme Pacific Southwest Northwest Midwest Southern AtlanticMid Northeast Femme Homme ))(SatisfaitLogit(Prob Différence entre races par sexe : Race(Sexe) Différence entre les ages par sexe : Age(Sexe)

97 97 Analyse des résidus données agrégées en s groupes n i = effectif du groupe i, i = 1 à s = 84 y i = nombre de succès observé dans le groupe i = probabilité de succès dans le groupe i = = nombre de succès attendu dans le groupe i Résidu de Pearson : Résidu déviance :

98 98 Analyse des résidus et validation du modèle proc logistic data=job; class race age sex region/param=effect; model sat/total=race age sex region race*sex age*sex / scale = none ; output out = residu predicted =predicted reschi =reschi resdev=resdev; run; Proc print data=residu; var sat total propsat predicted reschi resdev; run;

99 99 Analyse des résidus : Résultats Obs sat total propsat predicted reschi resdev

100 100 Validation du modèle Le khi-deux de Pearson : La déviance : Si le modèle étudié est exact Q P et Q L suivent approximativement une loi du khi-deux à [nb de groupes - nb de paramètres du modèle] degrés de liberté. [Approximation médiocre]

101 101 Remarques Les tests de validation sont valables sil y a au moins 10 sujets par groupe. La déviance Q L est égale à où le modèle saturé est un modèle reconstituant parfaitement les données.

102 102 Résultats Deviance and Pearson Goodness-of-Fit Statistics Criterion DF Value Value/DF Pr > ChiSq Deviance Pearson Number of events/trials observations: 84 SAS SPSS

103 103 Sur-dispersion Khi-deux de Pearson Q P et déviance Q L sont trop forts si : -Modèle mal spécifié -Outliers Hétérogénéité de chaque groupe La variable de réponse Y i = Nb de succès sur le groupe i ne suit plus une loi binomiale : -E(Y i ) = n i i -V(Y i ) = n i i (1 - i )

104 104 Calcul de Dans la Proc LOGISTIC : -Option SCALE = Pearson : -Option SCALE = Deviance : Dans la Proc GENMOD : -Option PSCALE ou DSCALE -Scale = (vrai également dans Proc Logistic)

105 105 Solution LOGISTIC/GENMOD pour prendre en compte la sur-dispersion Utilisation de la réponse binomiale pour lestimation des paramètres. Pour les tests sur les coefficients : -Les statistiques de Wald et LRT sont divisées par. -Les déviances sont divisées par. -Dans GENMOD, utilisation de la statistique Sil y a sur-dispersion (Déviance et Khi-deux de Pearson significatifs) les résultats non corrigés sont trop significatifs.

106 106 B. La régression logistique ordinale Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon, Moyen, Médiocre Exemple : Qualité des vins de Bordeaux

107 107 Les données

108 108 corrélations VIF

109 109 La régression logistique ordinale La variable Y prend 1,…, m, m+1 valeurs ordonnées. I. Le modèle à pentes égales pour i = 1, …, m et avec 1 2 … m Dans la Proc Logistic : Dans SPSS : Les coefficients de régression des x j de SPSS sont lopposé de ceux de SAS : j = - j.

110 110 Propriétés du modèle Modèle à pentes égales (proportional odds ratio) est indépendant de i. Lorsque j > 0, la probabilité des petites valeurs de Y augmente avec X j.

111 111 Test du modèle à pentes égales dans SAS Le modèle général pour i = 1,…,m TestH 0 : 11 = 12 = … = 1m 21 = 22 = … = 2m k1 = k2 = … = km k(m-1) contraintes

112 112 Statistique utilisée Log-vraisemblance du modèle général = estimation de pour le modèle à pentes égales La statistique suit une loi du khi-deux à k(m-1) degrés de liberté sous lhypothèse H 0.

113 113 Règle de décision On rejette lhypothèse H 0 dun modèle à pentes égales au risque de se tromper si ou si NS = Prob( Conseil dAgresti : Test plutôt utilisé pour valider H 0 que pour rejeter H 0.

114 114 Résultats SPSS

115 115 Résultats SPSS Modèle complet Modèle sans Chaleur

116 116 Prévision de la qualité du vin avec le 2e modèle

117 117 Qualité de la prévision

118 118 II. Le modèle partiellement à pentes égales Les données de chaque observation sont répétées m fois. La variable « Type » indique le numéro de la répétition i. La variable « Réponse » indique si [Y i] est vrai : Année Qualité Type Réponse Pour Type = 1 : Réponse = 1 Qualité = 1 Pour Type = 2 : Réponse = 1 Qualité 2 (Y=1) faux (Y 2) vrai

119 119 Le modèle complet - Pour Type = 1 : Réponse = 1 Qualité = 1 - Pour Type = 2 : Réponse = 1 Qualité 2 - Doù : Prob(Réponse = 1/Type = 1, x) = Prob(Qualité = 1/x) Prob(Réponse = 1/Type = 2, x) = Prob(Qualité 2/x) - T 1, T 2 = variables indicatrices de la variable Type

120 120 Le code SAS Proc genmod data=bordeaux2 descending; class type annee; model reponse = type tempera soleil chaleur pluie type*tempera type*soleil type*chaleur type*pluie /dist=bin link=logit type3 noint; repeated subject=annee / type=unstr; run;

121 121 Résultats étape 1 The GENMOD Procedure Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged.

122 122 Résultats étape 1 Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept type type tempera soleil chaleur pluie tempera*type tempera*type soleil*type soleil*type chaleur*type chaleur*type pluie*type pluie*type

123 123 Résultats Score Statistics For Type 3 GEE Analysis Chi- Source DF Square Pr > ChiSq type tempera soleil 0.. chaleur pluie tempera*type soleil*type chaleur*type pluie*type

124 124 Le modèle partiellement à pentes égales On élimine progressivement les interactions non significatives. On retrouve le modèle à pentes égales si toutes les interactions sont éliminées. Cette approche permet un test LRT de comparaison entre le modèle complet et le modèle à pentes égales.

125 125 Résultat des itérations Modèle à pentes égales Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged.

126 126 Résultat des itérations Modèle à pentes égales Analysis Of Initial Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept type type tempera soleil chaleur pluie

127 127 C. Régression logistique multinomiale La variable nominale Y prend r valeurs. Modèle : (La modalité r sert de référence.)

128 128 Application aux vins de Bordeaux Le code SAS proc catmod data=bordeaux; direct tempera soleil chaleur pluie; response logit; model qualite = tempera soleil chaleur pluie; run;

129 129 Test de Wald sur linfluence dune variable X j Le modèle Test H 0 : 1j = … = r-1,j = 0 H 1 : au moins un ij 0 Statistique utilisée

130 130 Règle de décision On rejette H 0 : 1j = … = r-1,j = 0 au risque de se tromper si Wald ou si NS = Prob(

131 131 Influence des p variables X p+1,…, X k Le modèle Test H 0 : i,p+1 = … = ik = 0, i = 1,…, r-1 H 1 : au moins un ij 0 Statistiques utilisées 1. = [-2L(Modèle simplifié)] - [-2L(Modèle complet)] 2.

132 132 Règle de décision On rejette H 0 : 1,p+1 = … = r-1,k = 0 au risque de se tromper si ou Wald ou si NS = Prob(

133 133 Application aux vins de Bordeaux

134 134 Application aux vins de Bordeaux Les tests LRT sont plus justes que les tests de Wald : meilleure approximation du niveau de signification.

135 135 Application aux vins de Bordeaux

136 136 Application aux vins de Bordeaux

137 137 Application aux vins de Bordeaux

138 138 Prévision de la qualité du vin

139 139 Application aux vins de Bordeaux

140 140 Exemple Alligators (Agresti)

141 141 Exemple Alligators The sample consisted of 219 alligators captured in four Florida lakes, during September The response variable is the primary food type, in volume, found in an alligators stomach. This variable had five categories: Fish, Invertebrate, Reptile, Bird, Other. The invertebrates found in the stomachs were primarily apple snails, aquatic insects, and crayfish. The reptiles were primarily turtles (though one stomach contained tags of 23 baby alligators that had been released in the lake during the previous year!). The Other category consisted of amphibian, mammal, plant material, stones or other debris, or no food of dominant type.

142 142 Exemple Alligators

143 143 Exemple Alligators

144 144 Modèle estimé

145 145 Prévision H = Hancock, O = Oklawaha, T = Trafford, G = George

146 146 Exemple Alligators (2) SEX LENGTH CHOICE ________ ________ ________ M 1.30 I M 1.32 F M 1.40 F M 1.42 I M 1.42 F M 1.47 I M 1.47 F M 1.50 I M 1.52 I M 1.63 I M 1.65 O M 1.65 I M 1.65 F M 1.68 F M 1.70 I M 1.73 O M 1.78 F M 1.78 O M 1.80 F M 1.85 F M 1.93 I M 1.93 F M 1.98 I M 2.03 F M 2.31 F M 2.36 F M 2.46 F M 3.25 O M 3.28 O M 3.33 F M 3.56 F M 3.58 F M 3.66 F M 3.68 O M 3.71 F M 3.89 F F 1.24 I F 1.30 I F 1.45 I F 1.45 O F 1.55 I F 1.60 I F 1.65 F F 1.78 I F 1.78 O F 1.80 I F 1.88 I F 2.16 F F 2.26 F F 2.31 F F 2.36 F F 2.39 F F 2.41 F F 2.44 F F 2.56 O F 2.67 F F 2.72 I F 2.79 F F 2.84 F SEX LENGTH CHOICE ________ ________ ________ SEX LENGTH CHOICE ________ ________ ________

147 147 Exemple Alligators (2) The CATMOD Procedure Maximum likelihood computations converged. Maximum Likelihood Analysis of Variance Source DF Chi-Square* Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept sex length length*sex Likelihood Ratio * Test de Wald

148 148 Exemple Alligators (2) Résultats SPSS

149 149 Exemple Alligators (2)

150 150 Exemple Alligators (2)

151 151 Exemple Alligators (2)

152 152 Exemple Alligators (2)


Télécharger ppt "1 Michel Tenenhaus La Régression Logistique Michel Tenenhaus."

Présentations similaires


Annonces Google