Formation Black Belt Lean Six Sigma Régression logistique
Objectifs Expliquer le concept et l’application de la régression logistique utilisée lorsque la variable réponse Y est qualitative Analyser des données avec une variable réponse Y qualitative et des variables indépendantes X qualitatives ou quantitatives continues Estimer des probabilités de succès Déterminer si la relation y=f(x) est statistiquement significative Évaluer la qualité de l’ajustement du modèle
Régression logistique versus linéaire La régression logistique, comme la régression linéaire, modélise la relation entre une variable réponse Y et une ou plusieurs variables indépendantes X La régression logistique est utilisée avec des variables réponses Y attributs et des variables X continues ou attributs alors que la régression linéaire est utilisée avec des variables Y et X quantitatives continues
Trois types de régression logistique Trois types de régression logistique : binaire, ordinale et nominale Variable réponse Y Nombre de catégorie de la réponse Caractéristiques de la réponse Exemples Binaire 2 2 niveaux Go/no-go, succès/échec, oui/non, féminin/masculin Ordinale 3 ou plus Ordre de grandeur entre les niveaux Insatisfait/neutre/ satisfait, faible/moyen/sévère Nominale Sans ordre de grandeur entre les niveaux Cheveux bruns/ cheveux blonds/ cheveux noirs
Qu’est-ce que la régression logistique binaire? Y est un événement d’intérêt et doit être mesuré par catégorie X peut être une variable continue ou catégorique Le modèle peut avoir un ou plusieurs X, mais un seul Y La valeur prédite de la variable réponse « binaire » Y sera la probabilité qu’un succès ou un échec se produise
Exemple Exemple : on cherche à comprendre l’effet du poids et de la cigarette sur le rythme cardiaque au repos La variable réponse est le niveau du rythme cardiaque : faible (low) ou élevé (high) Il faut utiliser la régression logistique pour comprendre les effets du poids et de la cigarette sur le rythme cardiaque au repos Y = Pouls au repos (attribut) « RestingPulse » X1 = Fume la cigarette (attribut) « Smokes » X2 = Poids de la personne (continue) « Weight »
Exemple (suite) Le modèle servira à prédire la probabilité que le pouls au repos soit faible ou élevé en considérant le poids et la consommation ou non de la cigarette
Exemple (suite) La régression logistique tentera d’évaluer les chances que certains événements se produisent ou non en considérant un ratio de probabilité : Par exemple, dans l’échantillon, ces événements ont été observés : Ratio d’avoir un pouls faible et de fumer = 18/10 = 1,8 Ratio d’avoir un pouls faible et de ne pas fumer = 52/12 = 4,33 Ratio de probabilité = 1,8 / 4,33 = 0,416 Note : Ces ratios sont calculés tout poids confondus
Exemple (suite) Ainsi, la probabilité d’avoir un pouls faible est deux fois moindre lorsque le sujet fume (environ) Est-ce que ce résultat est statistiquement significatif ? La régression logistique binaire permettra de le confirmer ou non
Régression logistique binaire Cependant, la probabilité de succès (d’avoir un pouls au repos faible), entre 0 et 1, a une forme en S (en général) et donc, il faut un moyen de passer du graphique de droite à celui de gauche Les valeurs observées de Y en fonction du poids (Y=1 (faible) et Y=0 (élevé)) Deux courbes car un groupe de fumeurs et un groupe de non fumeurs
Fonction logit Avec la régression logistique binaire, la valeur prédite de la variable réponse « binaire » Y sera la probabilité qu’un succès se produise La courbe représentant cette probabilité a une forme en S et peut être bien représentée par la fonction logit qui est utilisée dans la plupart des logiciels statistiques Cette fonction permet de développer des modèles versatiles Alors que la régression linéaire peut modéliser seulement des relations linéaires, la fonction logit peut prendre plusieurs formes de courbes qui dépendent des valeurs des paramètres estimés
Fonction logit (suite) Ainsi, la probabilité qu’un succès se produise est représentée par la distribution logistique suivante, appelée aussi fonction Logit Les ratios d’intérêt, vus précédemment, seront calculés à partir de cette équation de la façon suivante dans l’exemple :
Ratios de probabilités Donc, quelles sont les probabilités d’avoir un pouls faible au repos lorsque le sujet est fumeur et qu’il pèse 140 livres ? De façon similaire, il est possible de trouver les probabilités d’avoir un pouls faible au repos lorsque le sujet est non fumeur et qu’il pèse 140 livres :
Ratios de probabilités (suite) Le ratio de probabilité est obtenu de la façon suivante : La régression logistique binaire calculera les valeurs prédites de ces ratios qui varient entre 0 et 1 Cependant, il est possible de transformer cette équation de façon à obtenir un modèle linéaire qui offre certains avantages et réduit la complexité
Transformation logit (fonction de liaison) Cette transformation est la suivante : Avantages de travailler avec une forme linéaire g(x) est linéaire, continue et varie de - à , dépendant des valeurs de x, alors que varie de 0 à 1 L’estimation des paramètres est plus simple à obtenir, telle que pour la régression linéaire, et permet de calculer par la suite, les probabilités
Transformation logit (fonction de liaison) (suite) Avec cette transformation, les résidus ne sont pas distribués normalement comme à l’habitude mais suivent plutôt une distribution binomiale Distribution des résidus Moyenne = 0 Variance =
Exemple Minitab File < Open Worksheet < EXH_REGR.MTW
Exemple Minitab (suite) Stat < Regression < Binary Logistic Regression
Exemple Minitab (suite)
Exemple Minitab (suite) La fonction de liaison utilisée est Logit (Link Function) Response Information : Nombre d’observations de la variable réponse dans chaque catégorie De plus, Minitab a défini l’événement succès (Event) lorsque le pouls au repos est faible (Low)
Exemple Minitab – Table de régression logistique Table de régression logistique : montre les coefficients estimés, l’erreur sur les coefficients, la statistique Z et les valeurs-p Lorsque la fonction de transformation utilisée est logit, la valeur estimée du ratio de probabilité est donnée avec un intervalle de confiance à 95% pour la valeur de ce ratio
Exemple Minitab – Analyse des résultats Est-ce que la régression est significative dans son ensemble ? Une valeur de p<0,05 indique qu’il y a au moins une variable X qui est significativement différente de zéro Si p>0,05 alors il faut tester de nouvelles variables Ici, p=0,023 donc au moins l’une des deux variables Smokes ou Weight est utile pour expliquer le pouls au repos Log-Likelihood est une statistique utilisée pour comparer différents modèles de régression Plus la valeur est élevée en valeur absolue, plus l’ajustement du modèle est bon
Exemple Minitab – Analyse des résultats (suite) Est-ce que les facteurs individuels sont statistiquement significatifs ? H0 : X n’influence pas Y (pente de la droite = 0) H1 : X influence Y (pente de la droite ≠ 0) Pour ce modèle : Smokes (p = 0,031) et Weight (p = 0,041) Puisque leurs valeurs-p < 0,05, les pentes de ces deux facteurs sont significativement différentes de zéro Ces deux variables sont donc utiles pour expliquer le pouls 30% des chances d’un fumeur d’avoir un poulx élevé vs non-fumeur
Exemple Minitab – Analyse des résultats (suite) La valeur estimée du coefficient de Smokes de -1,193 représente le changement dans lorsque les sujets fumeurs (Smokes = Yes) sont comparés aux sujets non fumeurs en gardant la variable Weight constante La valeur estimée du coefficient Weight de 0,025 représente le changement dans le ratio de probabilité précédent lorsque le poids est augmenté d’une unité et que le facteur Smokes est gardé constant
Exemple Minitab – Analyse des résultats (suite) La probabilité d’avoir un faible pouls au repos, étant donné X, est modélisée par l’équation suivante : où β0 = coefficient pour la constante = -1,987 β1 = coefficient pour Smokes = -1,193 β2 = coefficient pour Weight = 0,025 L’équation donne la probabilité prédite pour toutes les valeurs possibles des X
Exemple Minitab – Analyse des résultats (suite) Les valeurs EPR01 correspondantes données par Minitab se retrouvent dans le fichier de données lorsque la case « Event probability » est cochée dès le départ
Exemple Minitab – Analyse des résultats (suite) Ratio de probabilité Malgré que le coefficient de la variable Weight est significativement différent de zéro, le ratio de probabilité « Odds ratio » est presque 1 (1,03) Cela informe qu’une augmentation du poids de 1 livre affectera très peu le pouls au repos (la variable Smokes étant gardée constante)
Exemple Minitab – Analyse des résultats (suite) Une différence beaucoup plus importante est notée lorsque des sujets sont comparés avec une différence de poids plus grande Par exemple, pour une augmentation de 10 livres, le ratio de probabilité devient 1,28, ce qui signifie qu’un sujet donné a 1,28 fois plus de probabilité d’avoir un pouls plus élevé avec 10 livres supplémentaires Pour sa part, la variable Smokes a un ratio de probabilité de 0,30, ce qui signifie que pour des sujets ayant le même poids et étant fumeurs, le pouls au repos a 3 fois plus de chance (environ) d’être élevé que pour des non fumeurs du même poids
Exemple Minitab – Analyse des résultats (suite) Évaluation de la qualité de l’ajustement du modèle H0 : le modèle ajuste adéquatement les données H1 : le modèle n’ajuste pas adéquatement les données Il est préférable d’utiliser le test d’Hosmer-Lemeshow lorsqu’il y a au moins une variable X continue dans le modèle. Dans ce cas, H0 n’est pas rejeté et donc le modèle ajuste bien les données. S’il y a un problème d’ajustement, il faut analyser la table des fréquences observées et estimées et trouver les endroits où les fréquences diffèrent le plus. Dans ce cas, aucune différence ne dépasse 18%.
Exemple Minitab – Analyse des résultats (suite) Vérifier l’aptitude du modèle à faire de bonnes prédictions Cette table est obtenue en pairant les observations des 70 individus ayant un faible pouls avec les 22 qui ont un pouls élevé 70 * 22 = 1540 paires à considérer En se basant sur ce modèle, une paire est concordante si l’individu ayant un faible pouls a une probabilité plus élevée d’avoir un faible pouls, discordante si le contraire prévaut et égale (Ties) si les probabilités sont égales
Exemple Minitab – Analyse des résultats (suite) Dans cet exemple, 67.9% des paires concordent, 29.9% sont discordantes et 2.2% sont égales Ces valeurs peuvent être utilisées comme mesures de prédictions comparatives Par exemple, essayer différentes variables X et comparer les résultats en terme de concordance Les statistiques Somers' D, Goodman-Kruskal Gamma et Kendall's Tau-a varient approximativement entre 0 et 1 Plus la valeur est grande, plus le modèle ajuste bien les données Dans l’exemple, les mesures varient de 0,14 à 0,39, ce qui implique que le modèle testé ne prédit pas suffisamment la réalité
Exemple Minitab – Analyse des résultats (suite) Graphiques de diagnostic Ils permettent de cibler quelles sont les données qui ne s’ajustent pas bien au modèle Si ces données demeurent minoritaires et qu’elles peuvent être expliquées, le modèle pourra être utilisé Si plusieurs données sont considérées trop à l’écart des autres et que les résidus sont trop grands, il faudra considérer un meilleur modèle Goodness-of-Fit Tests - displays Pearson, deviance, and Hosmer-Lemeshow goodness-of-fit tests. In addition, two Brown tests-general alternative and symmetric alternative-are displayed because you have chosen the logit link function and the selected option in the Results subdialog box. The goodness-of-fit tests, with p-values ranging from 0.312 to 0.724, indicate that there is insufficient evidence to claim that the model does not fit the data adequately. If the p-value is less than your accepted a-level, the test would reject the null hypothesis of an adequate fit. Table of Observed and Expected Frequencies - allows you to see how well the model fits the data by comparing the observed and expected frequencies. There is insufficient evidence that the model does not fit the data well, as the observed and expected frequencies are similar. This supports the conclusions made by the Goodness of Fit Tests. Measures of Association - displays a table of the number and percentage of concordant, discordant, and tied pairs, as well as common rank correlation statistics. These values measure the association between the observed responses and the predicted probabilities.
Exemple Minitab – Analyse des résultats (suite) Delta Chi-Square versus la probabilité estimée de l’événement: Considère l’ajustement du modèle pour chaque combinaison des variables X et montre quel serait le changement dans la valeur du chi-carré si la j-ième combinaison était enlevée Un delta chi-carré supérieur à quatre indique que l’ajustement du modèle pour cette combinaison de X n’est pas bon
Exemple Minitab – Analyse des résultats (suite) Selon la statistique delta chi-carré, deux observations sont mal ajustées par le modèle Une valeur élevée de la statistique delta chi-carré est possible par un effet de levier important et/ou un résidu élevé Dans cet exemple, c’est un résidu élevé qui a causé des delta chi-carré supérieurs à quatre et non pas l’effet de levier, puisque pour ces deux observations, l’effet de levier est inférieur à 0,1
Exemple Minitab – Analyse des résultats (suite) Pour identifier les données qui semblent mal ajustées, il suffit de viser ces points dans le graphique et les numéros de l’observation s’afficheront (31, 66) Ces sujets ont un pouls au repos élevé, ne fument pas et ont un poids inférieur au poids moyen des sujets de l’échantillon (Weight = 116, 136 livres) Dans une telle situation, il est important de valider s’il n’y a pas d’erreur dans les données de ces individus et pourquoi le modèle n’a pas réussi à bien les ajuster
Points à retenir La régression logistique est utilisée en présence de variables réponses Y attributs et des variables explicatives X continues ou attributs alors que la régression linéaire est utilisée avec des variables Y et X quantitatives continues Le modèle peut inclure un ou plusieurs X
Points à retenir (suite) Avec la régression logistique binaire, la valeur prédite de la variable réponse « binaire » Y indiquera la probabilité qu’un succès ou un échec se produise La régression logistique ordinale s’applique lorsque Y est une variable pouvant avoir plus de deux catégories qui ont un ordre de grandeur naturel entre elles La régression logistique nominale s’applique lorsque Y est une variable représentée par plus de deux catégories sans ordre de grandeur naturel entre elles
Politique de propriété intellectuelle Le présent document est la propriété unique et exclusive de Fujitsu Conseil (Canada) inc. L’utilisation non autorisée, la divulgation ou la reproduction, sous quelque forme que ce soit, du matériel contenu dans ce document est expressément interdite. Toute utilisation non autorisée ou illégale par l’usager le rendra susceptible de faire l’objet de toute procédure légale et appropriée, à la disposition de Fujitsu Conseil (Canada) inc. © Fujitsu Conseil (Canada) inc. 2011 - Tous droits réservés