Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?
Comment prendre en compte un excès de zéros ? Objectif Données de comptage Modèle « simple » Distribution de Poisson a priori Comment prendre en compte un excès de zéros ?
Les lois de probabilités discrètes Loi de Bernouilli Loi binomiale Loi géométrique … Loi de Poisson Loi Binomiale Négative
Loi de Poisson Loi des évènements rares Soit N le nombre d’évènements rares survenus dans un intervalle de temps N est une variable aléatoire dont la distribution est une loi de Poisson E(N) = λ Var(N) = λ
Loi Binomiale Négative « Pile-ou-face » tant que Pile n'est pas apparu k fois Nombre de Pile = k Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de lancers = L Le nombre L de lancers nécessaires pour gagner une partie est une variable aléatoire, dont la distribution est une distribution binomiale négative. somme de variables géométriques indépendantes (nb L de lancers jusqu’à 1ere apparition de Pile)
Loi Binomiale Négative (2) « Pile-ou-face » tant que Pile n'est pas apparu k fois Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de Face précédant le k-ième succès = F Le nombre F de Face est une variable aléatoire dont la distribution est une distribution binomiale négative. Var(F) > E(F) d’un coefficient (1/p) Généralisation de la loi de Poisson ?
Poisson -> Bin. Nég. Loi de Poisson P(λ) Excès de zéros = surdispertion Var(λ) > E(λ) Remplacer par une Loi Bin. Nég. BN(k,p)
Adaptations des modèles Adaptations basés sur l’exemple d’une distribution de Poisson Applicable à d’autres distributions (BN) 2 principes : Probabilité de zéros plus élevées pour tous Sous groupe de zéros, distinct des autres
Modèle mixte ~ P(λV) V est une variable aléatoire ~ N(1,α) E(Y) = λ Var(Y) = λ + α2
Modèles ZIP (zero-inflated poisson) Pr(Y=y) = ω + (1-ω).e-µ y = 0 (1-ω).e-µ.µy / y! y > 0 0 ≤ ω < 1 E(Y) = (1-ω).µ = λ Var(Y) = λ + (ω/(1-ω)).µ2 Similitude avec le premier modèle ? « The second of these equations has the same form »
Modèles « hurdle » Analyse séparée Proportion de zéros Probabilité de valeurs > 0 Pr(Y=y) = π0 y = 0 (1- π0).e-µ.µy / ((1-e-µ)y!) y > 0 Hypothèse sous jacente : π0 et µ sont-ils indépendants ? l’un dépend de variables explicatives indépendantes de l’autre hypothèse forte
Modèle « birth process » Analyse séparée Période de « naissance » (zéros) Période de « croissance » (> 0) Différence d’évolution entre les 2 périodes
En résumé Loi binomiale négative Modèles, basés sur loi P ou autres (BN) : Modèles mixtes Modèles ZIP Modèles « hurdle » Modèles « birth process » En pratique,essentiellement BN, modèles ZIP ou ZINB
Référence Models for count data with many zeros M. Ridout International biometric conference, Cap Town . 1998
Présentation d’une étude Evaluating risk factors associated with severe hypoglycaemia in epidemiology studies – What method should we use ? M.K. Bulsara. Diabetic Medicine. 2004
Etude FR d’hypoglycémie sévère Prospective 1243 enfants, de 1996 à 2000 73% sans épisode sévère d’hypoglycémie Surdispersion m = 0,68 var = 2,95 Modèle poissonien inadapté
Etude FR d’hypoglycémie sévère Test statistique de surdispersion Test statistique pour le choix du modèle ZIP/P et ZINB/NB (statistique de Vuong) Test MV pour comparer ZIP/ZINB > Modèle ZINB le plus approprié
Etude FR d’hypoglycémie sévère Comparaison des estimations Age P,NB : RR diminue avec l’âge ZIP : OR augmente avec l’âge / groupe « zéros » Sexe RR augmenté chez le garçon. NS pour modèles ZI ! OR / groupes « zéros » dans modèles ZI ? Durée du diabète RR augmenté HbA1C RR diminué pour tous les modèles
Etude FR d’hypoglycémie sévère Conclusions Modèle Poisson inadapté Différences non négligeables dans les estimations des paramètres Difficultés d’interprétations des résultats
Aux prochains épisodes … Episode 1 – Quand prendre en compte ? Tests pour choisir le modèle Episode 3 – Avec quoi prendre en compte ? Outils et applications pratiques