Prise en compte des données avec excès de zéros

Slides:



Advertisements
Présentations similaires
Puissance et NSN.
Advertisements

Algorithmique et simulation
Corrélation Position du problème Définition covariance (X,Y) r =
Probabilités et statistiques au lycée
Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
GESTION DE PORTEFEUILLE 3 Catherine Bruneau
GESTION DE PORTEFEUILLE 3bis Catherine Bruneau RISQUE & PROBABILITE.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Nombre de sujets nécessaires en recherche clinique
Méthodes de simulation
Les TESTS STATISTIQUES
Échantillonnage-Estimation
4 Les Lois discrètes.
PROGRAMME : BTS CG.
Dr DEVILLE Emmanuelle J D V 12/07/2006
Les tests d’hypothèses
Statistiques et probabilités en première
Régression -corrélation
Programmes du cycle terminal
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Tests de comparaison de moyennes
Chapitre 2 Les indices.
Les lois des probabilités
Applications des statistiques
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Nombre de sujets nécessaires en recherche clinique
Probabilités et Statistiques
Régression linéaire simple
Situation familiale des enfants et risques de séparation des parents Russie et France: quelles différences? Didier BRETON, Université Marc Bloch, Strasbourg.
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
STATISTIQUES – PROBABILITÉS
Modélisation de valeurs extrêmes Université de Liège : octobre 2002 Daniel Justens HEFF/Cooremans Bruxelles.
L’Analyse de Covariance
Corrélation et régression linéaire simple
Chapitre 6 Lois de probabilité.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Algorithmes probabilistes
Travaux pratiques Hygiène-Génétique- Biostatistique:
Des épreuves pratiques aux TP Des exemples en probabilités
La régression multiple
Let’s Train ! Cet exercice est un questionnaire à choix multiples constitué de plusieurs questions indépendantes . Pour chacune d’elles, une seule des.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
LES LOIS BINOMIALES.
Méthodes de Biostatistique
Théorème de la limite centrale l’inférence statistique
Probabilités et Statistiques
TD4 : « Lois usuelles de statistiques »
STATISTIQUES – PROBABILITÉS
Sériation et traitement de données archéologiques
Point méthodologie: méthode capture-recapture
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
Théorie de Files d’Attente
LOIS DE PROBABILITE Variables aléatoires Lois discrètes Lois continues
Probabilités et Statistiques
Principales distributions théoriques
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
Rappels Variables nominales :
Statistiques analytiques sous STATA
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Comment prendre en compte un excès de zéros ? Objectif Données de comptage Modèle « simple » Distribution de Poisson a priori Comment prendre en compte un excès de zéros ?

Les lois de probabilités discrètes Loi de Bernouilli Loi binomiale Loi géométrique … Loi de Poisson Loi Binomiale Négative

Loi de Poisson Loi des évènements rares Soit N le nombre d’évènements rares survenus dans un intervalle de temps N est une variable aléatoire dont la distribution est une loi de Poisson E(N) = λ Var(N) = λ

Loi Binomiale Négative « Pile-ou-face » tant que Pile n'est pas apparu k fois Nombre de Pile = k Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de lancers = L Le nombre L de lancers nécessaires pour gagner une partie est une variable aléatoire, dont la distribution est une distribution binomiale négative. somme de variables géométriques indépendantes (nb L de lancers jusqu’à 1ere apparition de Pile)

Loi Binomiale Négative (2) « Pile-ou-face » tant que Pile n'est pas apparu k fois Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de Face précédant le k-ième succès = F Le nombre F de Face est une variable aléatoire dont la distribution est une distribution binomiale négative. Var(F) > E(F) d’un coefficient (1/p) Généralisation de la loi de Poisson ?

Poisson -> Bin. Nég. Loi de Poisson P(λ) Excès de zéros = surdispertion Var(λ) > E(λ) Remplacer par une Loi Bin. Nég. BN(k,p)

Adaptations des modèles Adaptations basés sur l’exemple d’une distribution de Poisson Applicable à d’autres distributions (BN) 2 principes : Probabilité de zéros plus élevées pour tous Sous groupe de zéros, distinct des autres

Modèle mixte ~ P(λV) V est une variable aléatoire ~ N(1,α) E(Y) = λ Var(Y) = λ + α2

Modèles ZIP (zero-inflated poisson) Pr(Y=y) = ω + (1-ω).e-µ y = 0 (1-ω).e-µ.µy / y! y > 0 0 ≤ ω < 1 E(Y) = (1-ω).µ = λ Var(Y) = λ + (ω/(1-ω)).µ2 Similitude avec le premier modèle ? « The second of these equations has the same form »

Modèles « hurdle » Analyse séparée Proportion de zéros Probabilité de valeurs > 0 Pr(Y=y) = π0 y = 0 (1- π0).e-µ.µy / ((1-e-µ)y!) y > 0 Hypothèse sous jacente : π0 et µ sont-ils indépendants ? l’un dépend de variables explicatives indépendantes de l’autre hypothèse forte

Modèle « birth process » Analyse séparée Période de « naissance » (zéros) Période de « croissance » (> 0) Différence d’évolution entre les 2 périodes

En résumé Loi binomiale négative Modèles, basés sur loi P ou autres (BN) : Modèles mixtes Modèles ZIP Modèles « hurdle » Modèles « birth process » En pratique,essentiellement BN, modèles ZIP ou ZINB

Référence Models for count data with many zeros M. Ridout International biometric conference, Cap Town . 1998

Présentation d’une étude Evaluating risk factors associated with severe hypoglycaemia in epidemiology studies – What method should we use ? M.K. Bulsara. Diabetic Medicine. 2004

Etude FR d’hypoglycémie sévère Prospective 1243 enfants, de 1996 à 2000 73% sans épisode sévère d’hypoglycémie Surdispersion m = 0,68 var = 2,95 Modèle poissonien inadapté

Etude FR d’hypoglycémie sévère Test statistique de surdispersion Test statistique pour le choix du modèle ZIP/P et ZINB/NB (statistique de Vuong) Test MV pour comparer ZIP/ZINB > Modèle ZINB le plus approprié

Etude FR d’hypoglycémie sévère Comparaison des estimations Age P,NB : RR diminue avec l’âge ZIP : OR augmente avec l’âge / groupe « zéros » Sexe RR augmenté chez le garçon. NS pour modèles ZI ! OR / groupes « zéros » dans modèles ZI ? Durée du diabète RR augmenté HbA1C RR diminué pour tous les modèles

Etude FR d’hypoglycémie sévère Conclusions Modèle Poisson inadapté Différences non négligeables dans les estimations des paramètres Difficultés d’interprétations des résultats

Aux prochains épisodes … Episode 1 – Quand prendre en compte ? Tests pour choisir le modèle Episode 3 – Avec quoi prendre en compte ? Outils et applications pratiques