Faculté de médecine de Sousse Module : Biostatistiques Estimation et inférence (cas d’un pourcentage) Iheb Bougmiza 28 novembre 2011 Iheb Bougmiza IC d'un pourcentage
Introduction (1) Lorsque nous disons, « Le foie est gros » ou « l’utérus est augmenté de volume », nous exprimons la constatation que le volume enregistré s’écarte significativement du volume moyen. Et cet écart qui confère précisément au signe constaté une valeur sémiologique La sémiologie clinique a une base statistique certes, mais aussi clinique (troubles cliniques associés) Iheb Bougmiza IC d'un pourcentage
Introduction (2) Il n’y a pas pour une constante biologique donnée, une valeur normale unique, mais toute une série de valeurs « une zone de variations normales » En deçà et au-delà de cette zone, s’inscrivent les variations considérées comme « pathologiques » Il faut tracer la frontière entre « normal » et « pathologique » Cette zone de variations normales n’est autre que l’IC (où se trouve la valeur du paramètre de la variable qui nous intéresse, qui joue le rôle d’estimateur) Iheb Bougmiza IC d'un pourcentage
Introduction (3) Chaque fois qu’on transpose des données observées sur un échantillon à l’ensemble de la population correspondante on se sert de données d’échantillonnage. Si l’on part du principe qu’il n’existe pas deux sujets semblables, comment se peut-il que le médecin sache à quelle conduite il doit tenir devant son prochain patient qu’il n’a peut être encore jamais vu et qui diffère à un ou plusieurs égards, des autres malades ? Iheb Bougmiza IC d'un pourcentage
Échantillonnage et inférence Iheb Bougmiza IC d'un pourcentage
Position du problème L’ensemble de tous les échantillons possibles issus de la population constitue une nouvelle population appelée « population des échantillons » Dans cette population, on s’intéresse aux proportions, moyennes et variances observées qui sont différentes d’un échantillon à un autre. Ce sont les fluctuations d’échantillonnage. Iheb Bougmiza IC d'un pourcentage
Définitions (1) Estimation par intervalle : estimation d’un paramètre relatif à une population sous forme de la définition d’un intervalle ayant une probabilité fixée à l’avance de contenir la vraie valeur. L’intervalle est l’IC et ses limites sont les limites de confiance Limites de confiance : bornes supérieures et inférieures de l’IC. Les limites de confiance à 95 % déterminent un intervalle qui a 95 chances sur 100 de contenir le paramètre estimé. Niveau de confiance: généralement égal à 95 % Iheb Bougmiza IC d'un pourcentage
Définitions (2) Validité de l’estimation: La correspondance entre l’estimation et le paramètre. Ne dépend pas de la taille de l’échantillon mais de sa représentativité Erreur d’échantillonnage Différence uniquement due au hasard entre la valeur d’une statistique (dans un échantillon) et la valeur d’un paramètre (population) Impossible à éliminer totalement. Il faut toujours en tenir compte lorsqu’on tire des conclusions Peut être réduite en augmentant la taille de l’échantillon Iheb Bougmiza IC d'un pourcentage
Intervalle de pari Étant donné une variable aléatoire X (la présence ou pas d’un diabète) dans une population donnée. La question : construire un intervalle [Linf - Lsup] qui contient toute valeur X tirée au sort dans la population initiale avec une probabilité donnée et égale à 1 – α Cet intervalle est l’intervalle de pari au risque α pour X : en affirmant (avant le tirage) qu’elle sera dans l’intervalle de pari, on court le risque α de nous tromper Iheb Bougmiza IC d'un pourcentage
Estimation ponctuelle d’un paramètre : 3 qualités L’estimation converge vers la vraie valeur du paramètre estimé lorsque la taille de l’échantillon grandit Si l’on répétait un grand nombre de fois l’estimation avec un échantillon de taille n, il faudrait que la moyenne des valeurs trouvées soit égale au paramètre. On dit qu’une telle estimation est sans biais La variance de l’estimation choisie soit minimum Iheb Bougmiza IC d'un pourcentage
Formule de l’IC Soit p (% d’une variable qualitative observée sur un échantillon ) Nous pouvons écrire en appliquant les données du théorème limite centrale pour la distribution des fréquences (les % observées dans des échantillons d’effectif N tirés au hasard suivent une loi normale N de moyenne « p » et de variance « pq/n » Iheb Bougmiza IC d'un pourcentage
Calcul de l’IC pour de petits échantillons On ne peut pas assimiler la distribution binomiale du pourcentage à une loi normale Il existe des tables qui nous permettent de lire directement les intervalles de confiance Il faut faire attention dans l’évaluation d’un pourcentage calculé sur un échantillon d’effectif limité Iheb Bougmiza IC d'un pourcentage
Facteurs influençant l’IC (1) 2 facteurs fixés par le chercheur : le risque d’erreur et la taille n de l’échantillon L’intervalle obtenu est d’autant plus large que l’erreur est faible (on ne se trompera jamais « risque 0 » si on dit que la vrai valeur du paramètre est comprise entre 0 et 100% De tels IC si justes n’apportent pas de réponse aux attentes du chercheur Iheb Bougmiza IC d'un pourcentage
Facteurs influençant l’IC (2) l’intervalle est d’autant plus étroit que n est grand Pour un intervalle nul il faut prendre toute la population, solution souvent impossible à réaliser. Ces deux remarques imposent qu’avant d’entamer une étude il faut au préalable fixer la précision souhaitée pour l’estimation du paramètre qui nous intéresse, le risque d’erreur consenti et calculer la taille optimale n de l’échantillon pour que notre estimation soit valide. Iheb Bougmiza IC d'un pourcentage
Calcul de la taille de l’échantillon n taille de l’échantillon, z écart réduit pour une erreur fixée à l’avance le plus souvent 5 % soit z=1,96, et i2 précision souhaitée pour l’estimation Quelle sera la taille optimale de l’échantillon pour estimer la fréquence du tabagisme masculin dans la région de Sousse pour une précision de 5% et un risque d’erreur de 5% ? Des études antérieures chiffrent à 60% la fréquence du tabagisme masculin à l’échelle national Iheb Bougmiza IC d'un pourcentage
Iheb Bougmiza IC d'un pourcentage
Iheb Bougmiza IC d'un pourcentage
Importance du tirage au sort (1) Imaginons, un chirurgien désireux d’apprécier la qualité d’une nouvelle technique Il écrit pour 1000 malades opérés 100 seulement ont répondu dont 75 ont répondu qu’ils sont en bonne santé et 25 se portent mal. Si, on estimait que les 100 réponses comme un échantillon de sondage, on estimerait le pourcentage d’échec à 25 % Iheb Bougmiza IC d'un pourcentage
Importance du tirage au sort (2) On ne sait rien sur l’état des 900 autres non répondants Ils n’ont pas répondu parce qu’ils sont mécontents de l’intervention ou parce qu’ils sont morts. Le pourcentage d’échec = 925/1000 = 92.5 % Ils n’auraient pas répondu par négligence, parce qu’ils vont tout à fait bien Le pourcentage d’échec = 25/ 1000 = 2.5 % Iheb Bougmiza IC d'un pourcentage
Tirage avec ou sans remise Avec remise : important pour garantir l’indépendance des n observations qui le constituent (surtout dans les petites populations) Sans remise : sans importance dans les grandes populations, aucune différence pratiquement que l’on remette ou non chaque individu avant le tirage suivant. Pour l’essentiel les observations sont indépendantes. Iheb Bougmiza IC d'un pourcentage
Conclusion Dans l’étude des fluctuations d’échantillonnage, on dispose d’une population et on fait des prévisions pour un échantillon inconnu à extraire. Dans le sondage, on dispose d’une population à composition inconnue et d’un échantillon connu d’où l’on veut tirer des renseignements sur la population La notion d’estimation est capitale. Elle permet de comprendre que si le hasard est le « partenaire » privilégié du statisticien, il est parfois gênant car il soumet les échantillons à des fluctuations imprévisibles. Iheb Bougmiza IC d'un pourcentage
Bibliographie Abrégé de statistique à l’usage des étudiants en médecine et en biologie (S Geller, Ed Masson é Cie, 2ème édition, 1974) Éléments de probabilité et statistiques à l’usage des étudiants en biologie humaine et générale (Ph Lazar et D Schwartz, Ed Flammarion, 4ème édition, 1985) Méthodes statistiques à l’usage des médecins et des biologistes (D Schwartz, Ed Flammarion, 4ème édition, 1996) Iheb Bougmiza IC d'un pourcentage