La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques.

Présentations similaires


Présentation au sujet: "1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques."— Transcription de la présentation:

1 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques descriptives univariées –Statistiques descriptives multivariées Probabilités –Probabilités et probabilités conditionnelles –Caractéristiques dun test diagnostique –Lois de probabilité –2ième semestre 2003/2004 : Pr. ALBUISSON Moyens pédagogiques –Cours et TD –Polycopiés : Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC) Cours : ADCN –Livres : Livre du Pr. B. LEGRAS

2 2 Statistiques : Généralités Introduction –Statistiques (latin « status » état) Ensemble cohérent de données numériques relatives à un groupe d'individus. –Statistiques démographiques –Statistiques annuelles des établissements de santé –Statistiques du chômage –Statistiques de santé »Etat de santé de la population »Activité : Statistiques dactivité hospitalière (SAE), PMSI –… –Rôle de lINSEE –Statistique Ensemble des méthodes qui permettent de rassembler et d'analyser les données numériques Paramètre tel que moyenne... calculé à partir d'un ensemble de données

3 3 Historique Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt. Véritable début : 18ième siècle : –Arithmétique politique : connaissance d'un état –Première classification des causes de décès –Calcul des probabilités en France (B. Pascal, A. de Moivre, D. Bernouilli, P. S. de Laplace, K. F. Gauss, S. D. Poisson) –Statistiques mathématiques modernes 19ième siècle 1853 premier congrès (A. Quetelet, C. Babbage) Première moitié du 20ième siècle –Statistiques biologiques et psychologiques Biométrie et Psychométrie –1920 A. Fisher et les plans d'expérience –1930 Econométrie, Contrôle de qualité industriel –1940 Recherche opérationnelle Deuxième moitié du 20ième siècle –Développement de l'informatique –Test de rang, test « exact » –Analyses multi variées ou multidimensionnelles –Analyse des données –Méthodes bayesiennes

4 4 La variabilité en santé Variabilité de la mesure –Essayer de mesurer plusieurs(100) fois la taille en mm dun individu : vous trouverez des valeurs différentes cependant dans labsolu un individu a une taille et une seule. Variabilité inter individus –Si vous observez des personnes dans la rue vous constatez quelles nont pas toutes la même couleur de cheveux. Variabilité intra individu –Si vous mesurez la tension artérielle dun individu à différents moments de la journée ou au même moment mais plusieurs jours de suite vous obtiendrez des valeurs différentes. Du fait de la variabilité, on est dans le domaine de lincertain. Cette science de lincertain, cest le défi qua relevé la statistique en sappuyant sur le concept de probabilité. –Plutôt quune seule valeur, la prise en compte de lincertain permet de déterminer un intervalle à lintérieur duquel on a une certaine probabilité de se situer et donc un risque de ne pas y être.

5 5 Statistiques et santé Description de l'état de santé d'une population –Causes de décès, morbidité Évaluation d'un test ou d'un signe –Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives Évaluation dun traitement –Essai thérapeutique Recherche de facteurs étiologiques Économie de la santé Évaluation de la qualité et contrôle de production … : John Graunt % d'enfants nés vivants, et morts avant l'âge de 6 ans Muguet Convulsions Rachitisme Accidents dentaires et vers Naissances prématurées Décès de la première enfance Gros Foie Etouffement par couverture Variole Varicelle Rougeole Vers sans convulsion Inconnue 13 causes de Décès

6 6 Les différentes étapes de toute étude statistique La collecte des données –Simple observation –Expérimentation c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés Analyse statistique –Analyse "déductive" ou descriptive a pour but de résumer et de présenter les données observées pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques... –Analyse "inductive" ou inférence permet d'étendre ou de généraliser dans certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent être mesurés en faisant appel à la théorie des probabilités. Ces étapes ne sont pas indépendantes. –L'inférence nécessite des conditions particulières parfois très restrictives. Il en résulte que l'observation et l'expérimentation doivent être organisées de manière à répondre autant que possible à ces conditions. Dossiers médicaux / cimetières de données

7 7 La collecte des données Enquête –Ensemble des opérations qui ont pour but de collecter de façon organisée des informations relatives à un groupe d'individus ou d'éléments observés dans leur milieu ou leur cadre habituel. –Les individus (malades...) ou les éléments en question (séjour hospitalier, comprimés...) sont appelés unité de base ou unité statistique ou individu statistique. L'ensemble des unités auquel on s'intéresse est appelé population ou univers ou ensemble statistique Lorsque toutes les unités de la population sont observées l'enquête est exhaustive. Elle est encore appelée recensement. Lorsqu'au contraire, une partie de la population est observée, l'enquête est dite partielle ou par échantillonnage. Elle est encore appelée sondage. La partie de la population observée constitue l'échantillon. Les principaux problèmes qui se posent dans la préparation de l'enquête sont : –la définition de l'unité de base et de la population –la définition des observations à réaliser –le choix d'une méthode de collecte des données –le choix d'une méthode d'échantillonnage –la détermination de la taille de l'échantillon

8 8 La définition de l'unité de base et de la population Problème complexe Exemple : recensement de la population humaine –Normalement basé sur l'étude individuelle de chacun des groupes de personnes qui vivent en commun dans un même logement ou >. –Faut-il dans ce cas partir de la notion de famille ou de la notion de ménage ? –Comment faut-il considérer les communautés religieuses ou militaires ? –Comment faut-il traiter le cas des personnes qui, venues de l'extérieur, se trouvent dans le territoire au moment de l'enquête pour une période plus ou moins longue ? –Où faut-il comptabiliser les personnes qui ne vivent pas constamment au même endroit (étudiants...) ? … Exemple : létude des malades par l intermédiaire de la description des séjours hospitaliers (PMSI) –L unité est-elle : Le patient ? La maladie ? Le séjour ? Le lecteur de tous rapports, mémoires ou publications doit s'interroger si des réponses précises à ce genre de questions ne sont pas fournies.

9 9 La définition des observations Les observations à réaliser doivent être parfaitement définies. –S'il s'agit d'observations qualitatives (résultat du classement de lobservation dans un groupe), tel que le diagnostic, l'état civil ou la profession, la signification exacte des termes employés devra être précisée de manière non ambiguë : « Quest ce quune Blonde ? » –Intérêt des classifications établies avec leurs règles de codage (CIM, CCAM, CIH...) –S'il s'agit d'observations quantitatives (résultat dune mesure ou dun comptage), tel que la glycémie (taux de sucre dans le sang), la pression artérielle, la fréquence cardiaque... non seulement les termes devront être définis mais le mode de détermination des valeurs (comptage, mesure, estimation visuelle), et les unités de mesure devront être précisées ainsi que le domaine de validité des mesures. –Entre les deux : les observations ordinales : estimation d'un signe subjectif : constipation, douleur.... rang dans une série : nombre d'étoiles du général...

10 10 La définition des observations Il faut également préciser les circonstances d'observation : date, heure, repos/effort... La méthode de collecte des données repose sur un questionnaire. – Comment est-il rempli ? Envoi postal; Enquêteur; Enquête téléphonique –Pour éviter les déboires et tester le questionnaire on fait une pré-enquête Attention aux "non-réponses » (Données manquantes)

11 11 Quelques méthodes d'échantillonnage Attention : la nature ne fait pas si bien les choses... –Si l'objet de l'étude est d'évaluer la proportion de myopes dans la population de Nancy, que penser d'une étude qui ne s'adresserait qu'aux secrétaires ? Biais évident : âge souvent jeune, sexe le plus souvent féminin, fonction pouvant affecter la vision Echantillonnage aléatoire simple (simple random sampling) Echantillonnage stratifié (stratified sampling) –A utiliser quand la population-parent (patients hospitalisés) est très hétérogène (service hospitalier et décès par exemple) et que l'on souhaite s'assurer que ses différentes composantes seront toutes bien représentées. La stratification peut apporter un gain de précision important par rapport à un échantillonnage aléatoire simple. Echantillonnage à deux ou plusieurs niveaux (two-stage sampling, multistage sampling) –Tirage au sort des familles –Puis tirage au sort dans chaque famille de la personne enquêtée. Méthode des quotas (quota) largement utilisée dans les sondages d'opinion. Toutes les méthodes nécessitent une base d'échantillonnage

12 12 La taille de l'échantillon Fixée en valeur absolue ou en valeur relative : fraction de sondage La précision dans une enquête dépend : –de la taille de l'échantillon –du caractère plus ou moins homogène ou hétérogène de la population parent. La précision est d'autant meilleure que la taille de l'échantillon est importante et que la population est homogène. –=> Pas de recette : pour fixer la taille d'un échantillon il est nécessaire d'avoir une idée suffisante de la précision souhaitée (risque accepté) et d'autre part du degré d'homogénéité (variabilité) de la population étudiée. –=> Attention : la comparaison brute (de pourcentages par exemple) obtenu sur des échantillons de taille très différente aboutit à comparer des choses de précision très différente.

13 13 Au total un échantillon représentatif ? Un échantillon est représentatif dune population si tous les individus de cette population ont la même probabilité (même chance) dêtre dans léchantillon. Si ce nest pas le cas on a une erreur systématique : un biais. Le tirage au sort donne un échantillon représentatif mais il nécessite de disposer dune base de sondage « listing » de la population Exemple –Lors de la fabrication de comprimés, on utilise une machine avec 6 moules. Si lon constitue un échantillon en prenant 1 comprimé sur 6, on a un échantillon de comprimés issus du même moule donc non représentatif de la production. –Si lon sintéresse aux chutes en ne prenant que les malades hospitalisés on a un biais de recrutement : les malades les plus graves décédés à leur domicile nous échappent comme les plus légers qui ne sont pas hospitalisés La capacité de généraliser les résultats dépend de la représentativité de léchantillon.

14 14 L'expérimentation Principes –L'expérimentation ou encore la réalisation d'essais suppose que l'apparition des faits que l'on désire étudier est volontairement provoquée, dans des conditions qu'on maîtrise au moins partiellement. –Plus efficace que l'observation –Protocole expérimental en vue d'affirmer la causalité But de l'étude Conditions de l'expérience Définition des facteurs à étudier –Sous l'entière dépendance de l'expérimentateur –Qualitatifs (Nature du traitement) »Modalités définies a priori –Quantitatifs (Dose administrée) »Niveau : progression arithmétique ou géométrique Définition des unités expérimentales –Inclusion –Exclusion Définition des observations à étudier –Critère de jugement Définition du dispositif expérimental (Plan d'expérience)

15 15 Exemples : 1) –Dans un hôpital, on a établi un registre au niveau de laccueil dont on reproduit ci-dessous certains éléments. Nom du patientSexeDate DateDate de naissance d'entrée de sortie Dupond MarcelleMasculin10/02/4801/03/0014/03/00 Albert MauriceMasculin24/06/1902/03/0012/03/00 Calvari EmilieFemme24/11/5903/03/0007/03/00 Calvari EmilieFéminin24/11/5910/03/0018/03/00 Dupond MarcelHomme10/02/4817/03/0017/05/00 Dupond MarcelMasculin10/02/4825/03/0028/03/00 A) Les données sont elles correctes ? B) Comment coder le sexe ? C) Combien a-t-on dhospitalisations, de patients ? D) Comment calculer la durée de séjour ? E) Quel est le pourcentage de femme ? 2) –Peut on utiliser ce registre pour connaître lâge moyen des personnes habitant le bassin de population drainé par cet hôpital ?

16 16 Données quantitatives Données ordinales Données qualitatives Grande richesse en information Faible richesse en information Nature et enregistrement des données Types de données –Données quantitatives Données discontinues ou discrètes Données continues –Données qualitatives Données binaires Données nominales –Données ordinales ou semi quantitatives

17 17 Données quantitatives Données discontinues ou discrètes : –Donnent lieu à des dénombrements ou comptages. –Les résultats s'expriment en nombres entiers non négatifs. –Exemples : Nombre d'enfants dans une famille; Nombre de désintégrations par minute... Données continues –Donnent lieu à des mesures (mensurations). Elles soulèvent des problèmes de précision et de choix d'unité. Dans le domaine biologique il est illusoire, inutile et même dangereux d'utiliser plus de deux ou trois chiffres pour exprimer les résultats individuels. –Exemple : Taille, Poids... –En pratique, dans le cas des mesures, on effectue en réalité des observations discontinues en raison de la nécessité d'arrondir les données alors que celles-ci sont fondamentalement continues (mise en classe). Permettent les calculs arithmétiques (moyenne, écart type...)

18 18 Données Qualitatives Elles concernent des caractères ou des attributs que chacun des individus peut posséder ou non. Codées avec des classes mutuellement exclusives Type le plus simple : variable binaire (sexe...) Type nominal : plus de deux classes –Problème de la classification utilisée –Exemple : Classification internationale des maladies –Peut être décomposé en variables binaires Couleur des cheveux (brun, blond, autre) décomposée en Brun (oui, non); Blond (oui, non); Autre (oui, non) Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements.

19 19 Je ne suis pas fatigué Je suis très fatigué Données ordinales Données qualitatives exprimant des niveaux différents ordonnés. –Exemple intensité d'une cuti (négatif, faiblement positif, positif, très positif) –Codées (0, +, ++, +++ ou 0, 1, 2, 3) Interprétation parfois délicate des calculs arithmétiques Transformation en données quantitatives: utilisation déchelles analogues visuelles Très fréquentes en médecine et biologie

20 20 Enregistrement et traitement des données Bordereau papier / Saisie informatique directe –Papier : disponibilité, coût initial faible (mais il faudra faire la saisie) –Informatique : possibilité de contrôle à la source : vérification intra champ et inter champs, aide au codage. Standardisation de la présentation A partir de l'observation médicale on a les phases suivantes –Extraction et interprétation des signes et symptômes : douleur thoracique caractéristique irradiant dans le bras gauche survenant au froid ou à l'effort => ANGOR –Synthèse : patient présentant une toux, des cors au pied, une élévation des enzymes cardiaques, un angor, un tabagisme, un infarctus du myocarde Infarctus du myocarde avec élévation des enzymes cardiaques, angor... Chez un fumeur qui tousse et qui a des cors au pied. –Hiérarchisation, Sélection Traitement des données –Calculette (en voie de disparition) –Traitement informatique Tableurs Logiciels de statistique (EPIINFO, STATVIEW, SAS, SPPS...)

21 21 La statistique descriptive But : présenter les données pour que l'on puisse en prendre connaissance facilement peut concerner : –une variable à la fois : statistique à une dimension –deux variables à la fois : statistique à deux dimensions –plus de deux variables à la fois : statistique multidimensionnelle comporte : –les tableaux : distributions de fréquences –les diagrammes : graphiques –les paramètres statistiques : réduction des données à quelques valeurs numériques caractéristiques

22 22 x i n i f i N i F i x ,01530,015 x ,075180,09 x... n...f... x p n p f p N1 N=200= p n i 1= 1 p f i Les distributions de fréquences Séries statistiques : –simple énumération ou dénombrement des observations –peut être ordonnée (variable quantitative) –le nombre total d'observations, appelé effectif de l'échantillon, est noté N Distributions non groupées –Lorsque les observations sont nombreuses, une même valeur peut être observée plusieurs fois. –On utilise xi pour représenter les valeurs différentes, son nombre doccurrences est noté n i et est appelé fréquence absolue ; p représente le nombre de valeurs différentes que l'on a observé. –ni/N est appelé fréquence relative. –En cas de variable quantitative, on ordonne les x i et les fréquences absolues ou relatives peuvent être additionnées de proche en proche de manière à obtenir les fréquences cumulées notées N i et F i

23 23 Les distributions groupées Variables quantitatives –Quand le nombre de valeurs distinctes est élevé, on condense les tableaux statistiques en groupant les observations en classes. On obtient ainsi les distributions groupées. –Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont appelées bornes des classes. –L'amplitude de la classe encore appelée intervalle ou module de classe correspond à l'écart entre la borne supérieure et la borne inférieure. –Le point central ou encore point médian est situé à mi chemin entre les bornes. –L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. –Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... –En cas de classes d'amplitudes différentes, la densité de fréquence n i /amplitude classe i permet de comparer les fréquences d'une classe à l'autre. Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.

24 24 Distribution groupée : exemple ClasseC i n i f i N i F i [ [150100,05100,05 [ [162,5200,10300,15 [ [167,5300,15600,30 [ [172,5450, ,525 [ [177,5400,201450,725 [ [182,5350, ,90 [ [187,5150, ,975 [ [19550, ,0 N=200 1 k fi =1 k = nombre de classes

25 25 Les graphiques Diagrammes sur distributions non cumulées –Diagramme en bâtons Distribution non groupée On trace parallèlement à l'axe des ordonnées, en regard des x i qui sont portés en abscisse, un segment de longueur proportionnel à n i –Polygone des fréquences Ligne brisée joignant les bâtons fréquences absolues / relatives –Histogramme Distribution groupée composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (n i / i ). La surface est proportionnelle à n i. –Diagramme sectoriel Variable qualitative Angle au centre proportionnel à n i (ou f i )

26 26 Les graphiques Diagrammes sur distributions cumulées –Polygone des fréquences sur distribution non groupée = escalier sur distribution groupée : ligne brisée –Histogrammes Principaux aspects –Symétrie - Aplatissement –Distribution : en cloche en J en U à plusieurs bosses... Autres représentations Attention : Excel ne fait pas dhistogramme

27 27 Polygone des fréquences Exemple Nombre de colonies bactériennes/dm Nombre de colonies bactériennes/dm2ni

28 28 Histogramme : exemple Classeni Densité (*10) [ [105 [ [2040 [ [3060 [ [4590 [ [4080 [ [3570 [ [1530 [ [

29 29 Diagramme sectoriel : exemple GROUPEni A35 B 9 O40 AB16 A B O AB

30 30 Les paramètres statistiques Paramètres de position –Valeurs centrales Moyenne arithmétique Les autres moyennes –géométrique –harmonique –quadratique Médiane Mode Médiale –Les fractiles Quartiles Percentiles Paramètres de dispersion –Amplitude ou étendue –Ecart interquartiles –Variance, Ecart type –Coefficient de variation Paramètre d'aplatissement et de symétrie

31 31 Appelée moyenne notée x –Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. –Calculable quelque soit la loi qui régit la distribution. –Somme des valeurs (T) divisée par le nombre de mesures (N). –Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. Propriétés : –Centre de gravité de la distribution. –La somme des écarts à la moyenne est nulle. –Affectée par les changements de variable. Si y = ax + b; on a : y = ax + b –La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. –La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. –Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus. –La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. –Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable. –La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. Population m (mean) Echantillon x (average) La moyenne arithmétique :

32 32 N = Nombre total de mesures, p = Nombre de valeurs différentes observées, n i = Nombre d'occurrences de chaque valeur observée. f i = pourcentage de la valeur observée i g = nombre de groupes La moyenne : formules Somme des valeurs / Nbre d'observations

33 33 Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200 N = 6, T = 1080, x =1080/6 = 180 Soit la distribution suivante Nombre de colonies bactériennes/dm2nini*xi p = 12N = 224T = x = / 224 = 6,098 La moyenne Exemples

34 34 Les autres valeurs centrales Les autres moyennes –Moyenne géométrique d'une série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. –Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. –Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.

35 35 Les autres valeurs centrales La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : x i tel que F i = 0,5. –Sur les distributions symétriques (normales par exemple) la médiane est égale à la moyenne et au mode. –Paramètre peu sensible aux valeurs extrêmes –Sur une distribution non groupée : Si N impair, la médiane est l'observation de rang (N+1)/2 Si N est pair, tout nombre entre x N/2 et x N/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs. –Sur distribution groupée, la classe médiane est celle qui contient la médiane. Détermination graphique En admettant que les observations soient réparties uniformément dans cette classe, on a : x i limite inférieure de la classe contenant la médiane i amplitude de la classe contenant la médiane f i fréquence relative de la classe contenant la médiane F(x i ) fréquence relative cumulée de la classe x i - 1 x i ˜ x = x i i * 0,5 F(x i ) f i ˜

36 36 Autres valeurs centrales et Fractiles Valeurs centrales - suite –Mode encore appelé valeur dominante Correspond à la valeur la plus fréquente. x i correspondant au n i maximum. Dans les distributions unimodales symétriques, mode médiane et moyenne sont confondus (distribution normale par exemple) –Médiale est la valeur telle que la somme des observations qui lui sont inférieures et la somme des observations qui lui sont supérieure sont égale. Fractiles –Quartiles Q1: x i tel que F i = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. Q2 = Médiane Q3 : x i tel que F i = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. –Détermination graphique –interpolation (cf médiane) –Percentiles 10ième percentile : x i tel que F i = 0,10

37 Paramètres de dispersion Amplitude ou étendue –Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. –Non définie pour les distributions groupées –On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. –Dans les distributions unimodales en cloche l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à Ecart interquartiles –Q3 -Q1 –Englobe 50% des observations –On utilise parfois l'écart semi-interquartile (Q3- Q1)/2 –Donne naissance à la représentation en « boxplot »

38 38 Paramètres de dispersion : Variance, Écart type Variance et écart type –La variance (variance) d'une série ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne. –C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. –La variance de l'échantillon est notée S 2. Ce n'est pas un bon estimateur de la variance de la population notée 2. –Lestimation de la variance est notée 2. –Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. –L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. –Variance et écart type sont indépendants des translations (changement d origine) mais pas des multiplications (changement d'unité). –Si y = a * x + b, on a Sy = |a| * Sx –Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard. => Ne pas utiliser de distribution groupée… Coefficient de variation (cv) –Cest le rapport de lécart type divisé par la moyenne Écart type de la moyenne –Cf distribution des moyennes de plusieurs échantillons ^

39 39 U x i 2 i 1 N n i x i 2 i 1 p CV ˆ x SCE ( i x i 1 N x) 2 U 2 T N Variance et écart type : calcul Attention aux notations

40 40 Paramètres de dispersion : Coefficient de variation Le coefficient de variation CV (Coefficient of variation, percentage standard deviation) –CV est le rapport écart type divisé par la moyenne. –CV est un nombre pur, sans unités. –CV est totalement indépendant des unités. –Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

41 41 Paramètres d'aplatissement et de symétrie Moments centrés d'ordre k –moyenne arithmétique des écarts à la moyenne élevée à la puissance k. –si k pair => paramètre de dispersion –si k impair => paramètre de symétrie Coefficient de Pearson et de Fisher –b1 pour caractériser la symétrie de la courbe; b2 pour caractériser l'aplatissement –b1 = M 3 2 / M 2 3 : est voisin de 0 si la distribution est symétrique –b2 = M 4 / M 2 2 : est voisin de 3 si la distribution suit une loi normale (plus aplatie qu'elle si b2 < 3) –cf Loi Normale Skewness et kurtosis

42 42 Statistique descriptive à 2 dimensions Objectif : mettre en évidence les relations qui existent entre deux séries d'observations. Situations : –Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. –Séries appariées : même variable mesurée dans deux circonstances Avant - Après traitement Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe,...) –Séries non appariées Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux...

43 43 PoidsTaille Taille Poids Taille Tot Tot Tableaux statistiques à deux dimensions et représentation graphique Séries Distribution de fréquence Table de contingence

44 44 Cheveux YeuxBlondsBrunsAutresTot. (L i ) Clairs Foncés Tot. (C j ) = Nombre total de mesures 100 = Nombre d'individus ayant les yeux clairs 110 = Nombre d'individus ayant les cheveux blonds 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds Fréquences relatives Nombre de mesure totale N Total de chaque ligne = L i Total de chaque colonne = C i Effectif d'une cas = n ij Fréquences relatives: –n ij / L i –n ij / C j –n ij / N –L i / N –C j / N

45 45 Cov (x,y) = N i = 1 N x * y - i i N T * T x y i = 1 N x * y i i = Txy = somme des produits sert au calcul du coefficient de corrélation r. Covariance –Variable quantitative –cov (x,y) = moyenne des produits des écarts à la moyenne. 1/N * 1 N (x i -x)*(y i -y) pour i = 1 à N –si x' = ax+b et y'=cy + d, on a Cov(x'y') = ac Cov (x,y) –toujours inférieure ou égale au produit des écart types –positive = "nuage" croissant –négative = "nuage" décroissant calcul :

46 46 Quelques indicateurs statistiques classiques des établissements de santé La SAE –Enquête annuelle déclarative établie par tous les établissements français –Décrit essentiellement les moyens –Décrit partiellement lactivité, plus particulièrement certaines activités soumises à autorisation (IVG,…) Quelques difficultés –Combien de lits équipent mon établissement ? Lits autorisés Lits installés Lits ouverts à une date donnée Lits ouverts en moyenne sur lannée –Combien dentrées entre le 1er janvier et le 31 décembre inclus ? (4) –Combien de sorties dans la même période ? (5) –Combien de malades présents dans la période ? (6) –Combien de journées ? Des séjours des malades entrés dans la période (80) Des parties de séjours des malades présents dans la période (73) Des malades sortis dans la période (72) 1er janvier 31 décembre

47 47 Quelques indicateurs statistiques classiques des établissements de santé La durée moyenne de séjour pour une période donnée –SAE Le nombre de journées est celui des malades présents auquel on ajoute le nombre de décès (hospitalisation complète) Le nombre de malades est le nombre dentrées (somme des entrées directes et des entrées par mutation) DMS = 73/4 = 18,25 jours (si pas de décès) –PMSI Le nombre de journées est celui des malades sortis pendant la période Le nombre de malades est le nombre de malades sortis DMS = 72/5 = 14,4 jours

48 48 Quelques indicateurs statistiques classiques des établissements de santé Taux doccupation des lits –Le taux doccupation des lits mesure lutilisation des moyens mis à la disposition dun établissement –Il existe une norme fixée au niveau national 85% en médecine et en chirurgie, 80% en obstétrique

49 49 Quelques indicateurs statistiques classiques des établissements de santé Comment compter le personnel ? –On différencie Le nombre de personnes dans les différentes catégories professionnelles : –Employés, médecins, kinésithérapeutes…. Le nombre déquivalents temps plein (ETP) pour pouvoir tenir compte du travail à temps partiel. Ce nombre représente la « force » de travail. Exemple : –Dans un CHU, on a 150 médecins hospitalo-universitaires qui travaillent à mi-temps à lhôpital, 200 praticiens qui travaillent à temps plein et 50 praticiens qui travaillent à 80%. Quel est le nombre déquivalents temps plein de ce CHU ? ETP = 150 * 0, * 0,8 = = 315


Télécharger ppt "1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques."

Présentations similaires


Annonces Google