La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistiques Organisation du cours : Moyens pédagogiques

Présentations similaires


Présentation au sujet: "Statistiques Organisation du cours : Moyens pédagogiques"— Transcription de la présentation:

1 Statistiques Organisation du cours : Moyens pédagogiques
1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives Echantillonnage Codage des variables Statistiques descriptives univariées Statistiques descriptives multivariées Probabilités Probabilités et probabilités conditionnelles Caractéristiques d’un test diagnostique Lois de probabilité 2ième semestre 2003/2004 : Pr. ALBUISSON Moyens pédagogiques Cours et TD Polycopiés : Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC) Cours : ADCN Livres : Livre du Pr. B. LEGRAS

2 Statistiques : Généralités
Introduction Statistiques (latin « status » état) Ensemble cohérent de données numériques relatives à un groupe d'individus. Statistiques démographiques Statistiques annuelles des établissements de santé Statistiques du chômage Statistiques de santé Etat de santé de la population Activité : Statistiques d’activité hospitalière (SAE), PMSI Rôle de l’INSEE Statistique Ensemble des méthodes qui permettent de rassembler et d'analyser les données numériques Paramètre tel que moyenne... calculé à partir d'un ensemble de données

3 Historique Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt. Véritable début : 18ième siècle : Arithmétique politique : connaissance d'un état Première classification des causes de décès Calcul des probabilités en France (B. Pascal, A. de Moivre, D. Bernouilli, P. S. de Laplace, K. F. Gauss, S. D. Poisson) Statistiques mathématiques modernes 19ième siècle 1853 premier congrès (A. Quetelet, C. Babbage) Première moitié du 20ième siècle Statistiques biologiques et psychologiques Biométrie et Psychométrie 1920 A. Fisher et les plans d'expérience 1930 Econométrie, Contrôle de qualité industriel 1940 Recherche opérationnelle Deuxième moitié du 20ième siècle Développement de l'informatique Test de rang, test « exact » Analyses multi variées ou multidimensionnelles Analyse des données Méthodes bayesiennes

4 La variabilité en santé
Variabilité de la mesure Essayer de mesurer plusieurs(100) fois la taille en mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule. Variabilité inter individus Si vous observez des personnes dans la rue vous constatez qu’elles n’ont pas toutes la même couleur de cheveux. Variabilité intra individu Si vous mesurez la tension artérielle d’un individu à différents moments de la journée ou au même moment mais plusieurs jours de suite vous obtiendrez des valeurs différentes. Du fait de la variabilité, on est dans le domaine de l’incertain. Cette science de l’incertain, c’est le défi qu’a relevé la statistique en s’appuyant sur le concept de probabilité. Plutôt qu’une seule valeur, la prise en compte de l’incertain permet de déterminer un intervalle à l’intérieur duquel on a une certaine probabilité de se situer et donc un risque de ne pas y être.

5 % d'enfants nés vivants, et morts avant l'âge de 6 ans
Statistiques et santé 1700 : John Graunt % d'enfants nés vivants, et morts avant l'âge de 6 ans Muguet Convulsions Rachitisme Accidents dentaires et vers Naissances prématurées Décès de la première enfance Gros Foie Etouffement par couverture Variole Varicelle Rougeole Vers sans convulsion Inconnue 13 causes de Décès Description de l'état de santé d'une population Causes de décès, morbidité Évaluation d'un test ou d'un signe Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives Évaluation d’un traitement Essai thérapeutique Recherche de facteurs étiologiques Économie de la santé Évaluation de la qualité et contrôle de production ….

6 Les différentes étapes de toute étude statistique
La collecte des données Simple observation Expérimentation c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés Analyse statistique Analyse "déductive" ou descriptive a pour but de résumer et de présenter les données observées pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques ... Analyse "inductive" ou inférence permet d'étendre ou de généraliser dans certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent être mesurés en faisant appel à la théorie des probabilités. Ces étapes ne sont pas indépendantes. L'inférence nécessite des conditions particulières parfois très restrictives. Il en résulte que l'observation et l'expérimentation doivent être organisées de manière à répondre autant que possible à ces conditions. Dossiers médicaux / cimetières de données

7 La collecte des données
Enquête Ensemble des opérations qui ont pour but de collecter de façon organisée des informations relatives à un groupe d'individus ou d'éléments observés dans leur milieu ou leur cadre habituel. Les individus (malades...) ou les éléments en question (séjour hospitalier, comprimés...) sont appelés unité de base ou unité statistique ou individu statistique. L'ensemble des unités auquel on s'intéresse est appelé population ou univers ou ensemble statistique Lorsque toutes les unités de la population sont observées l'enquête est exhaustive. Elle est encore appelée recensement. Lorsqu'au contraire, une partie de la population est observée, l'enquête est dite partielle ou par échantillonnage. Elle est encore appelée sondage. La partie de la population observée constitue l'échantillon. Les principaux problèmes qui se posent dans la préparation de l'enquête sont : la définition de l'unité de base et de la population la définition des observations à réaliser le choix d'une méthode de collecte des données le choix d'une méthode d'échantillonnage la détermination de la taille de l'échantillon

8 La définition de l'unité de base et de la population
Problème complexe Exemple : recensement de la population humaine Normalement basé sur l'étude individuelle de chacun des groupes de personnes qui vivent en commun dans un même logement ou << sous un même toit>>. Faut-il dans ce cas partir de la notion de famille ou de la notion de ménage ? Comment faut-il considérer les communautés religieuses ou militaires ? Comment faut-il traiter le cas des personnes qui, venues de l'extérieur, se trouvent dans le territoire au moment de l'enquête pour une période plus ou moins longue ? Où faut-il comptabiliser les personnes qui ne vivent pas constamment au même endroit (étudiants...) ? … Exemple : l’étude des malades par l ’intermédiaire de la description des séjours hospitaliers (PMSI) L ’unité est-elle : Le patient ? La maladie ? Le séjour ? Le lecteur de tous rapports, mémoires ou publications doit s'interroger si des réponses précises à ce genre de questions ne sont pas fournies.

9 La définition des observations
Les observations à réaliser doivent être parfaitement définies. S'il s'agit d'observations qualitatives (résultat du classement de l’observation dans un groupe), tel que le diagnostic, l'état civil ou la profession, la signification exacte des termes employés devra être précisée de manière non ambiguë : « Qu’est ce qu’une Blonde ? » Intérêt des classifications établies avec leurs règles de codage (CIM, CCAM, CIH...) S'il s'agit d'observations quantitatives (résultat d’une mesure ou d’un comptage), tel que la glycémie (taux de sucre dans le sang), la pression artérielle, la fréquence cardiaque... non seulement les termes devront être définis mais le mode de détermination des valeurs (comptage, mesure, estimation visuelle), et les unités de mesure devront être précisées ainsi que le domaine de validité des mesures. Entre les deux : les observations ordinales : estimation d'un signe subjectif : constipation, douleur.... rang dans une série : nombre d'étoiles du général...

10 La définition des observations
Il faut également préciser les circonstances d'observation : date, heure, repos/effort... La méthode de collecte des données repose sur un questionnaire. Comment est-il rempli ? Envoi postal; Enquêteur; Enquête téléphonique Pour éviter les déboires et tester le questionnaire on fait une pré-enquête Attention aux "non-réponses » (Données manquantes)

11 Quelques méthodes d'échantillonnage
Attention : la nature ne fait pas si bien les choses... Si l'objet de l'étude est d'évaluer la proportion de myopes dans la population de Nancy, que penser d'une étude qui ne s'adresserait qu'aux secrétaires ? Biais évident : âge souvent jeune, sexe le plus souvent féminin, fonction pouvant affecter la vision Echantillonnage aléatoire simple (simple random sampling) Echantillonnage stratifié (stratified sampling) A utiliser quand la population-parent (patients hospitalisés) est très hétérogène (service hospitalier et décès par exemple) et que l'on souhaite s'assurer que ses différentes composantes seront toutes bien représentées. La stratification peut apporter un gain de précision important par rapport à un échantillonnage aléatoire simple. Echantillonnage à deux ou plusieurs niveaux (two-stage sampling, multistage sampling) Tirage au sort des familles Puis tirage au sort dans chaque famille de la personne enquêtée. Méthode des quotas (quota) largement utilisée dans les sondages d'opinion. Toutes les méthodes nécessitent une base d'échantillonnage

12 La taille de l'échantillon
Fixée en valeur absolue ou en valeur relative : fraction de sondage La précision dans une enquête dépend : de la taille de l'échantillon du caractère plus ou moins homogène ou hétérogène de la population parent. La précision est d'autant meilleure que la taille de l'échantillon est importante et que la population est homogène. => Pas de recette : pour fixer la taille d'un échantillon il est nécessaire d'avoir une idée suffisante de la précision souhaitée (risque accepté) et d'autre part du degré d'homogénéité (variabilité) de la population étudiée. => Attention : la comparaison brute (de pourcentages par exemple) obtenu sur des échantillons de taille très différente aboutit à comparer des choses de précision très différente.

13 Au total un échantillon représentatif ?
Un échantillon est représentatif d’une population si tous les individus de cette population ont la même probabilité (même chance) d’être dans l’échantillon. Si ce n’est pas le cas on a une erreur systématique : un biais. Le tirage au sort donne un échantillon représentatif mais il nécessite de disposer d’une base de sondage « listing » de la population Exemple Lors de la fabrication de comprimés, on utilise une machine avec 6 moules. Si l’on constitue un échantillon en prenant 1 comprimé sur 6, on a un échantillon de comprimés issus du même moule donc non représentatif de la production. Si l’on s’intéresse aux chutes en ne prenant que les malades hospitalisés on a un biais de recrutement : les malades les plus graves décédés à leur domicile nous échappent comme les plus légers qui ne sont pas hospitalisés La capacité de généraliser les résultats dépend de la représentativité de l’échantillon.

14 L'expérimentation Principes
L'expérimentation ou encore la réalisation d'essais suppose que l'apparition des faits que l'on désire étudier est volontairement provoquée, dans des conditions qu'on maîtrise au moins partiellement. Plus efficace que l'observation Protocole expérimental en vue d'affirmer la causalité But de l'étude Conditions de l'expérience Définition des facteurs à étudier Sous l'entière dépendance de l'expérimentateur Qualitatifs (Nature du traitement) Modalités définies a priori Quantitatifs (Dose administrée) Niveau : progression arithmétique ou géométrique Définition des unités expérimentales Inclusion Exclusion Définition des observations à étudier Critère de jugement Définition du dispositif expérimental (Plan d'expérience)

15 Exemples : 1) 2) A) Les données sont elles correctes ?
Dans un hôpital, on a établi un registre au niveau de l’accueil dont on reproduit ci-dessous certains éléments. Nom du patient Sexe Date Date Date de naissance d'entrée de sortie Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/00 Albert Maurice Masculin 24/06/19 02/03/00 12/03/00 Calvari Emilie Femme 24/11/59 03/03/00 07/03/00 Calvari Emilie Féminin 24/11/59 10/03/00 18/03/00 Dupond Marcel Homme 10/02/48 17/03/00 17/05/00 Dupond Marcel Masculin 10/02/48 25/03/00 28/03/00 A) Les données sont elles correctes ? B) Comment coder le sexe ? C) Combien a-t-on d’hospitalisations, de patients ? D) Comment calculer la durée de séjour ? E) Quel est le pourcentage de femme ? 2) Peut on utiliser ce registre pour connaître l’âge moyen des personnes habitant le bassin de population drainé par cet hôpital ?

16 Nature et enregistrement des données
Types de données Données quantitatives Données discontinues ou discrètes Données continues Données qualitatives Données binaires Données nominales Données ordinales ou semi quantitatives Grande richesse en information Données quantitatives Données ordinales Données qualitatives Faible richesse en information

17 Données quantitatives
Données discontinues ou discrètes : Donnent lieu à des dénombrements ou comptages. Les résultats s'expriment en nombres entiers non négatifs. Exemples : Nombre d'enfants dans une famille; Nombre de désintégrations par minute... Données continues Donnent lieu à des mesures (mensurations). Elles soulèvent des problèmes de précision et de choix d'unité. Dans le domaine biologique il est illusoire, inutile et même dangereux d'utiliser plus de deux ou trois chiffres pour exprimer les résultats individuels. Exemple : Taille, Poids ... En pratique, dans le cas des mesures, on effectue en réalité des observations discontinues en raison de la nécessité d'arrondir les données alors que celles-ci sont fondamentalement continues (mise en classe). Permettent les calculs arithmétiques (moyenne, écart type...)

18 Données Qualitatives Elles concernent des caractères ou des attributs que chacun des individus peut posséder ou non. Codées avec des classes mutuellement exclusives Type le plus simple : variable binaire (sexe...) Type nominal : plus de deux classes Problème de la classification utilisée Exemple : Classification internationale des maladies Peut être décomposé en variables binaires Couleur des cheveux (brun, blond, autre) décomposée en Brun (oui, non); Blond (oui, non); Autre (oui, non) Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements.

19 Données ordinales Données qualitatives exprimant des niveaux différents ordonnés. Exemple intensité d'une cuti (négatif, faiblement positif, positif, très positif) Codées (0, +, ++, +++ ou 0, 1, 2 , 3) Interprétation parfois délicate des calculs arithmétiques Transformation en données quantitatives: utilisation d’échelles analogues visuelles Très fréquentes en médecine et biologie Je ne suis pas fatigué Je suis très fatigué

20 Enregistrement et traitement des données
Bordereau papier / Saisie informatique directe Papier : disponibilité, coût initial faible (mais il faudra faire la saisie) Informatique : possibilité de contrôle à la source : vérification intra champ et inter champs, aide au codage. Standardisation de la présentation A partir de l'observation médicale on a les phases suivantes Extraction et interprétation des signes et symptômes : douleur thoracique caractéristique irradiant dans le bras gauche survenant au froid ou à l'effort => ANGOR Synthèse : patient présentant une toux, des cors au pied, une élévation des enzymes cardiaques, un angor, un tabagisme, un infarctus du myocarde Infarctus du myocarde avec élévation des enzymes cardiaques, angor... Chez un fumeur qui tousse et qui a des cors au pied. Hiérarchisation, Sélection Traitement des données Calculette (en voie de disparition) Traitement informatique Tableurs Logiciels de statistique (EPIINFO, STATVIEW, SAS, SPPS ...)

21 La statistique descriptive
But : présenter les données pour que l'on puisse en prendre connaissance facilement peut concerner : une variable à la fois : statistique à une dimension deux variables à la fois : statistique à deux dimensions plus de deux variables à la fois : statistique multidimensionnelle comporte : les tableaux : distributions de fréquences les diagrammes : graphiques les paramètres statistiques : réduction des données à quelques valeurs numériques caractéristiques

22 Les distributions de fréquences
Séries statistiques : simple énumération ou dénombrement des observations peut être ordonnée (variable quantitative) le nombre total d'observations, appelé effectif de l'échantillon, est noté N Distributions non groupées Lorsque les observations sont nombreuses, une même valeur peut être observée plusieurs fois. On utilise xi pour représenter les valeurs différentes, son nombre d’occurrences est noté ni et est appelé fréquence absolue ; p représente le nombre de valeurs différentes que l'on a observé. ni/N est appelé fréquence relative. En cas de variable quantitative, on ordonne les xi et les fréquences absolues ou relatives peuvent être additionnées de proche en proche de manière à obtenir les fréquences cumulées notées Ni et Fi xi ni fi Ni Fi x , ,015 x , ,09 x n... f... xp np fp N 1 N=200= S1p ni 1= S1p fi

23 Les distributions groupées
Variables quantitatives Quand le nombre de valeurs distinctes est élevé, on condense les tableaux statistiques en groupant les observations en classes. On obtient ainsi les distributions groupées. Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont appelées bornes des classes. L'amplitude de la classe encore appelée intervalle ou module de classe correspond à l'écart entre la borne supérieure et la borne inférieure. Le point central ou encore point médian est situé à mi chemin entre les bornes. L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... En cas de classes d'amplitudes différentes, la densité de fréquence ni/amplitude classei permet de comparer les fréquences d'une classe à l'autre. Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.

24 Distribution groupée : exemple
Classe Ci ni fi Ni Fi [ [ , ,05 [ [ 162,5 20 0, ,15 [ [ 167,5 30 0, ,30 [ [ 172,5 45 0, ,525 [ [ 177,5 40 0, ,725 [ [ 182,5 35 0, ,90 [ [ 187,5 15 0, ,975 [ [ , ,0 N= S 1k fi =1 k = nombre de classes

25 Les graphiques Diagrammes sur distributions non cumulées
Diagramme en bâtons Distribution non groupée On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni Polygone des fréquences Ligne brisée joignant les bâtons fréquences absolues / relatives Histogramme Distribution groupée composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (ni/Di). La surface est proportionnelle à ni. Diagramme sectoriel Variable qualitative Angle au centre proportionnel à ni (ou fi)

26 Les graphiques Diagrammes sur distributions cumulées
Polygone des fréquences sur distribution non groupée = escalier sur distribution groupée : ligne brisée Histogrammes Principaux aspects Symétrie - Aplatissement Distribution : en cloche en J en U à plusieurs bosses ... Autres représentations Attention : Excel ne fait pas d’histogramme

27 Polygone des fréquences Exemple
Nombre de colonies bactériennes/dm2 ni 5 10 15 20 25 30 35 40 45 1 2 3 4 5 6 7 8 9 1 0 11 12 Nombre de colonies bactériennes/dm2

28 Histogramme : exemple Classe ni Densité (*10) [ [ 10 5 [ [ [ [ [ [ [ [ [ [ [ [ [ [ 5 5 10 20 30 40 50 60 70 80 90 140 160 170 180 190 200

29 Diagramme sectoriel : exemple
GROUPE ni A 35 B 9 O 40 AB 16 A B O AB

30 Les paramètres statistiques
Paramètres de position Valeurs centrales Moyenne arithmétique Les autres moyennes géométrique harmonique quadratique Médiane Mode Médiale Les fractiles Quartiles Percentiles Paramètres de dispersion Amplitude ou étendue Ecart interquartiles Variance, Ecart type Coefficient de variation Paramètre d'aplatissement et de symétrie

31 La moyenne arithmétique :
Population m (mean) Echantillon x (average) Appelée moyenne notée x Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. Calculable quelque soit la loi qui régit la distribution. Somme des valeurs (T) divisée par le nombre de mesures (N). Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. Propriétés : Centre de gravité de la distribution. La somme des écarts à la moyenne est nulle. Affectée par les changements de variable. Si y = ax + b; on a : y = ax + b La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus. La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.

32 Somme des valeurs / Nbre d'observations
La moyenne : formules Somme des valeurs / Nbre d'observations N = Nombre total de mesures, p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée. fi = pourcentage de la valeur observée i g = nombre de groupes

33 La moyenne Exemples • Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200 N = 6, T = 1080, x =1080/6 = 180 • Soit la distribution suivante Nombre de colonies bactériennes/dm2 ni ni*xi p = 12 N = 224 T = 1 366 x = / 224 = 6,098

34 Les autres valeurs centrales
Les autres moyennes Moyenne géométrique d'une série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.

35 Les autres valeurs centrales
La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. Sur les distributions symétriques (normales par exemple) la médiane est égale à la moyenne et au mode. Paramètre peu sensible aux valeurs extrêmes Sur une distribution non groupée : Si N impair, la médiane est l'observation de rang (N+1)/2 Si N est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs. Sur distribution groupée, la classe médiane est celle qui contient la médiane. Détermination graphique En admettant que les observations soient réparties uniformément dans cette classe, on a : ˜ x = limite inférieure de la classe contenant la médiane i D = amplitude de la classe contenant la médiane x - x i i - 1 i f = fréquence relative de la classe contenant la médiane i F ( x ) = fréquence relative cumulée de la classe i , 5 - F ( x ) x ˜ = x + D * i i i f i

36 Autres valeurs centrales et Fractiles
Valeurs centrales - suite Mode encore appelé valeur dominante Correspond à la valeur la plus fréquente. xi correspondant au ni maximum. Dans les distributions unimodales symétriques, mode médiane et moyenne sont confondus (distribution normale par exemple) Médiale est la valeur telle que la somme des observations qui lui sont inférieures et la somme des observations qui lui sont supérieure sont égale. Fractiles Quartiles Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. Q2 = Médiane Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. Détermination graphique interpolation (cf médiane) Percentiles 10ième percentile : xi tel que Fi = 0,10

37 Paramètres de dispersion
Amplitude ou étendue Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. Non définie pour les distributions groupées On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. Dans les distributions unimodales en cloche l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000. Ecart interquartiles Q3 -Q1 Englobe 50% des observations On utilise parfois l'écart semi-interquartile (Q3-Q1)/2 Donne naissance à la représentation en « boxplot » 71 342 741

38 Paramètres de dispersion : Variance, Écart type
Variance et écart type La variance (variance) d'une série ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne. C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. La variance de l'échantillon est notée S2. Ce n'est pas un bon estimateur de la variance de la population notée s2. L’estimation de la variance est notée s2. Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité). Si y = a * x + b, on a Sy = |a| * Sx Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard. => Ne pas utiliser de distribution groupée… Coefficient de variation (cv) C’est le rapport de l’écart type divisé par la moyenne Écart type de la moyenne Cf distribution des moyennes de plusieurs échantillons ^

39 Variance et écart type : calcul
Attention aux notations U = x i 2 1 N å n p SCE = ( i x 1 N å - ) 2 U T CV = ˆ s x

40 Paramètres de dispersion : Coefficient de variation
Le coefficient de variation CV (Coefficient of variation, percentage standard deviation) CV est le rapport écart type divisé par la moyenne. CV est un nombre pur, sans unités. CV est totalement indépendant des unités. Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

41 Paramètres d'aplatissement et de symétrie
Moments centrés d'ordre k moyenne arithmétique des écarts à la moyenne élevée à la puissance k. si k pair => paramètre de dispersion si k impair => paramètre de symétrie Coefficient de Pearson et de Fisher b1 pour caractériser la symétrie de la courbe; b2 pour caractériser l'aplatissement b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale (plus aplatie qu'elle si b2 < 3) cf Loi Normale Skewness et kurtosis

42 Statistique descriptive à 2 dimensions
Objectif : mettre en évidence les relations qui existent entre deux séries d'observations. Situations : Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. Séries appariées : même variable mesurée dans deux circonstances Avant - Après traitement Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...) Séries non appariées Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux...

43 Tableaux statistiques à deux dimensions et représentation graphique
Séries Distribution de fréquence Table de contingence Poids Taille 70 170 80 180 65 165 75 175 90 182 73 170 60 162 68 165 83 180 Poids 55 60 65 70 75 80 85 90 160 165 170 175 180 185 Taille Poids Taille Tot. Tot

44 Fréquences relatives Nombre de mesure totale N
Total de chaque ligne = Li Total de chaque colonne = Ci Effectif d'une cas = nij Fréquences relatives: nij / Li nij / Cj nij / N Li / N Cj / N Cheveux Yeux Blonds Bruns Autres Tot. (Li) Clairs Foncés Tot. (Cj) 300 = Nombre total de mesures 100 = Nombre d'individus ayant les yeux clairs 110 = Nombre d'individus ayant les cheveux blonds 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds

45 S S Covariance calcul : Variable quantitative
cov (x,y) = moyenne des produits des écarts à la moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N si x' = ax+b et y'=cy + d, on a Cov(x'y') = ac Cov (x,y) toujours inférieure ou égale au produit des écart types positive = "nuage" croissant négative = "nuage" décroissant calcul : T * T N S x y x * y - i i N i = 1 Cov (x,y) = N S N x * y i = Txy = somme des produits i = 1 • sert au calcul du coefficient de corrélation r.

46 Quelques indicateurs statistiques classiques des établissements de santé
La SAE Enquête annuelle déclarative établie par tous les établissements français Décrit essentiellement les moyens Décrit partiellement l’activité, plus particulièrement certaines activités soumises à autorisation (IVG,…) Quelques difficultés Combien de lits équipent mon établissement ? Lits autorisés Lits installés Lits ouverts à une date donnée Lits ouverts en moyenne sur l’année Combien d’entrées entre le 1er janvier et le 31 décembre inclus ? (4) Combien de sorties dans la même période ? (5) Combien de malades présents dans la période ? (6) Combien de journées ? Des séjours des malades entrés dans la période (80) Des parties de séjours des malades présents dans la période (73) Des malades sortis dans la période (72) 1er janvier 31 décembre 2 3 10 30 20 16 4 1 6

47 La durée moyenne de séjour pour une période donnée
Quelques indicateurs statistiques classiques des établissements de santé La durée moyenne de séjour pour une période donnée SAE Le nombre de journées est celui des malades présents auquel on ajoute le nombre de décès (hospitalisation complète) Le nombre de malades est le nombre d’entrées (somme des entrées directes et des entrées par mutation) DMS = 73/4 = 18,25 jours (si pas de décès) PMSI Le nombre de journées est celui des malades sortis pendant la période Le nombre de malades est le nombre de malades sortis DMS = 72/5 = 14,4 jours

48 Taux d’occupation des lits
Quelques indicateurs statistiques classiques des établissements de santé Taux d’occupation des lits Le taux d’occupation des lits mesure l’utilisation des moyens mis à la disposition d’un établissement Il existe une norme fixée au niveau national 85% en médecine et en chirurgie, 80% en obstétrique

49 Comment compter le personnel ?
Quelques indicateurs statistiques classiques des établissements de santé Comment compter le personnel ? On différencie Le nombre de personnes dans les différentes catégories professionnelles : Employés, médecins, kinésithérapeutes…. Le nombre d’équivalents temps plein (ETP) pour pouvoir tenir compte du travail à temps partiel. Ce nombre représente la « force » de travail. Exemple : Dans un CHU, on a 150 médecins hospitalo-universitaires qui travaillent à mi-temps à l’hôpital, 200 praticiens qui travaillent à temps plein et 50 praticiens qui travaillent à 80%. Quel est le nombre d’équivalents temps plein de ce CHU ? ETP = 150 * 0, * 0,8 = = 315


Télécharger ppt "Statistiques Organisation du cours : Moyens pédagogiques"

Présentations similaires


Annonces Google