Statistiques Organisation du cours : Moyens pédagogiques

Slides:



Advertisements
Présentations similaires
Pr. Abdelkrim EL MOUATASIM EST de Guelmim Maroc
Advertisements

Présentation des données
But de la lecture critique
Test statistique : principe
Organisation et gestion de données, fonctions
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Les Variables statistiques continues
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Collecte de données F. Kohler.
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
ASSOCIATION entre caractères qualitatifs
Optionnel de Statistique appliquée À la lecture critique d’articles
Nombre de sujets nécessaires en recherche clinique
1. Les caractéristiques de dispersion. 11. Utilité.
Dr DEVILLE Emmanuelle J D V 12/07/2006
Statistique et probabilités au collège
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
variable aléatoire Discrète
L’OUTIL STATISTIQUE.
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Les principaux résumés de la statistique
Cours de physique générale I Ph 11
Régression linéaire simple
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Tableaux de distributions
Lectures Livre du cours :
Tableaux de distributions
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Statistique descriptive
La statistique descriptive
La Distribution des Données
Modélisation Nuage de points.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Dépannage du 12 mars 2007.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Introduction à l’algèbre
Modélisation Nuage de points.
Mise en forme en Mathématiques
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Suites numériques Définitions.
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Master 1 – Sciences du Langage –
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
JEAN-MARC FONTAN SOC-1101 COURS 3
Introduction à une analyse statistique de données
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
PARAMETRES STATISTIQUES
STATISTIQUES DESCRIPTIVES
Échantillonnage (STT-2000)
Chapitre 2 La statistique descriptive I
Statistique Descriptive Les Paramètres de Tendance Centrale
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

Statistiques Organisation du cours : Moyens pédagogiques 1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives Echantillonnage Codage des variables Statistiques descriptives univariées Statistiques descriptives multivariées Probabilités Probabilités et probabilités conditionnelles Caractéristiques d’un test diagnostique Lois de probabilité 2ième semestre 2003/2004 : Pr. ALBUISSON Moyens pédagogiques Cours et TD Polycopiés : Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC) Cours : ADCN www.spieao.uhp-nancy.fr/~kohler/ Livres : Livre du Pr. B. LEGRAS

Statistiques : Généralités Introduction Statistiques (latin « status » état) Ensemble cohérent de données numériques relatives à un groupe d'individus. Statistiques démographiques Statistiques annuelles des établissements de santé Statistiques du chômage Statistiques de santé Etat de santé de la population Activité : Statistiques d’activité hospitalière (SAE), PMSI … Rôle de l’INSEE Statistique Ensemble des méthodes qui permettent de rassembler et d'analyser les données numériques Paramètre tel que moyenne... calculé à partir d'un ensemble de données

Historique Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt. Véritable début : 18ième siècle : Arithmétique politique : connaissance d'un état Première classification des causes de décès Calcul des probabilités en France (B. Pascal, A. de Moivre, D. Bernouilli, P. S. de Laplace, K. F. Gauss, S. D. Poisson) Statistiques mathématiques modernes 19ième siècle 1853 premier congrès (A. Quetelet, C. Babbage) Première moitié du 20ième siècle Statistiques biologiques et psychologiques Biométrie et Psychométrie 1920 A. Fisher et les plans d'expérience 1930 Econométrie, Contrôle de qualité industriel 1940 Recherche opérationnelle Deuxième moitié du 20ième siècle Développement de l'informatique Test de rang, test « exact » Analyses multi variées ou multidimensionnelles Analyse des données Méthodes bayesiennes

La variabilité en santé Variabilité de la mesure Essayer de mesurer plusieurs(100) fois la taille en mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule. Variabilité inter individus Si vous observez des personnes dans la rue vous constatez qu’elles n’ont pas toutes la même couleur de cheveux. Variabilité intra individu Si vous mesurez la tension artérielle d’un individu à différents moments de la journée ou au même moment mais plusieurs jours de suite vous obtiendrez des valeurs différentes. Du fait de la variabilité, on est dans le domaine de l’incertain. Cette science de l’incertain, c’est le défi qu’a relevé la statistique en s’appuyant sur le concept de probabilité. Plutôt qu’une seule valeur, la prise en compte de l’incertain permet de déterminer un intervalle à l’intérieur duquel on a une certaine probabilité de se situer et donc un risque de ne pas y être.

% d'enfants nés vivants, et morts avant l'âge de 6 ans Statistiques et santé 1700 : John Graunt % d'enfants nés vivants, et morts avant l'âge de 6 ans Muguet Convulsions Rachitisme Accidents dentaires et vers Naissances prématurées Décès de la première enfance Gros Foie Etouffement par couverture Variole Varicelle Rougeole Vers sans convulsion Inconnue 13 causes de Décès Description de l'état de santé d'une population Causes de décès, morbidité Évaluation d'un test ou d'un signe Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives Évaluation d’un traitement Essai thérapeutique Recherche de facteurs étiologiques Économie de la santé Évaluation de la qualité et contrôle de production ….

Les différentes étapes de toute étude statistique La collecte des données Simple observation Expérimentation c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés Analyse statistique Analyse "déductive" ou descriptive a pour but de résumer et de présenter les données observées pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques ... Analyse "inductive" ou inférence permet d'étendre ou de généraliser dans certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent être mesurés en faisant appel à la théorie des probabilités. Ces étapes ne sont pas indépendantes. L'inférence nécessite des conditions particulières parfois très restrictives. Il en résulte que l'observation et l'expérimentation doivent être organisées de manière à répondre autant que possible à ces conditions. Dossiers médicaux / cimetières de données

La collecte des données Enquête Ensemble des opérations qui ont pour but de collecter de façon organisée des informations relatives à un groupe d'individus ou d'éléments observés dans leur milieu ou leur cadre habituel. Les individus (malades...) ou les éléments en question (séjour hospitalier, comprimés...) sont appelés unité de base ou unité statistique ou individu statistique. L'ensemble des unités auquel on s'intéresse est appelé population ou univers ou ensemble statistique Lorsque toutes les unités de la population sont observées l'enquête est exhaustive. Elle est encore appelée recensement. Lorsqu'au contraire, une partie de la population est observée, l'enquête est dite partielle ou par échantillonnage. Elle est encore appelée sondage. La partie de la population observée constitue l'échantillon. Les principaux problèmes qui se posent dans la préparation de l'enquête sont : la définition de l'unité de base et de la population la définition des observations à réaliser le choix d'une méthode de collecte des données le choix d'une méthode d'échantillonnage la détermination de la taille de l'échantillon

La définition de l'unité de base et de la population Problème complexe Exemple : recensement de la population humaine Normalement basé sur l'étude individuelle de chacun des groupes de personnes qui vivent en commun dans un même logement ou << sous un même toit>>. Faut-il dans ce cas partir de la notion de famille ou de la notion de ménage ? Comment faut-il considérer les communautés religieuses ou militaires ? Comment faut-il traiter le cas des personnes qui, venues de l'extérieur, se trouvent dans le territoire au moment de l'enquête pour une période plus ou moins longue ? Où faut-il comptabiliser les personnes qui ne vivent pas constamment au même endroit (étudiants...) ? … Exemple : l’étude des malades par l ’intermédiaire de la description des séjours hospitaliers (PMSI) L ’unité est-elle : Le patient ? La maladie ? Le séjour ? Le lecteur de tous rapports, mémoires ou publications doit s'interroger si des réponses précises à ce genre de questions ne sont pas fournies.

La définition des observations Les observations à réaliser doivent être parfaitement définies. S'il s'agit d'observations qualitatives (résultat du classement de l’observation dans un groupe), tel que le diagnostic, l'état civil ou la profession, la signification exacte des termes employés devra être précisée de manière non ambiguë : « Qu’est ce qu’une Blonde ? » Intérêt des classifications établies avec leurs règles de codage (CIM, CCAM, CIH...) S'il s'agit d'observations quantitatives (résultat d’une mesure ou d’un comptage), tel que la glycémie (taux de sucre dans le sang), la pression artérielle, la fréquence cardiaque... non seulement les termes devront être définis mais le mode de détermination des valeurs (comptage, mesure, estimation visuelle), et les unités de mesure devront être précisées ainsi que le domaine de validité des mesures. Entre les deux : les observations ordinales : estimation d'un signe subjectif : constipation, douleur.... rang dans une série : nombre d'étoiles du général...

La définition des observations Il faut également préciser les circonstances d'observation : date, heure, repos/effort... La méthode de collecte des données repose sur un questionnaire. Comment est-il rempli ? Envoi postal; Enquêteur; Enquête téléphonique Pour éviter les déboires et tester le questionnaire on fait une pré-enquête Attention aux "non-réponses » (Données manquantes)

Quelques méthodes d'échantillonnage Attention : la nature ne fait pas si bien les choses... Si l'objet de l'étude est d'évaluer la proportion de myopes dans la population de Nancy, que penser d'une étude qui ne s'adresserait qu'aux secrétaires ? Biais évident : âge souvent jeune, sexe le plus souvent féminin, fonction pouvant affecter la vision Echantillonnage aléatoire simple (simple random sampling) Echantillonnage stratifié (stratified sampling) A utiliser quand la population-parent (patients hospitalisés) est très hétérogène (service hospitalier et décès par exemple) et que l'on souhaite s'assurer que ses différentes composantes seront toutes bien représentées. La stratification peut apporter un gain de précision important par rapport à un échantillonnage aléatoire simple. Echantillonnage à deux ou plusieurs niveaux (two-stage sampling, multistage sampling) Tirage au sort des familles Puis tirage au sort dans chaque famille de la personne enquêtée. Méthode des quotas (quota) largement utilisée dans les sondages d'opinion. Toutes les méthodes nécessitent une base d'échantillonnage

La taille de l'échantillon Fixée en valeur absolue ou en valeur relative : fraction de sondage La précision dans une enquête dépend : de la taille de l'échantillon du caractère plus ou moins homogène ou hétérogène de la population parent. La précision est d'autant meilleure que la taille de l'échantillon est importante et que la population est homogène. => Pas de recette : pour fixer la taille d'un échantillon il est nécessaire d'avoir une idée suffisante de la précision souhaitée (risque accepté) et d'autre part du degré d'homogénéité (variabilité) de la population étudiée. => Attention : la comparaison brute (de pourcentages par exemple) obtenu sur des échantillons de taille très différente aboutit à comparer des choses de précision très différente.

Au total un échantillon représentatif ? Un échantillon est représentatif d’une population si tous les individus de cette population ont la même probabilité (même chance) d’être dans l’échantillon. Si ce n’est pas le cas on a une erreur systématique : un biais. Le tirage au sort donne un échantillon représentatif mais il nécessite de disposer d’une base de sondage « listing » de la population Exemple Lors de la fabrication de comprimés, on utilise une machine avec 6 moules. Si l’on constitue un échantillon en prenant 1 comprimé sur 6, on a un échantillon de comprimés issus du même moule donc non représentatif de la production. Si l’on s’intéresse aux chutes en ne prenant que les malades hospitalisés on a un biais de recrutement : les malades les plus graves décédés à leur domicile nous échappent comme les plus légers qui ne sont pas hospitalisés La capacité de généraliser les résultats dépend de la représentativité de l’échantillon.

L'expérimentation Principes L'expérimentation ou encore la réalisation d'essais suppose que l'apparition des faits que l'on désire étudier est volontairement provoquée, dans des conditions qu'on maîtrise au moins partiellement. Plus efficace que l'observation Protocole expérimental en vue d'affirmer la causalité But de l'étude Conditions de l'expérience Définition des facteurs à étudier Sous l'entière dépendance de l'expérimentateur Qualitatifs (Nature du traitement) Modalités définies a priori Quantitatifs (Dose administrée) Niveau : progression arithmétique ou géométrique Définition des unités expérimentales Inclusion Exclusion Définition des observations à étudier Critère de jugement Définition du dispositif expérimental (Plan d'expérience)

Exemples : 1) 2) A) Les données sont elles correctes ? Dans un hôpital, on a établi un registre au niveau de l’accueil dont on reproduit ci-dessous certains éléments. Nom du patient Sexe Date Date Date de naissance d'entrée de sortie Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/00 Albert Maurice Masculin 24/06/19 02/03/00 12/03/00 Calvari Emilie Femme 24/11/59 03/03/00 07/03/00 Calvari Emilie Féminin 24/11/59 10/03/00 18/03/00 Dupond Marcel Homme 10/02/48 17/03/00 17/05/00 Dupond Marcel Masculin 10/02/48 25/03/00 28/03/00 A) Les données sont elles correctes ? B) Comment coder le sexe ? C) Combien a-t-on d’hospitalisations, de patients ? D) Comment calculer la durée de séjour ? E) Quel est le pourcentage de femme ? 2) Peut on utiliser ce registre pour connaître l’âge moyen des personnes habitant le bassin de population drainé par cet hôpital ?

Nature et enregistrement des données Types de données Données quantitatives Données discontinues ou discrètes Données continues Données qualitatives Données binaires Données nominales Données ordinales ou semi quantitatives Grande richesse en information Données quantitatives Données ordinales Données qualitatives Faible richesse en information

Données quantitatives Données discontinues ou discrètes : Donnent lieu à des dénombrements ou comptages. Les résultats s'expriment en nombres entiers non négatifs. Exemples : Nombre d'enfants dans une famille; Nombre de désintégrations par minute... Données continues Donnent lieu à des mesures (mensurations). Elles soulèvent des problèmes de précision et de choix d'unité. Dans le domaine biologique il est illusoire, inutile et même dangereux d'utiliser plus de deux ou trois chiffres pour exprimer les résultats individuels. Exemple : Taille, Poids ... En pratique, dans le cas des mesures, on effectue en réalité des observations discontinues en raison de la nécessité d'arrondir les données alors que celles-ci sont fondamentalement continues (mise en classe). Permettent les calculs arithmétiques (moyenne, écart type...)

Données Qualitatives Elles concernent des caractères ou des attributs que chacun des individus peut posséder ou non. Codées avec des classes mutuellement exclusives Type le plus simple : variable binaire (sexe...) Type nominal : plus de deux classes Problème de la classification utilisée Exemple : Classification internationale des maladies Peut être décomposé en variables binaires Couleur des cheveux (brun, blond, autre) décomposée en Brun (oui, non); Blond (oui, non); Autre (oui, non) Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements.

Données ordinales Données qualitatives exprimant des niveaux différents ordonnés. Exemple intensité d'une cuti (négatif, faiblement positif, positif, très positif) Codées (0, +, ++, +++ ou 0, 1, 2 , 3) Interprétation parfois délicate des calculs arithmétiques Transformation en données quantitatives: utilisation d’échelles analogues visuelles Très fréquentes en médecine et biologie Je ne suis pas fatigué Je suis très fatigué

Enregistrement et traitement des données Bordereau papier / Saisie informatique directe Papier : disponibilité, coût initial faible (mais il faudra faire la saisie) Informatique : possibilité de contrôle à la source : vérification intra champ et inter champs, aide au codage. Standardisation de la présentation A partir de l'observation médicale on a les phases suivantes Extraction et interprétation des signes et symptômes : douleur thoracique caractéristique irradiant dans le bras gauche survenant au froid ou à l'effort => ANGOR Synthèse : patient présentant une toux, des cors au pied, une élévation des enzymes cardiaques, un angor, un tabagisme, un infarctus du myocarde Infarctus du myocarde avec élévation des enzymes cardiaques, angor... Chez un fumeur qui tousse et qui a des cors au pied. Hiérarchisation, Sélection Traitement des données Calculette (en voie de disparition) Traitement informatique Tableurs Logiciels de statistique (EPIINFO, STATVIEW, SAS, SPPS ...)

La statistique descriptive But : présenter les données pour que l'on puisse en prendre connaissance facilement peut concerner : une variable à la fois : statistique à une dimension deux variables à la fois : statistique à deux dimensions plus de deux variables à la fois : statistique multidimensionnelle comporte : les tableaux : distributions de fréquences les diagrammes : graphiques les paramètres statistiques : réduction des données à quelques valeurs numériques caractéristiques

Les distributions de fréquences Séries statistiques : simple énumération ou dénombrement des observations peut être ordonnée (variable quantitative) le nombre total d'observations, appelé effectif de l'échantillon, est noté N Distributions non groupées Lorsque les observations sont nombreuses, une même valeur peut être observée plusieurs fois. On utilise xi pour représenter les valeurs différentes, son nombre d’occurrences est noté ni et est appelé fréquence absolue ; p représente le nombre de valeurs différentes que l'on a observé. ni/N est appelé fréquence relative. En cas de variable quantitative, on ordonne les xi et les fréquences absolues ou relatives peuvent être additionnées de proche en proche de manière à obtenir les fréquences cumulées notées Ni et Fi xi ni fi Ni Fi x1 172 3 0,015 3 0,015 x2 175 15 0,075 18 0,09 x... n... f... xp np fp N 1 N=200= S1p ni 1= S1p fi

Les distributions groupées Variables quantitatives Quand le nombre de valeurs distinctes est élevé, on condense les tableaux statistiques en groupant les observations en classes. On obtient ainsi les distributions groupées. Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont appelées bornes des classes. L'amplitude de la classe encore appelée intervalle ou module de classe correspond à l'écart entre la borne supérieure et la borne inférieure. Le point central ou encore point médian est situé à mi chemin entre les bornes. L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... En cas de classes d'amplitudes différentes, la densité de fréquence ni/amplitude classei permet de comparer les fréquences d'une classe à l'autre. Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.

Distribution groupée : exemple Classe Ci ni fi Ni Fi [140-160[ 150 10 0,05 10 0,05 [160-165[ 162,5 20 0,10 30 0,15 [165-170[ 167,5 30 0,15 60 0,30 [170-175[ 172,5 45 0,225 105 0,525 [175-180[ 177,5 40 0,20 145 0,725 [180-185[ 182,5 35 0,175 180 0,90 [185-190[ 187,5 15 0,075 195 0,975 [190-200[ 195 5 0,025 200 1,0 N=200 S 1k fi =1 k = nombre de classes

Les graphiques Diagrammes sur distributions non cumulées Diagramme en bâtons Distribution non groupée On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni Polygone des fréquences Ligne brisée joignant les bâtons fréquences absolues / relatives Histogramme Distribution groupée composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (ni/Di). La surface est proportionnelle à ni. Diagramme sectoriel Variable qualitative Angle au centre proportionnel à ni (ou fi)

Les graphiques Diagrammes sur distributions cumulées Polygone des fréquences sur distribution non groupée = escalier sur distribution groupée : ligne brisée Histogrammes Principaux aspects Symétrie - Aplatissement Distribution : en cloche en J en U à plusieurs bosses ... Autres représentations Attention : Excel ne fait pas d’histogramme

Polygone des fréquences Exemple Nombre de colonies bactériennes/dm2 ni 1 5 2 7 3 15 4 25 5 35 6 45 7 32 8 28 9 16 10 12 11 3 12 1 5 10 15 20 25 30 35 40 45 1 2 3 4 5 6 7 8 9 1 0 11 12 Nombre de colonies bactériennes/dm2

Histogramme : exemple Classe ni Densité (*10) [140-160[ 10 5 [160-165[ 20 40 [165-170[ 30 60 [170-175[ 45 90 [175-180[ 40 80 [180-185[ 35 70 [185-190[ 15 30 [190-200[ 5 5 10 20 30 40 50 60 70 80 90 140 160 170 180 190 200

Diagramme sectoriel : exemple GROUPE ni A 35 B 9 O 40 AB 16 A B O AB

Les paramètres statistiques Paramètres de position Valeurs centrales Moyenne arithmétique Les autres moyennes géométrique harmonique quadratique Médiane Mode Médiale Les fractiles Quartiles Percentiles Paramètres de dispersion Amplitude ou étendue Ecart interquartiles Variance, Ecart type Coefficient de variation Paramètre d'aplatissement et de symétrie

La moyenne arithmétique : Population m (mean) Echantillon x (average) Appelée moyenne notée x Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. Calculable quelque soit la loi qui régit la distribution. Somme des valeurs (T) divisée par le nombre de mesures (N). Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. Propriétés : Centre de gravité de la distribution. La somme des écarts à la moyenne est nulle. Affectée par les changements de variable. Si y = ax + b; on a : y = ax + b La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus. La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.

Somme des valeurs / Nbre d'observations La moyenne : formules Somme des valeurs / Nbre d'observations N = Nombre total de mesures, p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée. fi = pourcentage de la valeur observée i g = nombre de groupes

La moyenne Exemples • Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200 N = 6, T = 1080, x =1080/6 = 180 • Soit la distribution suivante Nombre de colonies bactériennes/dm2 ni ni*xi 1 5 5 2 7 14 3 15 45 4 25 100 5 35 175 6 45 270 7 32 224 8 28 224 9 16 144 10 12 120 11 3 33 12 1 12 p = 12 N = 224 T = 1 366 x = 1 366 / 224 = 6,098

Les autres valeurs centrales Les autres moyennes Moyenne géométrique d'une série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.

Les autres valeurs centrales La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. Sur les distributions symétriques (normales par exemple) la médiane est égale à la moyenne et au mode. Paramètre peu sensible aux valeurs extrêmes Sur une distribution non groupée : Si N impair, la médiane est l'observation de rang (N+1)/2 Si N est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs. Sur distribution groupée, la classe médiane est celle qui contient la médiane. Détermination graphique En admettant que les observations soient réparties uniformément dans cette classe, on a : ˜ x = limite inférieure de la classe contenant la médiane i D = amplitude de la classe contenant la médiane x - x i i - 1 i f = fréquence relative de la classe contenant la médiane i F ( x ) = fréquence relative cumulée de la classe i , 5 - F ( x ) x ˜ = x + D * i i i f i

Autres valeurs centrales et Fractiles Valeurs centrales - suite Mode encore appelé valeur dominante Correspond à la valeur la plus fréquente. xi correspondant au ni maximum. Dans les distributions unimodales symétriques, mode médiane et moyenne sont confondus (distribution normale par exemple) Médiale est la valeur telle que la somme des observations qui lui sont inférieures et la somme des observations qui lui sont supérieure sont égale. Fractiles Quartiles Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. Q2 = Médiane Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. Détermination graphique interpolation (cf médiane) Percentiles 10ième percentile : xi tel que Fi = 0,10

Paramètres de dispersion Amplitude ou étendue Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. Non définie pour les distributions groupées On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. Dans les distributions unimodales en cloche l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000. Ecart interquartiles Q3 -Q1 Englobe 50% des observations On utilise parfois l'écart semi-interquartile (Q3-Q1)/2 Donne naissance à la représentation en « boxplot » 71 210 268 342 741

Paramètres de dispersion : Variance, Écart type Variance et écart type La variance (variance) d'une série ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne. C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. La variance de l'échantillon est notée S2. Ce n'est pas un bon estimateur de la variance de la population notée s2. L’estimation de la variance est notée s2. Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité). Si y = a * x + b, on a Sy = |a| * Sx Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard. => Ne pas utiliser de distribution groupée… Coefficient de variation (cv) C’est le rapport de l’écart type divisé par la moyenne Écart type de la moyenne Cf distribution des moyennes de plusieurs échantillons ^

Variance et écart type : calcul Attention aux notations U = x i 2 1 N å n p SCE = ( i x 1 N å - ) 2 U T CV = ˆ s x

Paramètres de dispersion : Coefficient de variation Le coefficient de variation CV (Coefficient of variation, percentage standard deviation) CV est le rapport écart type divisé par la moyenne. CV est un nombre pur, sans unités. CV est totalement indépendant des unités. Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

Paramètres d'aplatissement et de symétrie Moments centrés d'ordre k moyenne arithmétique des écarts à la moyenne élevée à la puissance k. si k pair => paramètre de dispersion si k impair => paramètre de symétrie Coefficient de Pearson et de Fisher b1 pour caractériser la symétrie de la courbe; b2 pour caractériser l'aplatissement b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale (plus aplatie qu'elle si b2 < 3) cf Loi Normale Skewness et kurtosis

Statistique descriptive à 2 dimensions Objectif : mettre en évidence les relations qui existent entre deux séries d'observations. Situations : Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. Séries appariées : même variable mesurée dans deux circonstances Avant - Après traitement Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...) Séries non appariées Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux...

Tableaux statistiques à deux dimensions et représentation graphique Séries Distribution de fréquence Table de contingence Poids Taille 70 170 80 180 65 165 75 175 90 182 73 170 60 162 68 165 83 180 ... ... Poids 55 60 65 70 75 80 85 90 160 165 170 175 180 185 Taille Poids Taille 60 65 68 70 73 75 80 83 90 Tot. 162 1 1 165 1 1 2 170 1 1 2 175 1 1 180 1 1 2 182 1 1 Tot. 1 1 1 1 1 1 1 1 1 9

Fréquences relatives Nombre de mesure totale N Total de chaque ligne = Li Total de chaque colonne = Ci Effectif d'une cas = nij Fréquences relatives: nij / Li nij / Cj nij / N Li / N Cj / N Cheveux Yeux Blonds Bruns Autres Tot. (Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot. (Cj) 110 100 90 300 300 = Nombre total de mesures 100 = Nombre d'individus ayant les yeux clairs 110 = Nombre d'individus ayant les cheveux blonds 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds

S S Covariance calcul : Variable quantitative cov (x,y) = moyenne des produits des écarts à la moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N si x' = ax+b et y'=cy + d, on a Cov(x'y') = ac Cov (x,y) toujours inférieure ou égale au produit des écart types positive = "nuage" croissant négative = "nuage" décroissant calcul : T * T N S x y x * y - i i N i = 1 Cov (x,y) = N S N x * y i = Txy = somme des produits i = 1 • sert au calcul du coefficient de corrélation r.

Quelques indicateurs statistiques classiques des établissements de santé La SAE Enquête annuelle déclarative établie par tous les établissements français Décrit essentiellement les moyens Décrit partiellement l’activité, plus particulièrement certaines activités soumises à autorisation (IVG,…) Quelques difficultés Combien de lits équipent mon établissement ? Lits autorisés Lits installés Lits ouverts à une date donnée Lits ouverts en moyenne sur l’année Combien d’entrées entre le 1er janvier et le 31 décembre inclus ? (4) Combien de sorties dans la même période ? (5) Combien de malades présents dans la période ? (6) Combien de journées ? Des séjours des malades entrés dans la période (80) Des parties de séjours des malades présents dans la période (73) Des malades sortis dans la période (72) 1er janvier 31 décembre 2 3 10 30 20 16 4 1 6

La durée moyenne de séjour pour une période donnée Quelques indicateurs statistiques classiques des établissements de santé La durée moyenne de séjour pour une période donnée SAE Le nombre de journées est celui des malades présents auquel on ajoute le nombre de décès (hospitalisation complète) Le nombre de malades est le nombre d’entrées (somme des entrées directes et des entrées par mutation) DMS = 73/4 = 18,25 jours (si pas de décès) PMSI Le nombre de journées est celui des malades sortis pendant la période Le nombre de malades est le nombre de malades sortis DMS = 72/5 = 14,4 jours

Taux d’occupation des lits Quelques indicateurs statistiques classiques des établissements de santé Taux d’occupation des lits Le taux d’occupation des lits mesure l’utilisation des moyens mis à la disposition d’un établissement Il existe une norme fixée au niveau national 85% en médecine et en chirurgie, 80% en obstétrique

Comment compter le personnel ? Quelques indicateurs statistiques classiques des établissements de santé Comment compter le personnel ? On différencie Le nombre de personnes dans les différentes catégories professionnelles : Employés, médecins, kinésithérapeutes…. Le nombre d’équivalents temps plein (ETP) pour pouvoir tenir compte du travail à temps partiel. Ce nombre représente la « force » de travail. Exemple : Dans un CHU, on a 150 médecins hospitalo-universitaires qui travaillent à mi-temps à l’hôpital, 200 praticiens qui travaillent à temps plein et 50 praticiens qui travaillent à 80%. Quel est le nombre d’équivalents temps plein de ce CHU ? ETP = 150 * 0,5 + 200 + 50 * 0,8 = 75 + 200 + 40 = 315