Contrôles supplémentaires de la qualité des données anthropométriques

Slides:



Advertisements
Présentations similaires
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Advertisements

Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen
Chapitre 5. Modèles probabilistes continus Variable aléatoire continue et loi de probabilité continue Loi uniforme Loi exponentielle Loi normale Loi normale.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Chapitre 1: Les fonctions polynômes
Calcul de probabilités
Colloque francophone sur les sondages 2016
Chapitre 4: Variation dans le temps
Corrélation et causalité
Valeurs de toutes les différences observables sous H0
Démarche évolutive institutionnelle
Première partie : La droite de budget
Division de la Planification et de la Recherche en Collecte
L. ABAINOU, S. ELHADRI, Z. CHAHBI, H. BAIZRI
Reprise du cours ( ) Aujourd’hui :
Vaut-il mieux utiliser six mesures du
Chapitre 4: Variation dans le temps
Contribution: Revue des études, enquêtes et systèmes d’informations disponibles au niveau de l’INS, pour alimenter la méthode d’analyse et la cartographie.
PRESENTATION DES RESULTATS PRELIMINAIRES DE L’ENQUÊTE NUTRITIONNELLE ATHROPOMETRIQUE ET DE MORTALITE RETROSPECTIVE SMART 2017 (Août)
Analyse Technique (5) Le stochastique.
Représentation de l'information en binaire:
Portfolio thématique Profil démographique et socioéconomique de la population et des familles de Saint-Michel Mababou Kébé Octobre 2016.
Soutenance de Mémoire de Master En vue de l’obtention du diplôme de master En Physique des fluides et des transferts THEME Etude des champs dynamique.
Plans d’expériences: Plans factoriels
Pour aller directement à la reprise du cours
Algorithmique & Langage C
Reprise du cours ( ) Au menu du jour :
Mesure de température par radiométrie photothermique
Méthode Taguchy Analyse de la variance Anavar
Stabilité des porteurs horizontaux (Poutres)
Introduction aux statistiques Intervalles de confiance
Méthodologie scientifique
Short distance Exposure (Mask Aligner)
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Formation sur les bases de données relationnelles.
POL1803: Analyse des techniques quantitatives
LOG770 Annexe A Éléments de probabilité
Prévoir, décider, influencer
Chapitre 3 : Caractéristiques de tendance centrale
Notion de risque et mesures d’association
Thèmes de convergence 10/11/2018.
Adaptive Neuro Fuzzy Inference System (ANFIS)
Thème Sujet à développer
A l’aide du triangle pédagogique de Jean Houssaye
NUMERATION et REPRESENTATION DES NOMBRES
4°) Intervalle de fluctuation :
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Lois de Probabilité Discrètes
Programme financé par l’Union européenne
Chapitre 4: Caractéristiques de dispersion
Programme d’appui à la gestion publique et aux statistiques
Comorbidités des patients traités par DP au RDPLF en 2013
Mesures de Position Dispersion et Forme
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
MATHÉMATIQUES FINANCIÈRES I
Statut ménopausique, Les mesures anthropométriques et cancer du sein chez une population marocaine : étude Cas- Témoin (expérience du centre Mohammed.
Jean-Sébastien Provençal
Présentation 6 : Sondage à plusieurs degrés
Symptômes comportementaux de la démence
5. les rendements d’echelle:
Quoi regarder dans un graphique des moyennes ?
Calcul de précision dans le cas d’échantillons rotatifs: le cas des statistiques EU-SILC au Luxembourg 10e COLLOQUE FRANCOPHONE SUR LES SONDAGES, Lyon,
Analyse des données et complémentarité des sources
Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.
Statistiques et probabilités
Qualité des données est tests: le débat
Récapitulation du jour 2ème
I. Aouichak, I. Elfeki, Y. Raingeaud, J.-C. Le Bunetel
Introduction RESULTATS Discussions Méthodes Conclusion
Transcription de la présentation:

Contrôles supplémentaires de la qualité des données anthropométriques

Objectifs distribution Poisson Normalité Asymétrie Applatissement qualité des données anthropométriques Objectifs distribution Poisson Normalité Asymétrie Applatissement Ratio MAS/MAM Z-score moyen

qualité des données anthropométriques Les tests de cette session sont souvent controversés et doivent être utilisés avec prudence, mais ils peuvent vous donner des idées pour de futures recherches.

Indice de dispersion Enquêtes en grappes qualité des données anthropométriques Indice de dispersion Enquêtes en grappes Examine l’hétérogénéité de la population par rapport à l’émaciation. Le nombre d’enfants malnutris par grappe devrait suivre une distribution statistiquement nommée Poisson Ce test est utilisé seulement pour les enquêtes en grappes. Compare la distribution des données et la distribution poisson pour une différence significative. Si les données suivent une distribution Poisson, cela signifie que les cas sont aléatoirement distribués parmi les grappes; alors, quelques grappes n’auront aucune malnutrition, d’autres auront 1 cas, d’autres 2, etc. Cependant, après avoir atteint un certain seuil, le nombre de grappes contenant plus de cas commencera à diminuer (voir graphique dans la prochaine diapo.) Si les données ne suivent pas une distribution Poisson  L’échantillon est hétérogène avec des poches de malnutrition.

Si les données suivent une distribution Poisson, cela signifie que les cas sont aléatoirement distribués parmi les grappes; alors, quelques grappes n’auront aucune malnutrition, d’autres auront 1 cas, d’autres 2, etc. Cependant, après avoir atteint un certain seuil, le nombre de grappes contenant plus de cas commencera à diminuer (voir graphique dans la prochaine diapo.) Si les données ne suivent pas une distribution Poisson, il y aura un effet de grappe plus grand que d’habitude. Ces deux paramètres statistiques donnent des informations complémentaires.

Distribution Poisson Grappes homogènes Grappes hétérogènes Pas de différence significative Grappes homogènes p < 0.05 Probablement une différence significative Grappes hétérogènes Cependant les choses changent si la distribution des cas n'est pas Poisson. Cela peut indiquer que la population qui a formé l'échantillon est hétérogène, avec des « poches de malnutrition» et des zones qui sont épargnées. Ces problèmes peuvent être causés par la conception de l'enquête, la sélection non aléatoire des villages pour contenir les grappes, une sélection biaisée des ménages dans certaines régions ou une hétérogénéité excessive dans la population étudiée. Si les données ne suivent pas une distribution Poisson, il y aura un effet de grappe plus grand que d’habitude. Ces deux paramètres statistiques donnent des informations complémentaires.

qualité des données anthropométriques Indice de dispersion Test pour la distribution aléatoire ou l’agrégation des cas à travers les grappes: poches de malnutrition. 3 Options: Distribution uniforme: ID < 1 Distribution aléatoire: ID = 1 Distribution agrégée: ID > 1 Comme pour les autres tests, nous pouvons résumer la dispersion à l'aide d'un indice. L'indice de dispersion le plus simple, et souvent utilisé, est le rapport variance sur moyenne. La valeur du rapport variance/moyenne peut varier entre zéro (uniformité maximale) et le nombre total de cas dans les données (agglutination maximale). L'uniformité maximale est obtenue lorsque le même nombre de cas est trouvé dans chaque unité d'échantillonnage primaire. L'agglutination maximale est constatée lorsque tous les cas se trouvent dans une unité d'échantillonnage primaire. L'autre mesure est l'indice de dispersion de Green.

Indice de dispersion Distribution aléatoire Distribution uniforme Si ID < 1 et p<0.05  Cas sont uniformément distribués parmi les grappes. Si ID > 1 et p<0.05  Cas sont regroupés dans certaines grappes. Si on remarque que l’ID pour les oedèmes est supérieur à 1 et p<0.05, mais que ce n’est pas le cas pour le PTZ, on peut penser que le regroupemement des cas de MAG et MAS est dû à l’inclusion des oedèmes dans les estimations de la MAG et MAS (Michael Golden, 2008). Dans le cas des cas regroupés, il est important d’observer l’analyse par équipe de façon plus détaillée afin de trouver si la même équipe sur-rapportait les cas de malnutrition. Distribution uniforme Distribution agrégée

Exercice rapide ID pour PTZ<-2 est 1.33 et le p>0.05. Que pouvons-nous supposer ?

Exercice rapide ID pour PTZ<-2 est 1.33 et le p>0.05. Par conséquent, nous pouvons supposer que la répartition des cas de malnutrition pour cette enquête était aléatoire.

Distribution normale qualité des données anthropométriques Une distribution normale est une courbe symétrique idéale en forme de cloche. les variables anthropométriques (p. ex. poids, taille et PB) et les indices anthropométriques (p. ex. PTZ, TAZ et PAZ) ont tendance à être distribués normalement Comprendre la forme de la distribution des fréquences peut donner un aperçu de la population de l'enquête et de la qualité des données. On suppose généralement que les populations enquêtées auront une distribution normale et que la distribution changera en fonction du niveau de malnutrition de la population. Cependant, la répartition des populations sous-alimentées peut s'écarter de la normalité, en particulier lorsqu'il existe de nombreuses inégalités ou lorsque des formes graves de malnutrition prévalent sans nécessairement indiquer les problèmes de qualité des données.

Résumés graphiques et numériques qualité des données anthropométriques Résumés graphiques et numériques La première façon d'évaluer si une variable est normalement distribuée est une simple évaluation " à lç œil" à l'aide d'histogrammes. Les méthodes graphiques sont souvent plus informatives que les résumés numériques. L'histogramme est une méthode graphique clé pour examiner la distribution d'une variable. La forme des distributions pour HAZ, WHZ et WAZ doit être visualisée à l'aide d'histogrammes. Histogrammes montrant la distribution des indices anthropométriques. données anthropométriques d'une enquête SMART à Kaboul, Afghanistan. Ceux-ci montrent des distributions "en forme de cloche" presque symétriques. WAZ WHZ

Résumés graphiques WAZ WHZ qualité des données anthropométriques La première façon d'évaluer si une variable est normalement distribuée est une simple évaluation " à lç œil" à l'aide d'histogrammes. Les méthodes graphiques sont souvent plus informatives que les résumés numériques. L'histogramme est une méthode graphique clé pour examiner la distribution d'une variable. La forme des distributions pour HAZ, WHZ et WAZ doit être visualisée à l'aide d'histogrammes. Histogrammes montrant la distribution des indices anthropométriques. données anthropométriques d'une enquête SMART à Kaboul, Afghanistan. Ceux-ci montrent des distributions "en forme de cloche" presque symétriques. WAZ WHZ

Résumés numériques Test Shapiro-Wilk pour PTZ, PAZ, TAZ. qualité des données anthropométriques Résumés numériques Test Shapiro-Wilk pour PTZ, PAZ, TAZ. Évalue la différence significative entre la distribution des données de l’enquête et la distribution normale. p < 0.05 Données ne suivent pas une distribution normale Trouvez la raison p > 0.05 Données suivent une distribution normale Test pour l’asymétrie et l’applatissement peuvent être ignorés. Une autre façon d'évaluer la normalité est d'utiliser un test de signification statistique formel. Le test est le test de normalité de Shapiro-Wilk : Nous devons être prudents lorsque nous utilisons des tests de signification tels que le test de normalité de Shapiro-Wilk, car les résultats peuvent être fortement influencés par la taille de l'échantillon. Une petite taille de l'échantillon peut montrer qu'il n'y ait pas d'effets importants, et une grande taille de l'échantillon produire que les tests déterminent que les petits effets sont très importants. Si une distribution semble normale (c.-à-d. qu'elle a une distribution symétrique ou presque symétrique en forme de cloche), il est sûr de supposer la normalité et d'utiliser des procédures statistiques qui supposent la normalité. Les tests formels de normalité peuvent être trompeurs lorsque des échantillons de plus de quelques centaines de cas sont utilisés. Les méthodes graphiques ne sont pas très utiles lorsque les échantillons sont petits. Les tests formels ne sont pas très utiles lorsque les échantillons sont de grande taille. La taille des échantillons de la plupart des enquêtes anthropométriques sera suffisamment grande pour que des tests formels de normalité permettent d'identifier de petits écarts par rapport à la normalité comme étant très significatifs.

Exercice rapide Les résultats du test Shapiro-Wilk pour les données de PTX , en excluant les flags SMART, étaient p= 0,075.

Exercice rapide Comme il est supérieur à 0,05, on peut donc supposer que les données relatives au PTZ ont été normalement distribuées.

Coefficient d’asymétrie qualité des données anthropométriques Coefficient d’asymétrie Mesure la direction et le degré d’asymétrie des résultats. Si la distribution est symétrique  valeur du coefficient = 0. La valeur du coefficient doit être entre -1 et +1. Mesure l'asymétrie. Une distribution normale qui est parfaitement symétrique aura une valeur d'asymétrie de zéro avec une distribution égale sur les queues droite et gauche. On peut généralement voir l´asymétrue dans les histogrammes. Nous pouvons également calculer une indice d'asymétrie. Coefficient trop loin de l’intervalle -1 à +1 Problème avec l’hétérogénéité de la population January 2019 Addis Ababa

Coefficient d’asymétrie qualité des données anthropométriques Coefficient d’asymétrie Bien qu'il n'y ait pas de seuil définie, une règle générale est que lorsque le coefficient est <-0,5 ou >+0,5, c'est une indication de l'asymétrie. La distribution asymétrique des données n’est pas nécessairement due à une faible qualité de collecte des données. Si les données sont fortement asymétriques, alors l'interprétation doit être accomplie avec soin. Il est probable qu'il existe des sous-groupes distincts au sein de la population qui auraient dû être identifiés et mesurés séparément pendant la phase de planification de l’enquête. January 2019 Addis Ababa

Kurtosis ou coefficient d’aplatissement qualité des données anthropométriques Kurtosis ou coefficient d’aplatissement Mesure l’aplatissement de la distribution. Distribution normale: coefficient = 3. La valeur du coefficient doit être entre 2 et 4 Coefficient trop loin de l’intervalle -1 à +1 Problème avec la qualité des données. Mesure le "aplatissement" de la distribution. C'est une mesure de la concentration d'une distribution autour de la moyenne. L'aplatissement peut être nul, positif ou négatif. L'aplatissement zéro est trouvé quand une variable est normalement distribuée. L'aplatissement positif se produit lorsque la masse de la distribution est concentrée autour de la moyenne et qu'il y a très peu de valeurs éloignées de la moyenne. L'aplatissement négatif est constaté lorsque la masse de la distribution est concentrée dans les queues de la distribution. On peut généralement voir l'aplatissement dans les histogrammes. Nous pouvons également calculer une statistique d'aplatissement et tester January 2019 Addis Ababa

Kurtosis ou coefficient d’aplatissement qualité des données anthropométriques Kurtosis ou coefficient d’aplatissement Le coefficient d’aplatissement positif est souvent généré par un grand nombre de valeurs extrêmes – ceci peut être dû aux erreurs lors de la collecte des données. Si on a un grand nombre de flags, il est probable qu’on aura un coefficient d’aplatissement élevé. Kurtosis négatif: moins fréquent. Il peut indiquer que les données ont été «sur-nettoyées" ou que les équipes n'ont pas pris les valeurs qu‘elles croyaient elles-mêmes être extrêmes -de sorte qu'il y a trop de valeurs regroupées autour de la valeur moyenne. alors qu'il n'y a pas de coupure définie, en général, une aplatissement <2 ou >4 indique une aplatissement. Lorsque l'aplatissement est supérieur à 4, le degré d'aplatissement est faible et la courbe est plate, ce qui signifie qu'il y a beaucoup de valeurs extrêmes dans les queues que dans une distribution normale. Lorsque l'aplatissement est inférieur à 2, le pic est élevé et donc les queues sont relativement courtes. January 2019 Addis Ababa

Comment présenter Toujours fournir des histogrammes qualité des données anthropométriques Comment présenter Toujours fournir des histogrammes Rechercher la raison de la non-normalité Vérifiez les queues de la distribution PAZ, PTZ et PAZ. Se sont-ils terminés en douceur ou brusquement ? Asymétrie si <-0.5 ou >+0.5 Kurtosis si <+2 ou >+4 Étant donné qu'il n'est pas clair ce que représente un écart par rapport à la normalité pour les PAZ, TAZ ou PTZ (c.-à-d. qu'il peut s'agir de populations sous-alimentées présentant des niveaux élevés d'iniquité et/ou de formes graves de malnutrition, ou de problèmes liés à la qualité des données ou une combinaison des deux) il est impossible de donner des conseils sur ce que signifie la distribution anormale dans une enquête donnée tant que des travaux de recherche dans ce domaine ne sont pas réalisés, Vérifiez si les queues de la distribution TAZ, PTZ et PAZ se terminent en douceur et pas brusquement. Si la distribution se termine brusquement, cela peut indiquer des problèmes de qualité des données. En outre, comme l'aplatissement pour une distribution normale standard est 3, certaines formules soustraient 3 de la valeur obtenue en utilisant la formule présentée ci-dessus, de sorte que l'aplatissement de distribution normale standard est représenté par une valeur de 0, ce qui signifie que ces formules représentent une "aplatissement excessif". Lorsque de telles formules sont utilisées kurtosis <-1 ou >1, sont indicatives de kurtosis. Si les valeurs d'asymétrie ou d'aplatissement se situent en dehors de ces fourchettes, il pourrait être utile de calculer les coefficients d'asymétrie et d'aplatissement par d'autres désagrégations. La plupart des logiciels calculent ces statistiques automatiquement

qualité des données anthropométriques Il est impossible de tirer des conclusions sur la qualité des données en se fondant uniquement sur les valeurs d'asymétrie ou d'aplatissement. Inversement, les écarts par rapport à la normalité dans le contexte d'autres contrôles problématiques de la qualité des données devraient être signalés comme préoccupants. D'autres recherches sont nécessaires pour comprendre la distribution des populations présentant des schémas de malnutrition différents et aussi pour comprendre dans quelle mesure les valeurs d'asymétrie et d'aplatissement qui s'écartent de la normalité représentent des problèmes de qualité des données Comprendre la forme de la distribution des fréquences peut donner un aperçu de la population de l'enquête et de la qualité des données. Les Normes de croissance de l'enfant de l'OMS, fondées sur un échantillon d'enfants en bonne santé vivant dans un environnement qui n'entrave pas la croissance, avaient une distribution normale pour chacun des scores z de l'anthropométrie. On suppose généralement que les populations enquêtées auront une distribution normale et que la distribution changera en fonction du niveau de malnutrition de la population. Cependant, la répartition des populations sous-alimentées peut s'écarter de la normalité, en particulier lorsqu'il existe de nombreuses inégalités ou lorsque des formes graves de malnutrition sont répandues (par exemple, les retards de croissance sévères sont élevés ou le surpoids est un problème plus important dans certaines sous-populations) sans nécessairement indiquer des problèmes de qualité des données. Il est donc impossible de tirer des conclusions sur la qualité des données en se fondant uniquement sur les valeurs d'asymétrie ou d'aplatissement. Inversement, les écarts par rapport à la normalité dans le contexte d'autres contrôles problématiques de la qualité des données devraient être signalés comme préoccupants. D'autres recherches sont nécessaires pour comprendre la distribution des populations présentant des schémas de malnutrition différents et aussi pour comprendre dans quelle mesure les valeurs d'asymétrie et d'aplatissement qui s'écartent de la normalité représentent des problèmes de qualité des données. January 2019 Addis Ababa

Analyse par équipe Nombre d’enfants Proportion des flags. Ratio de l’âge. Ratio du sexe. Préférence numérique (poids, taille et MUAC). Écart-type. . Pas souvent possible dans les anciennes enquêtes Les problèmes avec les mesures n’impliquent habituellement pas toutes les équipes. Souvent, c’est dû à une équipe qui a été mal formée ou à un membre d’équipe qui pourra affecter le résultat global de l’enquête. Si n’importe quelle équipe obtient des données statistiquement différentes des autres équipes (préférence numérique, écart-type), il est probable que la technique de cette équipe a créé un biais systématique. Si cela arrive, et si le temps le permet, les grappes abérrantes de cette équipe devraient être ré-enquêtées par une autre équipe et les nouvelles données remplaceraient les anciennes. Si la deuxième équipe obtient des données similaires aux données de l’équipe d’origine, il y a donc probablement une différence réelle entre ces grappes particulières et le reste des grappes. Si tel est le cas, les données d’origine devraient être utilisées. L’effet de grappe sera inhabituellement élevé. Si les données de la deuxième équipe sont très différentes des données originales, ceci confirme qu’il y avait un biais systématique dans le travail de la première équipe.

Ratio MAS/MAM Relation fixe entre MAM et SAM Ça dépend de : score Z Moyen score Z ET une autre façon d'évaluer la qualité des données de l'enquête Préférences numériques (poids, taille et PB) Écart-type Normalement, il existe une relation fixe entre l'émaciation modérée et l'émaciation grave, selon le degré de malnutrition au sein de la communauté. Si l'on constate un excès d'émaciation sévère (MAS sans œdème) par rapport à l'émaciation modérée plus sévère (MAG) ou MAM, c'est une indication que les mesures ont été mal prises. On suppose souvent que ce ratio est constant, mais ce n'est pas le cas. Dans une population normale, non mal nourrie, on s'attendrait à environ 16 cas modérément émaciés pour chaque cas grave. Si la moyenne de la population pour le PTZ est de -0,5 Z-score, alors pour chaque cas grave, il y aura dix cas modérés ; c'est ce qui est normalement observé sur le terrain. Comme la population se détériore jusqu'à une moyenne de -1,0 PTZ, il y aura six cas de MAM pour chaque cas de MAS. Une valeur moyenne de population de -2,0 Z est très rare, car cela signifie que la prévalence du MAG sera de 50 % des enfants - dans ces situations extrêmes, il n'y aura que deux cas de MAM pour chaque cas de MAS. Ce rapport a des implications importantes sur l'effort qui est consacré au traitement de chaque degré d'émaciation, et donc sur la conception des programmes d'implantation. Si le ratio diffère sensiblement de ceux qui figurent dans le tableau (diapositive suivante), alors les données déclarées dans l'enquête sont suspectes.

GAM/SAM MAM/SAM Mean SD 0.8 SD 1.0 SD 1.2 0.0 70.2 16.9 7.7 69.2 15.9 WHZ GAM/SAM MAM/SAM Mean SD 0.8 SD 1.0 SD 1.2 0.0 70.2 16.9 7.7 69.2 15.9 6.7 -0.1 60.7 15.4 7.2 59.7 14.4 6.2 -0.2 52.5 14.1 6.8 51.5 13.1 5.8 -0.3 45.5 12.9 6.4 44.5 11.9 5.4 -0.4 39.4 11.8 6.0 38.4 10.8 5.0 -0.5 34.2 5.7 33.2 9.8 4.7 -0.6 29.7 9.9 5.3 28.7 8.9 4.3 -0.7 25.8 9.0 24.8 8.0 4.0 -0.8 22.4 8.3 4.8 21.4 7.3 3.8 -0.9 19.5 7.6 4.5 18.5 6.6 3.5 -1.0 17.0 7.0 4.2 16.0 3.2 -1.1 14.8 13.8 3.0 -1.2 13.0 5.9 12.0 4.9 2.8 -1.3 11.4 3.6 10.4 4.4 2.6 -1.4 10.0 3.4 2.4 -1.5 8.8 4.6 7.8 2.2 -1.6 3.3 2.0 -1.7 3.9 2.9 1.9 -1.8 3.7 2.7 1.7 -1.9 1.6 -2.0 2.5 1.5

Excercice 5 Diviser en 4 groupes Le fichier ex05.csv est un fichier de valeurs séparées par des virgules (CSV) contenant les données anthropométriques d'une enquête SMART à Kaboul, en Afghanistan. Fournir des histogrammes pour PTZ, TAZ et PAZ Calculer le test Saphiro-Wilks Calculer l'asymétrie et la kurtose Utilisez cette calculatrice en ligne : http://www.statskingdom.com/320ShapiroWilk.html