Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay.

Slides:

Advertisements

Présentations similaires

Puissance et NSN.

Advertisements

D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES

STATISTIQUE INFERENTIELLE L ’ESTIMATION

But de la lecture critique

Risques d’erreur statistique et test statistique

Test statistique : principe

Les tests d’hypothèses (I)

5 critères de qualité d'un test

Inférence statistique

C1 Bio-statistiques F. KOHLER

Inférence statistique

Comparaison d'une distribution observée à une distribution théorique

Les TESTS STATISTIQUES

Tests de comparaison de pourcentages

4 février 2005DESS Economie et Gestion des Cliniques et Etablissements pour personnes âgées 1 La prise en compte des critères économiques dans lanalyse.

Les TESTS STATISTIQUES

Échantillonnage-Estimation

Dr DEVILLE Emmanuelle J D V 12/07/2006

Les tests d’hypothèses

Dépistage de la trisomie 21 en 2008…

Analyse de la variance à un facteur

1 Test dhypothèse Comparaison dune proportion à un standard 0.

Révision (p. 130, texte) Nombres (1-100).

Tableau‚ Summary of Findings‘

Tests de comparaison de moyennes

Un neurone élémentaire

QTLmap et les données ayant une distribution non gaussienne

Méthodes de Biostatistique

Etude longitudinale d’essais multilocaux: apports du modèle mixte

CORRELATION GENETIQUE ENTRE LES RESULTATS DES TESTS DE TERRAIN DES CHEVAUX SWEDISH WARMBLOOD DE 4 ANS ET LES RESULTATS EN COMPETITION DE DRESSAGE ET DE.

L’inférence statistique

Paul-Marie Bernard Université Laval

un petit résumé de l’histoire

La méthodologie expérimentale Fondements et bases d’application

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

Comparaison de deux échantillons

LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.

Méthodes de Biostatistique

Probabilités et Statistiques

Probabilités et Statistiques Année 2009/2010

Seconde partie - cours n°3 Théorie des tests

Théorème de la limite centrale l’inférence statistique

Intervalles de confiance pour des proportions L’inférence statistique

Probabilités et Statistiques Année 2010/2011

Aujourd'hui Avoir le devoir d’écart type prêts pour me voir pendant les questions rapide On commence le nouveau unité.

Concepts fondamentaux: statistiques et distributions

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.

GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.

1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.

Quelques commentaires sur les tests statistiques

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.

Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.

Validation d’une méthode d’analyse

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Tests relatifs aux variables qualitatives: Tests du Chi-deux.

Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.

Introduction aux statistiques Intervalles de confiance

Calcul de puissance en IRMf Réunion 2 CNF 2015/2016.

Lecture critique des essais cliniques. But Juger de : - La validité scientifique - L’intérêt clinique Modifier ou ne pas modifier la pratique.

Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.

Index fonctionnels : comment calculer leur valeur économique dans l’index de synthèse ? Functional index: how to estimate their economic value for total.

Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.

23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,

Transcription de la présentation:

Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay

Les scientifiques « pro-OGM » sont accusés par les « antis » dêtre à la solde de Monsanto et du lobby OGM… Les scientifiques « anti-OGM » sont accusés par les « pros» dêtre des obscurantistes… Cest notre devoir de statisticien-citoyen dêtre irréprochable dans notre approche scientifique : Une analyse statistique correctement menée ne sera (presque) jamais contestée !

1) On nourrit pendant 13 semaines des groupes de rats avec le maïs MON810 : groupes tests des groupes de rats avec un maïs « équivalent » sans OGM : groupes témoins des groupes de rats avec différentes variétés de maïs sans OGM : groupes de référence 2) On effectue de nombreuses mesures (poids des rats, poids des organes, paramètres biochimiques, …) 3) On cherche à déterminer si des différences apparaissent entre les groupes témoins et les groupes expérimentaux. tests de toxicité sub-chronique

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

-Au sujet du MON863, lAFSSA conclut "Considérant qu'aucune différence significative n'ayant été observée entre les résultats obtenus pour le maïs MON 863 et les autres variétés de maïs, on peut donc conclure à l'équivalence alimentaire de la nouvelle plante". (AFSSA, Saisine 2003-SA-0215, p 6) - Au sujet du MON810, lAFSSA conclut « Les études toxicologiques dont une étude de toxicité sub-chronique chez le rat, nidentifient pas deffet néfaste lié à la consommation de ces maïs » (AFSSA, Saisine 2008-SA-0266, p 9) - Au sujet du MON810, MONSANTO conclut "MON 810 was shown to be substantially equivalent to conventional maize, except for the introduced lepidopteran protection trait, and as safe and as nutritious as any other, commercially available maize. " (MON810 Technical dossier p 99)

Ces tests n'ont mis en évidence aucune lésion ou modification morphologique grave (les reins des rats nourris au MON810 n'ont clairement pas doublé de volume…), mais le protocole et la méthodologie statistique utilisée rendent impossible la détection d'altérations plus légères. Le CPHA ne prétend nullement que ces altérations existent, mais souhaite que leur absence soit démontrée de façon plus rigoureuse et plus convaincante.

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

Le Monde, 19 novembre 2008

Là encore, le protocole et la méthodologie statistique utilisée rendent très discutables les résultats annoncés…

I Le choix du test dhypothèses

Approche standard : Test de comparaison Hypothèse de référence : il nexiste pas de différence entre les 2 groupes Cest alors aux données de démontrer le contraire. Remarque : cest lapproche systématiquement utilisée dans toute publication…

INSTRUCTION FOR AUTHORS: Every paper that contains statistical testing should state the name of the statistical test, the n for each statistical analysis, the comparisons of interest, a justification for the use of that test (including, for example, a discussion of the normality of the data when the test is appropriate only for normal data), the alpha level for all tests, whether the tests were one-tailed or two-tailed, and the actual P value for each test (not merely "significant" or "P < 0.5").

Remarque 1 Se contenter de regarder si un test est statistiquement significatif ou non n'a pas grand intérêt : très grand échantillon =>tests statistiquement significatifs, mais souvent biologiquement non significatifs. très petit échantillon =>tests statistiquement non significatifs, mais éventuellement biologiquement significatifs.

Mais il ne faut pas oublier que les autres valeurs contenues dans cet intervalle de confiance sont tout aussi « possible » ! Remarque 2 Un test de comparaison nest pas significatif si un intervalle de confiance contient la valeur 0 (pas de différence) 0 -5% + 30%

Une alternative pertinente : Test déquivalence Hypothèse de référence : il existe une différence biologiquement significative entre les 2 groupes Cest alors aux données de démontrer léquivalence des 2 régimes. Remarque : ce test est très largement utilisé dans le domaine du médicament

On conclut à léquivalence des 2 plantes si tout lintervalle de confiance est compris entre 2 limites données % % Equivalence Non équivalence

II Lutilisation de données de référence ou de données historiques

Groupes de référence MON810, Technical dossier, p. 98

Groupes de référence

Hammond et al. (2006) p 1095 Groupes de référence

Données historiques MON810, Technical dossier, p. 103

Groupes de référence Données historiques Introduire de façon ad hoc de nouvelles sources de variabilité entre régimes sans définir un modèle statistique rigoureux introduit un biais dans le calcul du niveau du test.

III La puissance des tests statistiques

MON810, Dossier technique : Les seuls résultats consistent à conclure si les différences observées sont statistiquement significatives ou non, mais la question de savoir si une différence biologiquement significative peut être détectée ou non nest pas abordée. En dautres termes, la puissance des tests statistiques proposés nest jamais calculée. Cette question est essentielle, surtout pour des tailles déchantillons aussi faibles (20 pour les courbes de poids et 10 pour les autres paramètres).

Exemple: Avec des groupes de 10 rats pour les tests de toxicité subchronique, quelle est la probabilité de détecter un effet régime sur le poids du foie ? Proba de détecter une augmentation de 15% 0.92 Proba de détecter une augmentation de 10% 0.61 Proba de détecter une augmentation de 5% 0.20 Proba de détecter une augmentation de 2% rats rats rats

Remarque: MONSANTO utilise la puissance du test pour déterminer le nombre de questionnaires à envoyer dans le cadre dune enquête. Le nombre obtenu est 2500 (MON810, Technical dossier, p.162.)

III Les données aberrantes

Weight curves (MON863) Top left: examples of weight curves (males and females). The three other figures show examples of weight curves clearly presenting abnormal/outlier data.

MON810, Technical dossier, p. 92 the cumulative should be -1.1 instead of -0.34

IV Les comparaisons multiples

MON810, Technical dossier (p. 98) : - Il est « attendu » quune certaine proportion de ces tests se révèlent être significatifs à tort. - Rien nest dit sur la procédure utilisée pour bien contrôler la proportion de "faux positifs" (tests significatifs à tort).

… Seralini et al., 2007 : Une étude statistique élémentaire permet de montrer que le fait dobserver 8% de tests significatifs, au lieu des « 5% attendus », ne permet absolument pas de conclure quoi que ce soit.

V Les données longitudinales

Weight curves (MON863) Les courbes de poids sont analysées par MONSANTO date par date, alors que des outils spécifiques aux données longitudinales seraient mieux adaptés.

Mean weight curves: increases in weight after 14 weeks differ by 10%, on average, between the two groups (+ 300 g in the control group and g in the test group). Intersubject variability of 20% was also simulated as well as residual variability (standard deviation = 10 g). Etude par simulation : Weight curves of 100 samples of 80 rats have been simulated; in each sample of 80 rats, 40 belong to the control group and 40 to the test group. It is presupposed that there is a difference between the two groups

Different approaches are conceivable taking into account the longitudinal structure of data (Mitscherlich-Ratkowski + mixed effects model): - The likelihood-ratio test has power of 97%. - The Wald test has power of 95%. - The BIC criteria gives power of 93%. Without taking into account longitudinal structure of data: - A three-factor ANOVA gives power of 15%. - The mean-comparison of weights at week 14 has power of 40%.

V Erreurs méthodologiques

Seralini et al., 2007 : Body weights Certains effets aléatoires ont été traités comme des effets fixes, ce qui a conduit à sous-estimer les p-values des tests statistiques Une analyse statistique correcte, au moyen de modèles non linéaires à effets mixtes, conduit à des p-values > 0.5

Etude autrichienne (nov. 2008) :

Etude autrichienne (nov. 2008) :

1) Calcul de la p-value en utilisant une approximation normale >>n=24; >>D=4; >>p=1-D/2/n ; >>v=2*p*(1-p)/n ; >>d=D/n/sqrt(v); >>disp(2*(1-normcdf(abs(d)))) ) Calcul de la p-value sans approximation, par Monte-Carlo >>N=500000; >>x=sum(rand(N,n)<1-D/2/n,2); >>d=x(1:N/2)-x(N/2+1:end); >>disp(mean(abs(d)>=D)) Lapproximation gaussienne pour calculer un degré de signification peut être très médiocre. Exemple : on observe 24 portées (sur 24 couples) dans un groupe et seulement 20 portées (sur 24 couples) dans lautre groupe

Conclusions

On peut admettre que d'un point de vue purement descriptif, on "n'observe" pas de grandes différences entre les rats nourris au MON810 (ou MON863) et les rats témoins, mais on ne peut associer à ces tests aucune probabilité d'erreur, niveau, puissance, donc aucune validité statistique…

- Il faut impérativement écrire un Plan dAnalyse Statistique, et sy tenir… - ne pas se contenter de regarder si un test de comparaison est significatif (compléter létude par une analyse de puissance, un test déquivalence,…), - augmenter la taille des échantillons et optimiser les protocoles, afin de mieux séparer les hypothèses et de diminuer les risques derreur, - utiliser des procédures statistiques rigoureuses (modèles mixtes, données longitudinales, comparaisons multiples…).

Les procédures statistiques doivent bien sûr être rigoureuses, mais la statistique nest quun outil et a des limites : cest un outil daide à lévaluation des risques, pas un outil dévaluation des risques ! cest un outil daide à la décision, pas un outil de décision !

Une confiance aveugle dans un résultat statistique ne doit pas conduire à des règles de décisions absurdes : - Si p =0.04, alors « danger » : les OGM sont toxiques et doivent être interdits. - Si p= 0.06, alors « pas de danger » : on peut consommer des OGM sans crainte.