Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay.

Slides:



Advertisements
Présentations similaires
Puissance et NSN.
Advertisements

D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
But de la lecture critique
Risques d’erreur statistique et test statistique
Test statistique : principe
Les tests d’hypothèses (I)
5 critères de qualité d'un test
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
4 février 2005DESS Economie et Gestion des Cliniques et Etablissements pour personnes âgées 1 La prise en compte des critères économiques dans lanalyse.
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Les tests d’hypothèses
Dépistage de la trisomie 21 en 2008…
Analyse de la variance à un facteur
1 Test dhypothèse Comparaison dune proportion à un standard 0.
Révision (p. 130, texte) Nombres (1-100).
Tableau‚ Summary of Findings‘
Tests de comparaison de moyennes
Un neurone élémentaire
QTLmap et les données ayant une distribution non gaussienne
Méthodes de Biostatistique
Etude longitudinale d’essais multilocaux: apports du modèle mixte
CORRELATION GENETIQUE ENTRE LES RESULTATS DES TESTS DE TERRAIN DES CHEVAUX SWEDISH WARMBLOOD DE 4 ANS ET LES RESULTATS EN COMPETITION DE DRESSAGE ET DE.
L’inférence statistique
Paul-Marie Bernard Université Laval
un petit résumé de l’histoire
La méthodologie expérimentale Fondements et bases d’application
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Méthodes de Biostatistique
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
Théorème de la limite centrale l’inférence statistique
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Aujourd'hui Avoir le devoir d’écart type prêts pour me voir pendant les questions rapide On commence le nouveau unité.
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Validation d’une méthode d’analyse
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Calcul de puissance en IRMf Réunion 2 CNF 2015/2016.
Lecture critique des essais cliniques. But Juger de : - La validité scientifique - L’intérêt clinique Modifier ou ne pas modifier la pratique.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Index fonctionnels : comment calculer leur valeur économique dans l’index de synthèse ? Functional index: how to estimate their economic value for total.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Transcription de la présentation:

Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay

Les scientifiques « pro-OGM » sont accusés par les « antis » dêtre à la solde de Monsanto et du lobby OGM… Les scientifiques « anti-OGM » sont accusés par les « pros» dêtre des obscurantistes… Cest notre devoir de statisticien-citoyen dêtre irréprochable dans notre approche scientifique : Une analyse statistique correctement menée ne sera (presque) jamais contestée !

1) On nourrit pendant 13 semaines des groupes de rats avec le maïs MON810 : groupes tests des groupes de rats avec un maïs « équivalent » sans OGM : groupes témoins des groupes de rats avec différentes variétés de maïs sans OGM : groupes de référence 2) On effectue de nombreuses mesures (poids des rats, poids des organes, paramètres biochimiques, …) 3) On cherche à déterminer si des différences apparaissent entre les groupes témoins et les groupes expérimentaux. tests de toxicité sub-chronique

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

-Au sujet du MON863, lAFSSA conclut "Considérant qu'aucune différence significative n'ayant été observée entre les résultats obtenus pour le maïs MON 863 et les autres variétés de maïs, on peut donc conclure à l'équivalence alimentaire de la nouvelle plante". (AFSSA, Saisine 2003-SA-0215, p 6) - Au sujet du MON810, lAFSSA conclut « Les études toxicologiques dont une étude de toxicité sub-chronique chez le rat, nidentifient pas deffet néfaste lié à la consommation de ces maïs » (AFSSA, Saisine 2008-SA-0266, p 9) - Au sujet du MON810, MONSANTO conclut "MON 810 was shown to be substantially equivalent to conventional maize, except for the introduced lepidopteran protection trait, and as safe and as nutritious as any other, commercially available maize. " (MON810 Technical dossier p 99)

Ces tests n'ont mis en évidence aucune lésion ou modification morphologique grave (les reins des rats nourris au MON810 n'ont clairement pas doublé de volume…), mais le protocole et la méthodologie statistique utilisée rendent impossible la détection d'altérations plus légères. Le CPHA ne prétend nullement que ces altérations existent, mais souhaite que leur absence soit démontrée de façon plus rigoureuse et plus convaincante.

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

Le Monde, 19 novembre 2008

Là encore, le protocole et la méthodologie statistique utilisée rendent très discutables les résultats annoncés…

I Le choix du test dhypothèses

Approche standard : Test de comparaison Hypothèse de référence : il nexiste pas de différence entre les 2 groupes Cest alors aux données de démontrer le contraire. Remarque : cest lapproche systématiquement utilisée dans toute publication…

INSTRUCTION FOR AUTHORS: Every paper that contains statistical testing should state the name of the statistical test, the n for each statistical analysis, the comparisons of interest, a justification for the use of that test (including, for example, a discussion of the normality of the data when the test is appropriate only for normal data), the alpha level for all tests, whether the tests were one-tailed or two-tailed, and the actual P value for each test (not merely "significant" or "P < 0.5").

Remarque 1 Se contenter de regarder si un test est statistiquement significatif ou non n'a pas grand intérêt : très grand échantillon =>tests statistiquement significatifs, mais souvent biologiquement non significatifs. très petit échantillon =>tests statistiquement non significatifs, mais éventuellement biologiquement significatifs.

Mais il ne faut pas oublier que les autres valeurs contenues dans cet intervalle de confiance sont tout aussi « possible » ! Remarque 2 Un test de comparaison nest pas significatif si un intervalle de confiance contient la valeur 0 (pas de différence) 0 -5% + 30%

Une alternative pertinente : Test déquivalence Hypothèse de référence : il existe une différence biologiquement significative entre les 2 groupes Cest alors aux données de démontrer léquivalence des 2 régimes. Remarque : ce test est très largement utilisé dans le domaine du médicament

On conclut à léquivalence des 2 plantes si tout lintervalle de confiance est compris entre 2 limites données % % Equivalence Non équivalence

II Lutilisation de données de référence ou de données historiques

Groupes de référence MON810, Technical dossier, p. 98

Groupes de référence

Hammond et al. (2006) p 1095 Groupes de référence

Données historiques MON810, Technical dossier, p. 103

Groupes de référence Données historiques Introduire de façon ad hoc de nouvelles sources de variabilité entre régimes sans définir un modèle statistique rigoureux introduit un biais dans le calcul du niveau du test.

III La puissance des tests statistiques

MON810, Dossier technique : Les seuls résultats consistent à conclure si les différences observées sont statistiquement significatives ou non, mais la question de savoir si une différence biologiquement significative peut être détectée ou non nest pas abordée. En dautres termes, la puissance des tests statistiques proposés nest jamais calculée. Cette question est essentielle, surtout pour des tailles déchantillons aussi faibles (20 pour les courbes de poids et 10 pour les autres paramètres).

Exemple: Avec des groupes de 10 rats pour les tests de toxicité subchronique, quelle est la probabilité de détecter un effet régime sur le poids du foie ? Proba de détecter une augmentation de 15% 0.92 Proba de détecter une augmentation de 10% 0.61 Proba de détecter une augmentation de 5% 0.20 Proba de détecter une augmentation de 2% rats rats rats

Remarque: MONSANTO utilise la puissance du test pour déterminer le nombre de questionnaires à envoyer dans le cadre dune enquête. Le nombre obtenu est 2500 (MON810, Technical dossier, p.162.)

III Les données aberrantes

Weight curves (MON863) Top left: examples of weight curves (males and females). The three other figures show examples of weight curves clearly presenting abnormal/outlier data.

MON810, Technical dossier, p. 92 the cumulative should be -1.1 instead of -0.34

IV Les comparaisons multiples

MON810, Technical dossier (p. 98) : - Il est « attendu » quune certaine proportion de ces tests se révèlent être significatifs à tort. - Rien nest dit sur la procédure utilisée pour bien contrôler la proportion de "faux positifs" (tests significatifs à tort).

… Seralini et al., 2007 : Une étude statistique élémentaire permet de montrer que le fait dobserver 8% de tests significatifs, au lieu des « 5% attendus », ne permet absolument pas de conclure quoi que ce soit.

V Les données longitudinales

Weight curves (MON863) Les courbes de poids sont analysées par MONSANTO date par date, alors que des outils spécifiques aux données longitudinales seraient mieux adaptés.

Mean weight curves: increases in weight after 14 weeks differ by 10%, on average, between the two groups (+ 300 g in the control group and g in the test group). Intersubject variability of 20% was also simulated as well as residual variability (standard deviation = 10 g). Etude par simulation : Weight curves of 100 samples of 80 rats have been simulated; in each sample of 80 rats, 40 belong to the control group and 40 to the test group. It is presupposed that there is a difference between the two groups

Different approaches are conceivable taking into account the longitudinal structure of data (Mitscherlich-Ratkowski + mixed effects model): - The likelihood-ratio test has power of 97%. - The Wald test has power of 95%. - The BIC criteria gives power of 93%. Without taking into account longitudinal structure of data: - A three-factor ANOVA gives power of 15%. - The mean-comparison of weights at week 14 has power of 40%.

V Erreurs méthodologiques

Seralini et al., 2007 : Body weights Certains effets aléatoires ont été traités comme des effets fixes, ce qui a conduit à sous-estimer les p-values des tests statistiques Une analyse statistique correcte, au moyen de modèles non linéaires à effets mixtes, conduit à des p-values > 0.5

Etude autrichienne (nov. 2008) :

Etude autrichienne (nov. 2008) :

1) Calcul de la p-value en utilisant une approximation normale >>n=24; >>D=4; >>p=1-D/2/n ; >>v=2*p*(1-p)/n ; >>d=D/n/sqrt(v); >>disp(2*(1-normcdf(abs(d)))) ) Calcul de la p-value sans approximation, par Monte-Carlo >>N=500000; >>x=sum(rand(N,n)<1-D/2/n,2); >>d=x(1:N/2)-x(N/2+1:end); >>disp(mean(abs(d)>=D)) Lapproximation gaussienne pour calculer un degré de signification peut être très médiocre. Exemple : on observe 24 portées (sur 24 couples) dans un groupe et seulement 20 portées (sur 24 couples) dans lautre groupe

Conclusions

On peut admettre que d'un point de vue purement descriptif, on "n'observe" pas de grandes différences entre les rats nourris au MON810 (ou MON863) et les rats témoins, mais on ne peut associer à ces tests aucune probabilité d'erreur, niveau, puissance, donc aucune validité statistique…

- Il faut impérativement écrire un Plan dAnalyse Statistique, et sy tenir… - ne pas se contenter de regarder si un test de comparaison est significatif (compléter létude par une analyse de puissance, un test déquivalence,…), - augmenter la taille des échantillons et optimiser les protocoles, afin de mieux séparer les hypothèses et de diminuer les risques derreur, - utiliser des procédures statistiques rigoureuses (modèles mixtes, données longitudinales, comparaisons multiples…).

Les procédures statistiques doivent bien sûr être rigoureuses, mais la statistique nest quun outil et a des limites : cest un outil daide à lévaluation des risques, pas un outil dévaluation des risques ! cest un outil daide à la décision, pas un outil de décision !

Une confiance aveugle dans un résultat statistique ne doit pas conduire à des règles de décisions absurdes : - Si p =0.04, alors « danger » : les OGM sont toxiques et doivent être interdits. - Si p= 0.06, alors « pas de danger » : on peut consommer des OGM sans crainte.