Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay.

Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay

Les scientifiques « pro-OGM » sont accusés par les « antis » dêtre à la solde de Monsanto et du lobby OGM… Les scientifiques « anti-OGM » sont accusés par les « pros» dêtre des obscurantistes… Cest notre devoir de statisticien-citoyen dêtre irréprochable dans notre approche scientifique : Une analyse statistique correctement menée ne sera (presque) jamais contestée !

1) On nourrit pendant 13 semaines des groupes de rats avec le maïs MON810 : groupes tests des groupes de rats avec un maïs « équivalent » sans OGM : groupes témoins des groupes de rats avec différentes variétés de maïs sans OGM : groupes de référence 2) On effectue de nombreuses mesures (poids des rats, poids des organes, paramètres biochimiques, …) 3) On cherche à déterminer si des différences apparaissent entre les groupes témoins et les groupes expérimentaux. tests de toxicité sub-chronique

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

-Au sujet du MON863, lAFSSA conclut "Considérant qu'aucune différence significative n'ayant été observée entre les résultats obtenus pour le maïs MON 863 et les autres variétés de maïs, on peut donc conclure à l'équivalence alimentaire de la nouvelle plante". (AFSSA, Saisine 2003-SA-0215, p 6) - Au sujet du MON810, lAFSSA conclut « Les études toxicologiques dont une étude de toxicité sub-chronique chez le rat, nidentifient pas deffet néfaste lié à la consommation de ces maïs » (AFSSA, Saisine 2008-SA-0266, p 9) - Au sujet du MON810, MONSANTO conclut "MON 810 was shown to be substantially equivalent to conventional maize, except for the introduced lepidopteran protection trait, and as safe and as nutritious as any other, commercially available maize. " (MON810 Technical dossier p 99)

Ces tests n'ont mis en évidence aucune lésion ou modification morphologique grave (les reins des rats nourris au MON810 n'ont clairement pas doublé de volume…), mais le protocole et la méthodologie statistique utilisée rendent impossible la détection d'altérations plus légères. Le CPHA ne prétend nullement que ces altérations existent, mais souhaite que leur absence soit démontrée de façon plus rigoureuse et plus convaincante.

Dun coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine Dun autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

Le Monde, 19 novembre 2008

Là encore, le protocole et la méthodologie statistique utilisée rendent très discutables les résultats annoncés…

I Le choix du test dhypothèses

Approche standard : Test de comparaison Hypothèse de référence : il nexiste pas de différence entre les 2 groupes Cest alors aux données de démontrer le contraire. Remarque : cest lapproche systématiquement utilisée dans toute publication…

INSTRUCTION FOR AUTHORS: Every paper that contains statistical testing should state the name of the statistical test, the n for each statistical analysis, the comparisons of interest, a justification for the use of that test (including, for example, a discussion of the normality of the data when the test is appropriate only for normal data), the alpha level for all tests, whether the tests were one-tailed or two-tailed, and the actual P value for each test (not merely "significant" or "P < 0.5").

Remarque 1 Se contenter de regarder si un test est statistiquement significatif ou non n'a pas grand intérêt : très grand échantillon =>tests statistiquement significatifs, mais souvent biologiquement non significatifs. très petit échantillon =>tests statistiquement non significatifs, mais éventuellement biologiquement significatifs.

Mais il ne faut pas oublier que les autres valeurs contenues dans cet intervalle de confiance sont tout aussi « possible » ! Remarque 2 Un test de comparaison nest pas significatif si un intervalle de confiance contient la valeur 0 (pas de différence) 0 -5% + 30%

Une alternative pertinente : Test déquivalence Hypothèse de référence : il existe une différence biologiquement significative entre les 2 groupes Cest alors aux données de démontrer léquivalence des 2 régimes. Remarque : ce test est très largement utilisé dans le domaine du médicament

On conclut à léquivalence des 2 plantes si tout lintervalle de confiance est compris entre 2 limites données 0 + 10% 0 - 10% Equivalence Non équivalence

II Lutilisation de données de référence ou de données historiques

Groupes de référence MON810, Technical dossier, p. 98

Groupes de référence

Hammond et al. (2006) p 1095 Groupes de référence

Données historiques MON810, Technical dossier, p. 103

Groupes de référence Données historiques Introduire de façon ad hoc de nouvelles sources de variabilité entre régimes sans définir un modèle statistique rigoureux introduit un biais dans le calcul du niveau du test.

III La puissance des tests statistiques

MON810, Dossier technique : Les seuls résultats consistent à conclure si les différences observées sont statistiquement significatives ou non, mais la question de savoir si une différence biologiquement significative peut être détectée ou non nest pas abordée. En dautres termes, la puissance des tests statistiques proposés nest jamais calculée. Cette question est essentielle, surtout pour des tailles déchantillons aussi faibles (20 pour les courbes de poids et 10 pour les autres paramètres).

Exemple: Avec des groupes de 10 rats pour les tests de toxicité subchronique, quelle est la probabilité de détecter un effet régime sur le poids du foie ? Proba de détecter une augmentation de 15% 0.92 Proba de détecter une augmentation de 10% 0.61 Proba de détecter une augmentation de 5% 0.20 Proba de détecter une augmentation de 2% 0.07 10 rats 20 20 rats 0.99 0.88 0.35 0.09 50 50 rats 1 0.99 0.71 0.17

Remarque: MONSANTO utilise la puissance du test pour déterminer le nombre de questionnaires à envoyer dans le cadre dune enquête. Le nombre obtenu est 2500 (MON810, Technical dossier, p.162.)

III Les données aberrantes

Weight curves (MON863) Top left: examples of weight curves (males and females). The three other figures show examples of weight curves clearly presenting abnormal/outlier data.

MON810, Technical dossier, p. 92 the cumulative should be -1.1 instead of -0.34

IV Les comparaisons multiples

MON810, Technical dossier (p. 98) : - Il est « attendu » quune certaine proportion de ces tests se révèlent être significatifs à tort. - Rien nest dit sur la procédure utilisée pour bien contrôler la proportion de "faux positifs" (tests significatifs à tort).

… Seralini et al., 2007 : Une étude statistique élémentaire permet de montrer que le fait dobserver 8% de tests significatifs, au lieu des « 5% attendus », ne permet absolument pas de conclure quoi que ce soit.

V Les données longitudinales

Weight curves (MON863) Les courbes de poids sont analysées par MONSANTO date par date, alors que des outils spécifiques aux données longitudinales seraient mieux adaptés.

Mean weight curves: increases in weight after 14 weeks differ by 10%, on average, between the two groups (+ 300 g in the control group and + 330 g in the test group). Intersubject variability of 20% was also simulated as well as residual variability (standard deviation = 10 g). Etude par simulation : Weight curves of 100 samples of 80 rats have been simulated; in each sample of 80 rats, 40 belong to the control group and 40 to the test group. It is presupposed that there is a difference between the two groups

Different approaches are conceivable taking into account the longitudinal structure of data (Mitscherlich-Ratkowski + mixed effects model): - The likelihood-ratio test has power of 97%. - The Wald test has power of 95%. - The BIC criteria gives power of 93%. Without taking into account longitudinal structure of data: - A three-factor ANOVA gives power of 15%. - The mean-comparison of weights at week 14 has power of 40%.

V Erreurs méthodologiques

Seralini et al., 2007 : Body weights Certains effets aléatoires ont été traités comme des effets fixes, ce qui a conduit à sous-estimer les p-values des tests statistiques Une analyse statistique correcte, au moyen de modèles non linéaires à effets mixtes, conduit à des p-values > 0.5

Etude autrichienne (nov. 2008) :

8.65 6 0.271.20 9.85 Etude autrichienne (nov. 2008) :

1) Calcul de la p-value en utilisant une approximation normale >>n=24; >>D=4; >>p=1-D/2/n ; >>v=2*p*(1-p)/n ; >>d=D/n/sqrt(v); >>disp(2*(1-normcdf(abs(d)))) 0.0367 2) Calcul de la p-value sans approximation, par Monte-Carlo >>N=500000; >>x=sum(rand(N,n)<1-D/2/n,2); >>d=x(1:N/2)-x(N/2+1:end); >>disp(mean(abs(d)>=D)) 0.0657 Lapproximation gaussienne pour calculer un degré de signification peut être très médiocre. Exemple : on observe 24 portées (sur 24 couples) dans un groupe et seulement 20 portées (sur 24 couples) dans lautre groupe

Conclusions

On peut admettre que d'un point de vue purement descriptif, on "n'observe" pas de grandes différences entre les rats nourris au MON810 (ou MON863) et les rats témoins, mais on ne peut associer à ces tests aucune probabilité d'erreur, niveau, puissance, donc aucune validité statistique…

- Il faut impérativement écrire un Plan dAnalyse Statistique, et sy tenir… - ne pas se contenter de regarder si un test de comparaison est significatif (compléter létude par une analyse de puissance, un test déquivalence,…), - augmenter la taille des échantillons et optimiser les protocoles, afin de mieux séparer les hypothèses et de diminuer les risques derreur, - utiliser des procédures statistiques rigoureuses (modèles mixtes, données longitudinales, comparaisons multiples…).

Les procédures statistiques doivent bien sûr être rigoureuses, mais la statistique nest quun outil et a des limites : cest un outil daide à lévaluation des risques, pas un outil dévaluation des risques ! cest un outil daide à la décision, pas un outil de décision !

Une confiance aveugle dans un résultat statistique ne doit pas conduire à des règles de décisions absurdes : - Si p =0.04, alors « danger » : les OGM sont toxiques et doivent être interdits. - Si p= 0.06, alors « pas de danger » : on peut consommer des OGM sans crainte.

Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay.

Présentations similaires

Présentation au sujet: "Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay.

Présentations similaires

Présentation au sujet: "Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de toxicité des OGM Marc Lavielle INRIA Saclay."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back