写作经验

方差分析结果要表述为“效应相同/异”

来源: | 作者:王俊杰 | 日期:2022-10-28 14:36:12 | 阅读: 7507

一个月前,审稿中见到“具有统计学意义”一词,不甚明了该词含义,网查却得以脑洞大开。

网查追溯到陈海峰和李枢强二人发表在《生物学通报》2007年第4期上的《“差异显著”还是“有统计学意义”》一文。文中指出并建议:在方差分析中,使用“有统计学意义”代替常用的“差异显著”“差异具有显著性”“差别有显著意义”“统计显著”等说法。当P<0.05时,应该表达为“有统计学意义”,否则称之为“无统计学意义”。文章分析指出,“差异显著”容易造成两个误解,一是误认为两个样本间差别很大;二是误认为P<0.01比P<0.05更有显著性,进而得到前者比后者差别更显著的结论,其实前者只是比后者犯错的概率更小,并不说明两个样本间实际差异前者比后者更小。

“差异显著”并不能说明两个样本间差别很大,实际差别可能并不大,没有实际意义。例如在造林试验中,处理组平均成活率为89%,对照组平均成活率为86%,方差分析结果P<0.05,实际上处理组平均成活率仅比对照组高3个百分点,这在造林实践中并没有多大意义。“差异不显著”也不能说明两个样本间差别很小,实际差别可能并不小。例如处理组平均成活率为66%,对照组平均成活率为36%,方差分析结果P>0.05,实际上处理组平均成活率比对照组高30个百分点,这在造林实践中很有意义。其实,我国新版《造林技术规程》(GB T 15776-2016)第15章规定,纯林造林时,合格小班的造林成活率标准为:生态脆弱地带≥70%,其他地区≥85%;成活率<41%则为造林失败小班,需要重新造林;两者之间为需要补植的小班。按这个标准,在前一个例子中,处理和对照的平均造林成活率均满足合格标准,两种措施都可以用于造林实践,因此处理组和对照组的造林成活率差异有统计学意义而无实际意义。在后一个例子中,对照组属于造林失败情况,而处理组则属于可以补植的情况,显然处理措施具有实际意义。至于为什么两个样本实际差异很大却方差分析得到无统计学意义结果,这就需要结合试验具体情况仔细分析原始数据,找出试验设计时被忽视并且严重影响试验结果的因素,以便改进试验。

方差分析属于统计分析的内容之一,对于其中的P值,近年来争论很大。笔者曾经陆续收集了几篇相关文章,当时读得似懂非懂,这一次因着“有统计学意义”一词,再次反复阅读,仍然似懂非懂。笔者统计学基础知识太差,消受不起这顿大餐。下面列出相关链接文章,有志者尽可深研,并请著文分享。

Megan Yu:对从事科学研究而言,统计学是一门特别重要的技能

生物谷:科学研究中数据分析的弊病-“P-值”

生物谷:p值检验,你用对了吗?

Jacqueline Shawn:我叫“P值” 这是我的故事

David Colquhoun:是时候抛弃“统计显著”这个词了

于淼:估计、p值与科学决策

Editage意得辑:有P值为何还需要效果量?

LetPub编辑:对p值的讨论

邵斌:什么样的结果是显著的:浅谈p值

Enago英论阁:P值真的万能吗?

孙学军:科学家真懂统计学吗?

Marisha Fonseca:怎么正确表现P值?

Editage意得辑:P值也被滥用?BASP期刊宣布禁用P值 - 意得辑专家视点

2018-8-27于兰州


现在看来,“有统计学意义”一词同样也不有妥之处。这个词非常笼统,具体是什么意义,需要进一步解释,否则令人疑窦丛生。本人曾建议表述为“有/无统计学差异”,现在想来依然不够妥贴,用来检验的指标值原本就是不同的,原本就有差异,再称检验结果为“有/无统计学差异”,不仅语义显得重复啰嗦,而且让人感到非常别扭。

造成上述混乱的原因在于对英文词“statistically significant”翻译失当,仅仅译出其字面意义,而没有译出其科学内涵,尤其significant一词。significant字面意思指重要的、有重大意义的、显著的、值得注意的、有效的、别有含义的、意味深长的、区别性的、相当数量的、不可忽略的、值得注意的等,如果逐字翻译,随便挑一个含义都可以,为什么非要使用“有重大意义的”“显著的”呢?

事实上,统计检验针对两个假设进行:一是同效假设,试验因素的效应相同(无效),指标差值为0;二是异效假设,试验因素的效应相异(有效),指标差值非0。然后计算同效假设成立时出现指标差值为0的概率p,如果p≥0.05(0.01),说明指标差值为0的概率大到不可忽略的程度,因而接受同效假设而拒绝异效假设;如果p<0.05(0.01),说明指标差值为0属于小概率事件,事实上不可能出现,因而否定同效假设而接受异效假设。由此可见,统计检验的是效应相同还是相异,或者说是效应的有无与否,不是效应有无差异,更不是效应的差异大小与否。例如,就树高而言,两个树木品种基因型可能完全不同,甚至两个不同树种,只要高生长效应相同,两者就没有选择性,造林时选谁都可以;只有高生长效应相异时才具有选择性,自然会选择树高值较高的哪一个,被打上记号特别标注出来。significant一词中,signi〔= sign〕记号+ fic具有某种性质的+ ant …的→可以打上记号的(可以引申为“有效的”“异于另一个的”),也就是说,“Statistically significant”在英文中本义指被统学检验打上记号的。因此,从检验过程来看,统计检验实质就是效应异同性检验,相应地检验结果应表述为“效应相同/异”,也就是说在“Statistically significant”一词中,significant应取“有效的”一义。在统计学领域,把significant译成“显著的”不会带来歧义,因为统计学只涉及概率大小,不涉及效应的大小。但在统计学应用领域,由于涉及到效应的大小, 而且是研究者关注点所在,因而容易把统计学的“显著”与效应的“显著”混同起来,造成失误。

万事万物都有随机变化,试验中还包括无数个非试验因素引起的变化,理论上效应指标值总有出入。统计检验就是用来判断效应指标值的差异是随机变化还是非随机变化(试验因素所致),从而有把握地判断指标值代表的试验因素的效应是相同还是相异。显然,“显著差异”“差异有/无统计学意义”“有/无统计学差异”均无法精准清晰地表达出这个含义。

统计检验的真谛在于判断效应异同(有无),而非效应大小或差异大小,选择的本质在于效应的异同。“条条大路通罗马”,“英雄不论出身”。对于研发类论文来说,研究只看效应,不论其因素异同。例如施肥1kg/株增产桃果10kg/株,灌水1t/株同样增产桃果10kg/株,这就是施肥和灌水两个不同因素而增产效应相同的现象。再如,牛的体重500kg,马的体重500kg,尽管牛马不同种,但其体重效应是相同的。统计检验就是“英雄不论出身”,只验效应异同,不看因素异同,统计学原本就是抽去具体事物只计算数值的数学方法,原本就没有验证因素异同的功能。

见过很多论文,对于多重比较结果为“差异不显著”的多个处理仍然排列指标值大小,完全忽视了统计检验结果,其原因正是混淆了统计学和效应两个不同的“显著”。用“效应相同/异”就可以避免上述失误。对于效应相同的两个处理,对于同效的两个处理,再去排列指标值大小,连自己都应该感到“多此一举”了吧?

2022-10-08再改于兰州


刚刚浏览文献,读到甲因素对乙性状“有显著的正效应”,忽然意识到其中隐藏一个巨大谬误:主观预定因素有效应。“有显著的正效应”是“有显著效应”的扩充说法,指试验因素的效应与对照相异,这是统计检验的结果,其现实意义被解读为试验因素有效应。多与此相对立,“无显著效应”指试验因素的效应与对照相同,即试验因素无效应。“无显著效应”先自预定了试验因素有效应,因而才把统计检验结果陈述为“无显著效应”;如果没有预定,就不会陈述为“无显著效应”。因此,“无显著效应”潜台词:“按理,因素有效应,只是结果显示效应不够显著”,可见其背后有一个主观预定之幽灵在暗中使套。两厢对比,“效应相异/同”是客观陈述统计检验结果,绝无“有/无显著效应”那样的主观色彩。

主观预定有效应,研究时就会有意无意地寻求有效应的证据,这样得出的结论很可能会违背事实。科学研究的一切全在于总结客观事实,有效应就是有效应,无效应就是无效应,要尽量避免主观预定的影响。“有显著效应”即以往常说的“差异显著”,“无显著效应”即“差异不显著”。很多人在统计检验“差异不显著”的情况下还固执地比较数值大小,排列次序,就是受主观预定有效应(有差异)影响的恶果。

2022-10-28补写