写作经验

方差分析结果要表述为“差异有效/无效”

来源: | 作者:王俊杰 | 日期:2023-03-17 13:55:34 | 阅读: 12829

一个月前,审稿中见到“具有统计学意义”一词,不甚明了该词含义,网查却得以脑洞大开。

网查追溯到陈海峰和李枢强二人发表在《生物学通报》2007年第4期上的《“差异显著”还是“有统计学意义”》一文。文中指出并建议:在方差分析中,使用“有统计学意义”代替常用的“差异显著”“差异具有显著性”“差别有显著意义”“统计显著”等说法。当p<0.05时,应该表达为“有统计学意义”,否则称之为“无统计学意义”。文章分析指出,“差异显著”容易造成两个误解,一是误认为两个样本间差别很大;二是误认为p<0.01比P<0.05更有显著性,进而得到前者比后者差别更显著的结论,其实前者只是比后者犯错的概率更小,并不说明两个样本间实际差异前者比后者更小。

“差异显著”并不能说明两个样本间差别很大,实际差别可能并不大,没有实际意义。例如在造林试验中,处理组平均成活率为89%,对照组平均成活率为86%,方差分析结果p<0.05,实际上处理组平均成活率仅比对照组高3个百分点,这在造林实践中并没有多大意义。“差异不显著”也不能说明两个样本间差别很小,实际差别可能并不小。例如处理组平均成活率为66%,对照组平均成活率为36%,方差分析结果p>0.05,实际上处理组平均成活率比对照组高30个百分点,这在造林实践中很有意义。其实,我国新版《造林技术规程》(GB T 15776-2016)第15章规定,纯林造林时,合格小班的造林成活率标准为:生态脆弱地带≥70%,其他地区≥85%;成活率<41%则为造林失败小班,需要重新造林;两者之间为需要补植。按照这个标准,在前一个例子中,处理和对照的平均造林成活率均满足合格标准,两种措施都可以用于造林实践,因此处理组和对照组的造林成活率差异有统计学意义而无实际意义。在后一个例子中,对照组属于造林失败,而处理组则可以补植,显然处理措施具有实际意义。至于为什么两个样本差异很大却无统计学意义,则需要结合试验具体仔细分析原始数据,找出试验设计时被忽视并且严重影响试验结果的因素,以便改进试验。

方差分析属于统计分析的内容之一,对于其中的p值,近年来争论很大。下面列出相关链接文章,以助理解。

Megan Yu:对从事科学研究而言,统计学是一门特别重要的技能

生物谷:科学研究中数据分析的弊病-“P-值”

生物谷:p值检验,你用对了吗?

Jacqueline Shawn:我叫“P值” 这是我的故事

David Colquhoun:是时候抛弃“统计显著”这个词了

于淼:估计、p值与科学决策

Editage意得辑:有P值为何还需要效果量?

LetPub编辑:对p值的讨论

邵斌:什么样的结果是显著的:浅谈p值

Enago英论阁:P值真的万能吗?

孙学军:科学家真懂统计学吗?

Marisha Fonseca:怎么正确表现P值?

Editage意得辑:P值也被滥用?BASP期刊宣布禁用P值 - 意得辑专家视点

2018-8-27于兰州


现在看来,“有统计学意义”一词同样也不有妥之处。这个词非常笼统,具体是什么意义,需要进一步解释,否则令人疑窦丛生。表述为“有/无统计学差异”,依然不够妥贴,用来检验的指标值原本就有差异,再称检验结果为“有/无统计学差异”,不仅重复啰嗦,而且非常别扭。

造成上述混乱的原因在于对英文词“statistically significant”的翻译失当,仅仅译出其字面意义,而没有译出其科学内涵,尤其significant一词。significant字面意思指重要的、有重大意义的、显著的、值得注意的、有效的、别有含义的、意味深长的、区别性的、相当数量的、不可忽略的、值得注意的等,如果逐字翻译,随便挑一个含义都可以,为什么非要使用“有重大意义的”“显著的”呢?

事实上,统计检验针对两个假设进行:一是同效假设,试验因素的效应相同(无效),指标差值为0;二是异效假设,试验因素的效应相异(有效),指标差值非0。然后计算同效假设成立时出现指标差值为0的概率p,如果p≥0.05(0.01),说明指标差值为0的概率大,不可忽略,因而接受同效假设而拒绝异效假设;如果p<0.05(0.01),说明指标差值为0的概率小,属于小概率事件,事实上不可能出现,因而否定同效假设而接受异效假设。由此可见,统计检验的是效应相同还是相异,或者说是有效/无效,不是效应有无差异,更不是效应差异大小。例如,就树高而言,两个树木品种基因型可能完全不同,甚至两个不同树种,只要高生长效应相同,两者就没有选择性,造林时选谁都可以;只有高生长效应相异时才具有选择性,自然会选择树高值较大的哪一个,被打上记号特别标注出来。significant一词中,signi〔= sign〕记号+ fic具有某种性质的+ ant …的→可以打上记号的(直译为“可标志的”,可以引申为“有效的”“异于另一个的”),也就是说,“Statistically significant”在英文中本义指被统学检验可标志的。因此,从检验过程来看,统计检验实质就是效应异同性检验,相应地检验结果应表述为“效应相同/异”,也就是说“Statistically significant”中的significant应取“有效的、可标志的”之义。在统计学领域,把significant译成“显著的”不会带来歧义,因为统计学只涉及概率大小,不涉及效应的大小。但在统计学应用领域,由于涉及到效应的大小, 而且是研究者关注点所在,因而容易把统计学的“显著”与效应的“显著”混同起来,造成失误。

万事万物都有随机变化,试验中还包括无数个非试验因素引起的变化,理论上效应指标值总是有所差异。统计检验就是用来判断指标值的差异是随机变化还是非随机变化(试验因素所致),从而有把握地判断指标值代表的试验因素的效应是相同还是相异。显然,“显著差异”“差异有/无统计学意义”“有/无统计学差异”均无法精准清晰地表达出这个含义。

统计检验的真谛在于判断效应异同(有无),而非效应大小或差异大小,选择的本质在于效应的异同。“条条大路通罗马”,“英雄不论出身”。对于研发类论文来说,研究只看效应,不论其因素异同。例如施肥1kg/株增产桃果10kg/株,灌水1t/株同样增产桃果10kg/株,这就是施肥和灌水两个不同因素而增产效应相同的现象。再如,牛的体重500kg,马的体重500kg,尽管牛马不同种,但其体重效应是相同的。统计检验就是“英雄不论出身”,只验效应异同,不看因素异同,统计学原本就是抽去具体事物只计算数值的数学方法,原本就没有验证因素异同的功能。

见过很多论文,对于多重比较结果为“差异不显著”的多个处理仍然排列指标值大小,完全忽视了统计检验结果,其原因正是混淆了统计学和效应两个不同的“显著”。用“效应相同/异”就可以避免上述失误。对于效应相同的两个处理,对于同效的两个处理,再去排列指标值大小,连自己都应该感到“多此一举”了!

2022-10-08再改于兰州


刚刚浏览文献,读到甲因素对乙性状“有显著的正效应”,忽然意识到其中隐藏一个巨大谬误:主观预定因素有效应。“有显著的正效应”是“有显著效应”的扩充说法,指试验因素的效应与对照相异,这是统计检验的结果,其现实意义被解读为试验因素有效应。与此相对立,“无显著效应”指试验因素的效应与对照相同,即试验因素无效应。“无显著效应”先自预定了试验因素有效应,因而才把统计检验结果陈述为“无显著效应”;如果没有预定,就不会陈述为“无显著效应”。因此,“无显著效应”潜台词:“按理,因素有效应,只是结果显示效应不够显著”,可见其背后有一个主观预定之幽灵在捣鬼。两厢对比,“效应相异/同”是客观陈述统计检验结果,绝无“有/无显著效应”那样的主观色彩。

主观预定有效应,研究时就会有意无意地寻求有效应的证据,这样得出的结论很可能会违背事实。科学研究的一切全在于客观总结事实,有效应就是有效应,无效应就是无效应,要尽量避免主观预定的影响。“有显著效应”即以往常说的“差异显著”,“无显著效应”即“差异不显著”。很多人在统计检验“差异不显著”的情况下还固执地比较数值大小,排列次序,就是主观预定有效应(有差异)的恶果。

2022-10-28补写

统计检验又写作“显著性检验”,其中的“显著性”应改为“有效性”,相应的差异显著应叙述为“差异有效差异不显著应叙述为差异无效”。差异有效意味着试验因素是有效应的,差异无效意味着试验因素没有效应,其指标测定值显示的差别来自随机误差(包括非试验因素造成的差别),没有实际意义。

同理,相关检验中的“相关显著”应改为“相关有效”,“相关不显著”应改为“相关无效”。相关有效意味着两个指标测定值存在相关关系,相关无效意味着两个指标测定值不存在相关关系,计算得到的非零相关系数是随机变化所致。

2023-03-01补写