【连载】科研统计那点事，大部分的研究结果可能经不起时间考验

【连载】科研统计那点事，大部分的研究结果可能经不起时间考验
2019/5/23 22:27:51 火行

     万人订阅，千人群聊，真科研人

     公益交流资讯平台

     星标 ★ 或置顶火行公众号是不错过的最佳方式

     今天的这期内容是我们火行科研Club成员创作；

     紧接上期《科研统计那点事》!

     ——火行者

     ● ● ●

     昨天我们已经讲了：大部分的研究结果可能经不起时间考验《科研统计那点事，大部分的研究结果可能经不起时间考验》，关于P值也指出了“三宗罪”，其实斯坦福大学医学院教授John P.A. Ioannidis文章中采用了数学模型，模拟推导出影响研究结果可靠性的统计学因素和非统计学因素[1]。

     Ioannidis 教授他采用的模型，得出的结论是大部分的显著结果实际上并不真实。下面我们来还原解读一下：

     首先，他在数学模型中考虑并讨论了备择假设Ha为真的先验概率，HTP=R/(R+1)。

     这个参数，实际上是针对p值第3宗罪这个bug采取的补丁程序。也就是在开始统计假设和检验前，先对原假设和备择假设的为真的先验概率之比R进行估值。根据表1，可以算出备择假设Ha为真的先验概率HTP= R/(R+1)。

     通常假定备择假设(Ha)为真，将无法重复显著结果的根源全部归咎于二类错误，但实际研究的状况，当引入了先验机率，结果往往大相径庭。比如：当HTP=0.5，β=0.30 时，真实的备择假设( H a ) 得到重复验证的概率是(1–0.30)×0.5 =0.35，而不是0.70。

     当Ha 真实概率(HTP)小于1.0 时，还有所谓的假阳性的问题，也即虚假的备择假设因第I类错误或其它的原因而呈显著(也即呈阳性)的可能。比如α=0.05，HTP=40%，那么在进行这一系列实验时，假阳性的概率就会是0.05×(1–0.40)=0.030。

     假如你有很好的理论，你的研究假设的先验机率就会比较高，在这种情况之下，问题会比较小。

     但是还有一个问题，就是如果从文献里面来建立理论，来判定你的研究假设的先验机率有多少，问题出在于：通常文献回顾是从学术期刊里面得来，而现在所有的学术期刊，发表的都是显著的结果，不显著的结果通通都没有发表，从学术期刊上来判断研究假设的先验机率有多少，这样的判断是有偏差的。因此，后面我们接着讨论偏差引起的问题。

     第二个引起实验数据不可靠的因素是偏差u。

     在现实世界里，自选题至发表结果的整个过程中，尚有种种偏离规范的人为因素，能进一步削弱研究的可重复性，且这些因素的影响可以逐步累加，最终导致结果的可重复性下降到科学上难以容忍的水平。我们一起感受一下，引入了偏差后，整个画风怎样被扭曲的吧。

     如以u代表人为偏误(bias)的总概率，则其对假阳性概率的影响可表达为u(1 – α)(1 – HTP)。例如α=0.05，HTP=0.40 时，虚无假设H0 成立的概率是1–HTP =0.60, 避免一类错误的概率是1-0.05= 0.95，而如果人为偏差的概率是u=0.30，那么由于人为偏差造成假阳性的概率是0.30×0.95×0.60=0.171。也就是说，在这一批研究中，尽管有60% 的虚无假设(H0=0)是实际成立的，尽管第I类错误α 为0 . 0 5 的临界值使得绝大部分H0=0 分布总体中95%样本不呈阳性(不呈统计显著性)，但由于0.30 的人为偏差率，使得这部分(0.95×0.60=0.57)本不应呈阳性的结果中有17.1% 呈了阳性!由于人为偏差是追逐阳性的倾向，它也可造成真阳性[7]。

     另一方面，当备择假设为真时，有部分结果因为II类错误而不呈阳性，这部分结果的概率是β×HTP，但由于人为的对于阳性的趋鹜，使得这些结果中的一些由阴转阳，其概率是u×β×HTP。设β=0.30，Ha 真实概率是HTP=0.50，人为偏差率u =0.3,则真阳性的概率则为0.30×0.30×0.40=0.036。

     第三个引起研究结果难以重复的因素是多重独立检验次数n的影响。

     我们先看一个例子：对某个假设，在其他条件都相同的情况下，做了 20 次检验，每一个检验的第I类错误α控制在 0.05，那么20 个里面最少有一个显著的概率是多少？不是我们认为的0.95而是 0.36，即(1-0.05)^20=0.36。

     我们不得不承认，实验的可重复性难以得到其他实验室支持。另外一个更现实的原因，从操作实验的成本角度看，科学实验需要投入大量人力、物力、财力。但问题是，重复出他人成果对研究者个人或所属实验室并无意义。可以看到，重复他人实验多发生在具有学术争议、重要学术进展或验证科研不端行为等情况中。在现实状况中，仅有小部分实验结果吸引学界的关注，并进行重复性检验,剩余的大部分实验被有意无意地忽略[8]。

     此外，还有一个趋势，我们不能忽视。在一个很热门的领域中，有许多研究团队在追逐类似的显著性成果，而任何团队所得到的显著性成果，就其自身而言，仅有很低的真实率PPV。可以想见，在一个既热门又是探索性的领域中，显著性成果的真实率将会非常低，如果还存在较明显的人为偏差的话，则所报道的显著性成果的真实率，将低于人为偏差的概率。

     最后，在这些数学模拟结果面前，除了直面现实，我们还能做些什么？看到以下一组数据，您或许会看到希望。在统计功效1-β=0.80, α=0.05, 人为偏差u=0.10, Ha 真实先验概率HTP =0.15 的水平上，阳性预测值可达0.50。如进一步降低第I类错误率α到0.01，则阳性预测值PPV可达0.58。倘再提高HTP 到0.20 的水平，可将阳性预测值增至0.65。这样的阳性预测率PPV，如若再结合比NHST 体系更有效的统计分析方法，可望使研究结果的可重复性水平更上一个层次。

     “研究结果大部分经不起时间的考验”，看似是对科学过程的否定，实质是一针见血揭示了科学探索的本质——从错误中学习而前进，步步逼近真理。影响实验结果可重复性的因素包括统计学因素和非统计学因素。

     统计学只是我们作为科学工作者用来增加对宇宙知识的众多工具之一。要将之使用好，就必须考虑周全地运用之，而不是僵化地应用。通常没有一种唯一正确的方式来利用统计学。另外还有很多错误的方式。哪一种方法最好取决于诸多因素，包括数据对不同统计方法的统计假定的适应程度。最重要的是根据所提问题来挑选统计方法。不同的方法对于解决不同类型的问题效果各异。因此鼓励使用一些非常规统计技术和减少错用常规技术。

     在后p<0.05时代，科学论证不应基于p值是否足够小。效应量和置信区间都应被郑重对待。统计结果应被理解为连续、而非二元的。当用这种方法考虑问题时，面对p值，我们应该看到一个数字，而不是一个不等式，如p=0.0168而非p<0.05。所有与推断有关的假设都应该被检测，包括和数据选择和分析方法有关的决定。在后p<0.05时代，数据分析仍然很重要，但没有一种数值，能够代替统计思考和科学推理。

     此外，为了便于追踪和检验你的数据，以及所作的所有决定，在发表文章或撰写统计报告时，应将数据收集的设计和执行过程，以及你在分析数据过程中做的一切都进行详细报道。包括但不限于：你是否以某种方式进行了跨组平均或合并了组间数据？你是否用数据来决定检测或控制哪个变量，或者在最终的分析中包括和删除了某个变量？你是否不断地增减变量，好让自己的回归模型和系数通过了某个显著性标准？这些决定，以及所有基于数据本身的决定都需要被包括在内。

     最后需要提醒的是，目前自动化统计审稿软件的出现将统计学的重要性抬高到了一个全新的高度，将成为审稿过程的重要环节。软件的评分系统将辅助审稿人进行审稿，意味着对文章统计学方法的要求将大大提高，其评分可能直接影响采纳决定。被接受的论文的特征应是：试验设计、执行和分析被清晰细致地描述出来；结论建立在有效的统计解释和科学论点之上；报告得足够全面、透明，能够被其他人严格的审查。

     参考文献：

     [1] J.P. Ioannidis, Why most published research findings are false, PLoS Med, 2 (2005) e124.

     [2] J.G. Samuel M.Scheiner, Design and Analysis of Ecological Experiments Second Edition, in: O.U. Press (Ed.)USA, 2001.

     [3] S.G. Valentin Amrhein, Blake McShane, Retire statistical significance, Nature, 567 (2019) 305-307.

     [4] R.L. Wasserstein, A.L. Schirm, N.A. Lazar, Moving to a World Beyond “p?
     [5] R.L. Wasserstein, N.A. Lazar, The ASA's Statement onp-Values: Context, Process, and Purpose, The American Statistician, 70 (2016) 129-133.

     作者简介

     梅兰竹菊：女，博士，从事环境工程方向，现就职于上海交通大学；

     火行公益合伙人、火行科研Club创始成员。

     每天一本书，助力科研新突破：

     郑重声明：

     申请转载\授权火行文章，请在公众号后台留言。

     未经授权，不得转载，违者将追究法律责任!

     本公众号由北京市盈科律师事务所胡瀚文律师提供法律支持。

     欢迎转发朋友圈，留下“在看”支持火行!

     - END -

点击图片即可阅读

     交流，我们是认真的：

     NSFC交流群，后台回复“基金加群”获取加群通道，目前群1、2满员，群3开启热聊中。

你在看不

http://weixin.100md.com
返回火行返回首页返回百拇医药