夏宁
信息化和数字化时代,人们无疑经常被各式各样的数据所“包围”着,并且基于这些数据,数据分析师和行业观察家们也产生了许多分析结论。然而,这些看似建基于数据之上的“实证”分析是否完全可靠?
美国统计学家加里·史密斯(Gary Smith)所著的《简单统计学》(《Standard Deviations》)则提醒人们,现实中的一些“数字陷阱”完全可能存在,书中列举了美国大量现实案例,揭示了一些领域的统计数据如何被误用,并提醒读者要具备基本的统计思维识别这些不太靠谱的结论。作者认为,统计学并不是只属于学者的专业工具,它与普通人的日常生活息息相关。该书中译本由九州出版社出版,本书也获得了诺奖经济学奖得主罗伯特·希勒的赞赏和推荐。

作者列举的例子既包括生活中的一些例子,也包括医疗研究、商业广告、金融投资、运动比赛等例子。比如“棒球迷信”,作者在书中写道,美国棒球比赛中存在一种所谓的“棒球迷信”,从投手的角度微小的差异足以区分所有明星投手、熟练投手和失败者。用一根圆圆的木棒击打一个以每小时90英里的速度飞行,并且可能具有左旋、右旋、上旋或下旋的圆形棒球,也许是一切运动项目中最为困难的挑战。如果球被击中,它可能直接飞向外野手,造成出局,或者安全落地,形成安打。平均而言,棒球选手每四次击球只能击出一次安打。如果你能将这个比例提高到,你就能进入名人堂。作者认为,也许这就是棒球选手的迷信如此出名的原因,他们倾向于相信这个“规则”不管这种事物多么可笑。奇怪的是,一些研究人员常常会做同样的事情,寻找看上去具有某种模式的事物,不管这种事物多么可笑。
作者还重点讨论了美国医疗研究领域,在医疗研究中,不严谨的统计分析可能误导公众对药物或疗法的认识。关于健康、饮食、疾病风险和用药的统计研究,一些结论往往只挑一些能博眼球的方面说,例如说某个生活习惯会导致风险增加,的确这种风险看似存在,但如果概率本身很小,那么实际对人的影响可能微乎其微。作者提醒人们要注意“绝对风险”和“相对风险”的区别,对于判断这些研究的意义很重要。
再比如一些商业领域的小调查。作者举了一个例子,一家航空公司做了顾客满意度的调查后认为“84%的旅客更喜欢本航空公司”,作者就认为其选取的样本有偏差和预设立场。的确,有时候数据是没错,但分析过程中往往隐藏着分析师的预设、选择性样本以及误导性的解释。如果存在样本偏差,即调查对象的选择本身就不具有代表性,那么调查结果必然失真。比如上述的航空公司调查的样本选取就是只在某一人群中进行调查,却试图得出一个更为普遍的结论。
另外,作者也对美国金融投资领域的一些数据分析进行了讨论。常见的现象是,一些基金公司选择性地展示历史高收益,以及制胜的策略,但却往往有意无意避开市场的大环境和其他的一些因素,该书认为这主要是在回溯历史数据,在过去的数据中寻找规律,而这种规律在未来未必继续存在。简单说,就是有点像“马后炮”,更多是一种总结,而并非是一种可以直接应用到下一次投资的“规律”,所以我们看到,其实现实中也不是人人应用后都能有效,相反一些“规律”在真实交易中常常失灵。
在海量数据时代,人们可以通过不断尝试各种变量组合,总能找到一些看似显著的关联,但作者认为其中一些关联往往只是偶然出现的幻象。作者旨在通过该书提醒读者,面对数据,要有基础的统计常识,并保持冷静清醒的态度。真正的科学研究需要严格的实验设计、严谨的数据处理和可重复的结果验证,而非单一结论。许多统计结论只有在对照组存在时才有意义。例如某种药物是否有效,必须与未使用药物的人群进行比较。另外,最重要的,尽信书不如无书,如果一个基于数据的分析结论明显违背常识,那么你还是要理性看待、清醒地保持和回归常识。
这本书通俗易懂,对当下热门的数字叙事也有较深的研究,并保持了一种理性客观的审视态度,提供了多维度视野,值得一读。
