统计学上有意义,简单来说就是认为心血管病和该因素有关。统计学上无意义就是认为心血管病和该因素无关。 在此过程中,你可能发现,大约会有 5 次在统计学上被认为与心血管病相关的因素,实际上从常识和现实来判断是没有任何关联的,也就是说统计学上有意义是错误的。这就是虚假相关。
为了让我们能知其然也知其所以然,这儿要解释一下“统计学上有意义”究竟是怎么界定的 。一般做检验测试时,我们会界定一个值,叫做第一类统计错误率。这个错误率通常被设定为 5%,也就是说每 100 次检验测试,我们允许有 5 次在统计学上实际无意义的被错误判断为统计学上有意义(如果不允许统计错误率的存在,那就是 100% 的正确率,也就是说没有不确定性的存在。如果有这样的数据,就不需要做任何统计上的假设检验了)。
也就是说,如果实际不存在相关性,我们允许 100 次假设检验中出现 5 次错误相关。这就是以上例子中出现虚假相关的原因。 在面对庞大的海量数据和超多维度的因素时,当同时对一个数据进行许多检验测试时,不可避免会出现虚假相关。如何处理这个问题,统计学上还在做着进一步的研
究。
无意义显著性(meaningless significance)
还有一种情况我们称为无意义的显著性 (Lin, Lucas, & Shmueli, 2013)。当我们做两组数据的分析比较时,如果 A 组,B 组各只有 1000 个数据记录,我们测试两组数据的平均值是否一样,结果告诉我们统计学上无意义。也就是说,这两组数据的平均值无统计学上的差异。但当数据记录达到上万上百万时,测试的结果告诉我们统计学上是有意义的了。
这又是怎么回事?我们回到源头上去看,为什么要做两组数据的统计分析比较?不可以就算出两组的平均值,比一比他们是否相同吗?当然不可以,因为我们真正希望分析比较的结果是能够反映 100% 总体数量数据的客观现象。单纯孤立的比较两组各 1000 个记录的平均值,就是比大小,比出来的结论不能推广到 100% 总体数量数据的客观现象上。 但这两组数据等同于 100% 总体数量数据吗? 当然不是,就算是海量的大数据也并不能 100% 等同于总体数量数据。这样我们分析总结出的这两组数据的一些统计指标就会和总体数量数据的统计指标有一定的偏差。这个偏差一般有一个下限和上限,我们称为置信区间。真实的总体数量数据的统计指标就落在样本数据统计指标的左边或右边的一定范
围内(置信区间)。
好了,我们实际要看的是 A 组总体数量数据和 B 组总体数量数据在平均值上是否一样,换种说法就是 A 组总体数量数据平均值减 B 组总体数量数据平均值是否等于零: 。现在我们只有 A 组样本数量数据平均值和 B 组样本数量数据平均值,表达符号就是和。要看的就是 A 组样本数量数据平均值减 B 组样本数量数据平均值的差值是否等于 0: 但我们已经知道由于样本均分差的存在,样本平均值相减的差值不一定是零,而且这个差值有一定的置信区间。
那么我们实际上更精确的说是看 0 是否落在样本差值的置信区间内(置信区间的上限和下限和上面提到的第一统计错误率是相一致的,有一个 5% 的概念在里面,这儿就不详细介绍了。反正是否落在置信区间里否也可以用来判断统计学上是有意义还是没有意义)。落在里面我们就说是统计学上是没有意义的也就是两组数据的平均值是一样。不落在里面我们就说是统计学上是有意义的也就是两组数据的平均值不一样。如图十一所示: 图十一
那为什么在样本数据量为 1000 和 上万上百万的情况下结
果会不一样。这儿我们进一步要讲的就是样本数量和置信区间之间的关系了。随着样本数量的增加,样本差值会和真实的总体数据差值接近(不一定就是 0 哦),同时不确定性会减小,置信区间会缩短,其实就是估计的差值越来越精准了。这种情况下,就算样本差值是非常接近 0 的一个数(就是说我们都觉得两组数据的平均值是一样的了),但是由于置信区间的缩小,0 仍旧会落在置信区间的外面(如图十一,下部分 2 所示)。
这样一来,结果就会是统计学上是有意义的:两组数据的平均值是不一样的。现有的统计方法运用在大数据时会带来这样的一种错误信息。这是因为现有的传统统计方法是针对小数据的,在被提出的时候,还没有面对过或想到数据量可以如此庞大。如何解决如何改进由于这样的数据特性带来的问题,我们还在研究的路上。
羊群效应(herding effect)
大数据时代,我们的社会已经在越来越多的把个人的观点数字化,汇总化,并依赖于此做出决策(比如根据收集到的评分来进行产品或服务的推荐)。这一现象在医疗界也渐渐的变的普遍起来。好多辅助医疗应用软件在移动平台上都会有使用者的评分,人们会根据评分来选择是否使用一下。某些医疗网络平台推出的服务,比如网络问诊,使用者也可以对
提供服务的医疗人员进行满意度的评分,进而影响他人决定是否选择此医疗人员来进行问诊咨询。
利用这种“众人的智慧”的一个关键要求是个人意见的独立性。然而,在现实的世界中,汇总收集的集体意见却很少是由互不相干的独立的个体意见所组成的。最近的实验研究证明先前已经存在的收集到的意见会歪曲随后个人的决策还有对质量及价值的认知。凸显出了一个根本的差异既: 我们从集体意见感知到的价值和产品本身固有的价值之间的差异。
产生这种差异的原因在于“羊群效应” 。羊群效应简单的描述就是个体的从众跟风心理和行为。羊群是一种很散乱的组织,平时在一起也是盲目地左冲右撞,但一旦有一只头羊动起来,其他的羊也会不假思索地一哄而上,全然不顾前 面可能有狼或者不远处有更好的草。因此,“羊群效应”就是比喻一种从众效应,很容易导致盲从,而盲从往往会陷入认知偏差,决策偏差。
IBM Watson 研究中心 (Wang & Wang, 2014) 使用大规模纵向的客户评分数据集(亚马逊的)并建立统计模型演示了评分和意见的产生不是独立,均匀的过程,而是创建了一个环境进而影响以后评分或意见的产生。体现在这种社会化的
相关推荐: