第四章大数据面临的难题第4页_大数据时代官网

六九小说网>大数据时代官网 > 第四章大数据面临的难题（第4页）

第四章大数据面临的难题（第4页）

二、大数据的偏差难题

1936年，共和党人AlfredLandon参加和总统FranklinDela一起的总统竞选，知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动，目的在于将测验送达1000万人民手中，这个数字接近真实选民数的14。回复如洪水般涌来，杂志社很享受这种大范围的任务。在8月末期，报道说：“下周，1000万名选票中的第一批人将开始经历候选人的第一轮，进行三次检验、核实，五次交叉分类和汇总。”

在统计了两个月内收回的240万张选票后，《文学文摘》最终发布调查结果：Landon将以55∶41令人信服地赢得大选，其中有少数投票倾向于第三方候选人。但是竞选最终却呈现出非常不同的结果：Roosevelt以61∶37的绝对优势大胜Landon。让《文学文摘》更郁闷的是，由民意调查先驱人物Geallup实施的一个小范围调查得出的结果却和最终投票结果非常接近，成功预测了Roosevelt将轻松获胜。由此可见，Gallup先生理解了《文学文摘》杂志社所不能理解的一些事：当谈到数据时，规模不代表一切。

大体上来说，民意测验建立在投票人群的取样基础上。这就意味着，民意测验专家通常需要解决两件事：取样错误和样本偏差。样本错误反映了通过偶然方式选择样本带来的风险，一个随机选择的民调样本并不能反映人们的真实观点，而民意测验中体现出来的“误差幅度”也体现了这种风险。样本越大，误差幅度越小。1000个受访者的样本数据已经足够成为很多调查目的的样本，Gallup先生的民意测验据说采纳了3000个受访者样本。

如果说3000个受访者样本带来的调查结果是对的，那么为什么240万个样本却没有呈现更正确的结果呢？答案是，取样错误常常会伴随着一个更危险的因素：样本偏差。取样错误是因为样本的随机选择会导致该选择样本无法反映民众的根本意图；而样本偏差则是样本的选择未经过筛选，而随机选择。Geallup不辞辛劳地寻找了一个无偏差的样本，因为他知道一个无偏差的样本远远比一个数量庞大的样本更重要。

相反，《文学文摘》却忽略了可能产生的样本偏差问题。一方面，它直接将调查表格寄给从汽车登记簿和电话本上获得的人员名单，而这种方式获得的样本，至少当时在体现真实民意方面是比例失调的。另一方面，为了缓解问题的严重性，Landon的支持者们乐意于将自己的答案寄回。这两个偏差因素结合在一起，使得《文学文摘》的民意测验泡汤。因为收集到的数据组是那么凌乱，《文学文摘》即使想要搞清楚数据中潜伏着的偏差因素也非常困难。此外，因为这些数据实在太庞大，一些数据分析师似乎认为取样问题根本不值得担心。

三、大数据思维的挑战

《大数据时代》的作者舍恩伯格教授认为，他所倾向的大数据组的定义是：N=All。大数据前提下无须取样，我们已拥有具备所有背景的人群。当N=All，就说明的确不存在取样偏差，因为样本中包含了所有人。但“N=All”是不是对大多数寻获数据的最佳描述？也许不是。“一个人能够拥有所有数据，我对此表示怀疑。”英国伦敦大学学院数据统计学教授、计算机科学家PatrickWolfe如此说。

Twitter就是一个例子。原则上，通过记录和分析Twitter上的每一条信息，并通过分析结果判断公众舆情是有可能的。事实上，大多数研究人员都在使用那些大数据中的一部分，但是当我们可以看到所有Twitter信息，使用者从整体来看并不具备全体民众的代表性。所以，《数字常识》一书的作者及数据分析师KaiserFung提醒，不能简单地认为我们已经将所有重要因素考虑在内了，“N=All，很多时候只是一个针对数据的假设，而不是事实”。那么，当面对一大堆杂乱无章的数据信息时，人们更应该理清头绪。

波士顿当地研发的一款智能手机APPStreetBump，通过手机的加速度传感器探测路面上的凹坑，而不需要城市工人通过街面巡查发现凹坑。随着波士顿市民纷纷下载该款APP并且开着车四处转悠，他们的手机自动提示市政厅是否需要对城市街道表面进行修复工作。这个过程通过技术解决难题，创造出了信息量庞大的“数据排放”，而这些数据正好以一种不可思议的方式解决问题。波士顿政府骄傲地宣称：“数据为这座城市提供了实时的信息监控，而这些信息又可以用来解决城市问题和规划城市的长期投资项目。”

实际上，StreetBump程序产生的是一张路面凹坑的城市分布图，这些图更多是系统地分布于富裕地区，因为这些地区有更多人拥有智能手机。可以说，StreetBump提供了一个“N=All”的情况，即每部手机探测到的每一个路面凹坑都能被记录下来。这和记录每一个路面凹坑的情况是不一样的。微软研究院的科学家KateCrawford指出，寻获数据中包含着的系统偏差，需要仔细思考才能发现和纠正。大数据组看起来具有全面综合性，但“N=All”常常造成相当有迷惑性的错觉。

目前，极少有案例对于大批量数据的分析最终带来奇迹。剑桥大学教授DavidSpiegelhalter谈到谷歌翻译软件，这是“机器学习能力”的一个典型例子。该软件是在分析数以亿计的已翻译作品中，寻找其中可以复制的翻译服务，其“学习能力”让谷歌翻译软件呈现让人难以置信的处理结果，而不需要预先编入任何语法规则。“这是一项了不起的成就。”Spiegelhalter说，因为这项成就是建立在对大数据的明智处理的基础之上的。在他看来，谷歌翻译就是接近于无理论支撑的，完全由数据驱动的数据运算黑盒子。

但是大数据无法解决那些纠缠了统计学家和科学家们几个世纪的问题：洞察力、情况判断，以及如何进行正确干预，从而改善系统。通过大数据得到这些问题的答案，还需要统计学发展的大步迈进。“现在我们仿佛又回到了西大荒时代，”伦敦大学教授PatrickWolfe说，“聪明上进的人会辗转反侧，会想尽方法利用每一种工具从这些数据中获取有利的价值，但是我们现在有点盲目冲动”。统计学家们正在竭力研究新的方法来抓住大数据中蕴藏的秘密。这样的新方法非常关键，但是需立足于过去古老的统计理论基础之上，这样新方法才能起作用。

大数据分析的局限

咨询师BarryDevlin介绍了一些人们因为统计数据分析不当而误解风险的案例，同时阐述了为什么业务决策不能完全由数据驱动。他提醒企业要清醒认识数据科学家的阴谋，同时接受普通业务人员的天真想法。

一、大数据分析

大数据分析的拥护者竭尽全力地鼓吹“数据驱动”，明智的人应该谨慎对待，并明确两个问题。第一，业务人员在制定特定决策时是否真正理解相关数据，是否曾经以实用且可行的方式向管理层展示了这些数据。第二，是否所有决策都有必要在收集“所有数据”之后自动完成。

在《认清风险：如何作出好决策》一书中，德国柏林MaxPlanck人类发展研究所管理主管GerdGigerenzer阐述了公共环境中风险测量与决策过程的问题，他的观点同样适用于商业领域。

首先，我们看看Gigerenzer举的一些例子。它们说明了大多数人所获得的统计数据只是很小一部分，而且我们很容易因为数据的不正确性或明显误用而产生错误结论。

在“9·11”事件的一年时间里，成千上万的美国人放弃乘坐飞机，转而选择开车长途远行，因为他们害怕遇到相同的袭击。高速公路行驶距离因此增长了5%，而道路交通意外死亡人数在一年里逐月上升，已经超过了过去五年的平均水平。此外，粗略计算有约1600人丧身交通意外，而航空旅客及空乘人员的伤亡人数只有256人，其中还包括“9·11”事件的伤亡数字。

由于对当时伤亡事件产生了主观反应，美国公众完全忽视了有效的统计风险测量结果，即飞机的安全系数要远远高于汽车。

二、错误的风险测量方法

1995年，英国医药安全委员会发布了一系列研究结果，服用第三代口服避孕药的人患血栓症的概率是普通人的两倍。这个研究结果很快传遍全世界。医生与药剂师向妇女传达了由预期结论得出的警告信息：意外怀孕与妊娠激增。接下来的一年时间里，仅仅在英格兰和威尔士流产案例就预计增加了13000人次。

Gigerenzer的书还有很多这样的故事，如果你有兴趣了解人们解读数字数据的方式及使用（或不使用）这些数字作为决策依据的方式，那么这本书很值得你阅读。事实是，即使经过科学训练，也只有极少数人能够正确理解这个领域。因此，我们缺少区分不同风险表达方式及不确定性的能力，也缺乏一些帮助理解所得到结果的培训。对于世界上的一些概念，我们很容易陷入偏见或先入为主的错误理解方式。

当我们从“少量数据”世界（掌握简单算术就足够应付）过渡到充斥大数据统计的世界时，数据误解产生的危害也出现指数增长。无论自助服务商业智能有多厉害，它们也无法轻松扩展变成自助服务商业分析。业务用户都需要在理解和展示统计数据方面加强自身的能力。

三、最大的决策动因：潜意识行为

除了技能问题，还有一个更根本的问题，而“9·11”事件关于航空旅行方式的态度改变就是一个最好的例子。BarryDevlin将这种现象称为商业不智能。按照西方商业思维方式，智慧几乎可以完全等同于合理和理智思想，特别是在决策过程中。这忽略了大脑的现实情况及其思维过程，其中有90%的想法是无意识发生的。决策很少是由数据驱动的，特别是那些会对个人产生影响或需要快速响应的决策。

心理学家及诺贝尔经济学奖得主DanielKahneman在他写的书《快思考与慢思考》中阐述了这个话题，但是他落入唯理性主义者的圈套，后者认为无意识思维源于有意识思维。这样就得出了一些结论：我们很容易做出一些严重错误且非常容易受外界干扰的决策，而且总是在有意识地保护自己。或者更坏的情况是，一些专制政府可能且总是会“迫使”我们做出一些有利于自身的决策。

当然，自我意识也很重要。然而，如果认为我们新进化的小小前额可以或应该完全超越大多数大脑的长期进化但潜意识发生的感知，那么这是极其短视的。这种感知对于现实世界的决策过程有很多影响——形式包括内在感受、直觉、有根据的揣测和探索，而它们会忽略得到的大部分数据。如果只关注于收集和堆砌不断增多的数据，那么我们就有迷失的风险。

在不确定的世界里，有一些事件是无法预测的，基于数据分析出来的概率只能让人得到一个决策。2008年金融领域发生的事件表明，过分依赖于预测风险模型是灾难性的，因为有一些东西不在模型参数的覆盖范围之内。Gigerenzer指出：“问题在于不正确的风险测量：这些方法错误地假定不确定的世界里有已知的风险。因为这些计算为一个不确定的风险产生了精确的数字，因此它们会产生一个虚假的确定性。”

六九小说网

六九小说网>大数据时代官网 > 第四章大数据面临的难题（第4页）