获取更多信息请下载APP

专栏:大数据,还是大错误?

来源:    发布日期:2014-06-29 22:17:39   阅读量:0
  五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快得多。谷歌能算得这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
  
  谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停地在问,谷歌给我们带来了什么新的科技?
  
  在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。
  
  大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证:数据分析可以生成惊人准确的结果;每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;不再需要科学的或者统计的模型,“理论被终结了”。
  
  不幸的是,说得好听一些,上述信条都是极端乐观和过于简化了。如果说得难听一点,就像剑桥大学公共风险认知课的David Spiegelhalter教授评论的那样,这四条都是“彻头彻尾的胡说八道”。
  
  虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。
  
  Spiegelhalter教授曾说:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”
  
  在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经 可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发 现谷歌的预测结果比实际情况要夸大了几乎一倍。
  
  问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。
  
  这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。
  
  统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。
  
  毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值,也确实已经出现了一些大数据分析的成功实例。然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。
  
  伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。
  
  (原载于英国《金融时报》网站,本文有删节)