相信数据,并且开始分析数据

Word Cloud "Big Data"

在大数据出来之后,概念的东西被炒烂,而真正由于大数据获利的,仍然是那些实力强劲的数据掌管公司,例如百度、阿里巴巴、腾讯,甚至连新浪也通过第三方将微博数据公开使用创下大数据开发先河。那么为什么大数据被提出来一年多了,整个社会的1%不到的范围内都还没有完全的展开大数据使用呢?我想非常重要的原因是由于思维的束缚,人们不相信数据。

不相信数据主要有两个原因:

1. 数据不讲道理,未来的情况谁都说不准

所谓数据不讲道理,很好理解,数据就是数据,可能跟我们的预期不同,我们也很难用一些原因来解释它。我们获得的数据通过可视化后,是什么样就怎么样,即使我们花再多的精力去分析为什么会这样,甚至为了找出一个例外的特例绞尽脑汁,最终也是要用数据来进行预测判断。这实际上是一种因果关系和相关关系的矛盾,因果关系思维模式里面,人们习惯了凡事要寻根问底,遇到现象要究其本质,如果没有搞清楚来龙去脉就没有心思去做事,甚至一些非常偶然的现象,也要找出三到四条因素来解释。刨根问底适合学习知识和技能,而不适合在快速竞争和决策过程中,这样只会增加成本,浪费时间,最终被人抢占先机。但是这个时代还没有发展到完全放弃因果关系的程度,离开了因果,可以说这个世界根本无法运转,学术、科研、政治、经济、文化、民生,不把问题搞清楚的话有些人会疯掉。但是数据决策的时代很快就会来了,特别是商业中,面对激烈的竞争,决策者根本来不及分析原因,而是通过大数据找出一些发展趋势,从中找到解决办法。

但嘲讽的是,人们相信因果又害怕偶然,人们明明知道具备了一些必要条件事情就有成功的可能,但是又会惧怕一些突发状况使计划功亏一篑。是的,数据决策更加如此,因为通过数据分析得到的往往是一个大体的趋势,而非具体细节,大数据无法告诉你要加入多少,只能告诉你要加什么。对大数据预测结果的谨慎是有必要的,但那些反对者就会说”决策很重要,经不起尝试,不要相信大数据分析,要是出现了大数据中没有预测到的情况怎么办“。人们害怕自己做决策,实际上是希望大数据得到的结果赞成自己的决策,如果失败就归咎于数据系统。这是一种弱者的表现。

2. 对假数据的担心

我所遇到的最大的问题莫过于对假数据的担心,有好几个博士级别的朋友提出了这个担心。我想,这种担心最早的根源是来自微博的谣言。假数据一方面来自类似谣言的功利性数据,另一方面来自阴谋性数据。

人们担心一个研究或分析中假数据过多对决策造成伤害,甚至有的时候假数据左右了最终的决策。例如在某项社会学研究中,研究者获得的对某个事件的评价中,有很多评价来自水军,于是人们开始担心这些评价有可能超过了正常的评价,让最终的结果一边倒。但是我想说的是,当数据量足够大时,即使是水军,也无法左右总体的表现,或许会有细微的差别,但是我们可以通过机器学习等手段分析出哪些是来自水军的评价,从而削弱其负面影响,甚至我们还可以通过对水军进行分析来判别其竞争对手的实力和相关信息。

而另一部分人担心数据可能被某些强大的组织左右,例如政府、军队、受财团控制的媒体等等。这是一种非常典型的阴谋论,没有任何根据,没有任何凭证。但是几乎所有人都可能会问:假如真的发生了呢?而它的反面“假如没有发生呢?”的力量却如此小,人们偏向于问前面的问题,却从来没有人问后面的问题,阴谋论利用的正是这一点。实际上这些强势力量一直控制着整个社会,他们基本上都是在做一些利好的事情,试图调节市场平衡,促进社会和谐,从来没有哪一个组织在捣乱,也从来没有哪一个机构自己能把游戏玩的转,他们更多的是充当裁判或协调员。

所以,在我们的一些项目中大胆的相信数据,通过网站的流量数据大胆的修改界面板块的结构,通过用户的评价大胆的上架另类产品,通过用户的反馈大胆的裁掉原本以为很酷的功能,通过商品销售情况大胆的推送给所有用户。我们最怕的是很多人在项目中忽视数据,这是最可耻的,我相信也是无法成功的。

2014-07-22