第五章生活无处不数据，大数据真的能算命？

大数据不是未来的某个概念，而是一步步出现在人们生活的每一个角落中，它已经对人们的生活开始产生重大的影响。敏感的企业、政府正在着手为统计、分析海量的数据，认识数据产生的统计分析结果而转变自己的工作方式方法。

未来的先兆——大数据

凡事发生前都会有先兆。现实生活当中，许多事情由于无法实时记录，看上去就好像是“人似秋鸿有来信，事如春梦了无痕”那样。互联网在实时记录方面则是“处处痕迹处处痕”。如果上网买东西，一定会先浏览、对比，再询价，如果上网搞活动的话，一定要经过征集、讨论和策划的整个过程。互联网通过服务器实现了“请求”+“响应”机制，人们大量带有先兆性质的行为数据被保留了下来。搜集完这些数据要进一步进行分析，而这些大量数据后面隐藏着的因果关系也就会被计算出来了。因此这当中的规律或被神秘化，或被庸俗化。

一切事情一定是在蛛丝马迹的先兆出现后才会发生。试想人们买一只股票之前一定会先关注一下它的走势；人们要买一样东西，也一定要先去询问一下商品的价格；人们很难会没有事先沟通而聚在一起；倾盆大雨下下来之前一定是非常闷热的天。很多书籍和文章更是大肆渲染地震前的各种奇怪的先兆。

倘若这些先兆都能被一种技术全部记录下来的话，那么显然人们都可以成为预言家。这种技术其实就是大数据技术，它们能够收集各种类型的数据，并基于数据进行分析统计，还能预测未来。和一般的信息技术相比，大数据影响的范围更广，程度更深。

IBM公司曾有一则广告，它说道：“曾经我觉得追捕罪犯是我的工作，可是现在我重新认识了我的工作。通过分析犯罪数据来识别犯罪的模式，并由此来部署警力。这样一来美国大部分城市的重大犯罪率可以降低30%。案发之前，终结犯罪。”显然它是在利用大数据的宣传企图构筑智慧的地球。

在阿里巴巴平台的网站数据中发现，很多买家在购买商品之前会在众多供应商中货比三家，特别是查询点击的数量和购买的指数两者之间会总结出一个相对的比例，例如“2008年初，阿里巴巴网站上买家的询问量锐减，欧美的中国采购数量也随之下滑。我们比海关提前半年就已经从买家询问的数据中推算出来了世界贸易的变化，海关则必须卖了货才能得到数据。”历史上买家、卖家询问和成交的数据，统计后就能形成询问、成交的指数，两者之间有着密切的相关。作为先兆性的数据询问指数，有了活跃的询问指数才会出现巨大的成交量。马云开始发现询问指数有了异常的下滑之后，就自然而然地能预测成交量一定会萎缩。要是没有大数据的统计和分析的话，这种推测是很难做出的。马云因为向中小制造商提前预告了这一趋势而获得了非常高的声誉。

2012年6月28日，中国建设银行推出了自己的电子商务金融平台——“善融商务”。建设银行对此项业务的宣传语是：“顺应电子商务发展潮流，建设银行推出善融商务，它结合了传统金融服务优势和新兴电子商务服务的优势，从而搭建了最具综合性，涵盖全流程的电子商务服务平台。”建行内部花了很大的气力推广这项业务，尤其是分行，它们甚至是牺牲成本也要将中小商家引入平台。尽管银行推出电子商务平台，看似并非其主业，但实际上这当中正是醉翁之意不在酒。银行通过交易平台来收集各类中小商家的经营数据，推测其还款能力和贷款需求，这样就能避免小额贷款的风险。无论建行这一次是否能成功，都说明银行的高层已经意识到大数据的重要性以及其作为先兆对于结果的预测。建行已经认识到了大数据的统计分析可以为其带来低风险和高收益，这几乎是每一家金融机构的梦想。俗话说：富贵险中求，以往必须是高风险才会带来高收益。但是当大数据的时代来临，低风险也能带来高收益，这也难怪有那么多金融机构趋之若鹜了。金融机构如果还不重视大数据背后的巨大价值的话，那么在21世纪的今天就很难在激烈的竞争中有自己的一片立足之地。

截止到2011年，互联网全球用户量已经超过了20亿。2005年RFID标签保有量仅为13亿个，这一数字到 2010年就已经增加到了300亿个。从2003年到2006年，资本市场的数据增长了17.5倍。新浪微博现在每天发布的微博数量已经超过了1亿条，Facebook每天处理的数据大概为10TB，世界气象中心所积累的Web数据约为220TB，还有其他类型的数据也有8PB，等等。

国际数据公司（IDC）的《数据宇宙》报告指出，2008年全世界的数据量只有0.5ZB，到了2010年就增长到 1.2ZB，从此人类走进了ZB时代。更可怕的是，从现在开始到2020年，全球数据量的年增长量都将保持在40%左右，也就是说大概每两年数据量就会翻一番。IT界此前有一个摩尔定律众人皆知，这个“大数据爆炸定律”与之极为相似。预计到了2015年全球的数据量总数要达到7.92ZB，2020年会超过35ZB，那时候的总量会是2008年的70倍，2011年的29倍。

互联网数据中心发布的《中国互联网市场洞见：互联网大数据技术创新研究2012》报告指出，到2011年底，中国国内的互联网行业已经持有1.9EB的数据总量，而这一数据到2015年将达到8.29EB以上。

人类社会的数据量随时间流逝不断地在刷新数据量级单位，从最初的TB、PB、一直到现在的EB、ZB。那么35ZB和8.29EB到底意味着什么呢？这样，先来看看数量量级单位之间的进制吧。

1B=8 bit

1KB=1024B≈1 000 byte

1MB=1024 KB≈1 000 000 byte

1GB=1024 MB≈1 000 000 000 byte

1TB=1024 GB≈1 000 000 000 000 byte

1PB=1024 TB≈1 000 000 000 000 000 byte

1EB=1024 PB≈1 000 000 000 000 000 000 byte

1ZB=1024 EB≈1 000 000 000 000 000 000 000 byte

1YB=1024 ZB≈1 000 000 000 000 000 000 000 000 byte

《红楼梦》整本书含标点的话共有87万字，依照数据计算方式的话，一个汉字等于是2B，这样的话，1EB就大概是 6626亿部《红楼梦》的数据量。美国国会图书馆是全球最重要的一个图书馆，也是美国四个官方图书馆之一。一直到2011年4月，该图书馆共有1.5亿册藏书量，大致数据量为235TB，那也就是说1EB相当于4462个美国国会图书馆的所有馆藏数据量。

大数据带来的经营理念的转变

一部关于奥克兰运动家棒球队的电影《点球成金》中就有球队通过统计学和数学建模的方式来获得比赛胜利的桥段。其中有一个非常有意思的场景。几个灰白头发的老球探坐在一起开始对球员进行评头论足。观众看到这里难免会有畏缩，因为人类在做决定的时候，往往非常草率。

其中一个球探说道：“这个很有天赋，不错，而且外在也不错。”

“他击打动作也很好，只要碰到球就会弹出去很远。”一个满头白发，还戴着助听器的老人附和着说。

还有另一个球探也说：“击打声音很大。”

“不过他女朋友不够漂亮。”一位球探打断了他们的谈话。

会议负责人听了后说：“这是什么意思呢？”

这个人听完肯定地说道：“女朋友不漂亮就说明缺乏自信啊！”

负责人似乎很满意这个答案，说道：“很好！”随后会议继续。

玩笑了一会儿之后，之前始终沉默的一个球探说：“这人的气场很强大。我要说的意思是我在他上场之前就已经感受到了他的气场了。”

“他的长相也不错，通过了长相测试。他需要的只是时间，因为他随时都能成为一名好的球员。”还有一个人附和着说道。

那个经常都有不同意见的人一直在说：“我的意思是他女朋友的长相实在一般。”

这场景中的所有判断都说明了人类判断的误区，事实上，这个推断完全是在毫无实际标准的情况下做出的，尽管它披上了理智讨论的外衣。一个拥有几百万美元身价的球员，决定是否签约似乎也没有客观的依据，而是依靠感觉。这个场景虽然只是电影中的场景，不过日常生活中也非常常见。之所以说此场景有趣，正是由于其具体现实中普遍存在的特点，无论是曼哈顿的会议室，美国总统办公室，或是街角咖啡馆，各种凭感觉推断的情形皆存在。

电影《点球成金》中的故事来源于迈克尔·刘易斯的小说《魔球——逆境中制胜的智慧》。小说讲述的是一个关于奥克兰运动家棒球队（还有人称之为绿帽队或是白象队）真实的故事，主要介绍了棒球队的经理比利·比恩（Billy Beane）的经营哲学，他在经营球队的过程中摒弃了以往挑选球员的传统方法，换用了一种依靠数学建模和电脑程序的数据来挑选球员的做法。他的这个方法看似很奇怪，有些类似于“上垒率”的标准，而不是以往所用的“棒球击球率”的惯用标准。这方法虽然挖掘了这个项目的一个方面，却忽略了另一个始终存在的方面。球员的上垒其实并非最重要的，不论是地滚球还是三垒跑，无非只要是上垒即可。因此，当比赛非常精彩，可是数据表明透垒不是太管用的时候，比利也不会太关心这项中看不中用的技能的。

比利所推行的“赛伯计量学”（Sabermetrics）尽管招来了众多的质疑，但还是在奥克兰运动家棒球队中被严格执行着，它的命名是来自在美国高级棒球研究协会（Society for Advanced Baseball Research）工作时的体育新闻记者比尔·詹姆斯（Bill James）。一直到现在，在美国高级棒球研究协会当中始终存在着非常奇妙的亚文化中心。比利和当年用“太阳中心说”来挑战天主教权威的伽利略一样，打破了所有惯例。最后，比利的奥克兰运动家棒球队在2002年的美国联盟西部赛中摘得桂冠，此外还取得了20场不败的骄人战绩。也就是从那时起，球探不再吃香，取而代之的是统计学家，他们成为了成了棒球专家，不少球队都将“赛伯计量学”用于球队的运作。

大数据所做出的贡献还包括了从依赖自身判断转化为依赖数据做判断。统计学家和数据分析家的出现使得很多行业专家和技术专家的光芒黯淡了许多，前者摆脱了传统观念的束缚，依靠数据进行统计分析得出判断。在数据相互关系基础上，判断是不会受到偏见和成见的影响的，这和莫里中校从来不认为在酒吧中喝酒的干瘦船长所说的航道信息为真是一样的道理。他们的判断来自收集的所有数据背后隐藏着的信息，也就是说一切分析都有根有据。而莫里的方法当中对于风向和水流为什么如此并没有具体解释，可是一次安全的航海旅程，似乎“去哪里”和“是什么”远比“为什么”重要得多。

现在，各种专家在自己领域的影响力逐渐削弱，这是我们每个人都能看得到的。媒体界，如“赫芬顿邮报” （Huffington Post）和高客网（Gawker）网站上的新闻已经同编辑的新闻敏感度不再有关，而是来自数据的结果。相比资深的记者，数据选出来的新闻似乎更合大众口味。一家名为Coursera的网络教育公司，对其收集来的数据进行深度分析，如哪个讲座的片段是学生重放最多的，他们会找出其中的原因，或讲得不够明确或是不够吸引人，再将最终的结果反馈给课程设计团队。这在以前是难以想象的，而现在教学方法也因此必须发生改变。如前文提到的，贝索斯在发现销量增加由算法来推动的时候，就已经放弃了公司的书籍评论员了。

这说明要在职业领域取得成功，必须做到与时俱进，只有做到这一点的员工才是公司最想要的员工。安大略的麦格雷戈医生所采用的治疗方法来自近十年以来病患数据进行电脑分析处理之后所推荐的，尽管她不是医院医术最为高明的医生，更不是产前护理的世界权威，但总能通过该方法为早产儿提供最好的护理和治疗。事实上，她是一名计算机科学专业毕业的博士。

事实上，最初在大数据上尝到甜头的人似乎都不来自他们做出巨大贡献的领域，他们可能是数据分析家、数学家、统计学家、人工智能学家等等，可是这项技能却在他们的推广之下运用到了各个领域当中。Kaggle的首席执行官安东尼·戈德布鲁姆（Anthony Goldbloom）曾提到，通常来说，在大数据竞争平台上获得成功的人和自己做出成绩的领域总是不相关的。

曾有英国的物理学家差一点就通过设计一个算法系统用于预测保险索赔和二手车质量问题之间的关系而获得成功，还有一个来自新加坡的精算师，也通过预测人体对化合物的生理反应项目大获成功，在谷歌的机器翻译团队中，很多工程师翻译出来的语言甚至他们自己也不懂。除此以外，还有来自微软翻译部门的统计学家，他们经常谈论的居然是只要有语言学家离开他们的团队，他们所得到的翻译质量就会提升一点。

因此行业专家的主导地位会逐渐被动摇，只不过他们不会完全消亡。未来同他们平起平坐的是那些大数据人才，这就好比是清高的因果关系和卑微的相互关系两者终于站在了同一高度一般。关于知识的价值要重新审视，尽管从前专业人才似乎要比全才更受重视，大众普遍认为财富来源于深度。可是这或许是小数据时代的产物，专业技能就代表着精确性，那时候人们还无法掌握和获得足够多的数据，也不够准确，所以直觉和经验都是判断的依据。那是个经验先决的时代，唯有从书本和别人口中，以及在潜意识中的知识积累才是做出明智决定的最终依据。

当海量数据开始冲击人们的时候，人们就可以从数据当中挖掘出更多的信息。大多数数据学家都将以往的方式视为迷信，这并非他们不屑，而是他们手中掌握了从前不具备的财富来源——大数据。作为一个外行人，行业内本身存在的争论无法将他们束缚，他们同行业专家不同的是他们绝不会因为自己支持的那一方观点而导致偏见。这样的结果也证明了衡量员工对公司所做的贡献多寡的标准也在发生着改变。这也意味着每个在职场上的人，要学什么，了解什么，甚至是为职场要做什么准备等等都有了改变。

现代工厂创建的基石是数学和统计学知识，有时候甚至仅有少许的编程和网络科学知识，这和百年之前的计算能力或是更早以前的文学很像。各种和思维类似的同行交际不再是人类价值的体现，更多的则体现在了同各类不同人的交际层面上，只有这样知识的传播才会更为深刻和广泛。从前成为优秀的生物学家先要结识众多生物学家的标准没有改变，只不过现在除了要具备深度的专业技能外，还要有大数据的广度。一个生物难题要解决，可能只要和天体物理学家或是数据试图设计师联系就不成问题了。

大数据的人才在电子游戏领域似乎最早同行业专家平起平坐，他们联手要改变这个行业。这个行业每年的净收入已经超过了 100亿美元，这甚至已经超过了好莱坞的票房收入。过去游戏公司设计出一款游戏，就指望通过它来赚取高额利润。当然公司主要考虑的还是它的销售情况，或者以此推出升级版或是在此基础上推出新游戏。设计师个人的能力催生了游戏的人物、情节、物品和事件的设定，他们仿佛是在用米开朗琪罗画西斯廷教堂的画一样认真地对待自己的工作。只不过这项工作绝非艺术，而是一门科学，所以艺术家所倚靠的直觉和情感用在这个工作上是不合适的，就如同《点球成金》里的那些球探一样，他们真的已经过时了。

类似zynga推出的FarmViile，FrontierViile，FishVille以及其他一部分游戏都是交互式的。Zynga表面上是从这些游戏当中获取各类用户数据，还基于这些数据修改游戏，事实上游戏的版本非常多。公司从游戏当中收集各种数据，只要有玩家通关出现困难或是某一个关卡不对劲不愿意继续的话，数据就会为zynga发现这些问题提供依据，他们随即可以进行修改。隐藏得更深的是zynga还会针对不同用户的特点设计不同版本的游戏，类似FarmVille的版本就有几百个。

公司的分析家们观察玩家是否发现有自己的朋友使用这些产品的方式是通过颜色，他们还可以了解虚拟产品的销量是否真正增加了。例如FishVille的玩家购买透明鱼的数量已经远超过其他产品6倍的时候，公司就会利用大量出售透明鱼以获得更多的利润。在Mafia Wars中，根据数据统计显示，玩家更为青睐带金边的武器和纯白的宠物老虎。这些信息都来自数据的统计，而非一个设计师在工作室当中所能发现的。 zynga的首席分析师肯·鲁丁曾经提到：“表面上看我们是一家游戏公司，但实际上我们做的却是分析公司的事情，因为公司所有的运作都基于数据而进行。”

显然这是一个具有非凡意义的转变，从前人们习惯用经验、回忆和猜测来做决定，正如W.H.奥登（Wystan Hugh Auden）在自己的诗中提到的：“知识已经退化成了混乱的主观臆想，那营养不足是来自太阳神经丛的感情。”马萨诸塞州的巴布森学院商科教授托马斯·达文波特（Thomas Davenport）曾写过多部数据分析著作，他将其称为“黄金般的直觉”。执行官们做决定的时候所依赖的是自己的直觉。可是随着预测性分析和大数据分析越来越影响管理决策后，直觉所起的决定性作用就会彻底转变。公司无论是考虑出品电影还是签下哪个艺人，整个过程都会有本质的改变。麻省理工学院商学院的教授埃里克·布伦乔尔森（Erik Brynjolfsson）曾与自己的同事们进行了一项专题研究，研究结果表明依赖数据进行决策的公司比传统依赖直觉进行决策的公司运营情况要好得多，生产率可以提高将近6%左右。从竞争力来看，随着越来越多的公司开始引进大数据，依赖大数据的公司竞争力会显著增强。

大数据的舆情服务

社交网络中人们的言行不但使尼尔森等市场调查公司感兴趣，政府机构也同样对此有强烈的兴趣。古往今来，治理国家很重要的一点就是要关注社会舆论，这是政府了解治理效果的一个重要渠道，更是发现人心向背的关键。所以不论是什么样的政府都对公共舆论十分关心。这一点也催生了另一种新型服务——“舆情”，即分析公共话题的热点、趋势以及对此的对策等等。

现代社会，人们闲聊、传话的重要媒介就是微博。从前人们的习惯是在街头巷尾与人闲聊，如今的人们通过微博来发表自己的行为，有时候打个喷嚏全世界的人都会知道。例如“微博女王”姚晨，她的微博粉丝有3000多万，有时候简单的一句“早上好”转发量就会高达2066次，还会有3739条的评论。这不过是即时的一个数据，在书籍出版之后，这个数字还会不断增加。

微博成为舆论场源自其巨大的传播和扩散效应。中国人民大学舆论研究所的一项研究表明，2011年舆情最大的信息来源就是微博，已经达到了20%以上。从此各级政府就以微博作为自己关注舆论走向的主要阵地。

同样应运而生的还有舆情服务。目前很多公司在提供舆情服务，譬如上市公司中的拓而思，人民网等等。通常来说省政府购买了舆情服务后，市政府也会跟着买，这是由于市长想在省长之前获得舆情信息。同理，县政府，包括大一点的镇政府都会紧接着来购买舆情服务。一般公司提供的舆情服务都相对简单，通常是定期为政府提供网上的舆论热点分析，很简单的一份材料而已。

如果只是基本的报告，显然无法在舆情服务产业的升级过程中赢得胜利。在复杂严峻的舆情形势面前，企业和政府所需的还有舆情监测、舆情预警、舆情分析报告、应对处置、顾问咨询、舆情培训等多重服务。最高级的舆情服务应当是从现有的大众言论中挖掘接下来可能出现的舆论热点，提前介入其中，做到以恰当的方式来引导舆论，这才是防患于未然。“事后诸葛亮”无论如何都比不上干脆让某件舆情事情不发生，这就是上医治未病的道理。

舆情服务的最高级别必须依靠大数据分析等相关技术，少了大数据的支持一切就都实现不了。中小舆情公司之所以难以升级成功，最大的技术难度就在于此。高级舆情报告在于即时性、全面性和前瞻性。缺少数据中心、缺少采集、分析大数据的技术以及成熟的舆情分析团队的话，要达成如此高质量的舆情反应几乎是不可能的。

舆情若是从“信息聚合”角度作为一个产业的话，当中定有无限巨大的空间。消费者对产品、公司、品牌的意见和反馈都包括在舆论当中，即便出现了负面的舆论也会成为公司改变公众形象的重要机会。所以说公司潜在客户或者潜在广告受众，他们的舆论可以是正面的，也可以是负面的。就此而言，譬如尼尔森等市场调查公司、拓而思这样的舆情服务公司，未来的发展空间是巨大的。实际上，舆情服务不仅限于技术活，更是一个跨多个学科的综合服务工种。它依赖大数据统计和分析，同时如果想在这个领域有所作为的话，还需要社会学家、心理学家、传播学家、数据科学家的共同服务。

大数据预测你的下一步行动

法庭上总是要求个人对自身行为负责。审判员在经过审理之后才会做出最公正公平的判决。可是到了大数据时代，为了维护个人动因想法，公正的概念要重新定义了——人们自由选择自我行为。简而言之，个人要对自己的行为而非倾向负责，这是应当做到的。

这自由权利在大数据之前是显而易见的，而这确实明确到不需说明。事实上法律体系当中总是通过人们过去的行为来判断其是否该为此行为负责，这是其运作的规则。只不过在大数据时代人们的行为就可以预测了，并且预测的结果是非常准确的。这使得我们对人们的评定不再依赖实际行为而是预测的行为。

确保了个人动因，政府对个人行为判定的基础是来自真实行为而非只依赖大数据的分析这点我们就可以确认了。因此政府追求的不能是依赖大数据分析而预测到的未来行为，而只能是过去的真实行为。再或者，政府对过去行为的追究过程中也不能只单纯地借助于大数据分析。比如借助大数据分析可以对两家涉嫌价格操纵的公司进行大致判定，随后监管机构再使用传统的方式对此立案侦查。显然，大数据的作用在于可以预测其是否可能犯罪，而不能对其是否有罪进行判定。

政府领域之外也适用相似的原理，例如关乎个人利益的公司重大决策——雇用和解雇，再有就是按揭和信用卡的是否准发。假如要单纯依赖大数据做出决策的话，前提必须是有非常到位的特定防护措施。

第一原则是公开原则。由于结果会直接影响个人，所以用来预测分析的数据和算法系统必须公开。

第二原则是公正原则。算法系统必须是经由第三方专家公证过的可靠、有效的系统。

第三原则是可反驳原则。个人对预测进行反驳的具体方式也要明确（这一点和科学研究当中必须披露所有可能影响最终结果的传统很相似）。

确保个人动因防范“数据独裁”带来的危害是最为重要的，而这危害正来源于数据被我们赋予了原本没有的意义和价值。

同样重要的还有保护个人责任。正因为这一点的吸引人，无论社会做出哪一种和他人有关的决策，决策者们都不需要再承担责任和风险。反之，风险管理成了管理的重点，实际上就是对可能性所进行的风险评估。所有看起来客观的数据，可以帮助去除决策中的情绪化和特殊化的部分，评价者主管的评价被数据运算法则代替，而决策的严肃性也无须通过追究责任的方式来显示，更准确地应该称作“客观”的风险和风险规避，这主意怎么听都感觉不错。

例如，那些被预测可能犯罪的人因为数据分析的结果被隔离，不断审查他们只为规避风险，可是事实上他们所受的惩罚来自并不需要他们承担的责任。设想一下，一个青少年被“预测警务”的运算法则预算出将来五年他可能会犯下重罪，于是政府部门就开始对其例行监视，每月都会有一名社会工作者去拜访他一次，目的是为其解决问题。假设少年身边的亲属、朋友、老师和雇主认为这种做法很是耻辱（这种情况发生的可能性很大），那么很显然这拜访就成了一种惩罚，是对尚未发生的事情的惩罚。不过要是不将其视为惩罚，而是认定为一种对未来风险的规避的话，也就是说把风险降至最低点的做法（这里所说的最小风险是破坏公共安全的最小风险），也未必见得就是一件好事。社会用干涉、降低风险的方式来代替自我行为负责的方式会导致个人责任意识的贬值。保姆式的国家才会主张预测。实际上，对个人行为所承担责任的否定就是对个人自由选择行为权力的摧毁。

国家所做出的决策如果均来源于企图通过预测来规避风险的愿望，那么个人的选择就不存在了，自主行为的权利就更不用提了。无罪，无清白，这样一来不会带来世界的进步，而是倒退。

数据也会骗人，从人的动作推导数据

美国电影《致命魔术》在片头就向观众提出了这样一个问题：“你真的看见了吗？”不少人认为自己眼见为实，可惜并非真正的观察，事实上他们没有看到真相。

“观察”究竟是什么？从事物内部寻找其相对性就是观察，简单说就是在共通性中寻找相对性。因此，一个人所说的话是真是假，如果要判断一定要基于以下两种情况：一是看，看看这个和自己说话的人是不是第一次见；二是看看日常生活中这个人是不是已经见过多次面。这些对于判断一个人说真话还是说假话有着独特的意义。熟悉的人要判断是否说谎，和判断一个素昧平生的人是否说谎相比要简单很多。问题在于后者无经验可借鉴，短时间的观察确实很难从中提取相对性。

说到这里，有两个词语不得不先了解一下：常态和时态。先理解“情态”再来说常态吧。所谓情态，藏在体内是谓“情”，展现在外的是谓“态”。《礼记·礼运篇》就曾提到人有七情，即喜、怒、哀、惧、爱、恶、欲，这些都是人内心的情态。体内有了这七种情态交织在一起，当人们的边缘系统被激发了之后，时态就会衍生出来。那些因为赌赢而欣喜若狂的人，正是边缘系统出了问题。一旦冷静下来他就会后悔刚才的表现：“太失态了，太丢人了。”

一个人的时态是最容易在观察一个人的时候发现的。一个人时态的差异，要从了解这个人的常态开始。什么是常态呢？通常有以下六种：弱、狂、哗、周旋、慵懒、媚。弱态是指那些动作温柔、说话轻声细语，有很强包容性，如小鸟依人一样的常态。狂态则是坚强好胜，不修边幅，言谈举止都如若无人在场。身边朋友一对比就会发现他有什么样的常态。问一个具有狂态的人的意见时，他总认为自己是对的，也愿意把自己的观点表达出来。弱态的人则不会这么做，意见是模棱两可的。哗态的人则大多在遇事时大手一挥，说道：“我来说，你们都别说。”周旋态的人在选择面前总有太多的纠结。慵懒态的人表现常常是非常漫不经心，不在乎一切。媚态则常常出现谄媚的行为。

日常生活中，人们会表现出不止一种单纯的态，会有多种态混合在一起。可是不管如何，凡弱且媚的人一定要远离，凡狂且媚的人，通常都比较了不起，这是一条交友法则。

一个人的常态是日常判断他的基本依据。如果要向一个慵懒态是常态的人汇报工作，发现这人突然一反常态地正襟危坐的话，那必然是非常重视这件事情。

判断是不是谎言，常态和时态必须区分。一个人的常态该如何了解呢？观察是最有效的方式。上文提到过判定熟悉的人是否说谎难度比较小，正因为了解对方的常态，而不了解常态的陌生人要做相应的判断难度要大很多。

日常生活当中还会听到变态这个词，事实上，这就是常态向时态转化而出现的异常举动或是不理智的行为。要是对常态和时态都非常熟悉的话，那么要观察一个人变态的起点和变化点就不算太难。

除此以外另外一点也是观察的重点。一个人的常态在变化的时候，是什么环境或是事件促使他变化的，这是必须思考的。譬如一个被警察抓到警察局的人，他必然会焦躁不安，且十分恐惧，动作也会变得粗鲁，但这不说明他必然是恶人，因为在判断时还要考虑环境因素。若是发生了一起爆炸案，那么究竟有没有什么异常的人在爆炸发生前后出现在现场呢？案发前是不是有异常逗留在现场的人呢？案发之后，如果有人受伤，很多人都凑过来救助，当中有两个行色匆匆，且表情淡定的人经过，那这两个异常的人就有很大的嫌疑了，无疑他们就是常态中的变态。

从人推“数”，观察数据时有以下几个问题不容忽视：常态的数据和时态的数据是什么？什么是骗人的数据？直观感受和细心观察后常常会得到大相径庭的结论。

依照通常的理解，一个人在注册某一网站填写性别的时候，不是男性就是女性。可是在阿里巴巴，谁曾想到性别标签居然有18个。

经过仔细的调查，用户性别的识别方法就浮出水面了。例如一般习惯在早上浏览的就偏男性一些，晚上浏览的则偏女性一些（很可能是妻子在使用）。真实中的性别仅有1和0之间的关系，现实却存在0-1的关系，70%的是男性，而30%的是女性。不同的场景性别会因为不同的原因而发生变化，例如搜索、社交和广告都会带来变化。“真实”性别在静态时，通过A/B测试的表现和动态虚拟性别相比有效性更差，这也正好说明了数据必须是运动变化的，绝不能仅是闭门造车，阿里巴巴类似这样的案例实在太多了。

说到数据化运营，通常在公司内部流程是这样的，比如一个童装项目需要通过营销推广来招揽新客户。第一步要做的就是定位客户群，努力找出所有对此项目感兴趣的消费者标签，向他们发送邮件或是短信引起他们的注意。而这一流程便是数据化运营，企业利用这方式来解决问题。最为简单的解决方式就是找出所有曾经对此感兴趣却没有产生消费行为的客户群，再比如用关联类目来扩大自己的目标客户群。

“用”升级为“养”，这就是运营数据，阿里巴巴用这种方式在淘宝用户中寻找。举12岁以下儿童商品为例，淘宝会在自己所有的用户中搜索家中有12岁以下孩子的消费者，他们的重要特征是从未有过此类目商品的购物行为。这样一来，从前只在有过购买行为的用户中运营，如今一下子用户就会扩展几十倍，从几百万到几千万，运营数据的结果就是这样，它从主动收集手机数据开始，到运营数据，最后的结果是产生新的数据。

大家广泛理解的数据运营本身就是个不断的循环。循环的过程当中，总会产生不少新的、不同维度的数据，而在这个循环当中，数据也在不断地适应，这才能运用到数据化的运营当中，将从前的运营方式彻底改变。大数据落地的方式或许正是如此。

假定数据是稳定的，这是数据化运营的前提，这也可以用来改变企业的运营模式。从前唱主角的是结构化的数据，例如绝大多数的企业总是在企业运营中使用财务数据，多年沉积下来的财务数据相对而言比较稳定。可是在数据化运营下，由于非结构性数据和半结构性数据的产生，难度就增大了，例如音频就是典型的非结构性数据，而且它也很难转化为结构化数据，这样的数据产生之后，企业运营若是依赖数据的话，其中的技术难度可以想象。

稳定的数据是进行数据化运营的基本前提，相比之下，运营数据则需要可获取的数据，它们必须是不稳定的。

这话该怎么解释呢？比如说关键词ROI，尽管这是一个听起来很稳定的数据，但是其反映的却是短线利益。商业是数据化运营要紧紧依存的对象，数据和商业混合在一起，再用假设稳定的方式进行业务对比和细分，还有趋势估计。

这不代表稳定就全是对的，毕竟在企业对数据的运营分析中很多稳定因素都需要假定存在。

网络数据背后的价值

很多具体领域中，企业要了解它们的顾客的途径是网络数据。驾驭不来大数据的企业是无法洞察他们顾客的特点的。接下来就来好好明确一下能通过网络数据来洞察的领域。

先来说说购物行为。顾客为何会进入这个网站并开始购物行为，这是理解顾客购物行为的最佳起点。顾客使用的是哪种搜索引擎，搜索时输入的是什么关键词呢？他们之前收藏的书签又有哪些呢？这全部的信息是分析专家寻求模式的依据，譬如产品的销售量同哪些关键词，哪些搜索引擎，还有哪些推荐网站彼此关联。分析专家更为重视的不但是要查看哪些产品在给定的网页中拥有高销售额，更要看看哪个时期同一顾客的购买行为更多。网站的销售和顾客的购买行为两者跨渠道地结合就是最终的价值。

顾客登录网站先要做的就是浏览所有看得到的商品。专家在处理数据的时候要做的是甄别顾客是在看了哪些商品的登录界面后离开的，而还有哪些顾客会继续浏览，哪些人又继续看了附加图片，阅读了产品评价，浏览了产品的详细说明，看了运输信息，又利用了网站上的其他可用信息等等也要了解。就比如，要鉴别一下进行比较的是哪些产品，最后鉴别出来的商品又是如何被移入购物车，或者是被从购物车中移出。

网络数据是无可替代的，顾客接下来会购买什么，又是如何进行决策的，它都可以告诉人们。了解了这些显然可以帮助企业促使顾客完成尚未完成的交易。顾客由此几乎会认定自己在购买商品的时候，企业已经了解了他们的想法。

网络数据还有一个非常有趣的功能，顾客在购买行为之前会因为它发现自己感兴趣的商品被捆绑在一起。在购买行为完成以后再为其推销商品的做法已经过时了。而现在的做法是在第一时间就让顾客浏览到自己所要查看的商品，还将其感兴趣的商品捆绑起来。

就例如有一个正在浏览电脑、备份硬盘、打印机和显示器的顾客，看起来他是想要升级自己的PC系统。很显然，商家就要为其提供一整套顾客浏览过的部件套装。不能在顾客已经决定了购买电脑后再提供这些信息。购买之前，为顾客提供的定制捆绑优惠策略远胜于那些在购买行为之后推荐通用配件的做法。

再来说说顾客的购买习惯和途径。网络数据可以收集、分析和查看顾客在网站上的浏览历史，也就能把顾客购买决定之前的过程都弄清楚，从中还能发现顾客的购买偏好。以航空公司为例子吧。顾客预订的机票可以帮助航空公司来了解顾客的偏好，其中包括顾客会提前多久预订机票，预订的是哪些舱位，是不是跨过周末的航班。所有的信息对于航空公司都是十分有用的，网络数据能让他们获得更多的信息。

航空公司从中能发现看重便利性的顾客是哪些，通常这些顾客的做法是找到特定时间的直飞航班。除非是价格悬殊，但便利性的获得却只有一点点的时候，他们才可能放弃便捷的直飞航班。一个在纽约JFK机场转机的乘客，如果选择直飞LaGuardia机场会节约700美元，而这期间他需要耗费30分钟在JFK机场，额外的出租车费用仅仅是20美元。如此情形下，重视便利性的顾客会选择在JFK机场转机承受一切麻烦，只为了省下 700美元。假使差价仅仅是200美元，且放弃的话到达目的地的时间要晚2个小时左右，那么同样的顾客他所做的选择就会是最便捷的直飞。

哪些乘客价格至上航空公司也可以分辨出来，他们的习惯是从中搜索出价格最优的航班。只有一种情况会让他们违背价格优先考虑的原则，那便是可以用牺牲适度的价格来提高便利性。譬如，一个顾客选择上午10点出发，航班的价格是220美元，6点的航班价格是200美元，如果要让他牺牲四个小时的睡眠来省下20美元的话，显然他还是会放弃价格至上的原则，愿意付出20美元的溢价。

航空公司基于搜索模式就可以了解顾客的购买习惯是偏向价格还是偏向特定的目的地。一切在于顾客是否对所有特价机票都有所了解的情况下才选择了其中的一张，还是只是看到了某一特定目的地的机票就立刻购买呢？一个大学生，对他来说春季假期旅行的目的地，很多地方的意义都是相同的，那他一定会先选择最为优惠的那个。可是对于定期回家的顾客来说，目的地才是他最为感兴趣的因素。

企业如果能了解顾客最经常在网站上浏览哪些目的地的周末特价机票的话，那要推测出顾客的购买偏好并非难事。很多顾客随时都有回家的时间，那么他们就会很是关注飞往特定城市的特价机票。只要有特价机票的话他们就会立刻预订。航空公司通过识别这个模式，就可以很好地预先了解顾客的需求。

所有上面提到的这些例子，其实都是在考虑怎么把现在浏览和研究的模式，与以往的历史经验和购买记录彼此结合，带来更多的惊喜价值。只不过如此模式的分析流程要改变的话需要耗费大量的时间和努力。只是网站吸引不同顾客的方方面面被知晓后，就可以很容易地向已经被定位的顾客发送他们最感兴趣的信息，充分地满足顾客的需求。

再说说研究行为。要和顾客个体进行交互的话，前提是要理解他们是如何利用网站内容的，除此外还可以帮助理解网站的哪个部分因此获得了销售的提升。顾客在购买过程中所探究过的选项是推测他们重视的因素的重要依据。

就举一个专门做电影销售的在线商店为例。假如顾客在做出购买决定之前首先习惯去查看视频有哪些格式，像是有标准格式、宽屏、扩展或是高清格式，也就是说绝大多数时候，他们更青睐某一种格式的视频。但事实上，他们对格式并不在乎。那么，网站可以每一次都为查看过所有格式视频的顾客提供不同的版本。那究竟是为什么还要让顾客在众多的版本中挑选呢？事实上某一类的顾客他们已经习惯了购买一种特定格式的视频了。

要对顾客进行研究的话，利用网络数据还有另一种方法，那就是在网站上的所有信息中鉴别哪些对顾客，特别是重要的顾客有重要的价值。在购买之前，顾客会有多高的频率去查看评论、附加图片和技术说明呢？只要跟踪不同的会话，再结合顾客的其他数据，就能了解顾客购买的整个流程，在哪一天进行查看浏览，哪一天完成购买行为。最终的购买行为已经是指向十分明确的网络会话了，因为交易因此而完成。网页浏览的历史可以拼出一张完整的图像。很多时候企业试图去除网站上的一些极少被用到的特性，可是这些对某一类重要的顾客来说确有十足的价值。如果是这样，这些特性就不会被剔除掉。

至于顾客在购买行为发生之前到底对自己想要购买的商品进行了多少调研，这些也不再依赖昂贵、小型的调查了。网络数据能够为企业分析出每一个顾客个体或是群体最重视的因素，并且还能规避掉很多顾客言行不一带来的风险。这样一来真相就显现出来了。

顾客的一些异常行为会被企业所发现，有时候顾客会详细查看某一产品的说明，随后又没有购买，反而是那些未曾看过产品说明的顾客却没有这样做。很可能是因为在查看了产品说明之后，从中发现有些描述还不够详尽，或者是说明中还存在疏忽等等，总之升级产品描述的话无疑对提高销售业绩是非常有帮助的。

其中有一个重要的指向标，那就是阅读评价，顾客所看重的特征都可以从中发现。顾客看重的是哪些评价，又不在乎哪些评价？哪些商品在顾客阅读了商品评价之后就不再购买，又有哪些商品评价是可以帮助提高销售额的？一旦发现有人在阅读了某些评价之后放弃购买或是决定购买某商品的话，那这些评价就要留心了。也许会有负面的评价出现，而对于网站而言核实这些评价是必要的，他们提出了哪些问题，就要想办法去处理掉这些问题。

最终顾客所看重的网站特性也要弄清楚，还有顾客在网站上如何浏览商品也是必须了解的，网站只有这样才会贴近顾客。那些重视详细产品说明的顾客，必须让他们一看到商品就会立刻去浏览产品说明。而那些习惯去浏览图片的顾客，必须为他们提供全尺寸的图片而不是缩略图。最重要的是要为顾客提供搜索和查看的便利，只有这样顾客才会在做购买决定的时候选择自己而不是选择其他商家。

最后来说说反馈行为。对商品和服务的详细反馈信息是顾客为网站提供的信息中最有价值的。顾客确实很愿意为自己所钟情的品牌去做这件事情。从文本当中发掘顾客反馈时所用的语气、意图和主题，就能明白顾客之所以看重它的原因了。

顾客在购买商品之后，会不会照惯例去发表评论呢？评论如果是积极的，还有其他的很多顾客阅读到这些评论，这些顾客从中所获得的特殊激励显然是公司最明智的做法。其他类似的还有顾客在线求助会话中的问题和评论，通过分析就能知道顾客普遍要了解的是什么，也可以知道特定顾客需要了解的是什么。特定顾客所看重的特征一旦被发现，那就可以有针对性地为其推荐相类似的商品了。

通过顾客在各个渠道上发表的评论和问题，可以了解他们的好恶，还包括譬如他们是不是Facebook的粉丝，在 twitter上他们是不是彼此关注？此外，网站如果发现了在各个社交媒体上积极地发表正面评论的顾客存在，那么网站就可以着力将其培养成最具影响力的推广大使。企业品牌的影响力的提升，值得企业花时间精力去做这样的付出。顾客的影响力和个人的价值之间并不一定是密切相关的。比较活跃的客户一般都是享受标准待遇、规模中等的客户，实际他们为销售所带来的价值已经远远超过了他们的影响力，剩下要企业做的就是提升这些客户的待遇级别。

来源：我是码农，转载请保留出处和链接！

本文链接：http://www.54manong.com/?id=1099

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })(); '); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();

第五章生活无处不数据，大数据真的能算命？相关推荐

什么叫大数据大数据的概念
1.大数据定义对于"大数据"(Big data)研究机构Gartner给出了定义,"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的 ...
大数据 - 大数据开发技术课程总结（未完）
1.课程介绍大数据开发课程主要从了解大数据概念.特征开始,再介绍大数据Java开发和Hadoop的环境配置,较为全面地讲解了HDFS分布式存储,MapReduce分布式计算框架,Spark平台开发和 ...
电力大数据—大数据技术在营销客户服务中的应用及研究
当前,电力企业改革发展面临新的形势和任务,随着电力体制改革的不断升入,尤其是受市场广泛关注的售电公司的出现,电力市场的交易将更加"民主.开放",交易方式将逐步升级,出现电网+互联网 ...
什么是大数据?大数据的特点?
什么是大数据:是指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据. 大数据的特点: 1.海量化:数据量从TB到PB级别; 2.多样性:数据类型复杂,超过80%的数据是非结构化的 3.快速 ...
【爬虫+数据可视化毕业设计：英雄联盟数据爬取及可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
【【数据可视化毕业设计：差旅数据可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
CNCC 2018 今日开幕，五场特邀报告引爆「大数据推动数字经济」| CNCC 2018
雷锋网(公众号:雷锋网) AI 科技评论按,2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山区人民政府.浙 ...
今后五年你不能不知道的大数据
2016年PM2.5浓度下降5%.大气污染治理安排资金165.4亿元."十三五"时期以治理PM2.5为重点,达到国家要求.2020年煤炭消费总量控制在900万吨以内. 2016年全 ...
python运用在大数据中精准生活_《在大数据中“精准”生活》阅读答案
<在大数据中"精准"生活>阅读答案 ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管理已成为平常之事,信息像水电一 ...

第五章生活无处不数据，大数据真的能算命？

第五章生活无处不数据，大数据真的能算命？相关推荐

最新文章

热门文章

第五章 生活无处不数据，大数据真的能算命？

第五章 生活无处不数据，大数据真的能算命？相关推荐

最新文章

热门文章

第五章生活无处不数据，大数据真的能算命？

第五章生活无处不数据，大数据真的能算命？相关推荐