大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因
作者:波波夫科技
如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸。
很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度得出,厕所越干净、城市越发达。但直到今天,大数据无法解释这背后的原因:究竟是城市发达了厕所自然就干净了,还是厕所干净了也会促进城市的发展。
对于这样「先有鸡还是先有蛋的问题」,还需要大数据加传统民调和小数据的结合才有肯能找到答案。
01 谷歌为何只猜对了一次?
感谢从维克托·迈尔-舍恩伯格到马云的孜孜不倦地布道,大数据现在几乎成了全球先进生产力的标志,而且几乎被赋予万能的希望。
在《大数据时代》一书中,舍恩伯格的确总结了相对传统小数据的三大特点:非随机样本,而是全体数据;非精确性,而是混杂性;非因果关系,而是相关关系。
最先证实大数据强大能力的乃是谷歌。
2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国著名的《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:
很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。
调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证有像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。
他们建议,应该把大数据与小数据相结合,以「全数据」思维取代「大数据」思维。
02 了不起的盖洛普
前不久,清华附小六年级学生的一篇《大数据帮你进一步认识苏轼》小论文,被冠以大数据之名,这里的大数据其实是不折不扣的小数据,更确切地说只是用量化方式呈现了一个「数据化」的苏东坡。
这只是「炒作大数据」的一个缩影。
事实上,全球拥有真正意义上的大数据的公司并不多,而拥有分析大数据能力的公司更是凤毛麟角。斯坦福大学统计学教授Trevor Hastie曾比喻分析大数据的过程,就好比一大堆干草垛中,发现有意义的「针」,而困难之处恰恰在于很多干草看起来也像针。
大数据的不易得和分析的高难度,注定了其进入门槛的高耸。
但是,传统民意调查所形成的小数据有着显著的优势:样本的充分代表性、可操作、快速采集分析。
上世纪三十年代,美国数学家乔治·盖洛普通过建立与美国全体选民结构一致的5000个调查样本,成功地预测了罗斯福将赢得1936年总统选举。这位宣称「我能用统计的方法证明上帝的存在」的盖洛普先生开启了现代民意测验的商业化道路。
在大数据鱼龙混杂的浊流中,传统的问卷调查无疑是一个更靠谱的预测方式。
二胎政策出台后,如果想了解人们真实的生育意愿,按照大数据全样本的标准,特别是涉及到用户隐私,因此几乎无法操作,但是通过传统民调、却能够快速了解情况。
南京航空航天大学教授张杰在2016年初通过腾讯问卷针对10万人的调查显示,近四成人没有生育二胎的打算,已有女孩的家庭生育欲望更强,时间精力、经济状况不佳是国人不敢生二胎的主要原因。
此次二胎意愿调查之所以能回收高达10万份问卷,一则说明受访者对这个问题关注面比较广,二则体现了在线问卷更有利于保护隐私的优点,毕竟与生育相关的话题涉及个人隐私,传统线下一对一问卷调查,会让受访者不太自在。
在填写这份问卷时,腾讯问卷鼓励受访者使用QQ、微信号作为登录账号,但不提供注册功能,同时,还会对可疑问卷做红条警示提醒,对于需要用户提供如年龄、地域、收入、学历等信息的问卷,腾讯问卷支持用户自愿选择,突出对用户隐私的保护。
03 激活沉默的大多数
如果说大数据只有大机构才有能力获取,如今类似在线民调小工具则赋能普通大众获得便利的调研能力,比大数据更能体现互联网的普惠和平权特征。
中国的网民人数已经超过7亿,互联网的渗透率超过50%,但是网络舆论并不等同于网络民意,一个重要原因是,网民不能代表现实中全体公民,而且活跃网民也不能代表全体网民。
复旦大学传播与国家治理研究中心研究团队在2014年的一份研究报告称:
在结构上,网民主要分布在社会中间阶层,社会高层和底层人群较少,尤其是占中国总人口较大比例的农民或外出务工人员群体,虽然近两年有一定增长,但在网民中所占比例仍然较低,他们正是网络中沉默的大多数。
只需勾选、简单输入的在线问卷,为普罗大众理性表达意见提供一个便利渠道。
传统民调和今天的在线民调都面临一个共同问题:如此提高受访者的参与率。首先,民调拒访率逐年增高,受访率不断降低。根据皮尤中心的报告,美国民调回复率1997年为36%,2000年为28%,2006年15%,2013年9%,2015年只有7%。
04 有民调处有金山
大数据可以帮助我们推导出著名的口红效应(因经济萧条而导致口红热卖)、厕所效应(城市越发达厕所越干净)、以及著名的啤酒与尿布销售故事,但无法给出因果分析,要想从中得到具体的商业建议,还得需要提取样本进行传统调查式的分析。
如果说,大数据分析可以说是一种纵向的推断,是变量间相关关系的推断,那么问卷调查是基于样本推断总体,是一种横向的、由点到面的推断,尤其有助于商家快速了解用户偏好。
如果说大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以挖掘用户需求时,在大数据之外,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望。
相比大数据,人们更容易从小数据中获得更有价值的商业洞察。
腾讯新闻曾联合一家牙膏企业,通过腾讯问卷向三万多人发起了一次过敏口腔健康调查问卷,结果发现,发现口腔问题时,越年轻的受调查者越倾向于等待口腔问题自行缓解,但女性比男性更愿意尝试购买多种口腔护理用品,同时发现,漱口水是牙膏之外最受欢迎的口腔护理产品。
这份调查对于口腔护理公司来说至少提供了三点有价值的市场信息:第一、开展针对年轻消费者的口腔健康意识教育,有助于扩大用户群体;第二、加大针对女性的市场促销活动,有助于进一步刺激销售增长;第三,漱口水的市场空间广大,具备开拓价值。
在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。以最近几年在在线问卷市场快速崛起的腾讯问卷为例,首先,腾讯问卷采用了所见即所得的操作模式,只要通过拖、拉、连等极其简便的操作方式,一份专属于调查者的调查问卷就可以顺利成型;其次,腾讯问卷还集合了业务拓展、数据分析在内的综合性平台,利用服务器集群技术,每秒可以支持100万问卷页的同时打开,大大提升了用户的工作效率。
事实证明,互联网公司也高度重视问卷式调查。自2014年底正式上线以来,腾讯问卷累计使用用户已经超过100万,平台周PV超过千万。除了腾讯系产品微信、QQ、音乐、游戏等广泛使用腾讯问卷外,滴滴、58、链家、vivo、小米、央视315晚会、同程网等企业均使用腾讯问卷完成了大量的用户调查与研究项目。
但无论是传统的小样本民调,还是全样本的大数据分析,事实上面临着一个共同难题:即如何提升数据分析能力,如何将数据与人的心理、行为联系起来。这也正是预测的神秘和魅力所在。
End.
转载请注明来自36大数据(36dsj.com):36大数据 » 大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因
http://www.taodudu.cc/news/show-5596145.html
相关文章:
- 我的憨憨女友都能看懂学会的python多线程
- 实战爬取腾讯地图上的收费站、服务区、厕所等数据
- 人有三急!这份如厕指南,能帮你国庆在外快速找到厕所
- 如何用Link Develop开发一个智能厕所
- 如何抢救变砖的nxp板子
- 一氧化碳中毒急救常识
- 急救课堂v1.0.3,红十字/母星系,有趣的灵魂发生碰撞
- 印度程序员 微软_微软Kaizala使印度铁路公司能够将其300万员工与医疗服务联系起来
- 家庭饮食300忌(实用)
- 大厂前端面试分享:如何让6000万数据包和300万数据包在仅50M内存环境中求交集
- 到2022年,佛山将建成5G基站15533个,5G产业收入达300亿元
- 关于EMC VNX系列忘记存储账号密码的急救方法
- 2021年北京市传统工艺美术保护发展资金储备项目申报奖励及条件,300万
- 两块SAS 300G硬盘故障 数据恢复记录
- RHCSA/RHCE Red Hat Linux认证学习指南(第6版):EX200 EX300
- 程序员MYSQL急救包——(能救命,能加薪)
- Gitlab.com 误删300G数据,备份失效后直播抢救过程
- 急救小知识
- 急救常识
- 程序员的生命与急救
- 我的理想计算机作文300字,我的理想作文300字
- 通过简单修改轻松免费拉满百度网盘的下载速度!
- uniapp移动app实现将网页保存为图片到手机相册
- RecyclerView实现按时间分组手机相册效果
- android打开手机相册获取真正的图片路径
- LIN报文帧
- lin通信ldf文件解析_一文详解LIN总线协议规范
- lin总线可以控制几个节点_LIN主从节点设计与实现
- 车用技术总线 | 从应用角度了解下LIN总线
- 影接不暇:IMAX Enhanced上线爱奇艺
大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因相关推荐
- 《大数据》2015年第2期“动态”——大数据发现银行贷款风险
大数据发现银行贷款风险 曾伟1,孔新川2,陈威1,周涛1 1.电子科技大学 2.杭州迈宁数据科技有限公司 doi:10.11959/j.issn.2096-0271.2015024 Uncoverin ...
- 大数据发现非法传销网络
大数据发现非法传销网络 李艳丽, 刘阳, 谢文波, 罗秀, 徐腾, 翁先正, 马国彬, 尚杰, 许海泉, 邓先晖, 康丽, 侯丽霞, 陈端兵, 周涛 电子科技大学 doi:10.11959/j.iss ...
- 大数据技术助推数字化智慧城市管理平台的搭建
近来几年,你必定听惯了这样子的形容,说大数据技术,云计算技术,人工智能,5G等数字基础设施,是信息内容文明的"水电煤",我们终究离不了这些. 但你是不是会好奇,在我国,哪座城市将这 ...
- 惊诧,大数据割韭菜,精准收割:手机越贵,打车越贵
loonggg 读完需要 5 分钟 速读仅需 2 分钟 大数据杀熟,企业利用自己所掌握的信息来提供差异化服务,这件事应该已经不算是什么新鲜事了吧?也是一个业内众所周知,老生常谈的话题.可是,昨天又有一 ...
- 腾讯人口密度热力图_从腾讯位置大数据,看中国的超级城市
世界那么大,谢谢你来看我!!关注我你就是个网络.电脑.手机小达人 地图作为现代人经常使用的工具.大数据的出现赋予了地图新的内涵,传统的地图不能满足日常的需求,热力图营运而生.谷歌腾讯阿里百度NASA滴 ...
- 人口流向数据_个推大数据解读春运:原来五大城市的人口流向这些地方!
"有钱没钱回家过年",这句俗语体现了中国人对春节团圆的期待.春节的脚步越来越近,出门在外的游子陆续踏上归家的路途,汇入春运的浪潮之中.在这场号称一年一度的"人类最大规模周 ...
- 没想到!大数据发现微信上使用最多的表情竟是...原谅很多人不知道
导读 今天,"2018微信数据报告"刷屏朋友圈!其中,各年龄段最爱的表情引发热议(吐槽). 报告显示,00后最爱的表情是: 网友却说↓↓↓ 00后:不对不对,才是真爱 @今天托儿索 ...
- 基于大数据的城市可视化治理:辅助决策模型与应用
作为数据分析和知识挖掘的常用方法, 可视化在城市规划.管理工作中的运用日见增多.考虑大数据的基本特性和可视化技术本质, 从图像展示.图像理解.图像运用三方面对管理决策的动态过程加以探索, 提出大数据可 ...
- 城市大数据:内涵、服务架构与实施路径
华岗1,顾德道1,刘良华1,田沄2,3,4,许海燕1,方丹丹1 1. 宁波市智慧城市规划标准发展研究院,浙江 宁波 315048:2. 中国工程院,北京 100088: 3. 清华大学自动化系,北京 ...
最新文章
- 第二十九课.回声状态网络ESN
- 机器视觉图像处理技术使无人系统机器人帮人类完成更多危险任务
- 作业4(列表增加或者修改)
- ArrayList与LinkedList的比较
- oracle的server_name,配置Oracle Name Server的完全步骤
- 江苏谋定特色小镇-农业大健康·万祥军:旅游理念经营产业
- 【Redis学习】Redis的安装、管理、适用场合以及使用
- eureka 其它语言_SpringCloud之Eureka-Go语言中文社区
- HTML5 之 简单汇总
- 封送处理您的数据:利用 COM 和 Windows 2000 的高效传输数据的技术
- iPhone、iPad明年或采用USB-C接口;虎牙回应央视点名网课内容充斥广告;Rust 1.44.0 发布| 极客头条...
- 微软12月补丁星期二值得关注的6个0day及其它
- ObjC学习2-语法循环、条件,原来像学C语言一样啊!
- Ext.Net学习笔记之动态加载TabPanel
- CMMI认证过程中实施步骤详解
- mysql读写分离如何保证数据同步_MySQL 主从同步 、 MySQL 读写分离
- NX文件名与工程图名自动关联
- TOF相机(Time of Fight Camera)(维基百科全翻译版)
- 【ChatGPT】ChatGPT使用指南——句词分类
- 搭档之家:木材已成为疫情冲击下对冲新贵 忘掉黄金吧!伐木头养你~