黄锦辉

香港中文大学工程学院,香港 999077

摘要:大数据的应用和研究是信息爆炸时代的热点话题。就如何更智能地发现大数据中的有用信息展开讨论,探讨了大数据中的“陷阱”和其引发的社会危害,提出一种面向社交文本的智能应用系统,以有效规避大数据中的“陷阱”并自动提取有用信息;基于提到的框架,展示了笔者研究组近些年在社交媒体上的事件检测、自动摘要和谣言检测方面的研究成果。

关键词:大数据;自然语言处理;社交媒体;数据处理

中图分类号:TP391         文献标识码:A

doi:10.11959/j.issn.2096-0271.2017016

Beware of traps of big data analytics in business

WONG KamFai

Faculty of Engineering, The Chinese University of Hong Kong, Hong Kong 999077, China

Abstract: In the era of data explosion, research and application of big data has become a hot topic.How to automatically discover useful information from big data was focused.The organization is as following:examples of big data“traps” and their influences were discussed. The framework of an intelligent system to process social media texts that avoids traps and extracts useful information from big data was described. The research works proposed by our team and based on the framework about event detection, summarization and rumor detection were covered.

Key words: big data, natural language processing, social media, data processing


论文引用格式:黄锦辉. 开发商业智能应用小心大数据“陷阱”[J]. 大数据, 2017, 3(2): 26-30.

WONG K F. Beware of traps of big data analytics in business[J]. Big Data Research, 2017, 3(2): 26-30.


1 大数据中的“陷阱”

自从前美国总统奥巴马2012年3月推出2亿美元的“大数据研究和发展计划”后,世界各大小经济体陆续效仿,大力投资相关领域。全球信息科技企业亦不敢怠慢,积极推出适合的大数据信息科技方案及产品,更大洒金钱地推广大数据分析的优点及其所能带来的商机。据观察,近期不少从事金融、医疗、社会工作、工商业、政务等范畴的主管都已被潜移默化,鼓吹大数据的功能及效益。然而,大数据真的是万能的吗?目前为止,大数据的处理和应用仍存在如下问题。

(1)采集数据时“南辕北辙”

采集的数据应与目标相符,并不是越多越好,如果南辕北辙将得出错误的结果。题为“谷歌流感的寓言:大数据分析的陷阱”的报告描述了谷歌公司曾利用大数据分析推算2011—2012年度美国流感的趋势[1],但结果却不如人意,估计的流感个案数目远超过实际数目。而谷歌公司利用的数据来自用户使用的关键词(如“禽流感”)次数及分布,进而进行推算分析。专家认为构成严重误差的主要原因是谷歌公司盲目地广泛收集关键词,以为越多越好,却没有了解用户查询时的出发点,结果收集的数据大部分来自非流感病患者,因此在数据采集阶段已严重犯错,自然推算失准。若数据分析全力集中在流感病患者,结果便会截然不同。

(2)计算模型选择错误

数据量过大时质量也有一定程度的下降,面对海量规模的数据,人工去噪已经很难实现,这时候如果不能选择正确的计算模型,将在分析结果中引入噪声。美国加州大学伯克利分校的国际知名学者米高·佐敦(Michael Jordon)教授,最近接受美国IEEE学会杂志访问时指出,“大数据”在现今商业市场被过分炒作,它最后可能只是一场空欢喜,米高·佐敦教授更预测“大数据”的“冬天”即将来临[2]。他认为“大数据”用户进行假设的速度将会超越“大数据”的统计范畴,在这种情况下数据分析结果难免会出现错误,造成大量噪音,影响推算的可靠性。

(3)数据处理不能“与时俱进”

大数据用户往往忽略数据的“动力(dynamics)”。在大数据时代,数据和信息的更新换代十分迅猛,随着时间的推移,需求也在变化,过时的数据对当下的需求来说可能没有任何作用。例如在变幻无常的商务环境中,用户的需求不停在变,那么昨天的大数据分析结果能有效地应用于今天的商务环境吗?能够满足用户今天的需求吗?若不能,则需要重新进行分析,但昨天采集商务数据的方法能满足用户今天的新需求吗?归根究底,什么时候开始和停止分析既是统计学应用的老问题,亦是大数据分析必须严肃面对的问题,但在千变万化的应用及数据环境下,要应对这个问题更是难上加难。因此米高·佐敦教授进一步指出,大数据分析服务提供商有责任清楚说明分析推算法的质量标准及其误差度,做好用户的“期望管理(expectation management)”。

(4)大数据环境下的人才荒

今天的信息科技业界急切需要解决“人才荒”问题。缺乏专业的数据科学家(data scientist),大数据行业将难以起飞。以“瞎子摸象”比喻,多个瞎子(非专家)触摸大象(大数据),然后判断象的形状,结果以误判收场。在商业应用中,错误的大数据分析推断的商务智能(business intelligence,BI),可能会弄巧成拙,严重影响生意。笔者认为大学应考虑开设更多的相关课程,校方在课程设计上必须加入更多的体验学习(experience-based learning)活动,避免就读“数据科学”的学生过于纸上谈兵。

综上,大数据虽然是块诱人的蛋糕,却也充满“陷阱”,一步踏错,满盘皆输。下文将探讨如何规避陷阱,从大数据中提取有用信息。

2 基于社交媒体的大数据智能处理系统

大数据处理的研究不应是空中楼阁,一个好的大数据处理系统应有效地帮助用户过滤无用或是错误信息,从而最大化地获得有用信息。笔者研究组致力于开发规避“陷阱”的大数据智能处理系统,该系统主要分为事件检测(event detection)、自动摘要(summarization)和谣言检测(rumor detection)3个模块,如图1所示。

图1  基于社交媒体的大数据智能处理系统框架

社交媒体上,数据的更新换代迅猛,信息极易过时,而过时的信息并非用户所需要的,例如,关于“德国欧洲杯”的讨论已非当今大众所关心,人们更加在意“法国欧洲杯”上的比武论剑谁将笑到最后。自动事件检测模块将从海量原始数据中抽取大众最为关心的时下热点,淘汰过时信息。然而,诸如“法国欧洲杯”之类的热点事件通常能吸引成千上万条的讨论,其中充满了重复和无用的信息,此时,自动摘要信息模块将取其精华,去其糟粕,自动生成关于事件的简练描述,让用户能够在有限的时间之内快速了解事件的来龙去脉。有了热门事件和有关它们的描述,还需要判断眼前的事件是否真实,避免被虚假信息所扰。这时候,谣言检测模块能智能地给予事件真实与否的判断,过滤掉其中的不实信息,从而推送用户所需的信息,智能地避开大数据中的“陷阱”。

3 自然语言处理与社交媒体中的大数据研究

以微博为代表的社交网络的迅速崛起和流行引发了信息的爆炸,利用自然语言处理技术自动提取最有用、最可信的内容,让用户能够在有限的时间内获得最需要的信息是大数据时代火热的研究课题之一。基于第2节中提出的框架,本节将详细介绍笔者研究组在事件检测、自动摘要、谣言检测方面的研究工作。

(1)事件检测

微博已经超越报纸等传统媒体,成为热门事件播报的最快、最重要的传媒,如何从微博中自动地发现用户需要和感兴趣的事件成为如今数据挖掘领域的一个重要研究方向。利用自然语言处理技术对语言和语义的分析,对热门事件的自动发现有着重要的作用,Ou等人[3]和Peng等人[4]对微博中的情感进行建模,通过检测情感的爆发来发现热门的事件。

(2)自动摘要

自动摘要技术能够自动地从海量文本中挖掘重要信息,这对用户快速了解社交媒体事件有着十分重要的作用。面向传统文本的自动摘要方面的研究已经进行多年,并且在方方面面都相当成熟,然而在面对微博文本时却面临了严峻的挑战,主要原因是词语的共现模式在短小而不规范的微博文本中表现并不明显,这又恰恰是自动摘要技术的技术基础。笔者研究组致力于从微博的转发和评论内容寻找上下文信息(context information)的补充,并挖掘其中的语义信息,从而发现更多更有用的词语共现特征,以提高自然语言处理模型的性能。在Li等人[5,6]的研究中,以回复和转发关系为基础构建微博对话树(microblog conversation tree),借助树的结构信息将其中的微博分为领导者(leader)和追随者(follower),并对两类微博文本之间的关系进行建模,为微博自动摘要的研究提供了新的思路。

(3)谣言检测

虽然热门事件在大多数情况下为用户所需,然而,在许多情况下并非如此。谣言是热门事件中特殊的一类,作为虚假信息,谣言传播迅速,易于引起大众恐慌,给社会带来了严重的危害。如果谣言能在传播初期就被系统检测到,就能够有效缩小其恶劣的社会影响范围。Ma等人[7,8]发现谣言和真实事件在许多方面时序特征都呈现出不同,并首次采用深度学习(deep learning)的方法建模谣言和真实事件的时序变化,从而从热门事件中自动发现谣言,避免对社会造成危害。

4 结束语

本文详细介绍了大数据的处理和应用中存在的问题,并提出了基于社交媒体的大数据智能处理系统。随着大数据行业的不断发展,笔者在自然语言处理和社交媒体中的大数据研究方面还会进行更深一步的探索。

参考文献:

[1]LAZER D , KENNEDY R , KING G ,et al. The parable of Google flu:traps in big data analysis[J]. Science, 2014,343(6176): 1203-1205.

[2]LEE G . Machine-learning maestro Michael Jordan on the delusions of big data and other huge engineering efforts[J].Communications of the ACM,2011. Communications of the ACM, 2011.

[3]OU G , CHEN W , WANG T ,et al. Exploiting community emotion for microblog event detection[C]// EMNLP,October 25-29,2014Doha,Qatar.[S.l.:s.n.], 2014:1159-1168.

[4]PENG B , LI J , CHEN J ,et al. Trending sentiment-topic detection on twitter[M].[S.l.] Spring International PublishingPress, 2015: 66-77.

[5]LI J , GAO W , WEI Z ,et al. Using content-level structures for summarizing microblog repost trees[C]// EMNLP,September 17-21,2015,Lisbon,Portugal.[S.l.:s.n.], 2015:2168-2178.

[6]LI J , LIAO M , GAO W ,et al. Topic extraction from microblog posts using conversation structures[C]// The Meeting of the Association for Computational Linguistics,August 7-12,2016,Berlin,Germany.[S.l.:s.n.],2016:2114-2123.

[7]MA J , GAO W , WEI Z ,et al. Detect rumors using time series of social context information on microblogging websites[C]// CIKM,October 19-23,2015,Melbourne,Australia, New York: ACM Press, 2015:1751-1754.

[8]MA J , GAO W , MITRA P ,et al. Detecting rumors from microblogs with recurrent neural networks[C]// >IJCAI,July 9-15,2016,New York,USA.[S.l.:s.n.] 2016.

黄锦辉(1960-),男,博士,香港中文大学工程学院副院长(外务)、系统工程与工程管理学系教授及创新科技中心主任,并担任哈尔滨工业大学深圳研究院特聘教授、北京大学信息科学技术学院客座教授以及东北大学兼职教授。香港信息科技联会、香港工程师学会、英国工程技术学会及英国计算机学会会员。主要研究方向为数据库及中文信息处理,并在多份国际刊物、会议及书籍中发表过超过250份技术研究报告。是《ACM Transactions on Asian Language Information Processing》的创办人及总编辑,也是《Computer Processing of Oriental Languages》及《Computational Linguistics and Chinese Computer Processing》等国际学术刊物的编辑小组成员。是亚洲自然语言处理协会(AFNLP)创会成员及现届会长(2015—2016年)。同时也是亚洲信息检索会议(AIRS)系列的创办人。

【2017年第2期】开发商业智能应用 小心大数据“陷阱”相关推荐

  1. 【2017年第2期】应用驱动的大数据融合平台建设

    孟祥飞, 冯景华, 赵洋, 夏梓峻 国家超级计算天津中心,天津 300457 摘要:论述了大数据在信息社会发展中的核心地位和对信息技术创新的全方位驱动:重点阐述了应用驱动的大数据和超级计算.云计算融合 ...

  2. 【2017年第1期】专题导读:大数据与信用评价系统

    2015年我国发布的<促进大数据发展行动纲要>中要求,2018年底前建成国家政府数据统一开放平台.2020年底前,逐步实现信用.金融.交通.医疗等20项民生保障服务相关领域的政府数据集向社 ...

  3. 商业智能BI,大数据时代的新趋势

    根据IDC预测,2025年时中国产生的数据量预计将达48.6ZB,在全球中的比例为27.8%.在未来,数据会是构建现代社会的基本要素,也是社会的基本建设.这也不禁让我想起了最近新公布的<关于构建 ...

  4. 面向智能化软件开发的开源生态大数据

    点击上方蓝字关注我们 面向智能化软件开发的开源生态大数据 张洋1, 王涛1, 尹刚2,3, 余跃1, 黄井泉3 1 国防科技大学计算机学院,湖南 长沙 410073 2 绿色计算产业联盟,北京 100 ...

  5. 如何讲商业智能(BI)融入大数据中

    大数据技术能够帮助商业智能提出更好的决策,而要想在当今社会更好的发展商业智能,就需要考虑如何在商业智能中加入大数据.那么,具体该如何实施呢? 大数据将改变商业智能(BI)的布局,并为企业提供一种有价值 ...

  6. 经典解读商业智能BI、大数据、数据中台三者关系

    大数据.数据中台都是商业智能BI发展到一定阶段的产物,核心都是围绕数据,数据采集.数据处理能力.算力的提升催生了大数据,数据资产和数据服务催生了数据中台,核心的数仓建模自商业智能BI一脉相承未曾改变, ...

  7. 【2017年第1期】ISO 8000(大)数据质量标准及应用

    张坦1,黄伟1,2,石勇3  1.西安交通大学管理学院,陕西  西安  710049: 2.昆士兰科技大学,澳大利亚  昆士兰州  布里斯班市  4702: 3.中国科学院大学管理学院,北京  100 ...

  8. IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、编程开发、网络、大数据、虚拟化

    马哥Linux培训视频课程:http://pan.baidu.com/s/1pJwk7dp Oracle.大数据系列课程:http://pan.baidu.com/s/1bnng3yZ 天善智能BI培 ...

  9. 【BDTC 2017】专访中兴通讯杜学军:uSmartInsight,大数据与人工智能融合平台

    [CSDN现场报道]2017年12月7-9日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所.中科天玑数据科技股份有限公司与CSDN共同协办,以"大数据 ...

最新文章

  1. python多进程的使用(导包、创建子进程、启动子进程)
  2. iOS开发 - 事件传递响应链
  3. 数据分析必备:掌握这个R语言基础包1%的功能让你事半功倍!(附代码)
  4. 数字三角形路径最小值c语言题目,算法学习——动态规划之点数值三角形的最小路径...
  5. 第六周作业(sticky
  6. CobaltStrike使用
  7. java序列化深克隆_克隆可序列化和不可序列化的Java对象
  8. Spring学习大杂烩(待续)
  9. TCP/IP协议读书笔记(1)
  10. sqlite sqlite3_bind_int sqlite3_bind_text
  11. DevOps 火爆,要学这么多技术!
  12. winscp怎么更改linux权限,Linux下,WinSCP普通用户登录sftp后切换到root权限 教程
  13. ubuntu 设置静态路由_Linux route 配置静态路由(转载)
  14. matlab中产生对角阵,关于matlab中的diag函数(矩阵对角元素的提取和创建对角阵)
  15. 毕业论文之——实习总结10篇(包含心得体会)
  16. java opts参数_JVM内存JAVA_OPTS参数说明
  17. 谁将打开腾讯业绩增速天花板?
  18. 安徽科技学院 信网学院网络文化节 陈鑫鑫
  19. ABAP中如何建数据库视图和维护视图
  20. 【208.11.21 直播QA】TI C2000 Piccolo单芯片——实现双轴伺服电机和马达控制

热门文章

  1. 电脑用什么录屏软件录游戏不卡
  2. 第一章:Class文件结构
  3. 无字天书之Python第九页(函数)
  4. 基于Autoware制作高精地图(三)
  5. Leetcode 075 Sort Colors
  6. 【待就业六人组】对【葫芦娃】和【火鸡堂】团队产品测评报告
  7. java下载word文档到本地
  8. xilinx下载器驱动提示“系统找不到指定的路径”的解决过程
  9. 手写一个@MapperScan扫描器
  10. 最优化算法对偶单纯形法的matlab实现(对偶单纯形法看这一篇就够了)