清华大学社会学系教授、数据科学研究院RONG教授罗家德


记者:能不能请您简要介绍一下您所做的研究项目?


罗家德:分享一下有关于针对社会、商业、营销大数据而有的社会计算(social computing)的三个阶段,我简称其为大数据1.0 、2.0和 3.0的阶段(更准确地说,这是社会计算区分出来的,可简称其为社会计算1.0 、2.0和 3.0的阶段)。其他大数据应用,如健康、规划、医学等等是不是如此分,我非专业,不敢说,所以这只对与社会科学及管理学理论有关的社会计算而言。

  • 1.0阶段是数据驱动(data driven)

  • 2.0阶段是理论驱动(theory driven)

  • 3.0阶段是data-driving-theory 数据驱动理论(的改变)。

我们核心要做的东西就是理论驱动型的,往往需要将大数据与结构化数据如既有资料库和survey数据相结合,把定性研究融入大数据分析之中,这就需要企业的后台数据,而这个一般企业不太愿意给你。第二个,这是纯学术研究型项目,而现在一般企业要的是数据驱动的实际应用。所以我们这个研究项目,基本上就是不断在跟某些对未来知识有一点点好奇的、有数据的公司合作。说句实在话,这个过程非常辛苦。比如我们跟某些公司合作,但双方为了保护隐私,我们拿不到他们的大数据,他们也不能拿我们的survey数据,工作速度就会相对慢很多。因为我们要想尽办法猜想数据挖掘的方法送给对方,对方运行后如果出来的结果不对,我们再重新设计模型,再送过去,两个礼拜往返一次。我们称这种是社会科学理论指导,有抽样的,建构因果关联,能作推论的,不再是简单的数据驱动。

像《大数据时代》《删除》这些维科多的书,它等于是建构了大数据1.0时代的思维,但它只能做数据挖掘、数据驱动和相关分析,它做出来的预测模型没有理论基础、没有推论能力,预测边界也是未知的状态,是纯粹实用导向的。比如,要在超市摆尿片的地方也摆上啤酒。隔了半个月之后,我再采集一次,数据还有效,那就继续摆。而我们可能会马上问:那除了摆啤酒之外,还可以再摆什么?这就要推论。因为我们会发觉,理论上证明了买尿片的男性大概是处于35-45岁之间的中产阶级。简单来讲,就是推论型统计和描述型统计是不一样的。推论型统计一定是理论驱动,不会是数据驱动。就是怎么用理论去整合数据,让个人画像越来越清楚。

大数据的未来是会改变社会科学研究典范的。未来的画像,将不止是个人画像,还有集体画像,动态的画像,没有大数据这是很难画出来的。这是现在的理论前沿,未来会因为大数据的发展而大幅推进,会改造整个学术界的理论发展。所以我称它为3.0时代,因为大数据而改变了社会科学理论建构的方式,所以是数据驱动理论的改变。


记者:您觉得与1.0和2.0时代相比,未来的大数据3.0时代最大的特点是什么?

罗家德:简单说的话,1.0时代,就是数据挖掘加实务应用。2.0时代,就社会科学而言就是social computing(社会计算或computational social science计算社会科学),社科理论驱动,由社科理论找到扎根真相,在扎根真相的座标下作数据挖掘和理论驱动的预测模型。再到未来,一定是数据反过来又可以把理论前沿不断往前推,我觉得这也是未来数据院努力的方向。

未来对很多东西的预测会发生重大变化。比如说股票什么时候崩盘,世界什么时候会爆发重大运动,经济什么时候会转型,乃至于预测一个重大系统的制度变革能不能成功。那就是3.0时代。将来可以用大数据去做更多更精准的预测。当然有多精准,我们也不知道,它永远是一个改良的过程。但是现在还远远没有成熟,连理论都还比较粗糙。但是你已经可以看到一些文章在努力往这方面走。所以简单来讲,动态系统的图像——不再是静态系统和个人图像,而是一个动态系统的图像——将会在未来的3.0时代成为一个最重要的发展。

我们团队出了一本书《Social Network Analysis—Interdisciplinary Approaches and Case Studies》,现在出的这本提出一些方法的想法,但多数文章远远不是2.0的,我们准备要出第二部,要做各式各样的社会科学理论,如人脉、社经地位、社会资本等的大数据资料分析,会更加细致地把我刚才所讲的东西全部用案例来展现。这就是我们在努力的方向。我们说2.0时代已经开始了,因为已经有一个非常成功的案例:竞选团队利用大数据进行人格分析,推断你对哪一个政治议题是什么样的兴趣,从而进行精准的政治营销。

你可以想象得到,随着个人图像越画越全,包括生活风格、社会经济背景、社会地位、人脉、社会资本、人格,等等,精准营销也将越来越精准。当然,这一定要保护隐私,是在客户自愿接受精准营销之下才能去作。

记者:咱们现在有一个中德大数据研究学生交换项目,能不能请您简要地介绍一下?

罗家德:这个项目主要是提供给那些对大数据有兴趣的优秀学生实际参与大数据研究的机会。我们一年会选派5名学生带着我们这边的研究议题去德国哥廷根大学计算机系进行半年到一年的交流。

基本上我们这边的学生都是学社会科学出身,而到那边是去计算机系。当然这些文科学生大都有些理科背景,或者具有很强的数理能力。我们想要建立一个文理兼备型的研究团队,希望他们能在混合学科训练的背景下,学习和提高大数据的分析技术与学术能力。

记者:您是我们数据学院的RONG教授,能不能请您聊聊教学中的一些感受?

罗家德:我帮数据科学院开过一门课,还不错。我觉得清华的同学很聪明,而且来的同学非常认真,到课率几乎百分之百,证明大家太想学了。而且退课率不高,退课的也多数是因为数学真的跟不上。还有些工科的同学,数学没问题,但是因为我们都在讲理论驱动的方法,可能听不太懂。

选课的同学里面,社科学院的最多,还有一些是其他学科的,比如学经管的,生物的。31名同学,最后有24个毕业,作业都作的很好,还是很不错的。


记者:数据院成立四周年,您对我们有什么期冀?或者对未来合作有什么展望?

罗家德:首先要恭喜数据院四周年。能够建成今天这个样子,非常不容易。我觉得作为学者和业者之间的一个平台,作为很多方面的一个促成者,这是非常重要的功绩。对未来,我认为大数据的日子才刚开始,如果大数据未来想要不断推动社会理论和社会计算的前沿发展,还需要更多的学者来努力。同时,也希望能有更多的业者认识到支持纯学术性的工作对他们的未来是有非常好的影响的。有了这两方面的促进,我觉得我们的大数据不止是能够照应到今天的需求,也能够开辟对未来的展望。

大数据时代:从1.0到3.0 | 专访清华社会学系教授罗家德相关推荐

  1. 大数据时代的回收生意经(淼一专访)

    来源:投资与合作 第2013/2-3期 每个人的电脑上都可能有一些敏感数据,处理稍有不慎,麻烦就会接踵而至.尤其对某些公司而言,比如研发中心.国家机关部门等成千上万台电脑硬盘上的数据更是如此.在淘汰这 ...

  2. 大数据时代与工业4.0

    一.关于大数据时代 大数据时代开始于2001年,我是比较认可这一观点的.因为大数据这个词语被创造出来是在20世纪90年代,在2000年的时候第一次在学术论文上有人将它提出,在2003年的时候在Fran ...

  3. 郭为:大数据时代的企业管理挑战

    互联网时代,创新使得财富积累的速度前所未有的快,贫富不均也前所未有地分化.这个时代,世界的竞争变成人与人的竞争,人与人的竞争就是智慧的竞争,就是人的创新能力的竞争.如何才能提高人的竞争力,是管理科学面 ...

  4. 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)...

    二.Work Queues(using the Java Client) 走起 在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工作者 ...

  5. 大数据时代下的新生态、新洞察、新趋势 | 神策 2019 数据驱动大会

    10 月 22 日,以"矩•变"为主题的神策 2019 数据驱动大会在北京维景国际大酒店顺利举行,来自全球大数据各大行业的领袖人物聚首北京,融合国际前沿技术与行业实践,深入探讨大数 ...

  6. 《数据分析变革:大数据时代精准决策之道》一导读

    前言 数据分析变革:大数据时代精准决策之道 正如19世纪的制造业所经历的那样,如今的分析领域也需要经受一场"工业革命".当下的分析流程多以一种像手工艺式的方式创建,需要花费很多心思 ...

  7. 独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)

    金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技 ...

  8. 一线大厂!真实!近距离!接触大数据时代

    2015年,阿里提出中台战略,构建符合大数据时代的"大中台,小前台"组织机制和业务机制.大数据迎来了爆发期,在商业上产生了巨大的价值.可以说因为大数据的发展,才有智能商业的发展,新 ...

  9. 读懂这篇文章就懂大数据,3000字概括《大数据时代》

    有言在先 近期有些起伏,这种情况最适合回归书本,寻找一些你内心认同的东西.这几天花了点时间重温<大数据时代>,整理.总结出了精华的东西,分享给大家. 大数据引起了变革 当今社会所独有的一种 ...

最新文章

  1. 【jquery】jquery基础知识
  2. Datawhale面经项目来了!
  3. 新登月计划!阿里云ET城市大脑成为国家AI开放创新平台
  4. Python hashlib 无法打印
  5. MySQL 查询统计 日期查询
  6. oracle日志文件大小规则,修改oracle日志文件大小
  7. 修改 javascript 中alert样式
  8. yum安装提示yum.pid被锁定解决办法
  9. osg for android 编译,osgforandroid安装文档.docx
  10. [多媒体] m3u8简介
  11. win7发现不了无线网络_Win7笔记本怎么设置wifi热点 Win7笔记本设置wifi热点方法【详解】...
  12. ps aux 中的状态说明
  13. Debian 中使用apt-get update 出现NO_PUBKEY 解决方法
  14. DSP方案山景AP8224C2芯片可烧录适用USB声卡降噪麦克风
  15. git的版本回溯(git想要退回到之前写过的某一个版本)
  16. rundll32.exe命令使用大全
  17. 得洲奥斯汀研究生计算机专业排名,德克萨斯大学奥斯汀分校世界排名及专业排名汇总(QS世界大学排名版)...
  18. MySQL数据库(初识数据库)
  19. 基辛格等分享: ChatGPT 预示着一场智能革命,而人类还没有准备好
  20. 在php中利用gd2库的函数创建水印

热门文章

  1. JavaScript异步调用的发展历程
  2. Mysql数据库权限问题
  3. NGUI_Depth
  4. Google浏览器导出书签
  5. __block的初步用法
  6. Docker实践(6)—CentOS7上部署Kubernetes
  7. 安卓 发送短信两种方式
  8. DCCI:Web3.0时代 微博未来有望突破4.6亿
  9. 职场,18个细节决定成败[转载]
  10. 有没有一只蜻蜓永远为你守候?