作者:赵强,清华数据科学研究院大数据基础设施研究中心副主任

Teada前言:如果说大数据和人工智能是近10年科技舞台中心的主角,应该没有多少人反对,垂直和大众媒体,中央和地方政策,资本,行业,大众的注意力无不为之深深吸引。

在2018年即将进入最后两个月之际,大数据基础设施研究中心(Big Data Infrustructure Research Center)赵强老师撰文,回头看看、回到本质看看、站在高空看看:科技舞台中心的大数据和人工智能,在2018年发生了什么、意味着什么?这个主角当下是否走得稳当,发展的基础是否牢固?大数据和小数据前景如何,存在什么样的哲学悖论?在接下来的2019、2020要发展什么核心环节,才能让这个主角越走越顺越走越顺,直至改变行业,照亮生活?

2018年,南京、上海、深圳、珠海、北京……越来越多的城市用形形色色的全球人工智能峰会的方式加入到智力争夺战当中。而今年却可以算是人工智能的反思年,代表观点是AI就是统计学,神经网络等价图灵机;同时也可以算是AI的人文元年,代表事件是李飞飞会斯坦福创建的HAI。

人工智能在泡沫中,在风口浪尖,而反思和人文关怀的结果都指向历久弥新的数据科学。欧盟通过GDPR,区块链的狂飙突进,大数据基础设施的共识化,意味着身份、信用、隐私、安全、制度开始成为重要的变量,影响着政府、科研机构和市场的博弈和决策。核心技术之外,核心数据资源的定义、采集、标注、处理、确权、流通、商品化和资产化开始进入到生产和营销环节,并逐步带来业务的场景化和数据化。

数据饥渴症和产业的回归

大数据是AI的饲料,今年以来,越来越多的研究机构和公司贡献公开数据集和行业数据集,论文数量、比赛成绩和数据集大小成为资本市场评判AI公司的KPI。数据更重要,还是算法更重要,在涌现出一些无法重现结果的论文之后,要求同时公开数据集、算法和源代码的呼声已逐渐成为学术界的共识。对于主流的语音、图像处理领域,静态场景或是固定数据集的精度提升已超过阈值,更高的精度只是实验室的成就;而在视频、多模态、真实环境中的数据实时处理却很难商用,陷入到先有鸡还是先有蛋的困扰之中,无法产品化就无法获取更多的数据,也无法快速迭代,促使研究者和创业者寻找更巧妙的场景,说服自己的合作伙伴能共享生产数据。对实时生产数据的大规模需求达到了饥渴的程度,无论在医疗、交通、金融,还是在别的传统行业,都是数据为王。有第一手真实数据的机构或个人,都能批量化地生产研究论文、调查报告和产品服务。大数据在学术研究和技术应用有着明显的场景化,从最容易获取数据的电子商务、社交网络和支付交易等领域扩展到更多的传统行业和垂直细分领域。

通过数据重组供应链,人工智能在其中扮演的是特定环节的工具。在这个趋势下,智慧医疗会专注于某个特定的病种,而图像识别也从人脸识别扩展到猪脸、牛脸和驴脸的识别……这意味着大家认可了通用人工智能暂时的虚妄,而热切地把已经准备好的锋利的智能之刀切入到所有可能产生数据和效益的传统中。而大数据、人工智能和云计算本身也构成了一条供应链,加上物联网和边缘计算的介入,在这个技术池中,让通信、计算和存储的区分逐步被模糊化,整个产业被重组为针对数据的采集、传输、存储和计算的融合体,自从微软提出信息高速路之后,已经到了重建数据高速路的时候。软件定义数据、数据驱动智能的主张背后是对大数据预处理、虚拟化和安全计算一系列技术的二次整合。

统计、概率和人性的伪悖论

小数据最初是量化自我的一种生活方式,大数据统计给出一个概率,让企业能够精准化营销,让政府能够精细化管理,却不太能让个人更自由地生活。

追求量身定制的智能制造以及AI比你自己更懂你自己的技术追求带来了小数据的发展,从数据量而言,小数据可以很大,从分析难度来说,小数据一点不逊于大数据。大数据追求效率,小数据追求个性化,各种各样的智能设备是采集小数据的一个常规通道,而数字孪生可以是小数据的一个极致化的应用,至于在VR/AR构建的虚拟幻境中是否能通过数字形态永生,则是个科幻话题。

而今天小数据的推动者有两类,一类是希望能用简明的规则来恢复专家系统荣光的研究者,这里小数据的含义是具有代表性的知识或知识图谱,而另一类则是智慧生活的推崇者,这里的小数据意味着更为混乱而无法结构化的大数据,设想一个人从生到死的全息数据,目前无法想像如何记录,但一个人的照片、社交网络、基因、病历和食谱、运动习惯的数据化,却已进入日常生活,并成为大数据分析中不可或缺的部分。

每个个体是构成集体的一元,缺了谁,地球都转,而对每个个体而言,自己以及身边的人和环境权重最高,这个伪悖论下的大数据和小数据是哲学之争,通过知识图谱重新崛起的规则派和继续神经网络的统计派则延续了几十年以来的起伏,共同促进着技术进步。

已无须论证重要性的大数据

在整个经济面临增长危机的一年中,大数据和人工智能肩负着振兴经济促进发展的重任。数据资源是内生增长的核心资源,而人工智能是数据资源产品化和服务化的关键技术,这似乎已形成社会共识。而数据认知和数据思维的培养,则是社会数字化转型的关键。

培养越来越多具有数据意识的人才,是未来技术发展和经济转型的重中之重。数字经济相对于工业自动化而言,是更依赖于人的经济形态。百年工业化进程,生产力巨大的飞跃让人类摆脱了短缺经济,能逐步追求自我价值的实现,观念的变化导致流水线上开始了劳动力的缺乏,这才是新一轮人工智能革命的最根本推动力,没有人愿意干那些折磨人的工作了!人工智能必须取代那些简单枯燥无聊的工作,跟工业革命“解放了被困于土地的农民”一样,人工智能革命将解放那些流水线上的工人。在冠冕堂皇的理由背后,其实有着冷冰冰的技术理性,劳动力短缺,用人工智能来代替短缺的劳动力,造成大规模失业。

抛开那些科幻式的担忧,切实地进行制度研究和共识探讨,是迫在眉睫的事情。而让更多的人能具备数据思维和数据认知,既能更快地摆脱工业化困境,又能提前适应必将到来的智能时代。大数据和人工智能已无须论证其重要性,而政策、教育可以影响发展的节奏。能否踏准这个节奏,对个体和企业而言,在未来几年并非一帆风顺,而是危机重重。

清华BDIRC:已无须论证重要性的大数据相关推荐

  1. 大数据 清华 覃征_清华大学人工智能研究院大数据智能研究中心揭牌,喊你来参与...

    2019年9月23日,清华大学人工智能研究院将在清华FIT楼举行大数据智能研究中心成立仪式暨学术前沿报告会,届时,清华大学副校长.人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士, ...

  2. 出租车行业已步入互联网+时代 借大数据查处黑车

    "互联网+"时代探索行业管理新路径 出租车管理向数据决策迈进 2013年以来,各种手机打车软件在全国各大城市迅速普及,被称为"专车"的网络预约车辆分割了出租车行 ...

  3. 清华人工智能研究院孙茂松:大数据与富知识双轮驱动成NLP未来发展关键

    来源:大数据文摘 本文约3500字,建议阅读7分钟. 孙茂松副院长为你介绍大数据与富知识双轮驱动成NLP未来发展的关键. 10月8日,北京智源人工智能研究院在清华大学FIT楼举行了"'自然语 ...

  4. 站立潮头、无问西东 | 第二届“大数据在清华”高峰论坛成功举办

    2018年4月27日,由清华-青岛数据科学研究院主办.清数大数据产业联盟协办的第二届"大数据在清华"高峰论坛于主楼接待厅拉开帷幕.此次论坛以"站立潮头.无问西东" ...

  5. 【大数据】中国省级大数据管理局

    当下各级政府正在如火如荼地推进的智慧城市建设,大数据无疑更是关键中的关键.然而,从各地智慧城市.数字政府建设的具体实践来看,最大痛点和瓶颈也正是数据的匮乏.各地大数据匮乏的核心症结在于各级部门未能充分 ...

  6. BAT大厂的架构大数据你有了解么?解析大数据技术及算法

    本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术.算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力. 不仅对大数据相关技术及算法做了系统性 ...

  7. 大数据时代 安全与应用的博弈

    文章讲的是大数据时代 安全与应用的博弈,我们每天行走在城市的摄像头下,我们的口袋里装满各种能表明我们身份的卡,我们的个人信息每天暴露在网络等信息平台上--无论我们去哪,不管我们做什么,都似乎有那么一双 ...

  8. 数据仓库系列篇——唯品会大数据架构

    https://zhuanlan.zhihu.com/p/45123018 What--大数据&数据仓库 什么是大数据? * 广义的大数据是指:无法用现有的软件工具提取.存储.搜索.共享.分析 ...

  9. 【大数据】大数据思维的十大核心原理

    感谢博主,转自:https://blog.csdn.net/supermapsupport/article/details/78741774 一.数据核心原理 从"流程"核心转变为 ...

最新文章

  1. 河南大学明德计划2020计算机学院,关于选拔2020级物理学“明德计划”实验班学生的通知...
  2. urllib2介绍(转)
  3. 企业SAP的二次开发管理之路
  4. 关于Oracle RAC节点间免密码策略
  5. 顺序表查找+折半查找(二级)
  6. django防止csrf跨域伪造攻击
  7. micropython oled中文_micropython中怎么将gb2312编码的字节流变成中文
  8. sql2000 mysql 兼容_SQL Server2000如何恢复数据库
  9. Linux 之 编译器 gcc/g++参数详解
  10. 如何查询Linux内核版本
  11. Django模板语言相关内容
  12. 2019.1.23 01迷宫
  13. jdk文件夹里点哪个是安装_jdk在哪个文件夹里面
  14. Wpf中使用OxyPlot制作图表
  15. 哲学家名篇粤语诵读文2019年5月1日
  16. Photoshop 颜色理论(转)
  17. 绑定host:windows与模拟器之绑定host集结
  18. Hystrix监控数据聚合
  19. [canvas] 万有引力
  20. 【CXY】常用sql语句 -- mysql

热门文章

  1. App免填邀请码的解决方案
  2. 优思学院|5S管理在办公室能够推行吗?
  3. 无监督学习中的目标检测
  4. HTML期末大作业~海贼王中乔巴专题漫画学生网页设置作业源码(HTML+CSS+JavaScript)...
  5. 小数化分数的口诀表_五年级数学下册分数与小数的互化,常用的小数化成分数表,要熟记...
  6. 蓝桥杯题目练习(一元三次方程求解)
  7. OpenELB 在 CVTE 的最佳实践
  8. Python 方格子Ising模型模拟
  9. GLSL (4)Uniform
  10. 东软学院软件测试,软件测试技术与测试标准