智源导读:一直以来,“产学研”三者的边界并没有标准的范例供人们遵循。过去十年,随着人工智能技术的广泛应用,数字时代为产业发展带来的“无界”与“协同”,让产业链的上下游协同发生了微妙演变。

而这当中,开源更是加速了AI算法的普及,北京智源人工智能研究院理事长张宏江提到,开源时代面临的最大挑战,不光是数据孤岛,而是数据孤岛本质上反映出人的思维孤岛。如何解决人的思维孤岛,让年轻一代的学者更加开放,更加适应开源,是一个长期的过程。

整理:梦佳、贾伟

在过去一段时间,产、学、研三者的边界开始逐渐模糊。当前,三者处于什么样的状态?身处其中的个人应当如何定位自己?高校、企业、研发机构的观念应有哪些调整?如何让年轻一代的学者更加适应一个属于开放开源的未来?

12月28日,在“未来科学大奖周2020”的“产学研论坛”中,由北京智源人工智能研究院理事长张宏江、奇绩创坛创始人兼CEO陆奇,微众银行首席人工智能官、香港科技大学讲席教授杨强等人围绕“数字时代的产学研”这一主题进行了深度对话,其中未来论坛理事、软银愿景基金管理合伙人陈恂主持了对话。

智源社区从其对话中挑选出部分观点,供读者参考。更详细的对话内容可以关注【智源社区】,后台回复【未来论坛】获取。

01

过去十年,产学研的距离在不断拉近

谈及过去十年间产学研的现状,北京智源人工智能研究院理事长张宏江表示随着移动互联网、AI的普及,其实产学研的距离在不断拉近。

张宏江:

在过去五年,我们看到开源的普及,看到越来越多像杨强教授这样的学者从学术界来到产业界,同工程师、产品经理一起为用户提供优秀的产品与服务。我们看到,许多企业随着业务发展,一线工程师、产品经理,不再坐等技术成熟,而是主动跨向学术界寻求合作。

我们也看到企业工程师团队中,有学术背景或学术经历的人越来越多,他们从事完善算法,与应用场景进一步结合的工作,并且越来越多地从事新算法的研究和开发。谈起学校,如今我们不再仅谈“教学”,也谈研究——学校与研究的距离也越来越近。较十年之前,如今“产学研”之间的联系更紧密了。

举个美国的例子,OpenAI是一家企业,但它同时拥有大量杰出的研究员与工程师,软件的、硬件的;DeepMind实际上是企业的一个业务部门,但同时又是一个出色的研究团队。所以我们看到像GPT-3这样大规模的预训练模型,看到从AlphaGo到AlphaFold2在AI应用上一次又一次突破。所以我认为过去的十年,随着移动互联网的普及、随着AI的普及,产学研的距离在拉近。

02

真正的学校是那些大厂

奇绩创坛创始人兼CEO陆奇讲到企业在产学研体系里的特殊定位,大厂的经历某种意义上是一种学位。

陆奇:

比如说我要找一个GPU强的人,会看你是英伟达大学毕业的;我要找一个算法很强的,那是谷歌大学的;包括Microsoft(微软),你在微软做过三年到五年,某种意义上那是真正的学。因为大学里面其实只是学了一个基本的技能。所以从实际的角度来讲,基本上看你的real degree(真正学位)是某某大厂的一个学位。

讲到学,我觉得学的边界也在演变,从传统的研究型大学,朝着另一个方向,在一个比较大的企业或者创业公司,给人才更完整的一个环境,去打磨他们数字化能力的一些核心技能。

产学研,在数字化大赛道里,其实它的边界一直在,但我认为科学的发展和产业的发展,最终还是人类的两大目标,追求知识,我们可以对知识、对宇宙、对人类社会了解的更多,同时把知识转化成产业、转化成人类财富。

03

在公司把学术概念发扬光大,变成商业模式

现微众银行首席人工智能官、香港科技大学讲席教授杨强在过去的三十年中一直在大学里做迁移学习,直到最近,他才加入公司工作。

杨强:

我记得大概在90年代末我开始做迁移学习的时候,一个动力是因为我们当时是做传统的人工智能叫“经典规划”,在这里面最薄弱的一环就是数据,基本没有数据或者就只有一两个例子。

在公司里面就能把迁移学习的概念真正地给发扬光大,从学术概念,转变成商业模式。数据资源多的这些公司,比如OpenAI(人工智能非营利组织)、谷歌,他们可以大量的收集、聚合数据,并且利用大量的计算资源来做预训练模型,所以预训练是第一步。第二步是各个业务端,可以想像成一个网络终端,他们可以聚焦在自己的业务上,然后拿预训练模型迁移到他们各自的业务上。这样社会的分工就更加明确、更加聚焦。那么整个的商业模式就可以运作起来,通过云计算,这个能力可以释放出来。

所以这个例子给我一个启示,比方说我们花30年时间在研究一个大学里面的一个小问题,然后到了一定阶段,当所有的条件都聚合到一起的时候,就会有一个暴发期,这个暴发期就使得这个概念能够散布在各行各业,就是星星之火就可以燎原了。

04

好的软件工程师想让他的代码服务于人类所有的应用

陆奇认为,在产学研转化的过程中,至关重要的是开源开放。

陆奇:

我建议大家看一下,任何一个创业公司或者一个大厂里的产品团队,其实代码写的不多。大部分代码已经都有。如何保持开源开放的生产方式,同时把开源开放的方式更多的产业化,是我们大家面临的一个重要挑战也是机会。

因为开源开放,人的动机不是纯商业化,一个真正好的软件工程师、一个真正好的管理数据的技术团队,他其实想让他的代码和他的数据服务于人类所有的应用,他并不想让他的数据或者他的代码局限于某个企业或者局限于某个局部的应用场景。

但是这就需要,把工具的开发、社区的运营和商业化的机制,协调地融合在一起,这是我们共同面临的挑战。过去的案例可行的是一些成功的开源组织和成功的工具和社区,比如GitHub这样的社区是我们非常关注的。

05

技术需要可信、可用

杨强提到,数字化产学研在20年前和现在相比,更加重视社会责任感。

杨强:

在过去我们认为技术就是纯技术,研究就是纯研究,科学家可以把自己关在一个小屋子里算出一个结果发表,就完事。但是现在,做技术一定要带有社会责任心,我们的技术是不是可信的?是不是能够满足社会大众对隐私安全的保护?是不是能够保证在多方协作的前提下,是不是保证公平的分配最终的利益?是不是透明的?是不是可解释的模型?可信的观念有很多解释,但是它指出一点就是做研究的人同时要考虑社会责任。

第二,做的技术,我们过去往往发表,就不管了,后面靠攒引用,Citation高了,我们就认为是好的。但我觉得现在有一个变化,我们要看这个技术不仅仅是发表了,而且是可用的。

比如说金融行业,我们最近和央行做了一个反洗钱的POC,这个POC当时就发现每家银行的洗钱样本非常少,也就一两例,如果没有能力把众多银行连接起来,形成更多数据源的集合,那么是没有办法建一个自动反洗钱识别系统的。

06

开源加速了AI算法的普及

张宏江提到在AI算法普及的过程中,开源的重大意义。他表示,80年代,掀起了一轮以神经网络为主的AI浪潮,今天这一波AI浪潮实际上也是以神经网络为基础。80年代的那波浪潮很快退去,一个重要的原因就是数据不足。

张宏江:

看人工智能过去十年的发展,有一个学术界的数据库——ImageNet,对算法的发展起了非常重要的作用。

说起Hinton的深度学习算法,2006年在《自然》杂志上,当时他用他的算法做“植物识别”。但直到2012年,他和他学生做的AlexNet,在ImageNet上做的比赛,以超过第二名16%的大幅度差距获得第一名的时候,人们才意识到他这个算法里面一定有什么跟别人不同的地方。

这个算法本身的验证实际很大程度上是由于数据集本身的存在,这是个开放型的数据集,它的数据每个人都能用,而且它的标注都是用Crowd-Sourcing(众包)的方法来做的。如果没有这么一个大的开源数据库,让大家都可以在上面做实验,我们今天在很多领域其实都走不快。

今天我们熟悉的两大AI编程架构都是开源的,一是在学术研究领域常用的PyTorch,二是工业界惯用的TensorFlow。因其开源,社区成员能够对两个平台作出持续贡献与改进,AI算法得以迅速发展和普及。

随着互联网、移动互联网的发展,当大量数据可以使用时,我们在研究方法上也发生了很大改变。从思考公式与算法,到近十年开始的Deployment Driven Research(以实践为驱动的研究),每做出一个模型就立刻投入开源社区,社区成员再将这个模型部署到所要解决的问题空间。一些具体的问题,由此获得快速反馈,产生新的数据,从而帮助这个模型的原作者在一个比自身团队大得多的社区中不断验证自己的算法,从而促进了算法的飞速发展。

开源社区方面,不单要有开源算法和开源数据,更关键的是要有一群人,他们的理念与开源的主旨一致——并非希望从局部获利,而是由长期为某个产业、某项研究,或者整个人类社会的进步所驱动。

这种文化、理念、思维的培养,在我们谈的产学研、新数据时代非常重要,这恰恰是今日中国还相对落后的地方。无论大型的互联网平台公司还是小型初创企业,都已大量受惠于开源,我希望能看到今后中国的工程师、研究员、企业、政府机构、研究院,能够真正地为开源社区、开源算法、开源软件、开源的硬件架构、开源的数据集做出应有的贡献。

07

开源时代,如何解决人的思维孤岛

张宏江讲到,开源时代面临的最大挑战,不光数据本身是孤岛,而是数据孤岛本质上反映出人的思维孤岛。

张宏江:

在数字化时代,许多人的思维、做事方式还停留在互联网之前的时代。我们谈到在大数据驱动、在Deployment Driven(实践驱动)这种新的研究方法的时候,另一方面所碰到的困难是在大学和研究院,我们衡量晋升的标准依然是20年前非常传统的标准,还是数文章、看引用。

这是一个很大的矛盾。我一个多月前给清华经管学院的所有青年教师作过一次报告,专门谈到如何做有影响力的研究工作。大家其实都知道应该怎么做,都知道应该更多和开源社区合作,更多用开源数据,更多用Deployment  Driven(实践驱动)这种新的方法,但是这都需要大量工作,而且工作不是写Paper,这个工作是要把算法真正写成Code,Code经过测试能够真正的运营起来,能够把代码开放出来,让别人能够重复。这些工作某种意义上,很多是Dirty Job(脏活累活)。

你做了很多这种工作,然后在开源社区去推广这些工作,你帮别人来重复你的事业,这部分要花费大量精力,那也许我有这个精力可以多写两篇文章。这是在我看过去两年碰到的一系列问题。未来我们还将面对这些难题,在挑战中不断探索,希望能够逐渐改善。

论坛的最后,张宏江提到,改变学者的动机或是改变环境是个长期的过程,不可一蹴而就。

张宏江:

我看到一代一代年轻学者变得更加开放,更加适应于开源,适应于这种新的环境。另外,把研究作为一份职业还是把研究作为一个事业和爱好,在年轻一代里面我们看到更多是作为自己的追求和自己的事业,而不是一种职业。

基于这一切改变,长期来看我们一定能够看到好转的趋势。智源不仅把领军学者聚到一起,更重要的,是我们把数量众多的青年科学家聚到一起,围绕他们开展更多活动,为他们提供更多机会——无论是数据、计算资源,还是研究基金。也可以说把他们聚在智源,因为在学校,他们每个人都非常强,但非常小的集群,智源把他们凝聚成比较大的群体,这样他们交流起来就会更容易。

大数据来源于超大规模的城市,以城市作为一个单元,作为中心,人口聚集本身就产生了大量应用场景,产生了大量应用场景所相关的数据。所以在大数据时代,在AI时代,产学研也会逐渐形成区域特色,随着每个区域彼此的长项,擅长产业的聚集,相信我们也能看到产学研的不同聚集。


点击左下角“阅读原文”,了解更多!

张宏江:开源时代如何解决人的思维孤岛相关推荐

  1. 机器学习泰斗Michael I. Jordan与张宏江共话青年成长之路:研究者要对复杂时代有所贡献...

    "别为宣传而烦恼.我并不用Twitter.Facebook等社交平台,也许这反而为我带来了一些信誉." "我喜欢放慢脚步,并不喜欢盲目参与到竞争中.我建议你们在一定程度上 ...

  2. 张宏江对话清华“智班”:我想看到更多极客

    2021年10月17日,智源研究院理事长张宏江博士在清华大学交叉信息学院与"智90班"(2019级清华"智班")同学们做了主题为<漫话职业规划>的报 ...

  3. 源码资本张宏江:只有算法和技术,那你一定挣不到钱

    来源:拓扑社 概要::在人工智能这一拨的技术浪潮的公司,互联网不一样的地方就在于互联网基本上是商业模式驱动,搜索以前没有,to C这块是赢家通吃.这块做成熟以后进入互联网+. 张宏江认为,一家传统公司 ...

  4. 本科学历马斯克当选美国工程院院士!张宏江、萨蒂亚:“我们都有美好的未来”...

    AI科技评论 当地时间2月9日,美国国家工程院官网公布2021新入选的院士名单.共有111名院士和22名海外院士在名单中. 此份名单体现出了极大的"包容性",入选者有:仅是本科学历 ...

  5. OpenAI CEO亮相“AI春晚”,与张宏江隔空问答:10年内会有超强AI

    <AI未来指北>栏目由腾讯新闻推出,邀约全球业内专家.创业者.投资人,探讨AI领域的技术发展.商业模式.应用场景.及治理挑战. 文 / 腾讯科技 苏扬 .郝博阳 凭借ChatGPT走红的O ...

  6. 张宏江:人工智能的长远发展需要有人坐冷板凳

    从金山 CEO 退休两年后,除了在源码资本任职投资合伙人,张宏江又在刚刚成立不久的北京智源人工智能研究院担任首届理事长,致力于推动不同行业分享大数据,让从事基础研究院所和 AI 的创业公司更容易获得数 ...

  7. 图灵奖得主Hopcroft对话智源理事长张宏江:人工智能战略、研究和教育

    11月1日,智源人工智能研究院理事长张宏江博士与图灵奖获得者.康奈尔大学教授 John Hopcroft就"人工智能:战略.研究与教育"进行了一场对话. 计算机科学是当下的热门专业 ...

  8. 专访张宏江:撑开深度学习瓶颈,中国也有做出国际顶尖研究的环境

    机器之心原创 作者:闻菲 张宏江认为,智源研究院将人工智能领域的优秀人才聚在一起,探索并成功找到一个能够产生原始创新与长期影响的领域,即超大规模预训练模型:智源将围绕「悟道」巨模型构建生态系统,一方面 ...

  9. 重磅!全球Top 1000计算机科学家公布:张宏江居大陆科学家之首

    点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 来源:guide2research 导读 近日,Guide2Research刚刚出炉了2021年世界顶尖1000名计算机科学家排名. ...

最新文章

  1. mapreduce理解_大数据
  2. JSP数据交互(二)
  3. 文件I/O实践(3) --文件共享与fcntl
  4. html页面图片翻转特效代码,如何使用css实现翻转图片的效果(附代码)
  5. linux 防火墙 iptables的简单使用
  6. 结对-结对编项目作业名称-开发环境搭建过程
  7. pku2192(并查集+枚举)
  8. idea报错:Invalid bound statement (not found)
  9. 拓端tecdat|R语言结构方程模型SEM分析心理学和营销研究数据路径图可视化
  10. macpro如何清理磁盘空间_Mac系统空间占用太大,如何清理磁盘空间
  11. 程序员学英语Oeasy
  12. 解决git fatal:无法找到‘https‘的远程助手
  13. Jetty开发的相关
  14. 氛围感新年头像如何制作?教你简单的制作好看头像的办法
  15. 用python画星空-python3的turtle画模仿3d星空,运动的恒星小宇宙
  16. bodgeito通关教程
  17. css border实现图形
  18. 《C语言之习题大全》
  19. JPG图片怎么压缩到30k内?如何压缩图片到指定大小?
  20. LIO-livox - 激光IMU初始化模块分析

热门文章

  1. return true Java_[Java教程]js中return,return true,return false的用法及区别
  2. mysql where后面if_mysql查询语句where后面加if判断
  3. python中如何在写文件之前删除文件内容_Python:文件的读取、创建、追加、删除、清空...
  4. linux创建ftp指定目录命令行,Linux-命令行建立FTP
  5. linux 下/proc/cpuinfo三级缓存,linux /proc/cpuinfo文件分析
  6. java 理论与实践,Java 理论与实践: 正确使用 Volatile 变量
  7. oracle or条件后 排序,WHERE条件和排序
  8. matlab的dft谱分析,数字信号处理基于matlab(用DFT作谱分析,窗函数的设计)
  9. 网络广告计费方式常用术语
  10. linux 查看日志信息--less命令