谷歌 AlphaFold 2 在蛋白质结构预测方面取得的一系列重要成果引发了广大科研人员对国内 AI 研究现状的思考,中国工程院院士李国杰、中科院计算所研究员 & 博士生导师包云岗纷纷发表了他们对基础研究的看法。

近段时间,谷歌旗下 AI 公司 DeepMind 开发的 AlphaFold 2 在蛋白质预测领域接连迎来重大进展和突破。7 月 15 日,该公司在 Nature 发文表示 AlphaFold 预测的蛋白质结构已经能够达到原子水平的准确度,并正式开放了 AlphaFold 2 的源代码。

之后不久,DeepMind 再次在 Nature 上发文称他们已经使用新开发的 AlphaFold 预测出了 35 万种蛋白质的结构,并与欧洲生物信息研究所合作建立 AlphaFold 蛋白质结构数据库,将预测结果免费开放给公众。这将涵盖 98.5% 的几乎所有人类蛋白。

AlphaFold 2 在蛋白质预测领域的一系列重大进展吸引了国内科研人员的高度关注,并引发了他们对国内基础研究、理论研究和应用研究现状的反思。

近日,中国工程院院士、中科院计算所首席科学家李国杰在科学网撰写的文章《国内 AI 研究「顶不了天、落不了地」,该想想了》刷屏了各大平台,这是他在谷歌 AlphaFold 取得巨大成果之后对国内 AI 研究的一次深入思考。在文中,李国杰院士主要表达了以下几个核心观点:

第一,他认为蛋白质折叠问题的解决是生物学界和人工智能界长期合作努力的结果,但 AlphaFold 2 的「临门一脚」是取得胜利的标志性突破,它用精确的预测结果显示出 AI 技术在基础科研上的巨大威力。AlphaFold 2 的巨大成功给了我们许多耐人寻味的启示。

第二,虽然我们在国家层面已经高度重视 AI 技术的发展,开展了数据智能、量子智能计算、类脑智能灯基础理论研究,近年来也发表了大量的 AI 论文和专利等,取得了一些显著的 AI 落地成果。但他认为,我们的研究多数是技术驱动、论文导向,目标导向和问题导向的研究较少

第三,在选择科研课题时,他表示:「我们与一流科学家的差距之一是选择可突破的重大科学问题的眼光不够敏锐,布局的科研项目要么是增量式的技术改进,要么是几十年都难以突破的理想型目标。」谷歌研究者在利用 AI 预测蛋白质折叠结构上就充分体现了这种超前的预见性。他还认为使用机器学习的方法全自动地做集成电路的前端和后端设计也有可能在十年左右的时间里取得突破。

第四,AI 学者对人工智能的理解可能出现了偏差,一直以来都在追求机器「像不像人」这个目标,AI 研究普遍存在着模仿人、替换人的思想束缚。但是他认为「理性的人工智能发展模式应该承认人有人智,机有机「智」,要充分发挥机器「思维」的特长,做人不擅长做的事情。

第五,AlphaFold 的重大突破得益于跨学科科研人员的紧密合作,比如机器学习、计算机视觉、自然语言处理、分子动力学、生命科学、高能物理、量子化学。他认为基于最基础科学原理的机器学习需要人类多领域科学家的智慧和机器『智能』有机融合,并将「数据密集型科学发现」作为科研第五范式的雏形

第六,AlphaFold 的成果并没有提出新的科学原理,更像是一项技术集成工作,本质上是一种集成式的工程科学技术。因此,他认为「工程科学技术不只是工具,也不仅仅是基础研究成果的应用,而是在基础研究中可以发挥巨大作用的重要组成部分。

第七,他认为,目前我国大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。

李国杰院士的这篇文章可以使我们瞥见国内 AI 研究与国外的一些差异以及存在的一些问题,也为今后 AI 的发展道路提供一些可借鉴之处。

对此,中国科学院计算技术研究所研究员、博士生导师包云岗也在知乎发表了文章,表达了他对基础研究的一些看法。经包云岗本人授权,机器之心对他的观点进行了不改变原意的整理

包云岗关于基础研究的看法

包云岗主要从基础研究的定义、基础研究的具化、自研平台 / 材料 / 试剂 / 设备 / 仪器等基础设施对基础研究的作用以及基础研究的管理与组织四个方面阐述了他的观点。

选择合适的「基础研究」的定义

对于基础研究的不同定义,对应的具体实施方式也不同。过去几十年,主要有两种对研究的定义:

  • Vannevar Bush 在线性模型下定义基础研究和应用研究,这种模式就把基础研究看作是一个知识储备池,是技术进步的源泉。在这种定义下,基础研究的作用是产生知识,不需要考虑和具体技术的关系,因此在实施层面,采用广撒网的方式可能是最有效的产生多样化知识的方式。
  • Donald E. Stokes 通过四个象限来定义不同的研究类型,Stokes 把基础研究分为纯粹基础研究(玻尔象限)与「由应用驱动的」基础研究(巴斯德象限)。在实施层面,波尔象限和线性模型下的基础研究基本一致;而巴斯德象限中,要用尖端的基础科学研究来解决迫切、强烈且巨大的现实需求。在实践时,其实通过解决实际问题「倒逼」基础研究——把一些应用问题的底层原理搞清楚,这就属于基础研究。

个人更青睐 Stokes 的四象限模型。对于一个国家而言,「玻尔象限」、「巴斯德象限」和「爱迪生象限」都不可或缺,但其比例应该是随着时代变化而有所调整的。比如二战期间,美国的哈佛大学、耶鲁大学也都是以爱迪生象限为主,哈佛教授都在为美国海军研制新型鱼雷。但二战后巴斯德象限比例则显著提高。

中国的科研在这三个象限的比例还没有测算过,但我判断巴斯德象限还是偏低的。也许现在这个时局下,国家总体上还是应该有规划地提高巴斯德象限的比例。那需求来自哪里?「四个面向」给出了大方向。以面向经济主战场为例,以华为、阿里等为代表的业界领军企业的需求,就是一种很好的牵引。

基础研究可简化定义为「把问题的底层原理搞清楚」

其实波尔象限与巴斯德象限,在具体科研实践时其实是一样的,就是「把问题的底层原理搞清楚」,只是问题的来源有所不同。波尔象限的问题来源主要来自学科自身,如为什么会有量子纠缠现象;而巴斯德象限的问题来源主要来自现实应用,如为什么牛奶会腐败。

从这个角度来看,只要能提出一些未解的问题,那就有潜力做出好的基础研究工作。

高度重视自研的平台 / 材料 / 试剂 / 设备 / 仪器等基础设施对基础研究的作用

我们可能都有一个体会,「第一次」特别困难,比如第一架飞机、第一颗原子弹、第一颗人造卫星、第一款 CPU、第一次火星登陆等等。哪怕曾经有其他国家实现过,另一个国家要实现「第一次」依然很艰难。

为什么?这主要因为「第一次」研发的输出不仅仅的是一款原型系统,而且还需要构建出一套研制该原型系统的技术流程以及相应的平台 / 材料 / 试剂 / 设备 / 仪器等,也就是基础设施。这些基础设施的作用正是「把问题的底层原理搞清楚」,比如为研制飞机建设的风洞,研制 CPU 需要有高精度的仿真器和模拟器。即使在物理、化学、天文等领域的基础研究,现在也都离不开各种尖端设备和仪器,像研究核聚变的 EAST 托卡马克装置、研究天文的 FAST 望远镜等等。

在我从事的处理器芯片设计领域,很多人都看作是纯粹的工程技术,认为这里面没有基础研究。但在我看来,能把一些问题的底层原理搞清楚,就是基础研究。举个例子,苹果最近推出的 M1 采用了约 600 项 ROB,这完全颠覆了传统 CPU 架构设计人员的观念,因为以往 CPU 的 ROB 一般都不超过 200 项。

也许用反向工程思维,可以很快做出一个也具有 600 项的 CPU 架构设计来。但是,你知道苹果为什么敢这么设计?为什么是 600 项 ROB,而不是 800 项?反向工程只是工程技术,但是如果能把这些问题的底层原理彻底搞清楚,那就是 CPU 架构设计领域的基础研究。

真要搞清楚底层原理并不容易,这需要一整套 CPU 架构设计基础设施的支撑——从程序特征分析技术、设计空间探索技术、高精度模拟器、系统仿真技术、验证技术等等;还需要对大量程序特征进行分析,需要收集大量的原始数据,需要大量细致的量化分析,需要大量的模拟仿真…… 这些都是为了把底层原理搞清楚。

某种程度上,相比较于原型系统,平台 / 材料 / 试剂 / 设备 / 仪器等基础设施是更重要的输出。只有具备这些,才能不断地去深入探索各种现象的底层原理,才能支持后续的迭代优化,同时也能成为培养人才的基地。

基础研究也需要管理与组织

虽然很多基础研究是纯自由探索,但很多基础研究也需要管理与组织,例如探测「希格斯」粒子、研制 LIGO 观测引力波等。

DARPA 资助了很多颠覆性创新的项目。我们观察 DARPA 的项目立项与执行过程,可以看到有一些共性特征:

  • 首先会畅想未来;
  • 科学地把未来畅想分解为一系列子任务;
  • 制定具体子任务的实施计划,包括目标、时间节点等;
  • 子任务最后要集成到一个原型系统中。

项目主管(Program Director)负责上述 4 个任务,具有绝对的项目决策权,同时也对项目负责,相当于抓总。

这种模式其实对基础研究也有效。例如,清华大学施路平教授领导的类脑计算研究中心。2014 年成立,成员来自清华不同的院系。他们的研究模式就是类似 DARPA 项目,整个团队围绕「天机」类脑芯片开展全栈研究。从目前的成果来看,类脑计算交叉中心的成果还是很有显示度,也发表多篇 Nature、Science 论文好,入选中国十大科技进展等等。同时他们也把类脑计算这个学科建立起来。

知乎链接:https://www.zhihu.com/question/280235615/answer/2041990732?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_content=group3_Answer&utm_campaign=shareopn

国内AI研究「顶不了天、落不了地」,到底什么是基础研究?相关推荐

  1. 工程院院士李国杰科学网发文称国内 AI 研究「顶不了天,落不了地」

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 中国 ...

  2. Jina AI 荣获「2022 稀土掘金引力榜」年度新锐企业 Top 10 称号!

    2023 年 1 月 6 日,由稀土掘金技术社区打造的「掘金引力榜」正式公布.凭借在开源技术.产品等领域的积极布局,在社区生态影响力的突出贡献,Jina AI 荣获「掘金引力榜 2022 年度新锐企业 ...

  3. AI 应用研究 “淹没” 基础研究现象明显,应加强人工智能机器学习的基础研究

    文章目录 一.前言 二.主要内容 三.总结 一.前言 从下棋的 AlphaGo 到预测蛋白质结构的 AlphaFold,从画画的 DALL·E 2 到聊天的 ChatGPT,这些或曾红极一时,或正风头 ...

  4. 《中国基础研究竞争力报告2020》发布,6图表速览报告核心结论

    来源: 科学出版社 持续跟踪先进国家基础研究发展态势,准确研判我国基础研究竞争力,科学筹划基础研究发展,对于打造科技核心竞争力.构筑先发优势.蓄积长远发展原动力,具有重要战略意义. 为了支撑科技创新, ...

  5. 王恩哥院士:信息化发展进程中,科学、基础研究和技术、应用都是关键

    图为王恩哥院士接受新华网采访 来源:新华网 由深圳市人民政府指导,中国信息化百人会主办,华为技术有限公司协办的中国信息化百人会2020年峰会于8月7日启幕.会上,中国信息化百人会顾问.中国科学院院士. ...

  6. 战略性基础研究的由来及国际实践研究

    来源:微信公众号中国科学院院刊, 原载:<中国科学院院刊>2022年第3期 作者:阿儒涵1,2.杨可佳3.吴丛1,2.李晓轩1,2* 1 中国科学院科技战略咨询研究院 2 中国科学院大学公 ...

  7. 加大基础研究投入 给科技创新注入“强心剂”

    来源:科技日报 进一步加大政府科技投入力度,引导社会各界对基础研究的投入与布局,健全鼓励支持基础研究.原始创新的体制机制,探索多元化财政科技投入方式,完善鼓励研发投入的政策体系,提升科技经费投入的有效 ...

  8. 科技部部长:基础研究是科技创新“总开关”

    来源:中国新闻网 中新社北京5月19日电 (记者 孙自法)"基础研究是科技创新的'总开关'!"言及基础研究在中国科技发展.增强原始创新能力中的地位与作用,中国科学技术部部长王志刚这 ...

  9. 科技部:基础研究十年行动方案将制定,支持冷门学科等发展

    近日,国务院新闻办公室举行新闻发布会,介绍加快建设创新型国家,全面支撑新发展格局有关情况.科技部基础研究司司长叶玉江在发布会上透露,科技部将根据中央要求制定<基础研究十年行动方案(2021-20 ...

最新文章

  1. 前后端分离的跨域解决方案
  2. 如何组织公司的线下活动
  3. 关于Matconvnet中Conv-ReLU-Pool-NormBatch的总结与思考
  4. jOOQ API设计缺陷的奇怪发生
  5. db2 jdbc驱动参数_JDBC详细整理(一)
  6. 远程连接(加密验证问题解决)
  7. java编程思想(注释文档)
  8. 乡镇医院计算机管理,乡镇卫生院管理系统
  9. MOSEK安装教程及安装过程遇到的问题
  10. 毕业生写论文必备!!从一级目录到三级目录,自动生成美观的目录
  11. 计算机的内存时序参数,电脑内存条很重要的一个参数:时序
  12. 玩转地球: 如何利用SAS绘制现代化地图(附代码)
  13. 超强总结,用心分享丨大数据超神之路(三):Linux必备知识
  14. 微信H5分享 代码和详细配置步骤 js + Java 代码
  15. GPT-2 论文翻译
  16. datasets DatasetDict类
  17. Spring Boot 实践折腾记(10):响应式编程支持库Reactor
  18. 机器人的自述作文_我发明的机器人作文400字
  19. php 微信 ca证书出错,升级CA颁发的证书后微信退款、红包等无法使用
  20. 黑色沙漠 无法使用未完成的文字

热门文章

  1. 不伦不类的Action Script 3.0
  2. cisco路由器基本实验之三 动态路由之RIP协议的配置(Boson NetSim)
  3. avs php,【求助!】小白求个标准反交错AVS脚本和解答困扰我的几个问题!!
  4. 在VM虚拟机中 CentOS7安装VMware Tools(超级详解)
  5. 隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)
  6. eclipse配置maven及查看对应maven配置文件settings.xml的地方
  7. LSTM内部实现原理详解
  8. Ehcache配置参数详解
  9. 图灵访谈 | 鹅厂专家李成熙:做好规划,才能事半功倍
  10. 嘿 Siri,有没有「三天速成深度学习」的课程?