2021年1月11日,由北京智源人工智能研究院(以下简称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队,发布了面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。

“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”与创造。本次发布的“文汇”模型与1月初OpenAI刚刚发布的DALL·E和CLIP这两个连接文本与图像的大规模预训练模型类似,“文汇”模型能够学习不同模态(文本和视觉领域为主)之间的概念,可以实现“用图生文”等任务,具有一定的认知能力。“文汇”模型参数规模达113亿,仅次于DALL·E模型的120亿参数量,是目前我国规模最大的预训练模型,并已实现与国际领先预训练技术的并跑。

自从2020年5月,OpenAI发布迄今为止全球规模最大的预训练模型GPT-3以来,超大规模预训练模型就成为人工智能领域研究的热点。OpenAI、谷歌、Facebook等国际IT公司都在持续推动大规模预训练模型的进一步发展。可以预测到的是,未来的GPT-4参数又会增大至少10倍,而且处理的数据将会更加多模态(文字、图像、视觉、声音)。

虽然GPT-3在多项任务中表现出色,但它最大的问题是没有常识,不具有认知能力。例如,向GPT-3提问第一个问题“长颈鹿有几个眼睛?”GPT-3回答是两个眼睛,再提问第二个问题“我的脚有几个眼睛?”GPT-3回答的结果也是两个眼睛,这就不符合人类常识。智源研究院学术副院长、清华大学计算机系唐杰教授认为,GPT-3等超大型预训练模型在处理复杂的认知推理任务上,例如开放对话、基于知识的问答、可控文本生成等,结果仍然与人类智能有较大差距。

为推动研发我国自主的大规模预训练模型,解决目前国际主流模型存在的问题,2020年10月,智源研究院启动了新型超大规模预训练模型研发项目“悟道”。此次发布的是“文汇”(面向认知的超大规模新型预训练模型)的一期研发成果,用于自动生成图片、文字以及视频,可具有初级认知能力。智源研究院院长、北京大学信息技术学院黄铁军教授指出,“文汇”模型针对性地设计了多任务预训练的方法,可以同时学习文→文、图→文以及图文→文等多项任务,实现对多个不同模态的概念理解。经过预训练的“文汇”模型不需要进行微调就可以完成“用图生文”等任务,对模型进行微调则可以灵活地接入如视觉问答、视觉推理等任务。

01

面向认知的大规模文本预训练模型“文汇”的基本情况

“文汇”是面向认知的大规模预训练模型,项目研究组提出了针对多模态认知生成的大规模预训练的模型M6:MultiModality-to-MultiModality Multi-taskMega-Transformer。模型整体架构基于Transformer,其中图像进行切块并对块采用ResNet-50提取特征。这些特征以及对应的position embedding让图像和文本能组合在一起送入模型。团队针对性地设计了多任务预训练的方法,通过灵活的mask技巧实现多任务学习。

系统工程上,采用阿里统一多种并行策略的高性能、灵活、易用的分布式框架Whale,使用模型并行+流水并行+数据并行训练进行分布式训练,256卡训练速度是8GPU的29.4倍,加速比接近线性。基于中文百科、知乎、问答三类数据则由搜狗提供。

与GPT不同,研究人员使用Transformer-XL来替换了GPT中原来的Transformer模型,从而能够生成超过Transformer的窗口长度(一般为512)的文本。如下图所示,GPT-XL能够生成基于人设的文本,较好的保持了内容一致性。

02

“文汇”模型应用即将上线

目前,“文汇”已支持基于认知推理的多种自然语言及跨模态应用任务,部分应用即将与搜狗、阿里巴巴、学堂在线、智谱.AI、循环智能等机构合作上线。目前已有四个样例应用可用于展示模型效果。

(一)基于上传图片的开放域问答

本应用基于图片文本的多模态认知预训练百亿模型,可以支持用户上传图片后,针对图片内容进行提问或生成图片的一句话描述。如上传图片后询问“图片中的电脑在水杯的什么位置?”或“生成对应商品图片的一句话描述”。将于未来大规模应用于阿里的电商场景。

(二)Talk to Data,用语言操作数据可视化

本应用基于数据可视化技术,通过将自然语言转化为可视化查询语句QUDA,从而达到“上传图表,输入指令,输出可视化图像”的功能目标。只需要一句自然语言的话,就可以实现数据的可视化自动统计与查询。

(三)基于预训练语言模型的诗词创作应用

本应用可以基于输入的诗歌题目、朝代、作者,生成仿古诗词。与传统基于规则或监督学习的诗歌生成不同,这个应用创作的诗歌来自于自然语言的生成,且无标注数据进行fine-tune,并且可以模仿任意诗人创作任意新颖题目的诗歌,如《赠抗疫英雄》 唐 李白。

下面是基于模型自动作诗的结果:

(四)可控人设的开放域问答

本应用支持用户上传问题,并生成具有人物角色风格的定制化文本回答。与传统的开放式问答不同,“文汇”模型生成的答案具有人设的语言特色,问答内容趣味横生。目前该应用将计划在搜狗的问答场景中使用。

03

“悟道”项目下一步研发计划

目前,“悟道”项目研究团队正在视觉等更广泛的范围内,对大规模自监督预训练方法开展探索研究,已经启动了四类大规模预训练模型研制,包括“文源”(以中文为核心的超大规模预训练语言模型)、“文汇”(面向认知的超大规模新型预训练模型)、“文澜”(超大规模多模态预训练模型)和“文溯”(超大规模蛋白质序列预训练模型)。

2020年11月14日,智源研究院已发布了“文源”(以中文为核心的超大规模预训练语言模型)第一阶段26亿参数规模的中文语言模型。下一步,智源研究院将联合优势单位加快四类大规模预训练模型的研发进度。特别是“文汇”模型,未来将着力在多语言、多模态条件下,提升完成开放对话、基于知识的问答、可控文本生成等复杂认知推理任务的能力,使其更加接近人类水平。计划在今年6月实现“中文自然语言应用系统”“基于图文增强和知识融入的图文应用系统”“基于认知的复杂认知系统”等一批各具特色的超大规模预训练模型,以期达到对国际领先AI技术的赶超,尽快实现我国在国际AI前沿技术研究的领跑。

关于我们

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,简称BAAI)成立于2018年11月,是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立的新型研发机构。

//智源研究院简介

/// 

学术思想 | 基础理论 | 顶尖人才 | 企业创新 | 发展政策

智源发布:悟道 · 文汇 | 面向认知,超大规模新型预训练模型相关推荐

  1. 智源发布《人工智能的认知神经基础白皮书》,一览“AI×脑科学”前沿

    图. 智源研究院<人工智能的认知神经基础白皮书>(2021年) 来源:智源研究院 智源研究院发布 2021 年度<人工智能的认知神经基础白皮书>,兼具专业性与科普性,是人工智能 ...

  2. 【重磅收藏】智源发布《人工智能的认知神经基础白皮书》

    来源:brainnews 完整报告下载链接???? https://event-cdn.baai.ac.cn/20210308/2020-brain-and-machine-intelligence- ...

  3. 「悟道」来了!大规模预训练模型交流论坛开启报名

    2020年10月以来,智源研究院已组建了清华大学唐杰教授领衔,由来自北大.清华.人大.中科院等单位的80余人的AI科学家组成的"悟道"联合攻关团队,开展"文源" ...

  4. 《预训练周刊》第4期:智源「悟道1.0」发布、GPT-3对新一代APP的赋能路径

    No.04 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第4期< ...

  5. 悟道·文澜:北京智源研究院、人大、中科院联手打造的超大规模多模态预训练模型!

    导读 近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被 ...

  6. 智源发布!《人工智能的认知神经基础白皮书》

    完整报告下载链接???? https://event-cdn.baai.ac.cn/20210308/2020-brain-and-machine-intelligence-report.pdf (可 ...

  7. 智源发布 | 大规模并行训练效率提升神器 TDS

    众所周知,「数据」.「算法」.「算力」是当下这轮人工智能技术崛起的重要驱动力.利用海量数据训练大规模机器学习模型有助于我们充分学习数据中蕴含的知识,实现更好的训练效果.然而,随着训练规模的扩大,单张  ...

  8. 智源发布:2021 年十大人工智能技术趋势【附下载链接】

    在12月31日,智源研究院发布了 2020年十大 AI 进展.新的一年,人工智能又将走向何处? 2021年开年,全体智源学者经过深入研讨,从人工智能的基础理论.算法.类脑计算.算力支撑等方面进行预测, ...

  9. AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——15:00-15:40刘嘉教授《From Representation to Comp: the Cognitive N》

    AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛--15:00-15:40刘嘉教授<From Representation to Comp: the Cognitive N& ...

最新文章

  1. 众辰变频器参数设定_电工知识:变频器使用方法设定功能参数的方法
  2. ubuntu修改服务器端口,服务器环境之4:ubuntu14.04安装tomcat,端口修改
  3. [渝粤教育] 西安理工大学 人工智能导论 参考 资料
  4. 关于SimpleDateFormat线程不安全的源码分析
  5. andriod 自写的view 获得屏幕大小和 获得自写view大小的不同写法
  6. Java异常的概念和分类
  7. linux下时间编程,Linux下的时间操作编程
  8. 记一次Jenkins 打包异常 ERROR: Exception when publishing, exception message [Failure]
  9. Linux关键字查询
  10. 比尔·盖茨:如果你想了解硅谷,就看《硅谷》吧 1
  11. 计算机电路与电子学试卷,电路与电子学(第5版)学习指导与习题解答
  12. 关于实习4个月的一些总结
  13. 泛函分析在计算机科学中的应用,泛函分析在小波理论中的应用.doc
  14. 数学笔记25——弧长和曲面面积
  15. storyBoard配置错误导致崩溃 superview]: unrecognized selector...
  16. aardio匹配问题以及编码问题
  17. 【软工作业思考】关于软工的一些概念性理解暨第一次阅读作业
  18. upset图形如何理解
  19. 如何才能达到超光速?
  20. 常量(Constant)

热门文章

  1. pb怎么连接dll_跑步学不会这项技术,谈何PB?
  2. chromium浏览器_全新Edge浏览器上线,Chromium内核,可通过Windows Update更新
  3. access在哪里可以设主键_access利用DAO设置数据表的主键
  4. jsp连接mysql数据库 例子_jsp连接mysql数据库的例子
  5. 转行python经验_【经验分享】转行如何自学Python并且找到工作,分享自己心得
  6. 关于linux基础的博客,第一篇博客,以下。
  7. vbs 服务器获取输入信息,取得服务器上用户组列表脚本之VBS版
  8. mysql工具navicat用户授权_Navicat使用教程:在Navicat Premium中管理MySQL用户 - 第4部分:权限管理器工具...
  9. 16进制转string java_java的2/10/16进制转换和字符串数字转换
  10. python cs开发框架_我的第一个python web开发框架(24)——系统重构与ORM