源 | 机器之心编辑部

千言的升级重点聚焦大模型时代的机遇和挑战。

「千言」是由百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步。近日,在 2021 年 12 月 12 日的 WAVE SUMMIT+2021 深度学习开发者峰会上,清华大学长聘副教授黄民烈作了题为「千言:数据驱动技术进步」的演讲,回顾了千言过去一年中取得的进展和广泛影响力,并发布了千言的全新升级,重点聚焦大模型时代的机遇和挑战。此外,千言还推出了「百 +」计划,邀请更多的专家学者共同建设千言,构建世界范围内的中文 NLP 影响力。

中文开源数据集项目「千言」获得广泛关注和使用

「千言」开源数据集项目自 2020 年 8 月发布以来,已经有来自清华、哈工大、中科院、美团、OPPO 等 14 家单位的数据集作者加入共同建设,目前已经覆盖了 10 多个自然语言处理的任务,包含了开放域对话、机器阅读理解、机器同传、文本生成、情感分析等任务。「千言」为研究者提供了一站式的数据集浏览、整理、下载以及评测体验,受到了越来越多研究者的关注和使用,数据集下载量增长 134%,相关任务的提交次数增长 649%,增长非常显著。

此外,千言还推动了多项自然语言处理的评测,截至目前总共支持了 20 多项技术评测,包含了语言与智能技术竞赛(LIC 2021)、CCF BDCI 多技能对话评测、NLGIW 2021 面向事实一致性的生成评测、CCF BDCI 问题匹配鲁棒性评测、NAACL 2021 机器同传评测等。其中,参与评测的人员有 57% 来自高校和科研院所,21% 来自企业,在学术界和工业界都产生了很大的影响力。开源数据集和技术评测的联动,很好的推动了相关任务的技术研究和应用发展。

「千言」升级:聚焦通用、可信、跨模态等大模型时代的机遇和技术挑战

推动人工智能技术进步的三大驱动力是算法、算力和数据。其中,数据作为最重要的基础,其数量和质量直接决定了算法能够达到的上限水平。人工智能的历史上,优秀的数据集极大地推动了领域技术的发展和行业的进步。近两三年,随着大模型技术的出现和发展,基于大模型的自然语言处理技术也取得了长足的进步。在取得进步的同时,大模型也带来了新的技术挑战和新的技术机遇,包括了通用、可信、跨模态等。「千言」的升级也重点聚焦在了这三个方面。

第一,通用。通用指模型需要具有全面的、处理多个子任务的能力,同时需要在跨领域数据上具有较好的泛化能力。「千言」推出了多技能对话任务和多形态信息抽取任务来促进模型通用性的提升。在多技能对话任务中,期望模型能够同时处理多种对话子任务,包括知识对话、闲聊对话、推荐对话、画像对话等;在多形态信息抽取任务上,期望模型能够同时处理句子级关系抽取、句子级事件抽取和以及篇章级事件抽取等任务。

第二,可信。可信是指模型在应用中需要有足够的鲁棒性、较高的可解释性以及结果的一致性。其中,为了促进提升模型的鲁棒性,「千言」发布了问题匹配鲁棒性数据集 DuQM、阅读理解鲁棒性数据集 DuReaderchecklist。为了提升模型的可解释性,「千言」发布了情感分析可解释数据集 DuTrust。在事实一致性方面,「千言」则推出三个生成任务来综合进行评测,分别包括了文案生成数据集 AdvertiseGen、摘要生成数据集 LCSTS、问题生成数据集 DuReaderQG。

第三,跨模态。跨模态是指随着内容承载形式的多元化,模型需要具有多模态融合(语言、图像、语音、视频等)的内容理解等能力。为此,「千言」推出了机器同传数据集 BSTC 以及跨模态情感分析数据集 DuVideoSenti 来促进跨模态领域的发展。机器同传主要关注语言和语音跨模态的交互,而跨模态情感分析主要关注语言和视频跨模态的交互。

经过了一年的发展,千言所覆盖的任务和数据集数量显著增加,从最开始的 7 个任务,发展到最新的 12 个任务,对应的数据集数量,也从最开始的 22 个数据集,增加到了现在 36 个数据集。

千言「百 +」计划:共同构建世界范围内中文 NLP 的影响力

为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展,千言项目正式推出了「百 + 计划」,覆盖了「百 + 数据集作者」和「百 + 技术专家」。作为「百 + 数据集作者」,会被邀请进入千言学术委员会。千言会帮助数据集作者发布评测,并提供飞桨开源基线、评测平台和 GPU 算力的支持,提升数据集的影响力,推动技术的发展。「百 + 技术专家」则是针对优秀开发者和学生的认证,技术专家可以得到大量分享和交流技术方案的机会,并会受邀参与官方活动。

中文是千年华夏文明传承的载体,是中华民族的骄傲和根基。在当下的人工智能时代,「千言」数据开源项目也希望与学术界、产业界携手,共同推动中文信息处理技术的进步,理解语言、拥有智能,改变世界,将华夏文明的宝藏学习并传承下去。

访问 https://luge.ai 或者扫描下方的二维码加入千言交流群来了解更多关于千言数据集的详细信息。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!相关推荐

  1. 百度NLP“十年十人”重磅亮相,推出全球最大中文NLP数据共建计划“千言”

    自然语言理解(NLP)素有"人工智能皇冠上的明珠"盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展. 8月25日,以"掌握知识.理解语言.拥有智能& ...

  2. 阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

    作者:临在.岑鸣.熊兮 一 导读 随着 BERT.Megatron.GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万 ...

  3. “千言”开源数据集项目全面升级:数据驱动AI技术进步

    "千言"是由百度联合中国计算机学会.中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步.近日,在2021年12月12日的 WAVE SUMM ...

  4. 又被 AI 抢饭碗?2457 亿参数规模,全球最大中文人工智能巨量模型 “源1.0”正式开源...

    作者 | 伍杏玲 出品 | AI科技大本营(ID:rgznai100) 输入: 昔我往矣,杨柳依依. 今我来思,雨雪霏霏. 行道迟迟,载渴载饥. 我心伤悲,莫知我哀! (以战争为题写一首诗) 回复: ...

  5. 史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集, ...

  6. 由海天瑞声支持,全球最大多领域英语开源数据集发布

    日前,由陈果果.都家宇.张卫强等发起的语音社区志愿者组织SpeechColab和清华语音与音频技术实验室,联合语音社区的8个团队,在语音界大神Daniel Povey, Sanjeev Khudanp ...

  7. 中文普通话语音识别开源数据集(持续更新)

    中文普通话语音识别开源数据集,截止到2022.11.21 数据集 时长(h) 人数 标注准确率 下载链接 开源协议 备注 thchs30 30 40 - openslr.org Apache Lice ...

  8. 资源 | 25个深度学习开源数据集,have fun !

    作者:PRANAV DAR 翻译:Nicola 校对:冯羽 本文共4000字,建议阅读8分钟. 本文介绍了图像处理,自然语言处理,以及音频/语音处理三类25个开源数据集. 简介 深度学习(或生活中的大 ...

  9. 巨量模型时代,浪潮不做旁观者:2457亿参数,打造全球最大中文预训练模型

    作者 | 琰琰 战鼓催征千嶂寒,阴阳交会九皋盘. 飞军万里浮云外,铁骑丛中明月边. 看到这首诗歌,有超过50%的人误以为是人类的杰作 但其实,它出自巨量模型 源1.0 经过图灵测试认证,源1.0 写诗 ...

最新文章

  1. 辽宁省计算机专业A类,辽宁省2008年中职升高职招生考试计算机专业综合试题
  2. 随机从mysql中读取_如何实现MySQL表数据随机读取?从mysql表中读取随机数据
  3. 计算机专业需要转正定级吗,全日制本科考进事业单位,没有取得初级资格职称,转正后能直接聘用为专业技术十二级岗位吗?...
  4. 神奇的计算器dc和bc
  5. 数据库面试题目经典大全
  6. java 多线程生产者_java-Runnable加锁实现生产者和消费者的多线程问题
  7. java锁的级别_Java锁的那些事儿之JDK锁(ReentrantLock)
  8. 关于python多线程和定时器 看图不说话
  9. AHT20温湿度传感器STM32-I2C驱动,替代DHT11/DHT12/AM2320/SHT20/SHT30,IIC代码兼容AHT10/15-MEMS温湿度传感器
  10. CentOS7.5下KVM虚拟机安装
  11. java异常中Exception捕获不到的异常
  12. 分享3个整站打包程序
  13. android 支付宝 记账本,支付宝记账本如何导出?看看这两种方法
  14. 计算机平方在线使用,开平方计算器在线
  15. 中小学机器人类竞赛活动2020-2021
  16. 百度快速排名 24小时进前五 刷网站排名
  17. 手游SDK-数据上报
  18. html2d动画,HTML5之SVG 2D入门11—用户交互性(动画)介绍及应用
  19. keystore生成签名证书
  20. 输入三角形的3条边长(均为正整数),如果不能构成一个三角形,则输出“not a triangle”;如果能够构成一个直角三角形,则输出“yes”;如果不能构成直角三角形,则输出“no”。

热门文章

  1. (十九)java多线程之ForkJoinPool
  2. Hibernate写hql语句与不写hql语句的区别?
  3. unity 常用函数
  4. javascript数组去重方法性能测试比较
  5. 把一个数据库的数据插入到另外一个数据库
  6. 使用PWM实现语音播放
  7. 两台linux之间互传php脚本,linux下两台服务器实现同步的方法
  8. javascript option 菜单图标_苹果电脑上神奇的Option键 巧用option键提升效率
  9. Python基础知识__字符串
  10. 网络教育计算机 判断,北京师范大学网络教育计算机作业1、4、8