“千言”是由百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步。近日,在2021年12月12日的 WAVE SUMMIT+2021 深度学习开发者峰会上,清华大学长聘副教授黄民烈作了题为“千言:数据驱动技术进步”的演讲,回顾了千言过去一年中取得的进展和广泛影响力,并发布了千言的全新升级,重点聚焦大模型时代的机遇和挑战。此外,还推出了“百+”计划,邀请更多的专家学者共同建设千言,构建世界范围内的中文 NLP 影响力。

 中文开源数据集项目 “千言”获得广泛关注和使用 

“千言”开源数据集项目自2020年8月发布以来,已经有来自清华、哈工大、中科院、美团、OPPO 等14家单位的数据集作者加入共同建设,目前已经覆盖了10多个自然语言处理的任务,包含了开放域对话、机器阅读理解、机器同传、文本生成、情感分析等任务。“千言”为研究者提供了一站式的数据集浏览、整理、下载以及评测体验,受到了越来越多研究者的关注和使用,数据集下载量增长134%,相关任务的提交次数增长649%,增长非常显著。

此外,千言还推动了多项自然语言处理的评测,截至目前总共支持了20多项技术评测,包含了语言与智能技术竞赛(LIC 2021)、CCF BDCI 多技能对话评测、NLGIW 2021 面向事实一致性的生成评测、CCF BDCI 问题匹配鲁棒性评测、NAACL 2021 机器同传评测等。其中,参与评测的人员有57%来自高校和科研院所,21%来自企业,在学术界和工业界都产生了很大的影响力。开源数据集和技术评测的联动,很好的推动了相关任务的技术研究和应用发展。

 “千言”升级:聚焦通用、可信、跨模态等大模型时代的机遇和技术挑战 

推动人工智能技术进步的三大驱动力是算法、算力和数据。其中,数据作为最重要的基础,其数量和质量直接决定了算法能够达到的上限水平。人工智能的历史上,优秀的数据集极大地推动了领域技术的发展和行业的进步。近两三年,随着大模型技术的出现和发展,基于大模型的自然语言处理技术也取得了长足的进步。在取得进步的同时,大模型也带来了新的技术挑战和新的技术机遇,包括了通用、可信、跨模态等。“千言”的升级也重点聚焦在了这三个方面。

第一,通用。通用指模型需要具有全面的、处理多个子任务的能力,同时需要在跨领域数据上具有较好的泛化能力。“千言”推出了多技能对话任务和多形态信息抽取任务来促进模型通用性的提升。在多技能对话任务中,期望模型能够同时处理多种对话子任务,包括知识对话、闲聊对话、推荐对话、画像对话等;在多形态信息抽取任务上,期望模型能够同时处理句子级关系抽取、句子级事件抽取和以及篇章级事件抽取等任务。

第二,可信。可信是指模型在应用中需要有足够的鲁棒性、较高的可解释性以及结果的一致性。其中,为了促进提升模型的鲁棒性,“千言”发布了问题匹配鲁棒性数据集 DuQM、阅读理解鲁棒性数据集 DuReaderchecklist。为了提升模型的可解释性,“千言”发布了情感分析可解释数据集 DuTrust。在事实一致性方面,“千言”则推出三个生成任务来综合进行评测,分别包括了文案生成数据集 AdvertiseGen、摘要生成数据集 LCSTS、问题生成数据集 DuReaderQG。

第三,跨模态。跨模态是指随着内容承载形式的多元化,模型需要具有多模态融合(语言、图像、语音、视频等)的内容理解等能力。为此,“千言”推出了机器同传数据集 BSTC 以及跨模态情感分析数据集 DuVideoSenti 来促进跨模态领域的发展。机器同传主要关注语言和语音跨模态的交互,而跨模态情感分析主要关注语言和视频跨模态的交互。

经过了一年的发展,千言所覆盖的任务和数据集数量显著增加,从最开始的7个任务,发展到最新的12个任务,对应的数据集数量,也从最开始的22个数据集,增加到了现在36个数据集。

 千言“百+”计划:共同构建世界范围内中文 NLP 的影响力 

为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展,千言项目正式推出了“百+计划”,覆盖了“百+数据集作者”和“百+技术专家”。作为“百+数据集作者”,会被邀请进入千言学术委员会。千言会帮助数据集作者发布评测,并提供飞桨开源基线、评测平台和 GPU 算力的支持,提升数据集的影响力,推动技术的发展。“百+技术专家”则是针对优秀开发者和学生的认证,技术专家可以得到大量分享和交流技术方案的机会,并会受邀参与官方活动。

中文是千年华夏文明传承的载体,是中华民族的骄傲和根基。在当下的人工智能时代,“千言”数据开源项目也希望与学术界、产业界携手,共同推动中文信息处理技术的进步,理解语言、拥有智能,改变世界,将华夏文明的宝藏学习并传承下去。

点击链接:千言(LUGE)| 全面的中文开源数据集合 ,或扫描下方的二维码加入千言交流群来了解更多关于千言数据集的详细信息。

百度AI开发者社区百度AI开发者社区 ,为全国各地开发者提供一个交流、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过不断地交流与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开拓应用场景,赶快加入百度AI社区,你对 AI 的所有畅想,在这里都可以实现!

“千言”开源数据集项目全面升级:数据驱动AI技术进步相关推荐

  1. 权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

    自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千 ...

  2. 智能家居控制面板的智能化升级:AI技术带来的新变革

    文章目录 智能家居控制面板的智能化升级:AI技术带来的新变革 智能家居控制面板的智能化升级:AI技术带来的新变革 引言 1.1. 背景介绍 随着社会的快速发展,人们对于智能家居的需求越来越高.智能家居 ...

  3. 聚焦可信AI与产业应用,百度联合发起千言计划实现情感分析2.0升级

    数据集是推动自然语言处理技术进步的基石.为应对自然语言处理技术应用中面临的多领域.多场景等诸多挑战,百度联合中国计算机学会.中国中文信息学会,于2020年8月共同发起中文自然语言处理数据共建计划--& ...

  4. 聚焦NLG前沿技术难题,千言-生成一致性评测竞赛正式启动

    点击左上方蓝字关注我们 自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学 ...

  5. 这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!

    源 | 机器之心编辑部 千言的升级重点聚焦大模型时代的机遇和挑战. 「千言」是由百度联合中国计算机学会.中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步.近日 ...

  6. 推荐!最适合初学者的18个经典开源计算机视觉项目

    英语原文:18 All-Time Classic Open Source Computer Vision Projects for Beginners 翻译:雷锋字幕组(小哲) 概述 开源计算机视觉项 ...

  7. 开源数据集网站推荐,持续更新!

    学习机器学习时,最好使用真实数据,而不是人工数据集.幸运的是,有上千个开源数据集可以进行选择,涵盖多个领域.以下是一些可以查找的数据的地方: 流行的开源数据仓库: UC Irvine Machine ...

  8. 拆解「千言数据集:文本相似度」竞赛第一背后的故事

    欢迎关注[百度NLP]公众号,及时获取更多自然语言处理领域技术干货! 文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索.新闻推荐.智能客服等领域都发挥 ...

  9. Travis CI 漏洞致数千个开源项目机密泄露

    近日,研究人员 Felix Lange 爆出 Travis CI 存在严重安全漏洞,所有公共开源存储库的安全环境变量(签名秘钥.访问凭据和所有公共开源项目的 API tokens 等)都包含到 pul ...

最新文章

  1. 英特尔北京2022年冬奥会体验中心落成
  2. html读取url中文件,HTML5基础知识 - JavaScript API - File - 读取文件为DataURL
  3. Stack:删除并返回栈顶元素?
  4. lucene教程--全文检索技术详解
  5. 从概念到案例:初学者须知的十大机器学习算法
  6. 服务器里怎么更改网站图片大小,php实现在服务器端调整图片大小的方法
  7. 日赚10.07亿?字节跳动去年收入约580亿美元 同比增长70%
  8. ondestroy什么时候调用_JavaScript基础——你真的清楚JavaScript是什么吗?
  9. TimeQuest就一定要搞定——时序分析基本公式
  10. ThinkPHP V5.0 正式版发布
  11. 玩转DataGridView之实现两个GRID间行的拖拽
  12. 软件计算机考研考英语几,软件工程考研考哪几科
  13. [转]河北省生源地信用助学贷款管理系统学生使用手册
  14. api 二次 开发 禅道_禅道 Rest API 开发
  15. 基督信仰与电脑软件 随笔
  16. 电路中的VCC是什么意思?
  17. MiniGUI学习整理
  18. oracle insert all 用法
  19. RabbitMQ-dlx死信队列
  20. ADS16488驱动的软硬件设计以及ROS的驱动

热门文章

  1. 2019-2020 ICPC, NERC, Southern and Volga Russian Regional Contest J. The Parade(二分+贪心)
  2. 代码 百分号2B 是什么意思?
  3. 博图plc十字红绿灯编程
  4. c++ 曲线拟合的最小二乘法 公式 二次多项式和三次多项式
  5. ps连接服务器无响应,ps更新服务器未响应
  6. 常见的软件缺陷与风险
  7. 使用AD绘制PCB板(快速入门)
  8. 久等了!POW'ER 2020上海峰会首批75位参会嘉宾名单公布
  9. 难以置信!一篇文章就梳理清楚了 OpenCV 的知识体系
  10. 计算机网络自顶向下 传输层 习题