点击左上方蓝字关注我们

自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误、臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千言开源数据集项目(www.luge.ai)联合举办“面向事实一致性的生成评测比赛”。比赛于8月3日开启报名,并将在11月7日首届中国自然语言生成大会(CCNLG-2021)召开评测研讨会并举行颁奖仪式。

本届比赛以事实一致性为核心,将提供三个对事实一致性有较高要求的典型生成任务:文案生成[1]、摘要生成[2]和问题生成[3],结合文本流畅性和事实一致性两项指标,综合评估参赛系统的效果。

除了有挑战性的赛题,百度将赞助赛事为获奖团队提供丰厚的奖金:第一名20000人民币、第二名10000人民币、第三名5000人民币。

报名及竞赛详情链接:

https://aistudio.baidu.com/aistudio/competition/detail/105

赛题背景及事实一致性简介

随着深度神经网络文本生成模型、预训练语言模型的迅速发展,自然语言生成的可读性和流畅性不断提升。然而,自动生成的文本中经常出现不符合输入的错误事实。这个问题被称为“自然语言生成的事实一致性问题”,以自动摘要任务为例,以下描述一个具体的样例:

输入:研究机构此前曾发布报告称2013年长期黄金牛市或将终结,下调黄金3个月、6个月和12个月价格预估分别至1825美元、1805美元、1800美元。近日,大宗商品分析师Damien Courvalin的研究报告进一步预期国际金价到2018年或跌至1200美元/盎。理由是除了实际利率之外,黄金与各货币之间的联动同样影响着黄金价格,不过,三个月黄金价格预估仍然看涨。

参考摘要:近涨远跌,金价2018年或跌至1200美元/盎

这是取自LCSTS数据集[2]的一个样例,对输入的文本,算法需要得出精简的摘要结果。

接下来,我们看两个由自然语言生成算法得到的结果:

结果A(事实一致):研究机构预计国际金价近涨远跌

结果B(事实不一致):分析师:金价2018年或跌至1800美元

可以看到,结果A正确,结果B粗看似乎也比较流畅,但事实和原文表达的内容存在事实偏差(“1800美元”vs“1200美元”)。

目前常用于评估自然语言生成效果的BLEU或ROUGE等指标,其思路均为计算生成文本与参考答案的字面匹配度。然而对结果A和结果B计算与参考摘要的字面匹配度,反而错误的结果B可以获得更高的分数,针对这个问题,我们设计和发起了本比赛。

赛程安排

阶段

时间

说明

开启报名

2021.8.3

报名阶段开始

热身阶段

2021.8.22~2021.9.21

发布训练集、开发集

正式赛

2021.9.22~2021.10.21

发布测试集1,开启在线实时榜单

正式赛-最终测试提交

2021.10.22~2021.10.23

发布测试集2,选手提交最终结果

正式赛-人工评估

2021.10.24~2021.11.6

人工评估top10队伍并确定最终排名

评测会议

2021.11.7

在评测研讨会上发布比赛结果

为确保比赛公平性,正式赛将分为3个阶段开展:

  • 阶段1:开放测试集1,参赛队伍可在测试集1上优化模型效果,提交结果到千言平台后,会在线给出结果并更新实时榜单1;

  • 阶段2-最终测试提交:开放测试集2,参赛队伍计算测试集2上的结果并提交到千言平台;

  • 阶段3-人工评估:以阶段2的自动评测结果为准,排名前10的队伍进入人工评估阶段,为避免自动评估指标本身的评估偏差,将以人工评估为依据确认和公布最终排名。

参赛奖励

千言-面向事实一致性的生成评测比赛的最终获奖团队将获得:

(1)丰厚奖金:第一名20000人民币、第二名10000人民币、第三名5000人民币。

(2)荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。

同时,参赛者也将获得以下福利:

  1. 学习交流机会:在赛事群中与参赛者、组织者深入交流;

  2. 前沿学习资料:获取自然语言生成事实准确性提升方法和评估指标的前沿进展学习材料。

  3. 精美礼品&参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。

比赛组织

指导单位:中国中文信息学会

主办单位:中国中文信息学会自然语言生成专委会(筹)

承办单位:清华大学、哈尔滨工业大学(深圳)、百度

评测委员会:黄民烈(清华大学), 户保田(哈尔滨工业大学(深圳))、肖欣延(百度)

交流群

添加竞赛小助手,备注“NLG”即可加入赛事交流群。

点击“阅读原文“,即可了解竞赛详情并报名!

参考文献

[1] Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.

[2] Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.

[3] Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.

如有飞桨相关技术问题,欢迎在飞桨论坛中提问交流:

http://discuss.paddlepaddle.org.cn/

欢迎加入官方QQ群获取最新活动资讯:793866180。

如果您想详细了解更多飞桨的相关内容,请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle 

Gitee: https://gitee.com/paddlepaddle/Paddle

????长按上方二维码立即star!????

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

聚焦NLG前沿技术难题,千言-生成一致性评测竞赛正式启动相关推荐

  1. 互联网日报 | 1月22日 星期五 | 春节返乡防疫政策发布;滴滴成立技术委员会;2021全国网上年货节正式启动...

    今日看点 ✦ 国家卫健委:春节返乡人员须持有7日内核酸阴性证明,返乡后实行14天居家监测 ✦ 支付宝上线全国核酸机构位置查询.核酸检测预约.上门采样等多项服务 ✦ B站启动"星计划·新春版& ...

  2. 360移动技术开放日 聚焦移动前沿技术(有福利)

    在手机已经成为我们时刻离不开的生活必需品的今天,移动开发技术变得尤为重要. 360移动端可视化的性能监控平台--Argus APM如何帮App提升性能及用户体验? Android P 如何绕过隐藏AP ...

  3. 首届Hadoop技术社区中国meetup来袭!对外报名正式启动!

    自2006年诞生以来,Hadoop技术与社区已走过了13个年头,在经历了大数据技术高速发展之后,迎来了3.x的时代.这些年来,Hadoop如何在腾讯.阿里.滴滴.小米.美团.头条以及京东巧妙落地?在全 ...

  4. 教育大数据应用技术国家工程实验室正式启动

    11月2日教育大数据应用技术国家工程实验室(以下简称工程实验室)在华中师范大学正式启动. 该工程实验室是中国首个面向教育行业.专门从事教育大数据研究和应用创新的国家工程实验室,也是国家发改委首次在教育 ...

  5. 权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

    自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千 ...

  6. 聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

    信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注.传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与 ...

  7. 聚焦可信AI与产业应用,百度联合发起千言计划实现情感分析2.0升级

    数据集是推动自然语言处理技术进步的基石.为应对自然语言处理技术应用中面临的多领域.多场景等诸多挑战,百度联合中国计算机学会.中国中文信息学会,于2020年8月共同发起中文自然语言处理数据共建计划--& ...

  8. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  9. 11月千言最新评测推荐,覆盖中文对话、视频语义理解、可信AI等前沿方向

    千言数据集是百度联合中国计算机学会.中国中文信息学会共同发起的数据共建计划,千言针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式,帮助加速模型的研发.截至目前, ...

最新文章

  1. 汇总|C++系统计时方法以及系统时间戳获取方法
  2. Mysql一些重要配置参数的学习与整理(一)
  3. python画数学函数_Python 绘制你想要的数学函数图形
  4. c语言sin函数近似值,用泰勒公式求sin(x)的近似值
  5. MFC编程入门之十三(对话框:属性页对话框及相关类的介绍)
  6. android select下拉列表_Python+selenium自动化之下拉列表操作(一)
  7. Android 系统定时管理器AlarmManager的使用
  8. 四个月备考计算机考研,这些考研走心建议帮你度过剩下的四个月
  9. EXCEL里如何识别AB和BA并去重?EXCEL里如何对多列同一值不区分顺序去重?
  10. (转)CTA大佬Winton创始人:人工智能会颠覆传统投资吗?
  11. API理解清晰(转载)
  12. GVM(openVAS)中scan configs为空的问题解决
  13. 改掉这些坏习惯让你的学习效率升高
  14. 2019北航_夏令营
  15. MySQL 批量修改库、表、列的排序规则
  16. 使用Retrofit2封装适用于组件化项目的网络库
  17. WINDOWS系统服务详解
  18. 音频处理中的瞬态概念 Transient phenomena of Audio Signal Proccess
  19. hive-staging文件问题——DataX同步数据重复
  20. 剑网三重置版服务器维护,12.29日剑网三重制版更新公告

热门文章

  1. v24.03 鸿蒙内核源码分析(进程概念) | 如何更好的理解进程 | 百篇博客分析HarmonyOS源码
  2. 信合考试计算机知识,2015年陕西信合考试试题答案――计算机基础知识一
  3. 微信小程序TOP100揭晓,多数为低频APP
  4. 《时间简史》—— 读后总结
  5. Winsoft OCR for FireMonkey AND Delphi CB XE2-10.4 Sydney
  6. PMBOK第六版-十五至尊图
  7. 纪念一下这个小小里程碑
  8. 如何在word和wps中添加分割线
  9. Windows:16bit Windows Subsystem:config.nt.The system file is not suitable for running MS-DOS...究极解法
  10. CSS垂直及水平居中小技巧