点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务,囊括 80 余种数据变形方法,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,验证约 100 种模型,选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。

项目地址:

https://github.com/textflint

官方网站:

http://textflint.io/

论文链接:

https://arxiv.org/pdf/2103.11441.pdf (点击阅读原文获取)

引言

近年来,随着自然语言处理技术的不断突破,深度学习模型在各项 NLP 任务中的表现正在稳步攀升。2018 年 1 月,在斯坦福大学发起的 SQuAD 阅读理解评测任务中,来自微软亚洲研究院的自然语言计算组所提出的算法率先赶超了人类。短短三年后,微软的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多种自然语言处理任务的综合评测集合 SuperGLUE 上再次超越了人类。近日 IBM 号称“首个能在复杂话题上与人类辩论的 AI 系统”的 Project Debater 登上了 Nature 杂志的封面,该系统在 78 类辩题中获得了接近人类专业辩手的平均评分。我们不禁要问,人类真的被打败了吗? 

事实上,纵使这些 NLP 模型在实验数据集上的表现十分惊人,在实际应用中我们却很难感知到自然语言处理系统“超越人类”的语言理解水平。难倒这些看似“聪明”的模型,只需要一个简单的“逗号”,即便是基于赫赫有名的预训练语言模型 BERT 的算法也不例外。

例如,“汉堡很好吃薯条一般”对汉堡的评价是正面的,但当我们插入“,”时,一些模型就会将“汉堡很好吃,薯条一般”判别为对汉堡的负面评价。一个微小且无关紧要的改动就能使自然语言处理系统失效,诸如此类的例子屡见不鲜。

鲁棒性何为

为何大杀四方的优秀模型在纷繁复杂的现实场景中纷纷折戟沉沙?其中一个很重要的原因是此前缺乏对模型鲁棒性的重视和深入探讨,导致模型只能在特定语料中圈地为王,在模型的效果评测中也仅仅关心在特定测试语料上的性能。如何帮助模型走出这样的困局,给自然语言处理领域带来质的飞跃,是实现下一步技术发展的紧要任务。

鲁棒性是机器学习模型的一项重要评价指标,主要用于检验模型在面对输入数据的微小变动时,是否依然能保持判断的准确性,也即模型面对一定变化时的表现是否稳定。鲁棒性的高低直接决定了机器学习模型的泛化能力。在研究领域中,许多模型只能在某一特定的数据集上呈现准确的结果,却不能在其他数据集上复刻同样优异的表现,这就是由于模型对新数据中的不同过于敏感,缺乏鲁棒性。

在现实世界的应用场景中,模型要面对的是更加纷繁复杂的语言应用方式,待处理的数据里包含着更加庞杂的变化。一旦缺乏鲁棒性,模型在现实应用中的性能就会大打折扣。在测试数据集上获得高分是远远不够的,机器学习模型的设计目标是让模型在面对新的外部数据时依然维持精准的判断。因此,为了确保模型的实际应用价值,对模型进行鲁棒性评测是不可或缺的。

方法 & 实验

目前已有一些正在关注模型鲁棒性的工作,但大多只针对单个的 NLP 任务,或是只使用了少量的数据变形方法,缺乏系统性的工具集合。针对这一问题,复旦大学自然语言处理实验室展开了大规模的鲁棒性测评工作,在桂韬博士、王枭博士、张奇教授、黄萱菁教授的主导下,20 余位博士生和硕士生共同参与,历时 9 个月,开发了面向自然语言处理的多语言鲁棒性测评一站式平台 TextFlint

TextFlint 包含针对 12 项 NLP 任务,设计了 80 余种数据变形方法(20 余种任务通用变形、60 余种领域特有变形),涵盖了领域相关黑盒变形、领域无关黑盒变形、白盒变形、分组抽样、分析报告等等一系列功能。为了确保数据变形方法符合语言使用,针对不同任务上的所有变形选取约 10 万条变形后的语料进行了语言合理性(Plausibility)和语法正确性(Grammaticality)人工评测,确保了变形方法的可用性。使用者仅仅需要添加几行代码,就可以完成模型鲁棒性的详细检测。

对于绝大多数的研究人员,使用 TextFlint 默认参数就可以一键化生成全方位的鲁棒性验证数据,几乎没有任何学习成本。对于有复杂定制需求的用户(例如对数据进行多个变形的组合操作),通过编写配置文件即可满足需求。此外,TextFlint 还提供便捷的鲁棒性可视化报告功能,多维度的鲁棒性分析报告,可以为开发者指引了模型进一步优化方向。用户可以根据报告结果,为模型生成扩展样本或对抗样本,从而直接提升 NLP 模型鲁棒性。

利用 TextFlint,复旦大学自然语言处理实验室还对包括分词、词性标注、句法分析、命名实体识别等在内的 12 项自然语言处理任务的约 100 个模型进行了复现和验证。部分任务还验证了 Microsoft、Amazon 以及 Google 的商业 API 接口结果,共计花费了 2 万多个 GPU 小时,完成了 6.7 万余次实验(全部评测结果可访问 TextFlint.io 获取)。

例如针对细粒度情感倾向分析 SemEval 2014 Restaurant 数据集,将 847 个带有明显情感词的测试用例进行文本变换,使用转换评论对象倾向性极性(RevTgt),转换非评论对象倾向性极性(RevNon)和原句后增加干扰句(AddDiff)三种不同的变形分别生成了 847、582 和 847 个测试实例。10 种不同模型在上述变形语料上的分析结果如下所示:

从结果中可以看到,原始测试集上所有模型的精度(Accuracy)和宏平均 F1(Macro-F1)得分都非常高,平均精度接近 86%,平均宏平均 F1 达到 65%。但是,这些指标在变形后的三个新测试集上均有显著下降。转换评论对象倾向性极性变形使得模型的性能下降最多,因为它要求模型更精准地关注目标情感词。原句后增加干扰句变形导致非 BERT 模型的性能下降显著,这表明大多数非预训练模型缺乏将相关方面与无关方面进行区分的能力。


总结

大规模的其他领域测评结果也同样显示,现有算法在大多数任务的测评数据集上的表现都较原始结果有所下降。即便是基于大规模预训练模型 BERT 的算法在一些任务的精度指标上也呈现了超过 50% 的降幅,这意味着这些算法在真实场景中几乎是不可用的。从以上大规模的评测结果可以看出,目前绝大多数算法模型的鲁棒性都亟待提升,这是一场无可回避的技术攻坚。

复旦大学自然语言处理实验室希望通过 TextFlint 这一面向自然语言处理的鲁棒性评测工具集合,为研究人员提供一个便捷的模型鲁棒性验证方法,从而推动自然语言处理算法更好地应用于真实场景。同时,也呼吁将模型鲁棒性纳入模型评估的必要维度,推动自然语言处理技术实现有效良性的发展。在未来,复旦大学自然语言处理实验室也将投入更多的人力和算力,进一步完善 TextFlint 工具的任务覆盖范围和模型验证数量,并开展面向 NLP 任务的高鲁棒可解释模型的原创研究。

点个在看 paper不断!

复旦大学自然语言处理实验室发布模型鲁棒性评测平台TextFlint相关推荐

  1. 史上最大的实体关系抽取数据集!清华大学自然语言处理团队发布 FewRel...

    雷锋网 AI 科技评论按,在去年的 EMNLP2018 上,清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel.据了解,这是目前最大的精标注关系抽取数据集. 据清华大学自然语 ...

  2. 阿里巴巴发布AliGenie 语音开放平台 “智联网”战略又落一子

    10月12日消息,在2017杭州•云栖大会上,阿里巴巴人工智能实验室发布了AliGenie 开放平台,主要包括三大部分:精灵技能市场.硬件开放平台.行业解决方案,全面赋能智能家居.新制造.新零售.酒店 ...

  3. 【云栖大会】阿里巴巴发布AliGenie 语音开放平台 “智联网”战略又落一子

    点击有惊喜 10月12日消息,在2017杭州•云栖大会上,阿里巴巴人工智能实验室发布了AliGenie 开放平台,主要包括三大部分:精灵技能市场.硬件开放平台.行业解决方案,全面赋能智能家居.新制造. ...

  4. 【NLP】6 gensim word2vec基于中文语料库实战——中文wiki百科、清华大学自然语言处理实验室数据集、搜狗全网新闻数据集

    gensim word2vec自己寻找语料库训练模型--非gensim data 1. 数据下载 2. 中文wiki百科 2.1 数据获取 2.2 数据处理 3. 清华大学自然语言处理实验室数据集 4 ...

  5. 2.特定领域知识图谱融合方案:学以致用-问题匹配鲁棒性评测比赛验证【四】

    0.前言 文本匹配任务在自然语言处理中是非常重要的基础任务之一,一般研究两段文本之间的关系.有很多应用场景:如信息检索.问答系统.智能对话.文本鉴别.智能推荐.文本数据去重.文本相似度计算.自然语言推 ...

  6. (二)目标检测模型的评测与训练技巧

    转载自知乎:https://zhuanlan.zhihu.com/p/34142321 关于作者: @李家丞同济大学数学系本科在读,现为格灵深瞳算法部实习生. -------------------- ...

  7. CCKS 2022 | 如何通过“说一句话”精准获取数据?恒生发布金融NL2SQL评测任务

    某投资者登录券商理财APP,想要查找最近两年上市的公司,并按照最新的市值进行排序.然而他很难直接找到结果,需要经过层层筛选才能大致找到相关结果. 有没有更简便的方式来查找数据?如果说一句话或者打一小段 ...

  8. 香港大学自然语言处理实验室PhD/RA招生(HKU NLP)

    香港大学自然语言处理实验室PhD/RA招生(HKU NLP) (主页: https://nlp.cs.hku.hk/) 教职成员 孔令鹏: CMU博士毕业, 从师于Noah Smith和Chris D ...

  9. 贝尔实验室发布6G通信白皮书

    来源:5G 重要信息 随着5G的广泛部署和落地 无线通信网络演进的风向标转向6G 合理地预测和构建下一代无线网络的全景 是准确把握和引导6G研究方向的前提 2021 MWCS期间 贝尔实验室发布了&l ...

最新文章

  1. 中国交通标志识别,德国交通标志识别
  2. Flask实战1-轻博客
  3. ASP.NET中的Theme和Skin
  4. DevOps发展的9个趋势
  5. 非线性回归模型(part1)--神经网络
  6. 迈达斯cdn使用说明_快速了解CDN是什么
  7. 解决软件开发中常见的问题
  8. HDU-5053 the Sum of Cube
  9. pay.onzan.en app.php,IBOS 协同办公平台PHP版 v1.0
  10. 数据结构与算法面试题
  11. PowerBuilder打印QRCode
  12. 跟这台计算机连接的一个usb设备运行不正常windows无法识别,win10跟这台计算机连接的一个usb设备运行不正常怎么办...
  13. ME54N 采购申请审批
  14. 计算机集成制造相关文献,计算机集成制造专著类参考文献 计算机集成制造期刊参考文献哪里找...
  15. android HDMI (一):HDMI基础篇
  16. Opencv中普通相机模型与鱼眼相机模型的区别
  17. EXT JS 4.3 在线学习
  18. 游戏设计的艺术:一本透镜的书——第十章 某些元素是游戏机制
  19. matlab 离散控制系统仿真,基于Matlab的离散控制系统仿真.doc
  20. 吴恩达直升机控制系列论文笔记

热门文章

  1. 第02章 PyTorch基础知识
  2. 技术图文:如何利用BigOne的API制作自动化交易系统 -- 身份验证
  3. 百度携手同济大学,瞄准AI、智慧交通等核心科技领域攻关
  4. 求助:我有一辆机器人小车,怎么让它跑起来,还会避障、目标跟踪、路径规划?...
  5. ICCV 2019 | 加一个任务路由让数百个任务同时跑起来,怎么做到?
  6. 确认!语音识别大牛Daniel Povey将入职小米,曾遭霍普金斯大学解雇,怒拒Facebook
  7. 如果三十年前有这些AI技术,可可西里的悲剧不会发生
  8. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...
  9. 加速电子化报销费控服务,易快报完成1500万美元B轮融资
  10. 知乎如何洞察你的真实喜好?首页信息流技术揭秘