点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

AI生成的文本好不好,最权威的评估者竟然不是人类自己?

最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:

未经过训练的人类评估文本时,往往过分关注生成文本像不像人话,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。

研究人员就给出了一个例子:

他们分别让未经训练的人类和机器来评价一段GPT-3生成的文字。

这段文字翻译过来为:

从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。

人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。

这可能就是一个海盗想回家陪老婆孩子吧,AI可能没理解,但是这也没什么稀奇的。

机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:

海盗会有老婆孩子?还不和他一起在船上生活?

对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。

而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确。

很难分辨出GPT-3生成的文本

为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和AI生成的文本。

他们选择了故事、新闻、菜谱三种不同的文体进行测试。

具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。

结果显示,在区分人类和GPT-2创作的文本时,被测试群体的正确率为57.9%

但是在区分GPT-3生成的文本上,正确率就下降到了49.9%

而二选一问题的随机概率就有50%……

显然,普通人已经很难识别出当下最先进的NLG模型所生成的文本。

为了更进一步了解受试人员是如何做出判断的,研究人员对150个回答进行了分析。

结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。

150个回答中,基于文本形式的判断几乎是基于内容判断的2倍

但是,GPT-3在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨GPT-3生成文本。

而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。

既然NLG模型训练后可以变强,那培训一下评估人员呢?

研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。

他们准备了3种不同的培训:

第一种是给出明确的判断标准,让受试人员学习后来判断;

第二种是通过大量的实例训练,也就是题海战术;

第三种是通过不断对比来完成训练。

然而结果表明,这好像并没有什么用

三种培训后的判断正确率分别为52%、55%、53%,相较于未受训时的表现,没有显著提高。

不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。

基于这样的实验结果,研究人员认为在评估最先进的NLG模型方面,人类可能真的不太靠谱了。

这实验不太靠谱

对于这样的结论,网友们提出了一些不同的看法:

判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。

或许是这项研究中的受试人员不太行?

有人就指出了问题所在:他们用的Amazon Mechanical Turk的评估员。

是受试人员不太行。

AMTurk作为一个众包平台,近年来实在是饱受诟病。

此前BBC报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。

而且招募到的人员水平也常常参差不齐。

不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。

这要取决于生成文本的目标人群是谁。

实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。

尽管顶级文学评论家将其描述为“20世纪实验文学的伟大纪念碑之一”和“英语中最美丽的散文诗之一”,但对于大多数普通读者而言,它非常晦涩难懂。

此外,也有人就对这项研究提出了改进建议:

我认为他们可以用更简单的NLG算法(基于规则,n-gram, rnn)进行更精细的分析,并对“非专家”评估者进行排名,而不是将他们作为一个群体来处理。

而关于NLG模型生成文本的评估问题,谷歌曾给出过一个方案。

2020年,它们提出了一个可量化评估NLG模型性能的指标——BLEURT

这是一个基于BERT的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。

其最大的优势就是,评估速度更快

谷歌研究人员认为这个指标有助于NLG模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。

论文地址:
https://arxiv.org/pdf/2107.00061.pdf

参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/ok6c4k/r_human_evaluations_no_longer_the_gold_standard/
[2]https://arxiv.org/abs/2004.04696

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

人类评估已不是NLG的最佳标准,华盛顿大学提出全新观点,网友:那是评估人水平不行...相关推荐

  1. Paper之ACMCHUISTICUCIJHC:2009年~2019年人机交互技术(计算系统人为因素会议用户界面软件计算国际会议国际人类计算机研究人机交互的交易)历年最佳论文简介及其解读

    Paper之ACMCHI&UIST&ICUC&IJHC&TCHI:2009年~2019年人机交互技术(ACM CHI计算系统人为因素会议&ACM用户界面软件和技 ...

  2. 在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法

    胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性.不同的预后和不同的组织学亚区,即瘤周水肿/瘤周浸润侵犯组织,坏死组织,增生活跃的组织,非强化的组织.这种内在的异质性也表现在它们的影像学表型上, ...

  3. 期待已久的2012年度最佳 jQuery 插件揭晓

    期待已久的2012年度最佳 jQuery 插件揭晓 让人期待已久的2012年度最佳 jQuery 插件终于发布了.jQuery 自2006年发布以来,经过6年的迅速发展,目前已是最流行和使用最广泛的 ...

  4. NLP领域“学霸”太多,一年前标准已过时,新跑分标准SuperGLUE出炉

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitA DeepMind.纽约大学.华盛顿大学或许怎么也没有想到,去年4月才推出的NLP测试基准GLUE,这么快就要过时了. 从今年1月到现在,GL ...

  5. 华盛顿大学对抗疾病的新型秘密武器:训练机器人从人类干细胞中培育微型器官

    内容来源:ATYUN AI平台 科学家们使用液体处理机器人从干细胞中培养出迷你肾脏 机器人能够在21天内培养类器官,并分析完成品 研究人员说,在完成这项任务时,机器人比人类更有效率 研究人员表示,机器 ...

  6. wustl计算机科学世界排名,2020年圣路易斯华盛顿大学排名TFE Times美国最佳计算机科学硕士专业排名第49...

    圣路易斯华盛顿大学实力介绍 圣路易斯华盛顿大学(Washington University in St. Louis),简称WashU或WUSTL,建于1853年2月22日,位于美国密苏里州圣路易斯市 ...

  7. BRC认证辅导,BRC已发展了7大认证标准,涵盖了哪些有关质量和安全的认证

    BRC食品安全全球标准认证在全世界的接受度非常高,在超过130个国家有28000多家企业通过BRC的认证.在2019年2月,BRC认证正式更名为BRCGS,BRC Global Standards.同 ...

  8. 人一个基因用计算机存储,厉害了我的华盛顿大学,用人类DNA侵入电脑系统你听过吗?...

    原标题:厉害了我的华盛顿大学,用人类DNA侵入电脑系统你听过吗? 科技在不断进步 最近,计算机和人类共同合作 完成一项高科技项目 一起来看看吧 最近美国华盛顿大学发表了一份研究报告,引起了科技界的热烈 ...

  9. 穷举问题-搬砖某工地需要搬运砖块,已知男人一人搬3块,女人一人搬2块,小孩两人搬1块。如果想用n人正好搬n块砖,问有多少种搬法? 输入格式:

    某工地需要搬运砖块,已知男人一人搬3块,女人一人搬2块,小孩两人搬1块.如果想用n人正好搬n块砖,问有多少种搬法? 输入格式: 输入在一行中给出一个正整数n. 输出格式: 输出在每一行显示一种方案,按 ...

最新文章

  1. QT cannot open output file debug\OpencvTest.exe: Permission denied
  2. centos下配置nginx支持php
  3. laravel中单独获取一个错误信息的方法
  4. Python内置函数教程
  5. 系统出现“NTLDR is missing press any key to restart”问题解决方案
  6. 数学建模4 论文写作排版和技巧
  7. 深信服何朝曦:托管云为用户上云提供第三种选择
  8. 优雅的redux异步中间件 redux-effect
  9. python mysql autocommit_MySQLdb autocommit的坑
  10. 《黑客帝国》中的代码雨让人身临其境!利用Python轻松实现!
  11. 帮助中心 开源_如何不获得开源帮助
  12. 推荐12个最好的 JavaScript 图形绘制库
  13. 二分查找 递归与非递归实现
  14. MongoDB 学习笔记(一)—— 安装入门
  15. 【LeetCode】【数组】题号:*4238. 除自身以外数组的乘积
  16. python怎么设置加密,Python 加密的实例详解
  17. javascript与php数据交换之json
  18. angularjs(显示和隐身) 依赖注入
  19. Android的Matrix 2
  20. TI CC3200 launchpad 使用 CCS 下载

热门文章

  1. VS2010 MFC中改变static字体颜色、大小、背景颜色(自定义类),及手动关联变量的方法...
  2. Camera+销量突破200万 创始人分享成功经验
  3. Matlab数据的可视化 -- 散点图
  4. Matlab编程与数据类型 -- 开关语句switch/end
  5. 使用CSDN-markdown编辑器
  6. linux 搜索so文件,Linux下查找和安装依赖的.so文件
  7. 年仅 16 岁的黑客少年,竟是搅乱 IT 巨头的幕后主使?
  8. 手把手快速实现 Resnet 残差模型实战
  9. 两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!
  10. 开源大咖齐聚2020启智开发者大会,共探深度学习技术未来趋势