【前沿重器】

全新栏目,那么栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。

往期回顾

  • 前沿重器[1] | 微软小冰-多轮和情感机器人的先行者

  • 前沿重器[2] | 美团搜索理解和召回

  • 前沿重器[3] | 平安智能问答系统

  • 前沿重器[4] | 腾讯搜索的Quer理解如何直击心灵

  • NLP.TM[38] | 对话系统经典:检索式对话

文章来自:https://zhuanlan.zhihu.com/p/83487924。文章很长,内容很多,所以我还是希望分几篇来聊聊吧。

这次给大家分享的是阿里小蜜的数据量分级处理机制,针对不同的数据量,对各个技能进行针对性处理,而这种针对性处理又因为数据量分级形成了一定的标准化,标准化自然就会为迭代能力带来质的提升。

常规对话系统的架构

对话系统本身比较通用的架构是这样的:

用户的话经过NLU系统,能够完成用户对话内容的理解,根据用户对话的内容,更新聊天状态,这就是上面说的DST(Dialog state tracking),对话状态完成后可以根据这个状态制定对应的回复策略,这就是DP(dialog policy),在有这个策略后就可以生成聊天内容了这就是NLG。

对话内部的拆分明显会让整个结构更为可控,可拓展性也很简单。

数据量分级的出发点

对话系统的一个能力成为“技能”(skill),例如订飞机票火车票,查个百科,客服咨询等。一方面,技能本身有简单困难之分,简单的到天气、查时间,难的可以到客服、闲聊等,因为问题本身的难度导致很难采用很好的策略来处理;另一方面,数据匮乏是常态,客观的数据不足会导致复杂的方法用不了,而也有些时候其实可以通过简单正则之类其实可以快速满足一部分需求。基于这两个出发点,其实可以考虑根据数据量进行分级,通过数据量分级设计方案,满足不同维度和难度问题的需求。当然,这套方案主要针对的还是NLU步骤的。

具体方案

一张图能够清楚解释这个机制,然后来展开聊。

img

无样本

无样本是模型最难解的,但是通过规则之类的方式,能够快速而且精准地处理,例如天气技能:

img

通过挖掘规则,构建类似正则表达式的方式,就能表达大量的句子,准度也非常高,别看不起规则,一条正则基本能够覆盖这个技能的需求,那其实我们根本没必要去用复杂的东西。

天气技能应该是一个比较简单通过规则的技能,这种技能其实对槽位识别的很高,

降级一下,有一些问题其实非常常规简单,可以通过向量检索的方式来处理,这个方案最常见于FAQ的对话场景,例如“怎么截屏”,这是一个非常小的问题,我们几乎不可能找到足量的数据训练,也没必要,毕竟占比非常低,这种问题其实可以通过构建索引然后配置标准问答来处理。下一章谈。

小样本

小样本一般每一类只有十来条数据,给常规模型来做,那是连的塞牙缝都不够。那是如何来做的呢,常规思路主要是这么几个:

  • 数据增强。

  • 上面提到的向量召回。

  • 其他拓展优化方案。

好了一个一个说。

首先是数据增强,对于少但是有代表性的数据,就可以用数据增强的,生成一些基于句式的标准来让模型记住,然后通过构造一些相应的负样本来让模型知道那些事负类,例如有“深圳的天气”生成“北京的天气”,后来模型可能遇到“天”或者“气”就认为是天气了,那就整些负样本,如“天真无邪”,“三气周瑜”认为是负样本即可,告诉模型什么是正,在通过样本手段告诉什么是负,效果其实很好的。

向量召回的核心在于良好的语义相似度模型,而语义相似度这个东西其实不太依赖领域内样本,通过开放域样本来做然后领域内样本fine tuning的方式效果会不错,甚至都不用fine tuning。有了语义相似度模型,抽取中间的向量就可以做匹配了,配置标准的case,如“怎么截屏”进入索引如annoy,来了一个query“手机截屏快捷键”,也转化为向量,在annoy构造的索引向量空间里面找即可。

文章中还提到,利用memory机制强化文本表示,matrix transformation划分类边界,也可以提升分类的效果。

大样本

数据样本较多的话,就到了大家喜欢的模型环节,模型。文中提到的是一套预训练语言模型-蒸馏-多任务学习的架构,这套架构在项目逐渐成熟后可以考虑搭建。

简单的逻辑是这样的。

  • bert效果好且稳定,但是性能有限耗时很高,需要降级。

  • 通过蒸馏手段学习简单模型降级,但效果可以逼近bert。

  • 任务或者场景多了以后通过multitask方案进行适配。

小结

无样本、少样本总是让我们头疼的问题,这时候往往是八仙过海各显神通,在规范化以后,我们可以更加稳定快速地实现这些需求,而针对大样本,我们也可以从发挥稳定的textcnn升级为大模型蒸馏的模式,效果会有新的提升,而这一整体机制,让我们的流程规范化,降低开发成本,如果机制可以,少样本和无样本的任务甚至可以交给产品运营过来完成,这绝对是非常有用的。

前沿重器[5] | 阿里小蜜的数据量分级处理机制相关推荐

  1. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  2. 前沿重器[10] | bert语义空间的思考

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[5] | ...

  3. 深度学习要多深,才能读懂人话?|阿里小蜜前沿探索...

    小叽导读:本篇文章全面阐述了"机器阅读理解综述及在电商领域的探索"主题,总字数近五千字,预计需要10分钟左右的阅读时间.推荐对深度学习.大数据.自然语言处理感兴趣的童鞋收藏. ▌研 ...

  4. 前沿重器[21-25] | 合集:两万字聊对话系统

    前沿重器 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 近期,我再次总结了我的历史文章, ...

  5. 阿里小蜜多模态知识图谱的构建及应用

    分享嘉宾:徐国海 阿里巴巴 编辑整理:monk 国家管网 出品平台:DataFunTalk 导读:本文由阿里巴巴达摩院阿里小蜜团队带来,介绍其在知识图谱方面一年多以来的一些工作进展.主要内容包括:①  ...

  6. 颠覆传统的电商智能助理-阿里小蜜技术揭秘

    http://www.infoq.com/cn/articles/electricity-supplier-intelligent-assistant 一.双11的挑战与服务模式的转型 在全球人工智能 ...

  7. 揭秘阿里小蜜:基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. 前沿重器[13] | 知乎query改写思路启示

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[7] | ...

  9. 机器如何猜你所想?阿里小蜜预测平台揭秘 1

    阿里妹导读:阿里小蜜是2015年阿里发布的一款智能客服机器人.2017年双11期间,阿里小蜜的服务量达到643万,其中智能解决率达到95%,占整体服务量的95%.经过近几年的发展,能否更进一步解决智能 ...

最新文章

  1. 皮一皮:追忆我那随风逝去的阔腿裤...
  2. 转载:JavaScript,JS如何控制input输入字符限制
  3. SAP Spartacus使用到的技术栈
  4. Combox使用的一些技巧
  5. 中文词语概念上下位图谱项目
  6. 三次握手面试题java_java面试题三次握手和四次挥手-嗨客网
  7. 谷歌Chrome浏览器发布10年成霸主
  8. 有了async/await,你可以丢掉promise链了
  9. 你会买新款 Macbook Pro 么?
  10. 基础算法(三)---二分排序(Java)
  11. 卓有成效的管理者——彼得·德鲁克
  12. 轻松调用Google翻译
  13. 【学习笔记之MYSQL篇】实体联系图
  14. java 域名查询,java 查询可用域名
  15. Java jsp导出Excel打开报格式或扩展名错误
  16. 宁西铁路线 宁合线 宁西铁路
  17. iOS开发 黑暗模式
  18. 7 php 内存泄漏_PHP内存泄漏分析定位
  19. C#实现jQuery的方法连缀
  20. 2023阿里云服务器租用价格CPU/内存/带宽/系统盘收费标准

热门文章

  1. 阿里云服务器CPU有AMD处理器吗?阿里云AMD服务器规格大全
  2. sqlbulkcopy是覆盖式更新吗_你“裂开”了吗?微信推出“打工人”专属表情包,没有的别着急...
  3. 关于嵌入式容器技术的调研
  4. html页面之间跳转失败,js跳转到上一页面失败的解决方法
  5. 蓝牙解码格式哪个最好_蓝牙耳机哪个品牌最好?2019好评率超高的四款经典机型...
  6. SpringBoot+Mybaits搭建通用管理系统实例十四:找回密码功能实现
  7. FPGA学习 Vivado使用篇之ILA(逻辑分析仪)
  8. Google图片存储格式WebP增加与PNG类似背景透明效果
  9. java arraylist to array_ArrayList的toArray
  10. Linux 命令神器:lsof