【学习周报】

总结自己的学习和遇到的好材料。

往期回顾:

  • 学习周报20200627 | 项亮

  • 学习周报20200712 | 百面深度、召回、技能

  • 学习周报20200720 | 公众号、codis、衰减

  • 学习周报20200802| 文本分类综述、纠错

  • 学习周报20200825| 好久不见攒了好多东西

em...感觉自己的学习周报变成了月报哈哈哈,小小的总结下。

先给个目录:

  • 语言模型经验

  • 整理的几篇对话文章

  • 任务型对话简单小结

  • 对话型推荐系统

  • 论文

语言模型经验

  • 语言模型需要根据场景给一些过拟合的数据,如语音场景的、专有名词场景等。

  • 统计语言模型不太对噪音敏感。

整理的几篇对话文章

  • 认真的聊一聊对话系统(任务型、检索式、生成式对话论文与工具串讲):·https://zhuanlan.zhihu.com/p/83825070

  • 小蜜团队万字长文 | 讲透对话管理模型最新研究进展:https://zhuanlan.zhihu.com/p/100825157

  • 任务导向型对话系统——对话管理模型研究最新进展:https://zhuanlan.zhihu.com/p/100843827

  • 多轮对话之对话管理(Dialog Management):https://zhuanlan.zhihu.com/p/32716205

  • 任务型对话管理的产品实践(第一篇)- 实现方法的回顾:https://zhuanlan.zhihu.com/p/71785382

  • 小蜜团队万字长文:讲透对话管理模型研究最新进展:https://zhuanlan.zhihu.com/p/100684426

  • 多轮对话-检索式:https://blog.csdn.net/qq_33858719/article/details/93191037

  • 检索式chatbot:https://zhuanlan.zhihu.com/p/44539292

  • 检索式对话模型总结:https://zhuanlan.zhihu.com/p/46366940

  • 填槽与多轮对话 | AI产品经理需要了解的AI技术概念:https://coffee.pmcaff.com/article/971158746030208/pmcaff?utm_source=forum&from=related&pmc_param%5Bentry_id%5D=950709304427648

任务型对话简单小结

  • query理解。

  • 记录(跟踪)对话状态。(dialogue state tracking,DST)

  • 对话策略。(Dialogue Policy,DP)从规则到强化学习。

  • 回复生成。

对话型推荐系统

  • https://blog.csdn.net/weixin_43993244/article/details/106845080

  • https://arxiv.org/abs/2004.00646v1

  • https://blog.csdn.net/qq_40247584/article/details/107189648

论文

【1】 A Hybrid Model for Chinese Spelling Check

摘要:中文拼写检查比其他语言更具挑战性。本文介绍了一种用于中文拼写检查的混合模型。混合模型由三部分组成:一个用于一般错误的基于图的模型,另一个用于特定错误的独立训练的模型。在图模型中,将为每个句子生成一个有向非循环图,并对图执行单源最短路径算法,以同时检测和纠正一般的拼写错误。在此之前,首先通过条件随机字段解决功能词(字符)的两种类型的错误:“在”(at)(拼音为中文),“再”(再次,更多,然后)的混淆(拼音:zai)和“的”(of)(拼音:de),“地”(-ly,副词形成粒子)(拼音:de)和“得”(因此必须)(拼音:de )。最后,利用基于规则的模型来区分代词用法混淆:“她”(她)(拼音:ta),“他”(他)(拼音:ta)以及其他一些常见的搭配错误。在SIGHAN Bake-off共享任务发布的标准数据集上评估了提出的模型,从而提供了最新的结果。

图结构问题场景:

  • 可能会更换实际上无意义的词。

  • 切词问题可能会导致错误的字包含在词里。

【2】 Chinese Spelling Checker Based on Statistical Machine Translation

摘要:中文拼写检查是许多NLP应用程序(包括文字处理器和搜索引擎)的重要组成部分。但是,与英语(例如英语或法语)字母检查器相比,中文拼写检查器更难开发,因为中文书写系统中没有单词边界,并且各种中文输入法都可能引起错误。在本文中,我们提出了一种新的中文拼写检查方法。我们的方法涉及基于短语统计机器翻译框架的错误检测和纠正。结果表明,所提出的系统在错误检测方面具有明显更好的精度,并且在纠错方面具有更令人满意的性能。

  • SMT统计翻译模型。

  • 这意味着对平行样本的需求非常高。

【3】A Hybrid Ranking Approach to Chinese Spelling Check

摘要:我们提出了一种新的中文拼写检查(CSC)框架,该框架是一种用于检测和纠正中文拼写错误的自动算法。我们的框架包含两个关键组成部分:候选人生成和候选人排名。我们的框架与以前的研究(例如基于统计机器翻译(SMT)的模型或基于语言模型(LM)的模型)不同,因为我们将SMT和LM模型都用作生成校正候选的框架的组成部分,以便获得最大召回率;为了提高精度,我们进一步采用了支持向量机(SVM)分类器对SMT和LM生成的候选进行排序。实验表明,我们的框架优于其他系统,这些系统在SIGHAN 7共享任务中采用了与我们相同或相似的资源。即使与使用大量资源(例如大量的大型词典,成语词典和其他语义信息)的最新系统进行比较,我们的框架仍然可以获得有竞争力的结果。此外,为了解决训练SMT模型的资源稀缺问题,我们使用SIGHAN 7共享任务提供的使用汉字混淆集生成约200万个人工训练句子,其中包括一组形状相似且发音相似的汉字。

有关未登录词方式的未登录词检测,分析:

(1)拼写错误字符在多个字符的单词中。例如,在CRF分段序列中:“想必/他们/很/烦脑/吧/!”,错误字符脑(大脑)为倍数 字符块烦脑。由于它不是单词,因此它不包含在中文字典中。

(2)拼写错误字符在单个字符词中。例如,按照分段顺序:“学校/的/课桌椅/大/不/分/在/上面/都/有/很多/的/涂鸦/。”的拼写错误字符不(否)被分段为 一个字符的单词。

结论:

  • 如果一个单词仅包含一个汉字,则将所有候选单词添加到混乱集中。

  • 如果一个单词包含多个汉字,并且不在词典中,则将单词中的所有字符替换为混乱集中的候选单词。如果生成的单词在词典中,请将其添加为候选单词。

  • 如果一个单词包含多个汉字并且在词典中,请不要执行任何操作。

本文的一大重点就是在排序层面使用了人工特征+机器学习的方式进行排序(我其实也有点这个想法),用了如下特征:

  • character features (Base),。

  • pointwise mutual information (PMI)

  • identity of the character sequence if it exists in the dictionary (DICT) and the n-gram word list。

个人感觉这些特征用起来效果应该会不错,但是这些特征的构造注定需要很多平行样本,个人来看其实有一些可能可以使用的数值特征:

  • 原句和变句的打分和ppl

  • 两者差

  • 变化百分比

  • 变更点位置

  • 编辑距离

  • 拼音编辑距离

这里用模型的初衷其实是避免使用复杂规则,那么只需要把我们规则中涉及的东西拆解然后交给模型即可,这样也能避免使用文本之类的需要大量平行样本才能训练。

这篇文章也列出了很多评价指标。

【4】The Design and Implementation of XiaoIce, an Empathetic Social Chatbot

摘要:本文介绍了世界上最受欢迎的社交聊天机器人Microsoft XiaoIce的发展。XiaoIce独特地设计为具有情感联系的AI伴侣,可以满足人类对沟通,情感和社会归属的需求。我们在系统设计中同时考虑了智商(IQ)和情感商(EQ),将人机社交聊天转换为基于Markov决策流程(MDP)的决策,并针对长期用户参与度对XiaoIce进行了优化,以每次会话的预期会话次数(CPS)。我们详细介绍了系统架构和关键组件,包括对话管理器,核心聊天,技能和移情计算模块。我们将展示XiaoIce如何在长时间的对话中动态地识别人的情感和状态,理解用户的意图并响应用户的需求。自2014年发布以来,小冰已经与6.6亿活跃用户进行了交流,并成功地与其中许多人建立了长期关系。对大型在线日志的分析表明,XiaoIce的平均CPS为23,大大高于其他聊天机器人甚至人类对话的CPS。

IQcapacities include knowledge and memory modeling, image and natural language understanding, reasoning, generation and prediction.EQ has two key components, empathy and social skills.Personality is defifined as the characteristic set of behaviors, cognition and emotional patterns that form an individual’s distinctive character.

评价指标:Conversation-turns Per Session,CPS。

对话系统的成分:

对话管理器(Dialogue Manager)。管理整个对话,主要由全局状态追踪器、对话规则、话题管理器3部分构成。

  • 全局状态跟踪器用于对整个对话状态进行记录和更新,简单地说其实就是整理为一个向量吧。

  • 对话规则用于实施一些聊天策略,例如某些技能点的触发、转移等。

  • 话题管理器一方面会根据网络舆论情况生成主体,另一方面会根据用户的聊天情况抽取出来,作为话题和用户开始聊。话题管理器一个很重要的点在于选择什么话题来和用户聊,这里用到了“召回-排序”结构,使用的特征:上下文相关性、新鲜度(新闻类)、个人兴趣、受欢迎度、接受率。

情感计算。情感计算主要包括上下文对话理解(NER、共指消歧、句子完整性)、用户理解(主题偏好、意图标签、情绪分析、观点分析、用户ID)和人际关系处理(保证恢复正常且符合小冰人设)。

核心对话模块。分为开放域和限定域。开放域非常强数据依赖(data-drive),整体架构也是划分为“召回-排序”两个阶段。召回分为基于搜索(Lucene)、基于神经网络生成(GRU-RNN)和基于用非成对数据的搜索。排序则由局部相似特征(语义相似度)、全局相似度、情感匹配特征、文本匹配特征构成。

图像评论:不仅可以正确识别对象并真实地描述图像的内容,还可以生成能反映个人情感,态度等的善解人意的评论。

  • 图像文本相似度。Deep Multimodal Similarity Model Fang et al. [2015]

对话技能。涉及特定领域完成任务的能力,日常的如听音乐、订酒店、定闹钟等。

  • 内容创作。结合输入内容,情感因子做种用RNN生成。

  • 深度参与。特定技能满足用户知识上和情感上的需求。(智商和情商的平衡,单对单和小组讨论之间的平衡)

  • 任务完成判断。

学习周报202011004 | 攒一大波分享给大家相关推荐

  1. 让学习体系化,造福一大波上进青年

    前提: 我默认这里的「学习」,属于提升自己的范畴,不是指应试的那种. 以下的一切,建立在兴趣的基础上.没有兴趣,一切都是妄言. 体系化是学习的正道.学到的东西只有纳入自己的知识体系中,才算是为自己所用 ...

  2. 北航计算机学院牛建伟教授评价,【北京】又有一大波学生踏上科学之路!中国工程院院士、北航教授、往届优秀学生分享成功经验,快来取经...

    原标题:[北京]又有一大波学生踏上科学之路!中国工程院院士.北航教授.往届优秀学生分享成功经验,快来取经 又有一大波 经层层选拔的学生 即将踏上科学之路啦! 1月27日 北京青少年科技人才培养项目启动 ...

  3. Datawhale组队学习周报(第019周)

    本周(06月21日~06月27日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程.数据挖掘实战(异常检测) 已经结营,另外一 ...

  4. Datawhale组队学习周报(第018周)

    文章目录 本周结营的开源内容 即将结营的开源内容 正在进行的开源内容 七月排期的开源内容 希望排期的开源内容 每周号外 Whalepaper 招新公告 本周(06月14日~06月20日),第 25 期 ...

  5. Datawhale组队学习周报(第017周)

    本周(05月31日~06月06日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程 已经结营,另外两门课程也在结营筹划中. 第 ...

  6. 一大波优秀3D作品来袭!看各国3D艺术家如何描绘2020!

    已经迈入农历2021年,回望过去一年,如果要用一张图像去表达你的2020会是怎么样的呢? 散落在世界各地的3D艺术家们用3D作品分享了他们心中的2020. 下面就让我们一起来欣赏这些优秀的3D创作吧! ...

  7. 15个常用excel函数公式_【Excel公式函数】一大波常用的日期公式来袭,强烈建议收藏!...

    使用Excel就难免会遇到与日期有关的问题,今天分享一大波实用公式,可以帮你解决常见的日期类问题. 1.只提取日期公式:=INT(A2) 2.只提取时间公式:=MOD(A2,1) 3.只提取年份公式: ...

  8. 肖 清华计算机系 北大生命科学,7个清华北大,11+复旦交大,后续还有一大波浙大……他们都是同班同学!...

    原标题:7个清华北大,11+复旦交大,后续还有一大波浙大--他们都是同班同学! 2001班 王 炸 浩气展虹霓 踏歌振山河 近日,随着"强基计划""三位一体"陆 ...

  9. 融资晚报:一大波创业公司获得融资

    融资晚报:一大波创业公司获得融资 2015-03-16 25 公众小额捐赠平台路人甲完成200万天使融资,"路人甲"由友成基金会孵化,是北京汇涓时代网络科技有限公司旗下产品.路人甲 ...

最新文章

  1. 基于TensorRT车辆实时推理优化
  2. 设计模式之五 责任链模式(Chain of Responsibility)
  3. mysql auto_increment建表_在mysql表中创建一个ID auto_increment(在事实之后)
  4. 用代码来说明,为什么需要面向扩展的设计
  5. python序列化模块struct_python的struct模块
  6. opencv学习笔记1:图片读入,显示与保存(有代码)
  7. 推荐一个Python终身学习者
  8. 前沿分享|阿里云数据库资深技术专家 姚奕玮:AnalyticDB MySQL离在线一体化技术揭秘
  9. JS —— 存取器属性get()和set()
  10. Java 异步回调机制实例解析
  11. 借助HiddenText 确定CheckBoxList当前的操作类型及点击的CheckBox
  12. 天猫苛费猛如虎,天猫抽检潜“坑爹”
  13. Report Service中报 RSClientController 未定义
  14. 美国最好的计算机工程专业排名,2017年美国大学排名之计算机工程专业排名TOP100...
  15. 浅谈人脸识别技术的方法和应用
  16. 心动的本质是什么_风动,幡动,仁者心动,到底是什么在动
  17. 适用于 iOS、Android 和 Windows 设备的移动设备管理
  18. 尚融宝15-集成阿里云短信服务
  19. OSChina 周二乱弹 ——现在我满眼都是小星星
  20. 【TeamViewer丨远程控制软件】上海道宁助您远程访问和即时远程支持,提高远程工作团队的生产力

热门文章

  1. Day73.SpringMVC案例:影院系统、使用Restful风格重构
  2. php pear mail smtp 不验证,怎么在php中使用pear_smtp实现一个邮件发送功能
  3. 怎么让steam允许访问自己的计算机,科技教程:电脑steam软件如何解决好友网络无法访问...
  4. android开发获取权限,Android开发程序代码获取root权限
  5. 如何调用FCKeditor
  6. 大意是没有经历过贫穷的人,很难成为优秀的人才。
  7. 电视制式,480p,720p,1080p
  8. PPT菜鸟的逆袭秘籍
  9. 三个维度拆解国货品牌的爆款逻辑!
  10. 神经元的结构图手绘,神经元图片手绘图