学习周报202011004 | 攒一大波分享给大家

【学习周报】

总结自己的学习和遇到的好材料。

往期回顾：

学习周报20200627 | 项亮
学习周报20200712 | 百面深度、召回、技能
学习周报20200720 | 公众号、codis、衰减
学习周报20200802| 文本分类综述、纠错
学习周报20200825| 好久不见攒了好多东西

em...感觉自己的学习周报变成了月报哈哈哈，小小的总结下。

先给个目录：

语言模型经验
整理的几篇对话文章
任务型对话简单小结
对话型推荐系统
论文

语言模型经验

语言模型需要根据场景给一些过拟合的数据，如语音场景的、专有名词场景等。
统计语言模型不太对噪音敏感。

整理的几篇对话文章

认真的聊一聊对话系统（任务型、检索式、生成式对话论文与工具串讲）：·https://zhuanlan.zhihu.com/p/83825070
小蜜团队万字长文 | 讲透对话管理模型最新研究进展：https://zhuanlan.zhihu.com/p/100825157
任务导向型对话系统——对话管理模型研究最新进展：https://zhuanlan.zhihu.com/p/100843827
多轮对话之对话管理(Dialog Management)：https://zhuanlan.zhihu.com/p/32716205
任务型对话管理的产品实践（第一篇）- 实现方法的回顾：https://zhuanlan.zhihu.com/p/71785382
小蜜团队万字长文：讲透对话管理模型研究最新进展：https://zhuanlan.zhihu.com/p/100684426
多轮对话-检索式：https://blog.csdn.net/qq_33858719/article/details/93191037
检索式chatbot：https://zhuanlan.zhihu.com/p/44539292
检索式对话模型总结：https://zhuanlan.zhihu.com/p/46366940
填槽与多轮对话 | AI产品经理需要了解的AI技术概念：https://coffee.pmcaff.com/article/971158746030208/pmcaff?utm_source=forum&from=related&pmc_param%5Bentry_id%5D=950709304427648

任务型对话简单小结

query理解。
记录（跟踪）对话状态。（dialogue state tracking，DST）
对话策略。（Dialogue Policy，DP）从规则到强化学习。
回复生成。

对话型推荐系统

https://blog.csdn.net/weixin_43993244/article/details/106845080
https://arxiv.org/abs/2004.00646v1
https://blog.csdn.net/qq_40247584/article/details/107189648

论文

【1】 A Hybrid Model for Chinese Spelling Check

摘要：中文拼写检查比其他语言更具挑战性。本文介绍了一种用于中文拼写检查的混合模型。混合模型由三部分组成：一个用于一般错误的基于图的模型，另一个用于特定错误的独立训练的模型。在图模型中，将为每个句子生成一个有向非循环图，并对图执行单源最短路径算法，以同时检测和纠正一般的拼写错误。在此之前，首先通过条件随机字段解决功能词（字符）的两种类型的错误：“在”（at）（拼音为中文），“再”（再次，更多，然后）的混淆（拼音：zai）和“的”（of）（拼音：de），“地”（-ly，副词形成粒子）（拼音：de）和“得”（因此必须）（拼音：de ）。最后，利用基于规则的模型来区分代词用法混淆：“她”（她）（拼音：ta），“他”（他）（拼音：ta）以及其他一些常见的搭配错误。在SIGHAN Bake-off共享任务发布的标准数据集上评估了提出的模型，从而提供了最新的结果。

图结构问题场景：

可能会更换实际上无意义的词。
切词问题可能会导致错误的字包含在词里。

【2】 Chinese Spelling Checker Based on Statistical Machine Translation

摘要：中文拼写检查是许多NLP应用程序（包括文字处理器和搜索引擎）的重要组成部分。但是，与英语（例如英语或法语）字母检查器相比，中文拼写检查器更难开发，因为中文书写系统中没有单词边界，并且各种中文输入法都可能引起错误。在本文中，我们提出了一种新的中文拼写检查方法。我们的方法涉及基于短语统计机器翻译框架的错误检测和纠正。结果表明，所提出的系统在错误检测方面具有明显更好的精度，并且在纠错方面具有更令人满意的性能。

SMT统计翻译模型。
这意味着对平行样本的需求非常高。

【3】A Hybrid Ranking Approach to Chinese Spelling Check

摘要：我们提出了一种新的中文拼写检查（CSC）框架，该框架是一种用于检测和纠正中文拼写错误的自动算法。我们的框架包含两个关键组成部分：候选人生成和候选人排名。我们的框架与以前的研究（例如基于统计机器翻译（SMT）的模型或基于语言模型（LM）的模型）不同，因为我们将SMT和LM模型都用作生成校正候选的框架的组成部分，以便获得最大召回率；为了提高精度，我们进一步采用了支持向量机（SVM）分类器对SMT和LM生成的候选进行排序。实验表明，我们的框架优于其他系统，这些系统在SIGHAN 7共享任务中采用了与我们相同或相似的资源。即使与使用大量资源（例如大量的大型词典，成语词典和其他语义信息）的最新系统进行比较，我们的框架仍然可以获得有竞争力的结果。此外，为了解决训练SMT模型的资源稀缺问题，我们使用SIGHAN 7共享任务提供的使用汉字混淆集生成约200万个人工训练句子，其中包括一组形状相似且发音相似的汉字。

有关未登录词方式的未登录词检测，分析：

（1）拼写错误字符在多个字符的单词中。例如，在CRF分段序列中：“想必/他们/很/烦脑/吧/！”，错误字符脑（大脑）为倍数字符块烦脑。由于它不是单词，因此它不包含在中文字典中。

（2）拼写错误字符在单个字符词中。例如，按照分段顺序：“学校/的/课桌椅/大/不/分/在/上面/都/有/很多/的/涂鸦/。”的拼写错误字符不（否）被分段为一个字符的单词。

结论：

如果一个单词仅包含一个汉字，则将所有候选单词添加到混乱集中。
如果一个单词包含多个汉字，并且不在词典中，则将单词中的所有字符替换为混乱集中的候选单词。如果生成的单词在词典中，请将其添加为候选单词。
如果一个单词包含多个汉字并且在词典中，请不要执行任何操作。

本文的一大重点就是在排序层面使用了人工特征+机器学习的方式进行排序（我其实也有点这个想法），用了如下特征：

character features (Base)，。
pointwise mutual information (PMI)
identity of the character sequence if it exists in the dictionary (DICT) and the n-gram word list。

个人感觉这些特征用起来效果应该会不错，但是这些特征的构造注定需要很多平行样本，个人来看其实有一些可能可以使用的数值特征：

原句和变句的打分和ppl
两者差
变化百分比
变更点位置
编辑距离
拼音编辑距离

这里用模型的初衷其实是避免使用复杂规则，那么只需要把我们规则中涉及的东西拆解然后交给模型即可，这样也能避免使用文本之类的需要大量平行样本才能训练。

这篇文章也列出了很多评价指标。

【4】The Design and Implementation of XiaoIce, an Empathetic Social Chatbot

摘要：本文介绍了世界上最受欢迎的社交聊天机器人Microsoft XiaoIce的发展。XiaoIce独特地设计为具有情感联系的AI伴侣，可以满足人类对沟通，情感和社会归属的需求。我们在系统设计中同时考虑了智商（IQ）和情感商（EQ），将人机社交聊天转换为基于Markov决策流程（MDP）的决策，并针对长期用户参与度对XiaoIce进行了优化，以每次会话的预期会话次数（CPS）。我们详细介绍了系统架构和关键组件，包括对话管理器，核心聊天，技能和移情计算模块。我们将展示XiaoIce如何在长时间的对话中动态地识别人的情感和状态，理解用户的意图并响应用户的需求。自2014年发布以来，小冰已经与6.6亿活跃用户进行了交流，并成功地与其中许多人建立了长期关系。对大型在线日志的分析表明，XiaoIce的平均CPS为23，大大高于其他聊天机器人甚至人类对话的CPS。

IQcapacities include knowledge and memory modeling, image and natural language understanding, reasoning, generation and prediction.EQ has two key components, empathy and social skills.Personality is defifined as the characteristic set of behaviors, cognition and emotional patterns that form an individual’s distinctive character.

评价指标：Conversation-turns Per Session，CPS。

对话系统的成分：

对话管理器（Dialogue Manager）。管理整个对话，主要由全局状态追踪器、对话规则、话题管理器3部分构成。

全局状态跟踪器用于对整个对话状态进行记录和更新，简单地说其实就是整理为一个向量吧。
对话规则用于实施一些聊天策略，例如某些技能点的触发、转移等。
话题管理器一方面会根据网络舆论情况生成主体，另一方面会根据用户的聊天情况抽取出来，作为话题和用户开始聊。话题管理器一个很重要的点在于选择什么话题来和用户聊，这里用到了“召回-排序”结构，使用的特征：上下文相关性、新鲜度（新闻类）、个人兴趣、受欢迎度、接受率。

情感计算。情感计算主要包括上下文对话理解（NER、共指消歧、句子完整性）、用户理解（主题偏好、意图标签、情绪分析、观点分析、用户ID）和人际关系处理（保证恢复正常且符合小冰人设）。

核心对话模块。分为开放域和限定域。开放域非常强数据依赖（data-drive），整体架构也是划分为“召回-排序”两个阶段。召回分为基于搜索（Lucene）、基于神经网络生成（GRU-RNN）和基于用非成对数据的搜索。排序则由局部相似特征（语义相似度）、全局相似度、情感匹配特征、文本匹配特征构成。

图像评论：不仅可以正确识别对象并真实地描述图像的内容，还可以生成能反映个人情感，态度等的善解人意的评论。

图像文本相似度。Deep Multimodal Similarity Model Fang et al. [2015]

对话技能。涉及特定领域完成任务的能力，日常的如听音乐、订酒店、定闹钟等。

内容创作。结合输入内容，情感因子做种用RNN生成。
深度参与。特定技能满足用户知识上和情感上的需求。（智商和情商的平衡，单对单和小组讨论之间的平衡）
任务完成判断。