分类

Rules-base机器人

最稳定,用规则制定好

Retrieval-based

提取为基础。使用KE(知识网络/专家引擎) 建立index
存在问题 检索速度/精确度
引入:intent(意图) 同一意图归于一个节点。(文本分类器)

Generative

生成模型
电影对白+It support 两组对话。/机器人对话更加平滑同时能解决问题/chatterbot库/python =glue language/英语有空格 == 中文分词库

知识框架

Retrieval-based Generative
open domain impossible General AI(Hardest)
closed domain Rules-Based Smart Machine(hard)

问题

语境

语言语境:这句话在说什么内容?(语言的embed。word vector)Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network
Models(Lulian et al., 2015)
物理语境:这句话在那时说的?(where when)Attention with Intention for a Neural Network Conversation Model
(Yao, 2015)

统一的语言个性

电影对白不是一个人说的,一堆人说的。人力清洗/高质量。A Persona-Based Neural Conversation Model (Li et al., 2016)
persona->obj function [BIG5 性格]

模型验证

Rules-based简单。
生成模型–》正误需要人类智慧解读
How NOT To Evaluate Your Dialogue System: An Empirical Study of
Unsupervised Evaluation Metrics for Dialogue Response Generation(Liu,
2016)

多样性

很多都回答一个答案/无多样性
A Diversity-Promoting Objective Function for Neural Conversation
Models(Li et al. 2015)

key

tokenize 切分词 :把字符串变为词串

分词

1.启发式Heuristic(查字典)A.最大匹配法B.最短路径法C.最大概率法 jieba
2.机器学习/统计方法(从数据中学习):(HMM、CRF)公式计算P(可能 ),(NN,LSTM,RNN)黑盒
分词面对的问题:
1.分词歧义(交集/组合/混合型歧义) 真/伪歧义
2.未登录词(OOV)

英语归一化

Inflection变化: walk => walking => walked
不影响词性 (时态)

derivation 引申: nation (noun) => national (adjective) => nationalize (verb)
影响词性

通过查表
Stemming 词⼲提取:⼀般来说,就是把不影响词性的inflection的⼩尾巴砍掉
walking 砍ing = walk
walked 砍ed = walk

Lemmatization 对词进行内部结构和形式分析:词形归⼀:把各种类型的词的变形,都归为⼀个形式
went 归⼀ = go
are 归⼀ = be

为了更好实现lemma 引入POS(part of speech)文语转换Tag 没有POS Tag 默认NN名词(先POS 后lemma)–检索过程 慢

虚词表(stopwords)

对于注重理解文本【意思】的应用场景来说歧义太多 增加复杂度
英文stopwords
中文stopwords
百度stopwords

文本分类-向量化

TF-IDF

语义–>占位符
占位符–>数字化–>特征工程

Chatbot-1-笔记相关推荐

  1. 【ChatBot开发笔记】聊天机器人准备工作——初识NLTK库、语料与词汇资源

    目录 简述 一.NLTK 1.安装 2.搜索 3.词统计 二.语料与词汇资源 1.举例 2.类似的语料库还有: 3.语料库的通用接口: 4.其他词典资源: 5.加载自己的语料库 结语 简述 2021. ...

  2. 【ChatBot开发笔记】语料预处理——tokenize

    GPT2模型的期望粒度是字而非词,故建立字典,通过tokenize完成两件事: 切分语料,以[CLS]标志语料开头,以[SEP]划分说话对象 完成字到字典id(tokenize_id)的转变 def ...

  3. 【ChatBot开发笔记】使用LTP(语言技术平台)进行自然语言处理

    目录 准备工作 测试示例 测试代码 1.ltp.py run.py 测试结果及分析 中文分词 词性标注 依存语句分析 命名实体识别 语义角色标注 语义依存 (依存树) 分析 语义依存 (依存图) 分析 ...

  4. AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine论文笔记

    摘要 阿里小蜜是开放域的问答系统,是检索式问答系统和生成式问答系统的结合体. 框架 直接上流程图,比较清晰 用户输入一个问题q,先采用IR(Information Retrieval)模型检索出一些数 ...

  5. 资源 |​ 史上最全机器学习笔记

    本文由LCatro整理 机器学习 机器学习算法原理 https://github.com/wepe/MachineLearning 机器学习实战原书内容与批注 https://github.com/a ...

  6. 笔记 | 吴恩达Coursera Deep Learning学习笔记

    向AI转型的程序员都关注了这个号☝☝☝ 作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图.具有多年机器学习和深度学习的应用经验,熟悉各种业务场景下机器学习和人工智能产品的需求分析.架 ...

  7. NLP专题论文解读:从Chatbot、NER到QA系统...

    来源:PaperWeekly 本文长度为2721字,建议阅读4分钟 本文为你分享NLP专题论文笔记,涵盖对话系统.命名实体识别(NER)和QA系统. 本期NLP 专题论文笔记,涵盖对话系统.命名实体识 ...

  8. NLP 专题论文解读:从 Chatbot 到 NER | PaperDaily #11

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. Chapter7-12_Controllable Chatbot

    文章目录 1 Chatbot面临的问题 2 控制Chatbot的输出 2.1 直接Finetune 2.2 输入添加控制特征 2.3 只有独白 3 展望 本文为李弘毅老师[Controllable C ...

  10. 深度学习课程笔记(七):模仿学习(imitation learning)

    深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...

最新文章

  1. 鸢尾花分类_机器学习:鸢尾花数据集--贝叶斯分类
  2. mysql试题百度云_BATJ大厂600多道技术面试题及答案解析
  3. 02 基本序列以及序列表示
  4. 没什么是一次排序解决不了的,如果有,那就One more time
  5. E1倒换保护设备知识详解
  6. 04级函授计算机等级考试练习.rar
  7. Java i18n - Java中的国际化
  8. mysql分区表优缺点,Mysql 表分区和性能
  9. 只要学会它,再多 Bug 也不怕
  10. pkgm : 压缩包维护与解压脚本
  11. mysql注入多语句执行_MySQL注入总结MySQL暴错注入方法整理
  12. 南通大学《构建之法》课程助教总结
  13. 网页版番茄时钟的制作——Pomodoro Clock
  14. eclipse取消默认工作空间的两种方法
  15. b级车里有比迈腾空间更大的车吗?
  16. 免费论文检测 论文查重 软件 系统 论文免费检测 论文抄袭检测大师
  17. Thingsboard 项目说明,框架目录结构、技术及部署相关说明
  18. C语言职工管理系统(带有报告)
  19. 2021-07-19 暑假集训Day1
  20. 1、会计的概念、职能和目标

热门文章

  1. 10分钟读懂什么是容器云?
  2. CSS3+JS完美实现放大镜模式
  3. 线性时态逻辑ctl_基于决策过程的广义可能性时态逻辑模型检测
  4. 大数据第一章(Linux环境部署JDKMysql)
  5. 第三章 Python容器:列表、元组、字典与集合
  6. 第1章 蓝牙降噪耳机简述
  7. flyway的checksum
  8. 计算机类(计算机科学与技术)大学生职业生涯规划书
  9. mapping.xml POJO的映射文件
  10. 点石成金:“硅业报国”不仅是理念