[知识点整理]中科院/国科大 自然语言处理nlp 期末考试知识点整理
本文为2022秋网安学院的自然语言处理课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正。
文章的第二部分内容参考了学校学姐的文章,文章写的很好,大家可以关注她:(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*:考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-CSDN博客
目录
第一部分 2022秋季课程期末知识点复习
第一章第二章 不考
第三章 神经网络
第四章 语言模型 词向量
第五章 注意力机制
第六章 基础任务
第七章 预训练语言模型
第八章 情感分析(不考)
第九章 信息抽取 *
第十章 问答系统
第十一章 阅读理解
第十二章 对话系统(不考)
第二部分 2021秋期末考中考察的知识点
填空题(20题)
简答题(6题)
综合题(计算题+模型结构分析题+模型设计题,3题)
第一部分 2022秋季课程期末知识点复习
第一章第二章 不考
第三章 神经网络
激活函数有哪些,对应的作用
tanh
sigmoid
Relu
作用:增加网络的表达能力,给网络增加非线性因素
神经网络的参数学习方法,各自特点、区别,能解决什么样的问题
梯度下降:每次更新时使用所有样本,每次都朝着全局最优方向迭代,适用于样本不多的情况
随机梯度下降:每次更新只用1各样本,每次迭代不一定朝着全局最优,但最终结果往往是在全局最优解附近
mini-batch梯度下降:每次更新时用b个样本(前两者的折中)
卷积神经网络的组成部分?各部分的作用
卷积层:减少模型参数,进行卷积运算
池化层:减少模型规模
全连接层:将池化层的单元平化
递归神经网络
网络结构包括哪些部分
输入层、隐藏层、输出层
参数包括:输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b
典型的参数学习方法
BPTT
BPTT算法的原理
基本思想和BP算法类似,都是将输出误差以某种形式反传给各层所有单元,各层按照本层误差修正个单元的连接权重
但BPTT的参数是共享的,每个时刻训练的都是相同的参数W和b。
且BPTT损失函数定义为每一个时刻的损失函数之和,它会在每一个时间步长内叠加所有对应权重的梯度
RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进?以及做了哪些改进?
LSTM是用来解决RNN的长距离依赖问题,它通过在循环单元内添加门结构来控制单元细胞状态来实现的
GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题,可理解为LSTM的简化,它把LSTM的输入门和遗忘门合并为更新门,删除输出门新增了重置门。
LSTM只能根据之前时刻的时序信息预测下一时刻的输出,但有些问题当前时刻的输出不仅与之前的状态有关,与未来的状态也有关系,Bi-LSTM就是为了解决这一问题,做到基于上下文判断。Bi-LSTM可看作两层神经网络,第一层第一层从句子的开头开始输入,第二层则从句子的最后一个词语输入,两层进行相同处理,并对得到的结果共同分析。
第四章 语言模型 词向量
统计语言模型建模方法(怎么用统计学习的方法构建语言模型)
统计语言模型的基本思想:用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性
使用最大似然估计进行参数学习
用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题
用数据平滑解决样本少引起的零概率问题
几种神经网络语言模型(DNN-NNLM、RNN-RNNLM)
模型架构
相比的优势和不足
RNNLM的优势
RNNLM 模型可以保留每个词的全部历史信息,不需简化为n-gram
引入词向量作为输入后不需要数据平滑
神经网络一般用RNN语言模型
输入、输出、要预测哪些参数、参数学习方法要掌握
NNLM
输入:上文词向量拼接
输出:目标词概率
参数学习方法:BP
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
RNNLM
直接输入:目标词的前一个词的词向量
间接输入:网络中的前文信息
输出:目标词概率
参数学习方法:BPTT
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
词向量
典型的词向量:CBOW、skip-gram、C&W要掌握学习方法和区别(输入、输出、学习方法)
CBOW
输入:上下文词向量平均值
输出:目标词概率
参数学习方法:梯度下降法
skip-gram
输入:目标词词向量
输出:上下文词概率
参数学习方法:梯度下降法
C&W
输入:上下文及目标词词向量拼接
输出:上下文及目标词联合打分(正样本打高分、负样本打低分(负样本是将正样本序列中的中间词替换成其它词))
参数学习方法:采用pairwise的方式对文本片段进行优化
第五章 注意力机制
传统注意力机制
结构包括哪些模块
输入:K(集合)、Q
输出:V
三个阶段:
注意力打分函数
softmax
加权求和
有哪些计算方法(有哪些注意力计算模式)
键值对模式 K!=V 是用V去加权求和计算输出值的
普通模式 K=V
不同类型的注意力机制是如何计算的?
软注意力 对输入句子的任意单词都计算概率,输出的是概率分布
硬注意力 直接从输入句子中找到某个单词,将其他单词硬性地认为对齐概率为0
全局注意力 计算attention时考虑encoding端序列中所有的词
局部注意力 软注意力和硬注意力的折中,在一个大小为D的窗口输出概率分布,窗口外的认为对齐概率为0
注意力机制在nlp领域的应用场景
在任何有“求和”的地方都能使用
宏观如机器翻译、图卷积的邻接节点聚集
注意力编码机制
对不同序列的不同编码方式
单一向量编码:将输入序列编码成单一向量表示(句表示、篇章表示、词的上下文表示)
不同序列间编码:将2个序列编码成二者融合的向量表示(匹配任务、阅读理解的混合层表示)
同一序列自编码:使用多头注意力编码对一个句子编码,起到句法分析器的作用
不同编码方式的计算方式
单一向量编码:句子各元素K序列与Q的关联关系
不同序列间编码:对K序列和Q序列编码
同一序列自编码:采用多头注意力机制,每头的Q=K=V且参数不共享,最后把各头的结果拼接
第六章 基础任务
文本分类和匹配了解基本技术思路即可
序列标注
马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制
马尔可夫模型
组成M =( S, π ,A) (三元组)
S:模型中状态的集合
A:与时间无关的状态转移概率矩阵
p:初始状态空间的概率分布
隐马尔可夫模型
组成λ =( S, O, π ,A,B)或简写为 λ = (π ,A,B) (五元组)
状态序列Q:表示起决定作用的后台本质(天气)
观察序列O:表示观察到的前台现象(潮湿。。)
B:给定状态下,观察值概率分布
隐马尔可夫的重要问题
评估问题的向前、向后算法的计算题
解码问题的维特比算法的计算题
隐马尔可夫+CRF
做序列标注的基本原理
CRF的作用、和隐马尔可夫之间的关系
隐马尔可夫模型因为输出独立性假设,无法考虑上下文特征,故需要最大熵模型来解决该问题,但最大熵模型又有输出元素之间独立的问题,故使用CRF来使输出元素相关联,避免不合理输出
序列生成
3种序列生成网络的典型网络 方法、网络设计、特点、解决的问题、网络的结构
生成式-序列生成模型
特点:输出词表大小固定,且不会随输入变化
典型模型
基于RNN结构生成模型
存在曝光偏差问题
RNN+Attention架构生成模型
使用attention来使RNN在机器翻译时,找到中英文对应词的关联关系
典型网络设计:BiLSTM + Attention 模型结构
Encoding端采用双向RNN,Decoding端采用单向RNN
输入:X(源语句子)
输出:Y(目标语句子)
[知识点整理]中科院/国科大 自然语言处理nlp 期末考试知识点整理相关推荐
- 2021国科大模式识别与机器学习期末考试试题
2021国科大模式识别与机器学习期末考试试题 任课教师:黄庆明等
- [知识点整理]中科院/国科大 网络与系统安全 期末考试知识点整理
本文为2022秋的网络与系统安全课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正. 目录 新形势安全面临挑战和安全保障能力提升(我们要做什么) 网络与系统安全的需求与目标 ( ...
- 国科大.高级人工智能.2022期末考试真题回忆版
选择 通过图灵测试意味着? 图神经网络 因果中的条件独立性判断 GAN tanh的曲线 哪一个是时序差分? 判断 启发函数的可采纳.一致的含义 广搜是代价一致搜索的特例 贪心搜索是A星算法的特例 爬山 ...
- 计算机导论期末考试知识点,计算机导论期末复习(知识点).doc
计算机导论期末复习(知识点) 计算机导论期末复习(知识点) 单选题30%(每题1分,总30分) 判断题20%(每题1分,总20分) 问答题30%(7题左右,总30分) 综合回答题20%(2题,总20分 ...
- 【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】
中文NLP语料整理 新闻文本分类语料 情感分析语料 实体分析语料 垃圾分类语料 个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼. 有很多公开的语料,被他人收费,或要积分下载等等. 对平时开发 ...
- 国科大 - 自然语言处理(刘洋)- 期末复习
Content 文章目录 20201231 LM 分词 最大匹配算法 最短路径法(最少分词法) 句法分析 Chart Parsing
- 国科大. 深度学习:期末试题与简要思路分析
监督学习: 从标记的训练数据来推断一个功能的机器学习任务. 无监督学习: 根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习. 强化学习: 用于描述和解决智能体(agent ...
- 数据结构期末考试复习整理
写在前面: 本博客基于学校提供的教材书<数据结构--Java语言描述(第2版)>编写.原意是用于学校期末考的复习整理,也希望能对大家有所帮助! 此次整理是针对学校给出的考点,而不是针对数据 ...
- 云计算期末考试知识点
第2章 1.Google云计算技术包括哪些内容? 答题要点:(P13)要答出有关技术的分类和名称. 答: Google云计算技术包括:Goge分布式文件系统GFS,分布式计算编程模型 MapReduc ...
最新文章
- R语言gc函数垃圾回收实战
- Windows Phone 7 cs页面添加样式
- Tomcat 之 Session的活化和钝化 源码分析
- JavaBean fields TO ExtjsMode fields
- string.Empty和null三者的区别
- 写给嵌入式方向的某些同学 - 基于WINCE系统的程序开发[不完整版]
- VS2015 C#6.0 中的那些新特性(转)
- Pycharm连接远程服务器环境搭建
- mysql序列号生成软件_GitHub - spcent/seq: 基于mysql的序列号生成器
- 2021年电赛仪器仪表类重难点
- linux程序开发ide,LiteIDE 开发工具指南 (Go语言开发工具)
- 标量、矩阵对向量求导
- idea配置php开发环境以及配置debug
- tomcat php centeros,linux(center OS7)安装JDK、tomcat、mysql 搭建java web项目运行环境...
- 《基础微积分教材中译版》--11.3偏导数
- 网站攻防之CSRF和XSS跨站脚本攻击
- 思维导图软件MindManager 2020中文版
- 洛谷 p4174 [noi2006] 最大获利 最小割(最大流),最大权闭合子图
- 教你学会html添加自定义字体,使用@font-face和免费字体网站
- centos安装erlang
热门文章
- 活动记录(AcitveReocrd)-Yii与数据库-(5.3)深入理解YII2.0
- 【转帖】大数据时代的文化与版权
- mac 本地docker 运行hyperf
- 鸿蒙系统明年上市巧,华为:智能手表及笔记本电脑将搭载鸿蒙系统 手机明年上市...
- 倾听用户呼吁 Skype决定开源
- 扎克伯格上手演示四款VR头显原型机,Meta透露元宇宙「家底」
- Just for fun----zjfc 并查集操作
- Python自动化:模拟人类在百度搜索页输入关键词进行搜索并打开搜索结果
- 快手上市 CEO写下70万行代码 致敬程序员改变世界
- 网站获得高质量外链的两大绝招
- 2021国科大模式识别与机器学习期末考试试题