读论文《Natural Language Processing (Almost) from Scratch》
读论文《Natural Language Processing (Almost) from Scratch》
原文地址:http://blog.csdn.net/qq_31456593/article/details/77504902
introduce
本文也是神经网络语言模型和词嵌入的经典论文,本文与之前的《A Neural Probabilistic Language Model》模型的不同在于,本文的核心目标是训练好的word embedding以完成词性标注 (POS)、短语识别(CHUNK)、命名实体识别(NER) 和语义角色标注 (SRL)等任务。
本文的语言模型网络只是用来预训练word embedding,最后要做的是拿word embedding作为具体任务(其共同目标就是标注)网络第一层(将词的one-hot表示变为word embedding)的参数继续在具体任务中训练。最后获得在POS,CHUNK,NER,SRL上的良好表现。
本文用到了多任务训练的思路,即共享one-hot到word embedding的转化层的参数,在多项任务上进行训练。
method
本文设计了2个网络来完成这些nlp任务,其中一个叫window approach,另一个叫sentence approach,网络结构见下图
其中window approach是基于n-gram模型的改造,窗口大小为n,中心的那个词为中心词,上下文各(n-1)/2个词。而sentence approach是利用卷积获取上下文并将其变成大小一致的中间表示(通过修改卷积核的大小和步伐实现)。两个模型最后都是最大化softmax输出的正确标签类别。
window approach适用于POS,CHUNK,NER, sentence approach 适用于LRS。
word embedding
本文以无监督的方法预训练word embedding以提高在具体工作上的效果。其网络结构与window approach的模型相同,只是最后的输出层只有一个神经元,表示该中心词与上下文语义关联程度的得分。得分高则说明该中心词在当前位置是符合上下文语言的,得分低则说明该中心词在当前位置不符合上下文语义。
训练时的正例就是中心词为原语料的中心词,负例就是把语料的中心词以其他词语代替。作者这么做的主要原因就是较少神经网络语言模型在大规模数据集上的训练时间。
如果用f(x)表示输入通过神经网络到输出的变化,那么基于打分机制构造的神经网络语言模型的优化目标是最小化下面的函数:
其中fθ(x)是正例的打分,fθ(x(w))
是负例的打分这函数的目的就是增加两者之间打分的差距,使其至少在1以上。
my view
1、本文利用神经网络模型执行POS,CHUNK,NER和LRS的任务,算是把神经网络用于具体自然语言处理处理任务的很好思路。
2、卷积模型或许可以发挥出跟大的力量。
3、词嵌入的训练由训练语言模型变成了输出评价的分,该评分的思路是否可以迁移到其他领域。
4、到底怎么样的方法可以获得更好的词嵌入,值得我们探究。
读论文《Natural Language Processing (Almost) from Scratch》相关推荐
- 读论文《A Neural Probabilistic Language Model》
读论文<A Neural Probabilistic Language Model> 原文地址:http://blog.csdn.net/qq_31456593/article/detai ...
- A Neural Probabilistic Language Model 论文阅读及实战
1.词向量介绍 在NLP任务中,第一步首先将自然语言转化成数学符号表示.一般常用的词汇表示方法:one-hot表示,这种方法是将每个单词表示为一个很长的向量,这个向量的长度是词汇表的大小,其中绝大数元 ...
- 论文阅读:A Neural Probabilistic Language Model 一种神经概率语言模型
A Neural Probabilistic Language Model 一种神经概率语言模型 目录 A Neural Probabilistic Language Model 一种神经概率语言模型 ...
- 文本生成(一)【NLP论文复现】Unified Language Model 文本生成从未如此轻松
Unified Language Model 文本生成从未如此轻松 前言 UniLM How to build UniLM Get 2D MASK Send 2D MASK to Bert 使用Uni ...
- NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报)
自然语言处理中的文本表示研究 资源下载地址(原论文和笔记) INTRODUCTION chap1文本表示基础 1.1 什么是文本表示? 1.2 为什么进行文本表示 chap2 主流技术和方法 文本的离 ...
- NLP问题特征表达基础 - 语言模型(Language Model)发展演化历程讨论
1. NLP问题简介 0x1:NLP问题都包括哪些内涵 人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
- 读论文《Recurrent neural network based language model 》
读论文<Recurrent neural network based language model > 标签(空格分隔): 论文 introduce 本文将循环神经网络RNN引入了神经网络 ...
- 读论文系列(二)Convolutional Neural Networks over Tree Structures for Programming Language Processing
系列文章目录 读论文系列(一)Automated software vulnerability detection with machine learning 文章目录 系列文章目录 Keywards ...
- 读论文2:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers Abstract:[上一篇:读论文1](https:// ...
最新文章
- html 第三次作业
- python 文本处理模块_Python文本处理几种方法
- YARN 任务执行报错:Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
- SAP 主数据-地点表
- 华为申请注册姚安娜商标
- 滴滴医护专车新增南京 共上线6城覆盖1.8万医护
- 专门针对音乐发烧友开发的5款App
- 最近一段时间的手工作品
- TensorFlow 资源大全中文版
- SqlZoo.net习题答案:Using the SELECT statement.【nobel】
- 如何使用ssh工具便于远程管理
- 数据库 左连接拼接多个表该怎么写?
- 从execl表中随机抽取几行数据
- Postman中文版,竟如此简单,秒变中文
- Java使用iText PDF按页(逐页、单页)拆分PDF
- 常见WA错误总结(待更)
- android依赖本地工程排除,Android Gradle依赖项排除(Android Gradle dependency exclude)
- 智慧环保 | 云计算护航环保行业未来可期
- Hibernate 框架检索策略
- 中考计算机考试不合格会怎么样,中考考试细节:信息技术不合格 可申请重考1次...