Convolutional Neural Networks for Sentence Classification

论文任务:用卷积神经网络(CNN)在预先训练好的词向量上进行句子级分类任务

论文借用的深度学习模型
        卷积神经网络(CNN)利用层与卷积滤波器应用于局部特征。最初发明用于计算机视觉的CNN模型,后来被证明对NLP有效,并在语义分析、搜索查询检索、句子建模和其他传统NLP任务中取得了优异的结果。
论文核心内容:
       训练了一个简单的CNN,在一个无监督的神经语言模型得到的单词向量的基础上再加上一层卷积,最初保持单词向量静态,只学习模型的其他参数。这个简单的模型在多个基准上取得了很好的结果,这表明预先训练的向量是“通用”的特征提取器,可以用于各种分类任务。通过微调学习特定于任务的向量,可以得到进一步的改进。最后,我们描述了对体系结构的一个简单修改,通过拥有多个通道,允许使用预先训练的和任务特定的向量。

MODEL:
       图1所示的模型架构是Collobert等人(2011年)CNN架构的一个轻微变体。本文用拼接词向量的方法,将一个句子表示成为一个矩阵,这里矩阵的每一行表示一个word,后面的步骤仅采用一组filter、pooling层来得到句子的特征向量,然后进行分类。


                                  
        设xi ∈ Rk 为对应于句子中的第i个单词的k维词向量。长度为n的句子(必要时填充)也就是说左边是一个n*k的矩阵,表示一句话的n个词语,每个词语是一个k维向量,假设文档中最长的句子中的词个数为n,则 小于n 的句子填充为m。最终得到的词向量矩阵为 n * k。表示为:
                           
其中⊕是串联运算符。让Xi:n成为单词xi的串联。(从第i个单词到第n个单词,把它们串联起来),卷积运算包含一个滤波器w∈Rhk,它被应用于单词h的窗口以产生一个新的特征。例如,特征ci由单词xi:i+h−1的窗口生成:
                         
(h是窗口,也就是滤波器的高度)这里b∈R是一个偏置项,w是权重,f是一个非线性函数。这个过滤器应用于句子{X1:h,X2:h+1,…,Xn-h+1:n}生成特征图:
                           
       然后在特征映射上应用max超时池操作,并将最大值ˆc=max{c}作为与此对应的特征特殊过滤器。其思想是为每个特征映射捕获最重要的特征,即具有最高值的特征。这种池化方案自然处理可变的句子长度。
      论文描述了从一个滤波器中提取一个特征的过程。该模型使用多个过滤器(具有不同的窗口大小)来获得多个特征。这些特征形成倒数第二层,并传递给完全连接的softmax层,该层的输出是标签上的概率分布。

在其中一个模型变体中,我们试验了两个字向量“通道”,一个在整个训练过程中保持静态,另一个在多通道体系结构中通过反向传播进行微调,如图1所示,每个滤波器应用于两个通道,并将结果添加到公式(2)中计算ci。在其他方面,该模型相当于单通道体系结构。

正则化

正则化解释:正则化就是我们将结构风险最小化的过程,调整参数的个数使之尽可能最小化。

论文正则化方法:论文在倒数第二层使用了dropout,(解决过拟合问题,当模型参数太多而训练样本少的时候容易出现过拟合问题。)

数据集:


预训练词向量:
       使用公开的word2vec向量,这些向量是从googlenews中训练出来的1000亿个单词。向量的维数为300,采用连续词袋结构进行训练。不在预先训练的单词集中的单词会被随机初始化。

      有两组词向量的模型。每组向量被视为一个“通道”,每个滤波器应用于两个通道,但梯度只通过其中一个通道反向传播。因此,该模型能够对一组向量进行微调,同时保持另一组向量的静态。两个通道都用word2vec初始化。

实验结果与讨论:

所有随机初始化单词的基线模型(CNN-rand)本身的性能并不好。本身是期望通过使用预先训练的向量来提高性能,但是实际上即使是带有静态向量的简单模型(CNN static)也表现得非常出色,与使用复杂池方案(Kalchbrenner et al.,2014)或需要事先计算解析树(Socheret al.,2013)的更复杂的深度学习模型相比,具有竞争性的结果。这些结果表明,预训练向量是很好的“通用”特征提取器,可以跨数据集使用。
      我们最初希望多通道结构能够防止过度拟合(通过确保学习向量不会偏离太远)因此比单通道模型工作得更好,尤其是在较小的数据集上。然而,结果是好坏参半的,需要对微调过程进行进一步的正则化工作。
论文总结:
     在目前的工作中,我们描述了在word2vec上建立卷积神经网络的一系列实验。尽管超参数很少调整,一个简单的CNN与一层卷积表现得非常好。我们的结果进一步证明了无监督的词向量预训练是自然语言处理深度学习的重要组成部分。

Convolutional Neural Networks for Sentence Classification用于句子分类的卷积神经网络相关推荐

  1. 论文阅读:Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类

    Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类 目录 Convolutional Neural Networ ...

  2. 【文本分类】Convolutional Neural Networks for Sentence Classification

    ·摘要:   本文作者将CNN引用到了NLP的文本分类任务中. ·参考文献:   [1] Convolutional Neural Networks for Sentence Classificati ...

  3. 2018:MIXED PRECISION TRAINING OF CONVOLUTIONAL NEURAL NETWORKS USING INTEGER OPERATIONS利用整数运算对卷积神经网络

    @[TOC](2018:MIXED PRECISION TRAINING OF CONVOLUTIONAL NEURAL NETWORKS USING INTEGER OPERATIONS(利用整数运 ...

  4. Convolutional Neural Networks for Sentence Classification(卷积神经网络句子分类)

    目录 摘要 原文 翻译 单词解释 技术解读 引言 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读. Model 原文 单 ...

  5. [NLP-CNN] Convolutional Neural Networks for Sentence Classification -2014-EMNLP

    1. Overview 本文将CNN用于句子分类任务 (1) 使用静态vector + CNN即可取得很好的效果:=> 这表明预训练的vector是universal的特征提取器,可以被用于多种 ...

  6. Convolutional Neural Networks for Sentence Classification论文解读

    本文将CNN和NLP结合: 介绍了一系列的对比实验,实验结果说明了: 一个简单的(单层神经网络)的CNN模型 一点超参数的调节(Filter的个数) static word vector 另外,对cn ...

  7. Convolutional Neural Networks for Sentence Classification

    论文总体结构 一.摘要 使用卷积神经网络处理句子级别文本分类,并在多个数据集上有好的效果 二.Introduction(背景介绍) 使用预训练词向量和卷积神经网络,提出一种有效分类模型 本文的主要契机 ...

  8. CNN在文本分类的应用(内有代码实现) 论文Convolutional Neural Networks for Sentence Classification

    一.CNN文本分类简介 文本分类是NLP领域的一个重要子任务,文本分类的目标是自动的将文本打上已经定义好的标签,常见的文本分类任务有: 用户评论的情感识别 垃圾邮件过滤 用户查询意图识别 新闻分类 由 ...

  9. Convolutional Neural Networks for Sentence Classification 阅读笔记

    1.本文解决了什么问题? 本文以预训练好的词向量矩阵表示一个句子,并且将其作为卷积神经网络的输入层,再通过标记好的 数据训练出神经网络模型从而达到预测数据类别的效果. 本文于14年发表,至今已被引用了 ...

最新文章

  1. 这谁顶得住?mybatis十八连环问!
  2. 在winform程序里实现最小化隐藏到windows右下角
  3. php 删除指定html标签,php删除html标签的三种解决办法
  4. html页面选择附件实现,实现单文件上传,页面局部刷新_html/css_WEB-ITnose
  5. 逸管家中小企业未来的发展不可忽视人才战略
  6. PowerDesigner生成SQL
  7. python词云可视化视频_Python数据分析-可视化-wordcloud词云
  8. OpenCV3.0-图像特征检测
  9. 学生管理系统(软件工程)
  10. 使用神经网络(Keras)完成对土壤的湿度估计
  11. matlab计算股票的预期收益率,如何计算股票预期收益率
  12. 代理的原理及类型总结
  13. O365(世纪互联)SharePoint 之使用列表库发布新闻
  14. c语言fprintf 数组,C语言fprintf()函数:格式化输出到一个流中
  15. 构建面向未来的前端架构
  16. bootstrap table获取表格数据方式
  17. STM32L431(CubeMX)使用DHT11读取环境温度与湿度并通过串口打印
  18. c语言 实习报告,计算机专业c语言实训报告范文
  19. 浅析VS游戏竞技平台识别作弊软件的手段
  20. Java URL(一)——概念、构造

热门文章

  1. Vue最low的路由嵌套【电竞杜小帅】
  2. Go string类型及其使用
  3. C语言中编译预处理命令作用,C语言预处理命令详解
  4. CCF计算机软件能力认证试题练习:201903-1 小中大
  5. 小米盒子1s真心不让我爽
  6. 阿里云,华为云哪个好?
  7. 大纵深战役理论和闪电战理论
  8. LCD+TP for linux BSP
  9. android开发常用的ADB命令
  10. macd的python代码同花顺_超牛MACD(代编写程序化交易模型)-同花顺公式 -程序化交易(CXH99.COM)...