简介

TextCNN模型是由 Yoon Kim提出的Convolutional Naural Networks for Sentence Classification一文中提出的使用卷积神经网络来处理NLP问题的模型.相比较nlp中传统的rnn/lstm等模型,cnn能更加高效的提取重要特征,这些特征在分类中占据着重要位置.论文所提出的模型结构如下图所示:

图1

可以看出TextCNN的结构还是比较简单的,下面我们分块介绍一下TextCNN.

输入层

首先是输入层,输入跟大多数深度学习在nlp方面的处理一样,需要将文本转换成词索引,每个句子是一个向量,向量中每个元素代表这该词在词典中的词索引.其中词向量矩阵embedding可以在该模型中一起训练,也可以使用word2vec或者其他框架预训练好的词向量,然后在模型训练过程中进行Fine tune.这也就是上图中第一部份会有两个channel,一个non-static channels是表示词向量随着模型一起训练,static channels是表示使用预训练的词向量.而实验表明,在数据量小的情况下,使用non-static channels容易引起过拟合.

这部分的变量维度分别是:输入-[batch_size,sentence_length],词向量矩阵-[vocab_size,embedding_size],经过embedding处理后输出embedded-[batch_size,sentence_length,embedding_size],也就是图1中第一部分显示的内容.下面就要使用卷积操作进行处理了,但是卷积操作是四维的,除了embedded的三维之外,还有channels(在图像处理中,最后一维是三通道的颜色编码,但是在文本处理中该维值是1).所以在使用卷积处理前需要把embedded进行扩维处理.经过扩维处理后embedded变成了[batch_size,sentence_length,embedding_size,1]的矩阵.

图2

卷积层

在该部分使用卷积核对embedded做卷积处理,在论文中卷积核的size取了三个[2,3,4],这对应着n-gram模型,使得特征信息包含临近词信息,这里就不在过深说明,详细内容可以去看n-gram语言模型.如果卷积核的size为[2,3,4],那么就有三种卷积核,其中size为2的卷积核的shape是[2,embedding_size,1,num_filter],其他类似,其中num_filter代表着卷积核的数量,是超参数.这样我们以1的步长去进行卷积,会得到size_len*num_filter个列向量,其中size_len是size的种类数,这里是3个size.对应着图1中的第二部分.这部分的作用是提取了语义信息,其中包括n-gram模型.同时因为卷积操作的特点参数共享,所以可以减少了大部分参数,节约内存使用.

池化层

文中提到的pooling操作是max_pooling,就是将列向量中最大值取出来,对输入补0做过滤(有兴趣的朋友也可以试试平均池化,看看结果有神马不同),池化操作是对整个向量,所以它的shape是[1,sentence_length-size+1,1,1],其中sentence_length-size+1是上文提到的经过卷积处理后得到的列向量长度.然后对卷积得到的每个列向量进行池化操作后,会得到size_len*num_filter个元素,将他们合并在一起形成一个size_len*num_filter维的向量.也就是图1的第三部分.

图3

全连接层

全连接层就是正常的softmax,输入是池化后的向量,输出维度是我们要分类的类别数,为了防止过拟合,可以加一个l2正则,同时也可以在上述过程后加上dropout.

图4

总结

上本文在搜狗10分类新闻数据集进行测试,只使用了停用词,由于电脑内存不足,所以对文本内容进行了截断,只取了200个单词,所以测试结果可能不是最好的,进行调参或者添加一些其他trick可以使精度更高一些.

图5

Loss

图6

ACC

图7

TextCNN结构简单,精度比较高,只是速度相比没有Fasttext快,模型这种东西,没有绝对的好坏之说,所以根据不同数据集选择不同的模型,也是一门技术.

转载于:https://www.cnblogs.com/hiyoung/p/9933230.html

文本分类-TextCNN相关推荐

  1. 使用卷积神经网络进行文本分类textCNN

    使用卷积神经网络进行文本分类textCNN 一维卷积层 我们可以将文本当作一维图像,从而可以用一维卷积神经网络来捕捉临近词之间的关联.与二维卷积层一样,一维卷积层使用一维的互相关运算.在一维互相关运算 ...

  2. 3.文本分类——textCNN模型

    文章目录 一. 简介 二. 模型结构 2.1 嵌入层 2.2 卷积层 2.3 池化层 2.4 全连接层 2.5 softmax层 三.textCNN总结 四.实现 五.参考 一. 简介 TEXTCNN ...

  3. 新闻文本分类 TextCNN

    首先附上我的Gitee地址: News_Classification 我将整个项目中的东西都上传上去了,只要安装好了python,以及 pytorch, jieba, gensim 应该就可以运行 我 ...

  4. Datawhale-零基础入门NLP-新闻文本分类Task01

    参考: https://www.jianshu.com/p/56061b8f463a 统计自然语言处理 宗成庆(第二版) 文本自动分类简称文本分类(text categorization),是模式识别 ...

  5. fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择 作者:机器人圈 / 微信号:ROBO_AI发表时间 :2017-07-28 图:pixabay

    fastText.TextCNN.TextRNN--这里有一套NLP文本分类深度学习方法库供你选择 「机器人圈」编译:嗯~阿童木呀.多啦A亮 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它 ...

  6. 【项目实战课】NLP入门第1课,人人免费可学,基于TextCNN的新闻文本分类实战...

    欢迎大家来到我们的项目实战课,本期内容是<基于TextCNN的新闻文本分类实战>. 所谓项目课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战讲解,可以 ...

  7. 文本分类模型_文本分类模型之TextCNN

    六年的大学生涯结束了,目前在搜索推荐岗位上继续进阶,近期正好在做类目预测多标签分类的项目,因此把相关的模型记录总结一下,便于后续查阅总结. 一.理论篇: 在我们的场景中,文本数据量比较大,因此直接采用 ...

  8. word2vec词向量 文本分类实现(TensorFlow版,算法TextCNN)

    之前也写过word2vec词向量文本分类实现,不过那是基于Keras. 今天来写下tensoflow版的代码. 再来感受下它的魅力. tensorflow比Keras更接近底层,可以更方便让我们理解W ...

  9. [Python人工智能] 二十八.Keras深度学习中文文本分类万字总结(CNN、TextCNN、LSTM、BiLSTM、BiLSTM+Attention)

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了BiLSTM-CRF模型搭建及训练.预测,最终实现医学命名实体识别实验.这篇文章将详细讲解Keras实现经典 ...

  10. textcnn文本词向量_文本分类模型之TextCNN

    六年的大学生涯结束了,目前在搜索推荐岗位上继续进阶,近期正好在做类目预测多标签分类的项目,因此把相关的模型记录总结一下,便于后续查阅总结. 一.理论篇: 在我们的场景中,文本数据量比较大,因此直接采用 ...

最新文章

  1. ubuntu如何打开命令行
  2. 关于Java实现去除连续空格的延伸
  3. linux 下文件管理值得注意的地方
  4. caffe 人脸关键点检测_全套 | 人脸检测 人脸关键点检测 人脸卡通化
  5. 什么是流量劫持,如何防止流量劫持?
  6. 此项目的默认Web访问模式设置为文件共享, 但是无法从路径(此为转贴)
  7. 移动 Azure 资源后如何快速修复 Dashboard
  8. PAT乙级(1004 成绩排名)
  9. 关于百万用户服务器架构能力(一)QQ游戏服务器架构
  10. 产教融合,共塑未来”,CIE 2018 中国 IT 教育博鳌论坛盛大落幕
  11. 装建津说计算机丢失,宽带连接上网时老是连接不上说缺少netcfg.hlp文件怎么办...
  12. python王者荣耀
  13. 图论及其应用 2007年期末考试答案 总结
  14. 终极广告拦截者软件——AdGuard
  15. 中国云计算市场“三足鼎立”
  16. shim是什么?Vue响应式原理
  17. 积雪草酸肌白蛋白纳米粒|野黄芩苷豆清白蛋白纳米粒|黄芩苷蓖麻蛋白纳米粒(齐岳)
  18. 数据分析之Excel篇(三):计算统计函数
  19. SQL窗口函数实现累加求功能
  20. 美标线材AWG能通过电流到底多大?

热门文章

  1. MFC中如何在CMainFrame类中访问CxxxView视图类中的成员
  2. think in java 读书笔记 1 ——移位
  3. java中class.forName(str)的作用
  4. python的range和linspace
  5. RGB图像转为灰度图像原理
  6. ArcGIS 字段计算器保留一位小数和获取字段长度
  7. ArcGIS 定义坐标系
  8. 高德API地名转化为坐标
  9. sublime双击选中$
  10. 详细解读用C语言编写的 “扫雷”程序