1. 模型原理

1.1 论文

Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。

卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram,从而能够更好地捕捉局部相关性。

1.2 网络结构

TextCNN的详细过程原理图如下:

TextCNN详细过程:

  • Embedding:第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点。
  • Convolution:然后经过 kernel_sizes=(2,3,4) 的一维卷积层,每个kernel_size 有两个输出 channel。
  • MaxPolling:第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示。
  • FullConnection and Softmax:最后接一层全连接的 softmax 层,输出每个类别的概率。

通道(Channels):

  • 图像中可以利用 (R, G, B) 作为不同channel;
  • 文本的输入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积(conv-1d):

  • 图像是二维数据;
  • 文本是一维数据,因此在TextCNN卷积用的是一维卷积(在word-level上是一维卷积;虽然文本经过词向量表达后是二维数据,但是在embedding-level上的二维卷积没有意义)。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野

Pooling层:

利用CNN解决文本分类问题的文章还是很多的,比如这篇 A Convolutional Neural Network for Modelling Sentences 最有意思的输入是在 pooling 改成 (dynamic) k-max pooling ,pooling阶段保留 k 个最大的信息,保留了全局的序列信息。

比如在情感分析场景,举个例子:

“我觉得这个地方景色还不错,但是人也实在太多了”

虽然前半部分体现情感是正向的,全局文本表达的是偏负面的情感,利用 k-max pooling能够很好捕捉这类信息。

2. 实现

基于Keras深度学习框架的实现代码如下:

importloggingfrom keras importInputfrom keras.layers importConv1D, MaxPool1D, Dense, Flatten, concatenate, Embeddingfrom keras.models importModelfrom keras.utils importplot_modeldef textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None):"""TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer."""x_input= Input(shape=(max_sequence_length,))logging.info("x_input.shape: %s" % str(x_input.shape))  #(?, 60)if embedding_matrix isNone:x_emb= Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input)else:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length,weights=[embedding_matrix], trainable=True)(x_input)logging.info("x_emb.shape: %s" % str(x_emb.shape))  #(?, 60, 300)
pool_output=[]kernel_sizes= [2, 3, 4]for kernel_size inkernel_sizes:c= Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb)p= MaxPool1D(pool_size=int(c.shape[1]))(c)pool_output.append(p)logging.info("kernel_size: %s \t c.shape: %s \t p.shape: %s" %(kernel_size, str(c.shape), str(p.shape)))pool_output= concatenate([p for p inpool_output])logging.info("pool_output.shape: %s" % str(pool_output.shape))  #(?, 1, 6)
x_flatten= Flatten()(pool_output)  #(?, 6)y = Dense(output_dim, activation='softmax')(x_flatten)  #(?, 2)logging.info("y.shape: %s \n" %str(y.shape))model= Model([x_input], outputs=[y])ifmodel_img_path:plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False)model.summary()return model

特征:这里用的是词向量表示方式

  • 数据量较大:可以直接随机初始化embeddings,然后基于语料通过训练模型网络来对embeddings进行更新和学习。
  • 数据量较小:可以利用外部语料来预训练(pre-train)词向量,然后输入到Embedding层,用预训练的词向量矩阵初始化embeddings。(通过设置weights=[embedding_matrix])。
    • 静态(static)方式训练过程中不再更新embeddings。实质上属于迁移学习,特别是在目标领域数据量比较小的情况下,采用静态的词向量效果也不错。(通过设置trainable=False)
    • 非静态(non-static)方式在训练过程中对embeddings进行更新和微调(fine tune),能加速收敛。(通过设置trainable=True)

plot_model()画出的TextCNN模型结构图如下:

参考:https://zhuanlan.zhihu.com/p/25928551

转载于:https://www.cnblogs.com/bymo/p/9675654.html

[NLP] TextCNN模型原理和实现相关推荐

  1. [NLP] 文本分类之TextCNN模型原理和实现(超详细)

    1. 模型原理 1.1论文 Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出Tex ...

  2. 深度学习分析--TextCNN算法原理及分类实现

    深度学习算法背景 人工智能发展历史 随着算力提高以及深度学习的应用,近几年算法发展很快 应用场景 计算机视觉 用于车牌识别和面部识别等的应用. 信息检索 用于诸如搜索引擎的应用 - 包括文本搜索和图像 ...

  3. NLP | textCNN textRNN 图文详解及代码

    textCNN &textRNN主要是做文本分类(Text Classification). 文本分类是自然语言处理的一项基本任务,试图推断给定文本(句子.文档等)的标签或标签集. 文本分类的 ...

  4. 史上最详尽的NLP预处理模型汇总

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 磐创AI(公众号ID:xunixs) 作者 | AI小昕 编者按:近年来,自然语言处理(NL ...

  5. 二十四、TextCNN的原理和实现

    1.1 TextCNN的模型原理 Yoon Kim在2014年将卷积神经网络CNN应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好地捕捉局部相关性. 1.2 TextC ...

  6. 【Pytorch神经网络实战案例】40 TextCNN模型分析IMDB数据集评论的积极与消极

    卷积神经网络不仅在图像视觉领域有很好的效果,而且在基于文本的NLP领域也有很好的效果.TextCN如模型是卷积神经网络用于文本处理方面的一个模型. 在TextCNN模型中,通过多分支卷积技术实现对文本 ...

  7. 基于Text-CNN模型的中文文本分类实战

    七月 上海 | 高性能计算之GPU CUDA培训 7月27-29日三天密集式学习  快速带你入门阅读全文> 正文共5260个字,21张图,预计阅读时间28分钟. Text-CNN 1.文本分类 ...

  8. 知识图谱论文阅读(八)【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

    学习的博客: 推荐系统遇上深度学习(二十六)–知识图谱与推荐系统结合之DKN模型原理及实现 知识图谱特征学习的模型分类汇总 知识图谱嵌入(KGE):方法和应用的综述 论文: Knowledge Gra ...

  9. textcnn文本词向量_基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类.商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比 ...

最新文章

  1. Java知识系列 -- 反射
  2. 使用互斥元保护共享数据-lock_guard
  3. [转载]二叉树先序、中序、后序三种遍历的非递归算法
  4. 人族机器人叉兵_星际争霸兵种体积和伤害判断:叉叉小体积为什么运输机占2单位?...
  5. JavaFX图表(八)之堆积条形图
  6. redis获取byte数组_《Redis深度历险》读书笔记
  7. Centos-redis安装配置
  8. CS 系统框架二[增加默认启动以及代码打开窗体]
  9. 家谱等人物关系图的绘制
  10. qtreewidgetitem 选中背景颜色_列表式报表阶梯背景色效果
  11. IIS下发布关于Excel导入导出时遇到的问题集锦
  12. 关于python的自省机制
  13. TST扫描电镜与透射电镜有什么不同?
  14. 华为路由器静态路由协议配置
  15. PhotoSweeper X (重复照片清理工具)
  16. Ant Design Mobile是什么?
  17. 苹果自带跳语音服务器,苹果手机怎么把语音包悬浮 悬浮功能打开方法
  18. 朴素贝叶斯的三个常用模型: 高斯、多项、伯努利的原理和解释
  19. 分表、分库、分片和分区
  20. 零售连锁门店收银系统源码管理商品分类的功能逻辑分享

热门文章

  1. UML类图介绍及简单用法
  2. 如何防止app接口被别人调用
  3. 【转】 NSArray copy 问题
  4. 把你的项目升级到IE8
  5. 如何去掉子窗体的关闭按钮.右上角的那个X
  6. Flutter根据偏移量转换角度 Offset 的使用实例
  7. jquery中的ajax 网络请求
  8. china-pub近7日计算机图书排行榜
  9. Linux SSH远程链接 短时间内断开
  10. Ubuntu 14.04/14.10下安装VMware Workstation 11图文教程