资源下载地址:https://download.csdn.net/download/sheziqiong/86799359
资源下载地址:https://download.csdn.net/download/sheziqiong/86799359

text-classification-cnn

使用卷积神经网络(CNN)处理自然语言处理(NLP)中的文本分类问题。本文将结合TensorFlow代码介绍:

  • 词嵌入

    • 填充
    • Embedding
  • 卷积层
    • 卷积(tf.nn.conv1d)
    • 池化(pooling)
  • 全连接层
    • dropout
  • 输出层
    • softmax

文件测试

键盘输入测试

网络结构与解释

网络的主体结构如下如所示:

代码的详细流程图为:

1. word embedding 词向量转换

这也是NLP文本分类任务中最重要的一步,因为当我们知道如何用计算机能理解的词向量(word vector)表示自然语言的句子(sequence)时,文本分类问题就退化成了一个简单的数据分类问题,和MNIST分类本质上没有区别。
  在解决这个问题之前,我们先回顾一下语言是如何表示的。

如何表示一个词语的意思

先来看看如何定义“意思”的意思,英文中meaning代表人或文字想要表达的idea。这是个递归的定义,估计查询idea词典会用meaning去解释它。
  1. 用单词、短语等表示的想法
  2. 人们想要通过单词、符号等表达的想法
  3. 用写作,绘画的作品表达出来的想法
  但是,目前在计算机系统处理语言上无法应用这种表示方法。

计算机如何处理词语的意思

最初的词向量是one-hot形式的向量,即只有单词所在的那一维是1,其他维都是0,向量长度和词汇表(vocab)大小一样。如下表所示:

文本 词向量
[0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0]
[0,0,0,0,0,0,1,0,0,……,0,0,0,0,0,0,0]
[0,0,0,0,0,1,0,0,0,……,0,0,0,0,0,0,0]
[0,0,1,0,0,0,0,0,0,……,0,0,0,0,0,0,0]
[0,0,0,1,0,0,0,0,0,……,0,0,0,0,0,0,0]

这种表示方法的缺点显而易见:

 1.**容易造成维度灾难**。假设我们要表示5000个常用字,需要用5000维的词向量。如果表示词语或者成语则需要更大的词向量。

2.对词语之间的语义关系起不到任何表达作用。任何两个词语之间的距离都是相同的,无法使意思相近的词语距离也相近。

能不能把词向量的维度变小呢?

Dristributed representation可以解决One hot representation的问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢?这个一般需要我们在训练时自己来指定。
  也就是用神经网络来训练表示本身
  理想状态下,我们可以将词语训练成如下图的表示方法。但是,其实实际操作中我们只需要指定词向量维度的大小,在训练时不知道每一维具体表示什么含义

我们将king这个词从一个可能非常稀疏的向量坐在的空间,映射到现在这个四维向量所在的空间,必须满足以下性质:
  (1) 这个映射是单设;
  (2) 映射之后的向量不会丢失之前的那种向量所含的信息。
  这个过程称为word embedding(词嵌入),即将高维词向量嵌入到一个低维空间。

经过我们一系列的降维神操作,有了用Dristributed representation表示的较短的词向量,我们就可以较容易的分析词之间的关系了,比如我们将词的维度降维到2维,有一个有趣的研究表明,用下图的词向量表示我们的词时,我们可以发现:
K i n g → − M a n → + W o m a n → = Q u e e n → \overrightarrow{K i n g}-\overrightarrow{M a n}+\overrightarrow{W o m a n}=\overrightarrow{Q u e e n} King

Man

+
Woman

=
Queen


  是不是机器学习的学习能力也不错!

本文如何处理词语的意思

中文文本的表示方式与英文有所不同,因为英文单词可以很容易地由空格区别,而中文通常需要先进行分词操作,然后对分词后的词语编码。不事先进行分词,直接对汉字编码的称为字符级编码。
  本文先使用one-hot对文本进行字符级编码,然后通过神经网络训练出高维到低维的映射方式。详细的步骤为:
  1.建立一个词汇表(vocab),该词汇表是包含输入所有可能出现的字母、数字、符号及汉字的集合(本文使用的vocab大小为5000)。vocab的形式如下表:

id 词汇
15
16
17
18
19
20
21
22
23 (空格)

2.用词汇表(vocab)将输入的文本转换成id列表的形式,代码为:

with open_file(vocab_dir) as fp:  # 打开vocab文件words = [_.strip() for _ in fp.readlines()]  # 按行读取词汇,并转成列表的形式
word_to_id = dict(zip(words, range(len(words))))  # 将词汇与id组合,并转成字典(dict)的形式
# word_to_id = {'兰':15, '布':16, '柏':17 ...}

假设有一段文本输入为:

'兰柏蒂克 布艺床 1.8米 双人床 软床 婚床'
```http://www.biyezuopin.vip使用上面的词汇表(vocab)转成id形式后为:

[15, 17, 18, 22, 23, 16, …]

one-hot编码矩阵为:```text
[ 0,  0,  0,  0,  0,  0, ...]  ...
[ 1,  0,  0,  0,  0,  0, ...]  # 下标15
[ 0,  0,  0,  0,  0,  1, ...]
[ 0,  1,  0,  0,  0,  0, ...]
[ 0,  0,  1,  0,  0,  0, ...]
[ 0,  0,  0,  0,  0,  0, ...]
[ 0,  0,  0,  0,  0,  0, ...]  # 下标20
[ 0,  0,  0,  0,  0,  0, ...]
[ 0,  0,  0,  1,  0,  0, ...]
[ 0,  0,  0,  0,  1,  0, ...]  ...

3.将文本pad为固定长度

x_pad = kr.preprocessing.sequence.pad_sequences(data_id, max_length)

这里max_length设为100,代表文本的最大长度不能超过max_length,转成id形式的列表经过填充后变成固定长度的列表。填充(pad)的方式为在前面填充若干个0

[0, 0, 0, 0, 0, ...... ,15, 17, 18, 22, 23, 16, ...]  # 填充0后长度为 max_length

4.词嵌入(embedding)

embedding = tf.get_variable('embedding', [vocab_size, embedding_dim]) #5000×64
embedding_inputs = tf.nn.embedding_lookup(embedding, input_x)

上面的代码将5000维one-hot编码的输入文本转为较低维度(embedding_dim维)的用实数表示的词向量。在项目代码中embedding_dim设为64,为了简化问题,学习tf.nn.embedding_lookup的用法,下面假设:

embedding_dim = 2  # 假设词向量仅用2维实数编码input_x = [[0, 0, 0, 0, 0, ...... ,15, 17, 18, 22, 23, 16, ...]]  # 这里有两层列表,外层列表表示输入的语句,因为只有一个语句所以长度为1embedding = [[0,0], .....(下标为15)[0.1,1.5], [1.0,0.1], [0.2,0.1], [1.0,0.3], [0.5,0.1], (下标为20)[0.3,1.5

embedding用表格表示为:

下标 内容
0 [0.0,0.0]
15 [0.1,1.5]
16 [1.0,0.1]
17 [0.2,0.1]
18 [1.0,0.3]
19 [0.5,0.1]
20 [0.3,1.5]
21 [0.1,0.6]
22 [0.4,0.8]
23 [0.5,0.5]

注意,这些参数都是在训练中不断更新的
  使用上面的embedding,tf.nn.embedding_lookup(embedding, input_x)的结果为:

[[[ 0.0  0.0]....[ 0.1  1.5]  # 15-兰[ 0.2  0.1]  # 17-柏[ 1.0  0.3]  # 18-蒂[ 0.4  0.8]  # 22-克[ 0.5  0.5]  # 23-(空格)[ 1.0  0.1]  # 16-布
...........]]

也就是将input_x从5000×100维的one-hot编码映射为2×100的词向量(每个字映射为2维词向量,长度为100)。代码中没有明确出现one-hot的编码过程,但是tf.nn.embedding_lookup函数从embedding中取input_x指定下标的序列,因为下标i的范围是[0,5000),而embedding[i]是一个2维的向量,相当于完成了5000维(one-hot形式)到2维的映射,这与先进行one-hot编码再映射结果是相同的。当embedding的维度为n时,原理与2维相同,仅仅是表示的数组要换成n维。

2. conv1d 卷积

------http://www.biyezuopin.vip

conv = tf.layers.conv1d(embedding_inputs, filters=5, kernel_size=256)

卷积的计算方法如下图所示:
  

和处理图像时用的二维卷积不同,处理文本时使用的是一维卷积。如上图所示,使用了256个卷积核,每个卷积核大小为1×5,卷积核在每个特征上同时向右滑动,计算方式为每个维度的特征与卷积核的卷积之和加上偏移(如图中的红色区域)。可以看出一句话中两个字之间距离超过5时,不会在一个卷积核中计算到,也就是不会考虑它们之间的关联性,这也是CNN处理文本的局限之处,使用LSTM可以改进这一不足。

3. max_pool 最大池化
max_pool = tf.reduce_max(conv, reduction_indices=[1])

在卷积的过程中,长度为5的卷积核在长度为100的文本上滑动,最终得到96个输出值,由于有256个卷积核,卷积后的最终输出大小为96×256。
  代码中使用的是一个简化的最大值池化,即对96个输出直接取最大值(而没有使用池化窗口滑动),池化后的输出大小为256。

4. dense 全连接层和 output 输出层

fc = tf.layers.dense(max_pool , units=512)
fc = tf.contrib.layers.dropout(fc, self.keep_prob)
fc = tf.nn.relu(fc)logits = tf.layers.dense(fc, units=num_classes)
y = tf.nn.softmax(self.logits)  # 概率输出
y_pred_cls = tf.argmax(y, 1)  # 预测类别的索引

全连接层将256维的中间特征转成512维的,输出层进一步转成1258个类别的概率输出。取概率最大的下标即为预测的类别,最后在categories中找到对应下标的类别输出,就能得到预测的结果了。

资源下载地址:https://download.csdn.net/download/sheziqiong/86799359
资源下载地址:https://download.csdn.net/download/sheziqiong/86799359

基于cnn的中文文本分类相关推荐

  1. python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...

    基于cnn的中文文本分类算法 简介 参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任 ...

  2. 基于CNN的中文文本分类算法(可应用于垃圾文本过滤、情感分析等场景)

    向AI转型的程序员都关注了这个号

  3. TensorFlow使用CNN实现中文文本分类

    TensorFlow使用CNN实现中文文本分类 读研期间使用过TensorFlow实现过简单的CNN情感分析(分类),当然这是比较low的二分类情况,后来进行多分类情况.但之前的学习基本上都是在英文词 ...

  4. 详解CNN实现中文文本分类过程

    摘要:本文主要讲解CNN实现中文文本分类的过程,并与贝叶斯.决策树.逻辑回归.随机森林.KNN.SVM等分类算法进行对比. 本文分享自华为云社区<[Python人工智能] 二十一.Word2Ve ...

  5. 自然语言处理(二)基于CNN的新闻文本分类

    自然语言处理(二) 1.Task1 数据集探索 1.1下载数据集 1.2数据集的描述 1.3 数据的预处理 1.4 CNN卷积神经网络 1.5 训练与验证 2.IMDB 2.1下载 IMDB 数据集 ...

  6. TensorFlow – 使用CNN进行中文文本分类

    使用卷积神经网络(CNN)处理自然语言处理(NLP)中的文本分类问题.本文将结合TensorFlow代码介绍: 词嵌入 填充 Embedding 卷积层 卷积(tf.nn.conv1d) 池化(poo ...

  7. 【NLP】TensorFlow实现CNN用于中文文本分类

    代码基于 dennybritz/cnn-text-classification-tf 及 clayandgithub/zh_cnn_text_classify 参考文章 了解用于NLP的卷积神经网络( ...

  8. 基于libsvm的中文文本分类原型

    支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 .非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等 ...

  9. 【代码实战】基于pytorch实现中文文本分类任务

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来自 | 知乎 地址 | https://zhuanlan.zhihu.com/p/73176 ...

最新文章

  1. crc错误 modbus poll_Modbus通讯错误检测方法
  2. 机器学习算法加强——XGBoost实践
  3. Docker ASP.NET Core 2.0 微服务跨平台实践
  4. 《为iPad而设计:打造畅销App》——将iPad作为视频娱乐设备
  5. Vue中子组件向父组件请求数据时的数据格式问题
  6. ZSP12项目的总结
  7. 计算机tpm管理,【教程】安装 Windows 11 的三种方法,绕过TPM2.0
  8. (2022-2028年年)全球与中国实验室开发试验(LDT)行业发展调研与市场前景预测报告
  9. 传奇手游服务器搭建_如何架设一个传奇手游?需要那些东西?
  10. 几个pdf文件怎么合并为一个?
  11. 菜菜学paddle第六篇:利用LeNet卷积神经网络识别手写数字
  12. 华师c语言作业,C语言程序设计(华师在线作业)1.doc
  13. 【SQL】神奇的DUAL表
  14. 京东案例开发之居家优品
  15. 用win10怎么练计算机一级,你真的懂Win10吗?升Win10后必做的9件事
  16. pyinstaller库属于python语言的标准库_Day6----Python的pyinstall库的使用
  17. java | (二十七) JSP(1)指令,隐式对象,动作,标签,EL表达式
  18. John B. Conway《Functions of One Complex Variable Ⅱ》(约翰·B·康威《单复变函数Ⅱ》)中文目录
  19. 百度百科里头的“和谐”
  20. java 解析括号_Java如何解析括号中的负数?

热门文章

  1. 关于老罗锤子ROM的一些感想
  2. ubuntukylin VMtools安装/共享文件夹的使用
  3. iOS 手势冲突解决思路
  4. Team Leader你会带团队吗?深刻理解团队合作以及原理
  5. 拼多多新商家成长任务是什么?有什么用?
  6. 5月23日------疯狂猜成语-----四周第五次站立会议 参会人员:杨霏,袁雪,胡潇丹,郭林林,尹亚男,赵静娜...
  7. api/UI自动化框架设计(pytest)
  8. C语言之精华总结!(转自互联网)
  9. 华为、TCL、大疆,高级android面试题2019
  10. centos安装升级ruby