[Pytorch系列-61]：循环神经网络 - 中文新闻文本分类详解-3-CNN网络训练与评估代码详解

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/121802852

第1章预备知识

1.1 业务概述

1.2 CNN网络

1.3 CNN网络与LSTM网络的区别

1.4 LSTM网络的代码

第2章代码准备 (Jupter）

2.1 代码与数据集下载

2.2 导入库

2.3 系统配置

第3章构建数据集

3.1 构建单词表API

3.2 定义构建数据集API

3.3 构建三大数据集

3.4 构建迭代器

第4章构建模型：CNN网络

4.1 定义模型类

4.2 实例化模型并显示模型结构

第5章模型训练、评估

5.1 模型评估方法

5.2 模型训练方法

5.3 边训练、边评估模型

第6章在测试集上对模型进行评估

6.1 测试方法的定义

6.2 开始测试

第1章预备知识

1.1 业务概述

[Pytorch系列-59]：循环神经网络 - 中文新闻文本分类详解-1-业务目标分析与总体架构_文火冰糖（王文兵）的博客-CSDN博客https://blog.csdn.net/HiWangWenBing/article/details/121756744

1.2 CNN网络

（1）概述

本文使用CNN网络来实现具有时序记忆功能的文本分类应用。

我们会发现，通过合理的模型构建，

CNN网络具备与LSTM相似的准确率基本相当。
CNN网络具备与LSTM相当的复杂度。

（2）如何为文本分类构建CNN网络

文本分类的CNN网络与图像分类的CNN网络，基本单元都是卷积核，然后，在具体实现时，与图像分类的CNN却不是完全相同的，需要一些特殊的处理。

这些特殊的处理包括：

输入数据：把文本向量集与图像像素进行映射
CNN网络：按照文本向量数据的特点设计卷积核的形状

（3）输入数据

图片数据的数据格式为：通道数 * 长 * 宽 = 3 * 244 * 244

文本数据的格式为：通道数 * 长 * 宽 = 1 * 32 * 300

其中：

32：表示单词的个数

300：表示词向量的长度

经过上述方法构建的输入数据，单词就不是独立的，单词与单词之间也就有了相邻关系和时序关系。一个新闻标题就等效为一张图片。

这是这种“图片”，不是正方形的图片，且只有一个通道，相当于灰色图片。

（4）如何通过卷积获取图片特征

Conv2d (in_channels, out_channels, kernel_size, stride=1,padding=0, dilation=1, groups=1,bias=True, padding_mode=‘zeros’)

in_channels：输入的通道数目【必选】
out_channels：输出的通道数目【必选】
kernel_size：卷积核的大小，类型为int 或者元组，当卷积是方形的时候，只需要一个整数边长即可，卷积不是方形，要输入一个元组表示高和宽。【必选】
stride：卷积每次滑动的步长为多少，默认是 1 【可选】
padding：设置在所有边界增加值为 0 的边距的大小（也就是在feature map 外围增加几圈 0 ），例如当 padding =1 的时候，如果原来大小为 3 × 3 ，那么之后的大小为 5 × 5 。即在外围加了一圈 0 。【可选】

（5）如何通过卷积获取文本特征

  (convs): ModuleList((0): Conv2d(1, 256, kernel_size=(2, 300), stride=(1, 1))(1): Conv2d(1, 256, kernel_size=(3, 300), stride=(1, 1))(2): Conv2d(1, 256, kernel_size=(4, 300), stride=(1, 1))

卷积核的尺寸：

宽度：与单词向量相同的size=300，stride的步长为1，因此，一次卷积核的移动，移动一个单词的词向量的长度。
长度=2， 3， 4：这里有三种并行的卷积核，长度分别为2， 3， 4。2表示，一次卷积，覆盖相邻的2个单词。3表示，一次卷积，覆盖相邻的3个单词。4表示，一次卷积，覆盖相邻的4个单词。每种卷积核的个数是out_channels。

Cond2d输入输出：

in_channels=1：输入文本的通道数是1，而不是图片通道数3，因此文本数据相当于灰色图片。
out_channels=256：反应的相同卷积尺寸的卷积核的个数。

（6）池化层

池化层核的尺寸与卷积核的输出特征是相同尺寸

因此，池化核的输出是1*1

一共有 256 * 3 = 768个池化核的输出

（7）dropout

(dropout): Dropout(p=0.5, inplace=False)

（8）全连接层

(fc): Linear(in_features=768, out_features=10, bias=True)

in_features：256 * 3 = 768，来自池化层的输出。
out_features：10分类

1.3 CNN网络与LSTM网络的区别

本文的代码与LSTM网络的代码基本相同，除了如下的区别：

（1）系统配置：class Config(object):

# 模型参数
self.filter_sizes = (2, 3, 4) # 三层卷积核，卷积核尺寸
self.num_filters = 256 # 卷积核数量(channels数)

（2）神经网络模型结构：class Model(nn.Module)

（3）神经网络的名称：model_name = "TextCNN"

（4）训练的输出结果：训练结果

1.4 LSTM网络的代码

[Pytorch系列-60]：循环神经网络 - 中文新闻文本分类详解-2-LSTM网络训练与评估代码详解_文火冰糖（王文兵）的博客-CSDN博客作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：目录第1章预备知识1.1 业务概述1.2 LSTM网络第2章代码准备 (Jupter）2.1 代码与数据集下载2.2 导入库2.3系统配置第3章构建数据集3.1 构建单词表API3.2 定义构建数据集API3.3 构建三大数据集3.4 构建迭代器第4章构建模型：LSTM4.1 定义模型类4.2 实例化模型并显示模型结构4.3 初.https://blog.csdn.net/HiWangWenBing/article/details/121800521

第2章代码准备 (Jupter）

2.1 代码与数据集下载

https://download.csdn.net/download/HiWangWenBing/60358291https://download.csdn.net/download/HiWangWenBing/60358291

2.2 导入库

import time
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from tensorboardX import SummaryWriter
from sklearn import metrics
import os
import torch
import numpy as np
import pickle as pkl
from tqdm import tqdm
import time
from datetime import timedelta

2.3 系统配置

（1）系统配置数据结构

class Config(object):"""配置参数"""def __init__(self, dataset, embedding):self.model_name = 'TextRNN'#数据集路径self.train_path = dataset + '/data/train.txt'                                # 训练集self.dev_path = dataset + '/data/dev.txt'                                    # 验证集self.test_path = dataset + '/data/test.txt'                                  # 测试集#类别文件self.class_list = [x.strip() for x in open(dataset + '/data/class.txt').readlines()]                                # 类别名单#单词表：是单词与其索引的对应表self.vocab_path = dataset + '/data/vocab.pkl'                                # 词表# 词向量表: 是索引与向量编码的对应表self.embedding_pretrained = torch.tensor(np.load(dataset + '/data/' + embedding)["embeddings"].astype('float32'))\if embedding != 'random' else None                                       # 预训练词向量self.embed = self.embedding_pretrained.size(1)\if self.embedding_pretrained is not None else 300           # 字向量维度, 若使用了预训练词向量，则维度统一# 训练数据保存self.save_path = dataset + '/saved_dict/' + self.model_name + '.ckpt'        # 模型训练结果self.log_path = dataset + '/log/' + self.model_name# GPU or CPUself.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # 设备# 模型参数self.filter_sizes = (2, 3, 4)                                   # 三层卷积核，卷积核尺寸self.num_filters = 256                                          # 卷积核数量(channels数)# 训练时的参数self.dropout = 0.5                                              # 随机失活self.require_improvement = 1000                                 # 若超过1000batch效果还没提升，则提前结束训练self.num_classes = len(self.class_list)                         # 类别数self.n_vocab = 0                                                # 词表大小，在运行时赋值self.num_epochs = 20                                            # epoch数self.batch_size = 64                                           # mini-batch大小self.pad_size = 32                                              # 每句话处理成的长度(短填长切)self.learning_rate = 1e-3                                       # 学习率

（2）实例化配置对象

# 数据集目录
dataset = 'THUCNews'  # 搜狗新闻:embedding_SougouNews.npz, 腾讯:embedding_Tencent.npz, 随机初始化:random
embedding = 'embedding_SougouNews.npz'#通过空格分隔的英文单词还是中文的字符
word = False#初始化配置实例
config = Config(dataset, embedding)#显示配置信息
print(config.device)
print(config.embed)
print(config.embedding_pretrained)

第3章构建数据集

3.1 构建单词表API

MAX_VOCAB_SIZE = 10000#新闻标题的填充，固定输入长度为32
UNK, PAD = '<UNK>', '<PAD>'# 单词表不是词向量表，而是单词与其索引对应关系的字典表。
# 从指定单词表中读取词向量表：
# file_path：单词表的路径
# tokenizer：分词器，与英文不同，中文的单词是仅仅相邻的，中间没有空格，因此需要分词器进行分词。
# max_size：单词的最大数量
# min_freq：单词表排序时的参考词频
def build_vocab(file_path, tokenizer, max_size, min_freq):# 单词表是一个字典vocab_dic = {}with open(file_path, 'r', encoding='UTF-8') as f:# 通过tqdm从单词表中读取一行单词，tqdm能够显示进度条for line in tqdm(f):# 移除字符串头尾指定的字符(默认为空格或换行符)或字符序列lin = line.strip()if not lin:#空行continue#按照空格或table键，把字符转换成短语列表content = lin.split('\t')[0]# 从列表中提取一个个独立的中文单词（即中文字）for word in tokenizer(content):# 构建单词字典表vocab_dic[word] = vocab_dic.get(word, 0) + 1#对单词表进行排序vocab_list = sorted([_ for _ in vocab_dic.items() if _[1] >= min_freq], key=lambda x: x[1], reverse=True)[:max_size]#还原成字典vocab_dic = {word_count[0]: idx for idx, word_count in enumerate(vocab_list)}#使用UNK填充单词表的尾部#  ，'<UNK>': 4760, '<PAD>': 4761}vocab_dic.update({UNK: len(vocab_dic), PAD: len(vocab_dic) + 1})return vocab_dic

3.2 定义构建数据集API

def build_dataset(config, ues_word):print("构建单词表")# 指定分词器print("ues_word=",ues_word)if ues_word:tokenizer = lambda x: x.split(' ')  # 以空格隔开，word-levelelse:tokenizer = lambda x: [y for y in x]  # char-level =》适合中文# load单词表if os.path.exists(config.vocab_path):# 如果有现成的单词表，则使用已有的单词表（单词与索引的字典）print("使用已有的单词表:", config.vocab_path)vocab = pkl.load(open(config.vocab_path, 'rb'))else:# 如果没有现成的单词表，则基于训练集，构建一个新的词表print("基于训练集，新构建单词表：", config.train_path)vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1)pkl.dump(vocab, open(config.vocab_path, 'wb'))print(f"Vocab size: {len(vocab)}")print("构建数据集")# 定义load和转换数据集的函数# 固定长度为32。def load_dataset(path, pad_size=32):contents = []print("数据集：", path)with open(path, 'r', encoding='UTF-8') as f:# 读取一行文件，并显示进度条for line in tqdm(f):#去掉头尾标识符lin = line.strip()if not lin:# 跳过空行continue#通过空格分离单词和标签content, label = lin.split('\t')words_line = []token = tokenizer(content)seq_len = len(token)# 根据填充单词，确定有效字符长度：seq_lenif pad_size:if len(token) < pad_size:token.extend([vocab.get(PAD)] * (pad_size - len(token)))else:token = token[:pad_size]seq_len = pad_size#构建一个个样本数据for word in token:# 从单词表中获取每个单词对应的索引index，并添加到文字样本对应的列表中# words_line：存放当个样本数据（单词的index列表）words_line.append(vocab.get(word, vocab.get(UNK)))#contents：存放所有样本数据（单词的index列表）contents.append((words_line, int(label), seq_len))return contents  # [([...], 0), ([...], 1), ...]# load训练数据集train = load_dataset(config.train_path, config.pad_size)# load 验证数据集dev = load_dataset(config.dev_path, config.pad_size)# load 测试数据集test = load_dataset(config.test_path, config.pad_size)return vocab, train, dev, test

3.3 构建三大数据集

（1）构建数据集

def get_time_dif(start_time):"""获取已使用时间"""end_time = time.time()time_dif = end_time - start_timereturn timedelta(seconds=int(round(time_dif)))start_time = time.time()#构建三大数据集
print("Loading data...")
vocab, train_data, dev_data, test_data = build_dataset(config, word)# 更新词向量的长度
config.n_vocab = len(vocab)time_dif = get_time_dif(start_time)
print("Time usage:", time_dif)

（2）显示单词表

print(vocab)

{' ': 0, '0': 1, '1': 2, '2': 3, '：': 4, '大': 5, '国': 6, '图': 7, '(': 8, ')': 9, '3': 10, '人': 11, '年': 12, '5': 13, '中': 14, '新': 15, '9': 16, '生': 17, '金': 18, '高': 19, '《': 20, '》': 21, '4': 22, '上': 23, '8': 24, '不': 25, '考': 26, '一': 27, '6': 28, '日': 29, '元': 30, '开': 31, '美': 32, '价': 33, '发': 34, '学': 35, '公': 36, '成': 37, '月': 38, '将': 39, '万': 40, '7': 41, '基': 42, '市': 43, '出': 44, '子': 45, '行': 46, '机': 47, '业': 48, '被': 49, '家': 50, '股': 51, '的': 52, '在': 53, '网': 54, '女': 55, '期': 56, '平': 57, '房': 58, '名': 59, '三': 60, '-': 61, '会': 62, '地': 63, '场': 64, '全': 65, '小': 66, '现': 67, '有': 68, '分': 69, '后': 70, '称': 71, '组': 72, '为': 73, '下': 74, '盘': 75, '最': 76, '“': 7

........

737, '恫': 4738, '诣': 4739, '叁': 4740, '氮': 4741, '曳': 4742, '膑': 4743, '峦': 4744, '攫': 4745, '鹄': 4746, '啄': 4747, '憩': 4748, '鞑': 4749, '垠': 4750, '鹕': 4751, '鄞': 4752, '呸': 4753, 'Ｖ': 4754, '玷': 4755, '瘁': 4756, '蚱': 4757, '§': 4758, '霎': 4759, '<UNK>': 4760, '<PAD>': 4761}

（3）显示训练数据集

# 训练集索引是单词的索引
# 样本：
# 第一组数: 输入：32个单词序列的索引，文本新闻标题样本，转换成其索引，固定长度为32个单词，不足填充=》4760：PAD
# 第二个数：分类的类别
# 第三个数：有效字符的长度（不包括填充字符）# 训练集输入数据的长度（包括填充字符）
print(len(train_data[0][0]))#中华女子学院：本科层次仅1专业招男生  3
print(train_data[0])#两天价网站背后重重迷雾：做个网站究竟要多少钱  4
print(train_data[1])

32
([14, 125, 55, 45, 35, 307, 4, 81, 161, 941, 258, 494, 2, 175, 48, 145, 97, 17, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 3, 18)
([135, 80, 33, 54, 505, 1032, 70, 95, 95, 681, 2288, 4, 486, 179, 54, 505, 626, 1156, 180, 115, 421, 561, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 4, 22)

（3）显示验证数据集

print(dev_data[0])
print(dev_data[1])

([173, 714, 3, 186, 1844, 889, 0, 2641, 80, 2061, 416, 478, 382, 5, 308, 15, 1264, 1344, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 8, 18)
([28, 1, 12, 567, 1371, 31, 365, 899, 846, 1300, 1095, 256, 1311, 8, 72, 7, 9, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 5, 17)

（4）显示测试数据集

print(test_data[0])
print(test_data[1])

([1393, 686, 1350, 656, 110, 232, 1138, 0, 1, 24, 12, 26, 216, 1533, 56, 123, 434, 270, 742, 65, 112, 236, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 3, 22)
([14, 6, 11, 156, 36, 211, 5, 35, 3, 1, 2, 3, 12, 830, 324, 216, 626, 17, 334, 291, 461, 659, 334, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760, 4760], 3, 23)