近几年来，考公的人数越来越多，而申论作为考公非常重要的一部分，也是另很多人头痛的一部分。很多人在考试之前都会背一些优秀范文或句段，以便在考试时派上用场。这里我用GPT2预训练很多篇申论范文，使之能在某个话题的提示下自动申成一片范文或句段。话不多说，直接上代码。

数据预处理

这里我找了500篇申论范文，不是很多，当然也可以多找点，最好是各类话题都有，越多越好。

造字典

将所有文章中的字，符号提取出来，去重后存入一个txt文档中
代码实现

import os
DIR_PATH = r"novels"
VOCAB_FILE = r"Vocab.txt"
words = set()
x=0
for i, filename in enumerate(os.listdir(DIR_PATH)):x=x+1f_path = os.path.join(DIR_PATH, filename)print(f_path)with open(f_path, "r+", encoding="utf-8") as f:w = f.read(1)while w:if w == '\n' or w == '\r' or w == ' ':# words.add('[SEP]')passelse:words.add(w)w = f.read(1)
print(x)
with open(VOCAB_FILE, "w+", encoding="utf-8") as f:f.write("[START] [SEQ] [UNK] [PAD] [END] ")f.write(" ".join(words))f.flush()

对文章进行编码

利用字典对文章进行编码，如字典中第12个字是“我”，则在原文中的“我”就用数字11代替，然后保存每篇文章的编码。
代码实现：

import os
SRC_DIR = r"novels"
DST_DIR = r"encoded_novels"
VOCAB_FILE = "Vocab.txt"
if not os.path.exists(DST_DIR):os.makedirs(DST_DIR)
with open(VOCAB_FILE, "r+", encoding="utf-8") as f:tokens = f.read().split()
count = 0
for i, filename in enumerate(os.listdir(SRC_DIR)):f_path = os.path.join(SRC_DIR, filename)print(f_path)with open(f_path, "r+", encoding="utf-8") as f:dst = ["0"]w = f.read(1)while w:if w == '\n' or w == '\r' or w == '\t' or ord(w) == 12288:dst.append("1")elif w == ' ':dst.append("3")else:try:dst.append(str(tokens.index(w)))except:dst.append("2")w = f.read(1)count+=1with open(os.path.join(DST_DIR, "{}.txt".format(count)), "w+", encoding="utf-8") as df:df.write(" ".join(dst))
print(count)

网络模型

我搭建的是带多头注意力的GPT模型，由于电脑GPU显存不大，所以头数设的12，模块数设的6，字的维数为768，最多可生成500字

# config文件
block_num = 6
head_num = 12
embed_dim = 768
vocab_num = 3012
pos_num =500
multi=4
stride=1
device = "cuda:0"

import torch
from torch import nn
import config as cfg
class Attention(nn.Module):def __init__(self, isMask=True):super().__init__()self.dk = (cfg.embed_dim // cfg.head_num) ** 0.5self.isMask = isMaskself.c_attn = nn.Linear(cfg.embed_dim, cfg.embed_dim * 3)self.attn_drop = nn.Dropout(0.1)self.resi_drop = nn.Dropout(0.1)self.c_proj = nn.Linear(cfg.embed_dim, cfg.embed_dim)if self.isMask:# self.register_buffer("mask", torch.tril(torch.ones(cfg.pos_num, cfg.pos_num)))self.mask = torch.tril(torch.ones(cfg.pos_num, cfg.pos_num)).cuda()def forward(self, x):x = self.c_attn(x) # x形状(N,S,V)，N代表多少个句子，S代表多少个词，V代表每个词的维度x = x.reshape(*x.shape[:-1], cfg.head_num, -1)  # (N,S,V)——>(N,S,12,768/12*3)x = x.transpose(-2, -3)  # (N,S,12,768/12*3)——>(N,12,,S,768/12*3)q, k, v = x.chunk(3, dim=-1)w = (q @ k.transpose(-1, -2)) / self.dk  # (N,12,S,64)@(N,12,64,S)=(N,12,S,S)# if self.isMask:# mask=(self.mask if self.isMask else 1)mask=torch.tril(torch.ones(w.size(-2), w.size(-1))).cuda()w = w * mask - (1 - mask) * 1e5w = torch.softmax(w, dim=-1)w = self.attn_drop(w)a = w @ v  # (N,12,S,S)@(N,12,S,64)-->(N,12,S,64)a = a.transpose(-2, -3)  # (N,12,S,64)-->(N,S,12,64)a = a.reshape(*a.shape[:-2], cfg.embed_dim)  # (N,S,12,64)-->(N,S,768)h = self.c_proj(a)h = self.resi_drop(h)return h
class Block(nn.Module):def __init__(self, isMask=True):super().__init__()self.layer_normal_1 = nn.LayerNorm(cfg.embed_dim)self.attention = Attention(isMask)self.layer_normal_2 = nn.LayerNorm(cfg.embed_dim)self.proj = nn.Sequential(nn.Linear(cfg.embed_dim, cfg.multi * cfg.embed_dim),nn.LeakyReLU(),nn.Linear(cfg.multi * cfg.embed_dim, cfg.embed_dim),)self.dropout = nn.Dropout(0.1)def forward(self, x):h = self.layer_normal_1(x)a = self.attention(h)a = a + x  # 加一个残差a = self.layer_normal_2(a)h = self.proj(a)h = self.dropout(h)y = h + a  # 加一个残差return y
class GPT2(nn.Module):def __init__(self):super().__init__()self.vocab_embed = nn.Embedding(cfg.vocab_num, cfg.embed_dim) # 定义一个字典self.pos_embed = nn.Embedding(cfg.pos_num, cfg.embed_dim)   # 定义一个位置编码# self.type_embed = nn.Embedding(cfg.type_num, cfg.embed_dim)   # 定义一个类型编码self.blocks = []for _ in range(cfg.block_num):self.blocks.append(Block())self.drop = nn.Dropout(0.1)self.sequential = nn.Sequential(*self.blocks)self.output_layer = nn.Linear(cfg.embed_dim, cfg.vocab_num, bias=False)def forward(self, x, p):e = self.vocab_embed(x)  # 对输入进行词向量编码p = self.pos_embed(p)    # 对输入进行位置编码# t = self.type_embed(t)   # 对输入进行类型编码h = self.drop(e + p)h = self.sequential(h)return self.output_layer(h)

网络训练

生成训练数据

import torch, os
from torch.utils.data import Dataset
import config as cfg
class MyDataset(Dataset):def __init__(self, dir):self.dataset = []for filename in os.listdir(dir):with open(os.path.join(dir, filename), "r+") as f:ws = [int(x) for x in f.readline().split()]ws_len = len(ws)start = 0while ws_len - start > cfg.pos_num + 1:self.dataset.append(ws[start:start + cfg.pos_num + 1])start += cfg.strideelse:if ws_len > cfg.pos_num + 1:self.dataset.append(ws[ws_len - cfg.pos_num - 1:])def __len__(self):return len(self.dataset)def __getitem__(self, index):data = torch.tensor(self.dataset[index])return data[0:-1], data[1:]

训练


from module import *
from dataset import *
import torch, os
from torch import  optim
from torch.utils.data import DataLoader
from torch.nn import  functional as F
# def weight_init(m):
#     if isinstance(m, nn.Linear):
#         nn.init.xavier_normal_(m.weight)
#         if m.bias is not None:
#             nn.init.constant_(m.bias, 0)
save_path=r"网络参数"
class Trainer:def __init__(self):self.net = GPT2()self.weight_file = os.path.join(save_path, "gpt2_k.pt")if os.path.exists(self.weight_file):self.net.load_state_dict(torch.load(self.weight_file))# else:#     self.net.apply(weight_init)self.net.to(torch.device(cfg.device))self.opt = optim.Adam(self.net.parameters(), lr=0.0001)def train(self):myDataset = MyDataset(r"encoded_novels")print(len(myDataset))dataloader = DataLoader(myDataset, batch_size=4, shuffle=True)epoch=0while True:epoch=epoch+1sum_loss = 0for i, (x, y) in enumerate(dataloader):x, y = x.to(torch.device(cfg.device)), y.to(torch.device(cfg.device))p = torch.arange(0, x.shape[1])[None, :].repeat(x.shape[0], 1).to(torch.device(cfg.device))# print(p)_y = self.net(x, p).reshape(-1, cfg.vocab_num)y = y.reshape(-1)loss = F.cross_entropy(_y, y)self.opt.zero_grad()loss.backward()self.opt.step()print(loss.cpu().detach().item())sum_loss += loss.cpu().detach().item()if i % 1000 == 0 and i > 0:torch.save(self.net.state_dict(), self.weight_file)print("第{0}轮训练完毕".format(epoch))print("轮的平均损失为{0}".format(sum_loss / len(dataloader)))torch.save(self.net.state_dict(), self.weight_file)print("参数保存成功")

测试

from module import *
def transer(x):              # 索引到字的换算VOCAB_FILE = "Vocab.txt"with open(VOCAB_FILE, "r+", encoding="utf-8") as f:tokens = f.read().split()y=x[0]for i in y:print(tokens[i], end=" ")
def Transfer(str):          # 字到索引的换算VOCAB_FILE = "Vocab.txt"with open(VOCAB_FILE, "r+", encoding="utf-8") as f:tokens = f.read().split()idx=tokens.index(str)return idx
if __name__ == '__main__':gpt = GPT2()gpt.to(torch.device(cfg.device))gpt.eval()gpt.load_state_dict(torch.load(r"网络参数\gpt2_k.pt"))os = []x = torch.tensor([[Transfer("依"),Transfer("法"),Transfer("治"),Transfer("国")]]).cuda()  # 给定一个开始词p = torch.tensor([[0,1,2,3]]).cuda()  # 给定一个起始位置l=x.size()[1]for i in range(400):y = gpt(x, p)y = y[:, -1:]v, y = torch.topk(y, 8, dim=-1)v, y = v.reshape(-1, 8), y.reshape(-1, 8)v = torch.multinomial(torch.softmax(v, dim=-1), 1)y = torch.gather(y, -1, v)x = torch.cat([x, y], dim=1)p = torch.tensor([range(i + l + 1)]).cuda()print(transer(x))

比如，输入“人工智能”，则会生成如下片段：

人工智能，网上购物，物联网，各种新兴技术层出不穷，各种创新思想不断迸发，国家政策环境需求都为创新提供了丰富的土壤，这也是最坏的时代，自主品牌创新能力薄弱，山寨产品盛行，核心技术被外方意志很大程度上削减了我国的竞争力，究其原因，一方面是企业缺乏竞争意识，创新意识目光短浅所致，而另一方面在于人才的流失，由于学术界浮躁的氛围，以及体制的不完善等，许多科研人员面临工资低，没有项目的窘境，为了改善环境，降低生存压力，转而流向其他的领域，因此想要中国品牌走出国门，提升竞争力，创新是关键。打造中国品牌提升国家竞争力，融入民族精神是重点。中国品牌之所以被称为中国品牌，关键在于其拥有独特的魅力，不同于其他国家，必须有中国的特色，必须有中国的文化，与文化紧密结合，故宫博物院的文创产品，就是将这一融合发挥到极致的典范，将文物蕴含的文化内容融入到产品设计当中，设计出具有中国特色的独一无二的文创产品，不仅能够吸引大量的游客，更传承了中国文化之道，不仅打造了品牌，更将这一品牌销往国外，可见，打造中国品牌，还必须要将中国文化结合其中，方能够让中国品牌脱颖而出，与众不同，方能体现中国竞争力。

基于GPT2实现考公申论文章生成相关推荐

GPT2实现考公申论文章生成
向AI转型的程序员都关注了这个号???????????? 人工智能大数据与深度学习公众号:datayx 近几年来,考公的人数越来越多,而申论作为考公非常重要的一部分,也是另很多人头痛的一部分.很多 ...
执着于考研考公却一再挫败，拿什么拯救你的职场后半生？
今天之所以想写一篇这样的文章,确确实实是有感而发,因为从近来接触的学员身上,能够最直观地感受到:考公考研失败后的同学,他们内心的那种焦虑感远超往期! 用他们的话讲:"目前的状态就是感觉自己和 ...
再见吧，996！程序员开源考公指南获高赞：三人已成功上岸
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达整理 | 钰莹转载自公众号:AI前线近年来,互联网公司 996 ...
长见识！居然还有程序员考公指南这种东西？
整理 | 王晓曼出品 | 程序人生 (ID:coder _life) 最近,拼多多事件的发酵再次把互联网打工人的996推到了风口浪尖. 虽然并不是每一个猝死事件都能与"过劳"建立 ...
考研、考公还是找工作？别在大学因为迷茫这个问题浪费时间了
在大学,千万不要因为分数去限制你的思维如果看到此篇文章的你,是处于即将或已经步入大一的学弟学妹们,那首先我要恭喜你们通过自己的努力考上了大学.在这我告诉你们,只要进入大学的大门,就不要纠结于一些某些 ...
超全！互联网大厂职级薪资表，全国各地互联网大厂分布（校招/社招/考研/考公）
中国互联网大厂从实力上划分,可以分为第一梯队.第二梯队.第三梯队互联网巨头市值缩水排行榜互联网大厂月薪情况互联网大厂时薪排行榜互联网大厂薪资&职级参考表 2022届校招薪资汇总 202 ...
程序员考公指南：逃离996的最强出路，拒绝秃顶的最佳方法
最近,拼多多事件的发酵再次把互联网打工人的996推到了风口浪尖. 虽然并不是每一个猝死事件都能与"过劳"建立直接联系,但互联网行业超负荷加班处理Bug是家常便饭,虽然收入高于很多行 ...
程序员考公指南（逃离996的最强后路！！！）
最近,拼多多事件的发酵再次把互联网打工人的996推到了风口浪尖. 虽然并不是每一个猝死事件都能与"过劳"建立直接联系,但互联网行业超负荷加班处理Bug是家常便饭,虽然收入高于很多行 ...
加餐1 | 考公、考编、军队文职以及事业编
文章目录一.简介二.考公 1.国考 2.省考三.考编(各种事业编) 四.军队文职五.银行一.简介考编一般是指公务员和事业编公务员. 公务员分为国考.省考.选调生. 国考在每年的 11 月底 ...
失意互联网人，决定去考公
深燃(shenrancaijing)原创作者 | 邹帅唐亚华王敏宛其李秋涵编辑 | 王敏互联网的尽头是考公? 近年来,公务员考试越来越热,今年的竞争尤其激烈.据统计,国家公务员招录考试 ...

基于GPT2实现考公申论文章生成