使用LSTM生成序列、自动问答使用?分割即可！

#使用LSTM生成序列。回头可以测试唐诗生成。
#蚂蚁金服的自动客服问答就是这样做的。而且效果不好简直是人工智障！
#根据不同的softmax温度值，对概率分布进行重新加权。
import numpy as np
def reweight_distribution(original_distribution,temperature=0.5):distribution = np.log(original_distribution) / temperature#log(原始分布)/softmax温度。 log是幂的逆运算。#原始分布式概率值组成的一维numpy数组，这些概率值之和是1.distribution = np.exp(distribution)return distribution / np.sum(distribution)
#返回原始分布重新加权后的结果。distribution的求和可能不再是1了。
#因此需要将它除以求和，以得到重新的分布。
#温度值更高就更不可预测。表现的更有创造性。
##############################################################
#就算AI能实现的功能有限，但有科技封装概念的加持，产品的品牌
#效应、让人认可的效果也更好。
#下载尼采的作品。
import keras
import numpy as np
path = keras.utils.get_file('nietzsche.txt',origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
#
#text = open(path).read().lower()#英文读不懂换成还珠格格，文本文件大小差不多，但是内容
#应该比英文少，因为汉字字符bytes长，但是维度会很高。
#原来的尼采文集有：586kb,60万字，20万句话,58个唯一字符。中文肯定字符要多很多。
#还珠格格信息：603kb,Cropus length: 320503
#Number of sequences： 106815
#Unique charachters: 2992
#直接卡死了。
#坏蛋是怎样练成的有3.85MB.
#改用流浪地球部分，才68kbCropus length: 24363
#Number of sequences： 8101
#Unique charachters: 1581
#text = open('./data/还珠格格.txt').read().lower()
text = open('./data/流浪地球部分.txt',encoding='utf-8').read().lower()
print('Cropus length:',len(text))
#Cropus 全文
##################################################################
#提取长度为maxlen 的序列（这些序列之间存在部分重叠），对它们进行
#one-hot 编码。
#准备一个数组y，其中包含对应的目标，即在每一个所提
#取的序列之后出现的字符（已进行one-hot 编码）。用来训练和预测。
maxlen = 60#提取60个字符组成序列
step = 3#每3个字符采样一个新序列（类似卷积窗口）.1-10的单词采样后为：123456、456789两句话。
sentences = []#保存所提取的序列.sentences句子。
next_char = []#保存目标（即训练和预测的下一个字符）
for i  in range(0,len(text) - maxlen,step):sentences.append(text[i:i + maxlen])#加入一句话。next_char.append(text[i + maxlen])#加入这句话下一个字符。
print('Number of sequences：',len(sentences))chars = sorted(list(set(text)))#语料中唯一字符组成的集合，然后转为list然后排序。
print('Unique charachters:',len(chars))
char_indices = dict((char,chars.index(char)) for char in chars)#构建string,int字典。
####################################################################
print('Vectorization...')#向量化
x = np.zeros((len(sentences),#samples样品句子maxlen,#每个句子多少句话len(chars)#可能的维度)                ,dtype=np.bool)#独热编码
y=np.zeros((len(sentences),#多少个目标len(chars)#多少个可能),dtype=np.bool)#独热编码
for i,sentence in enumerate(sentences):#每句话for t,char in enumerate(sentence):#每句话中的t索引和char字符x[i,t,char_indices[char]]=1#训练张量中句子、字符、单词设置对应的索引。y[i,char_indices[next_char[i]]]=1#目标张量中的句子、对应的下个单词设置对应索引。
###############################################################
print('构建网络模型')
from keras import layers
model=keras.models.Sequential()
model.add(layers.LSTM(128,input_shape=(maxlen,len(chars))))
#输出参数格式，输入形状。
model.add(layers.Dense(len(chars),activation='softmax'))
#输出参数len(chars);得到一个chars的可能的概率一维张量。
#结果是独热编码过的，所以要用categorical_crossentropy
#作为损失函数。
optimizer=keras.optimizers.RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy',optimizer=optimizer)
#训练模型，并从中采样#############################################
#对模型得到的原始概率分布进行重新加权，并从中提取一个字符索引作为下一个字符。
def sample(preds,temperature=1.0):#preds预测的句子张量,概率分布；temperature是softmax温度值preds=np.asarray(preds).astype('float64')preds=np.log(preds)/temperatureexp_preds=np.exp(preds)preds=exp_preds/np.sum(exp_preds)#重新加权probas=np.random.multinomial(1,preds,1)#随机采样return np.argmax(probas)
import random
import sys
for epoch in range(1,60):#模型训练60轮print('\nEpoch：',epoch)model.fit(x,y,batch_size=128,epochs=1)#训练一次start_index=random.randint(0,len(text)-maxlen-1)#随机初始化一个序列，范围是0-（len(text)-maxlen-1）比如：一共100个字符，那么start_index就是39，这是#下一个字符的索引。generated_text=text[start_index:start_index+maxlen]#生成的内容是下一个字符到下一句话print('Generating with seed：\n'+generated_text)#print('--生成通过:'+generated_text)for temperature in [0.2,0.5,1.0,1.2]:#使用不同的softmax温度值采样print('')print('temperature',temperature,'：')#sys.stdout.write(generated_text)#输出到控制台但是没有换行。#for i in range(400):#从种子文本开始，生成400个字符for i in range(40):#从种子文本开始，生成40个字符,太多sampled=np.zeros((1,maxlen,len(chars)))#对生成字符one-hot编码for t,char in enumerate(generated_text):sampled[0,t,char_indices[char]]=1.preds=model.predict(sampled,verbose=0)[0]#对下一个字符采样next_index=sample(preds,temperature)next_char=chars[next_index]generated_text+=next_chargenerated_text=generated_text[1:]sys.stdout.write(next_char)

使用LSTM生成序列、自动问答使用?分割即可！相关推荐

R语言丨根据VCF文件自动填充对其变异位点并生成序列fa文件
根据VCF文件自动填充对其变异位点并生成序列fa文件首先提出一个问题: 假如有一个重测序结果VCF文件,里面包含了很多个样本在几百个突变位点(snp和iad)的基因型数据,现在想根据这份原始数据,得 ...
【UE4】通过动画序列自动生成蒙太奇（In Code）
本文使用 UE4.26 版本,ActionRPG 教程为例,通过代码实现通过动画序列自动生成蒙太奇的功能. 包括: 批量通过动画生成对应蒙太奇(UE4 自带,但是需要改) 通过多个动画拼成一个蒙太奇, ...
dm数据库无法用序列自动生成主键，无法解析的成员访问表达式【SEQ_STU_CON_NEXTVAL】
报错信息: 无法解析的成员访问表达式[SEQ_STU_CON_NEXTVAL] select SEQ_STU_CON_NEXTVAL 这种错的解决方案,在dm数据库中创建一个序列叫SEQ_STU_CO ...
Paper：RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读
Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读目录 Generating Sequences With ...
python神经网络风格_[Deep-Learning-with-Python]使用LSTM生成尼采风格文章
github地址repos LSTM生成文本使用循环神经网络生成序列文本数据.循环神经网络可以用来生成音乐.图像作品.语音.对话系统对话等等. 如何生成序列数据? 深度学习中最常见的方法是训练一个网 ...
KG-开源项目：QASystemOnMedicalKG【以疾病为中心的一定规模医药领域知识图谱，并以该知识图谱完成自动问答与分析服务】
QABasedOnMedicaKnowledgeGraph self-implement of disease centered Medical graph from zero to full and ...
一个关于LSTM生成歌词的练习
说明这是一个个人练习笔记,使用Python语言,Keras搭建神经网络数据使用的是王力宏的歌词,包含91首歌,共2列属性:歌曲名(Title),歌词(Lyrics)(来源:网易云音乐) 导入各种包 ...
自动问答研究进展、现状及趋势
(摘自<中文信息处理发展报告(2016)>) 1. 任务定义.目标和研究意义自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需 ...
使用LSTM生成文本
使用LSTM生成文本概述如何生成序列数据生成文本的采样策略文本序列生成程序流程准备并解析初始文本将字符序列向量化构建神经网络模型训练语言模型并采样用模型生成文本概述我们的感知模式 ...
【CIPS 2016】(13-14章)自动问答、机器翻译 (研究进展、现状趋势)
CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文信息处 ...

使用LSTM生成序列、自动问答使用?分割即可！

使用LSTM生成序列、自动问答使用?分割即可！相关推荐

最新文章

热门文章