引入

该数据集收集了杰伦第一张专辑《Jay》到第十张专辑《跨时代》中的歌词。
下载地址：https://codechina.csdn.net/mirrors/shusentang/dive-into-dl-pytorch/-/blob/master/data/jaychou_lyrics.txt.zip

参考文献：
【1】李沐、Aston Zhang等老师，动手学深度学习

1 原始数据处理

函数参数包括原始数据集的选取范围及数据集的路径。返回值包括：
1）idx2char_list：不重复字符列表；
2）char2idx_dict：字符索引字典；
3）dict_size：字典大小；
4）char2idx_list：字符索引列表。
函数返回值包括以上三个步骤的处理结果：

def load_jaychou_lyrics(tr_range=None, path="../Data/jaychou_lyrics.txt.zip"):""":param tr_range: 数据集选取范围:param path: 数据集存储路径"""with zipfile.ZipFile(path) as zin:with zin.open('jaychou_lyrics.txt') as f:ori_data = f.read().decode("utf-8")ori_data = ori_data.replace("\n", " ").replace("\r", " ")"""设置原始数据集的选取范围并选取"""if tr_range is None:tr_range = (0, len(ori_data))ori_data = ori_data[tr_range[0]: tr_range[1]]# 不重复字符列表idx2char_list = list(set(ori_data))# 字符索引字典char2idx_dict = dict([(char, i) for i, char in enumerate(idx2char_list)])# 字典大小，即不重复字符的数量dict_size = len(char2idx_dict)# 字符索引列表char2idx_list = [char2idx_dict[char] for char in ori_data]return idx2char_list, char2idx_dict, dict_size, char2idx_list

2 时序数据的采样

时序数据的一个样本通常包含连续的字符。例如时间步数为555时，样本序列相应为555个字符。假设样本序列为“想”、“要”、“有”、“直”、“升”，则该样本的标签序列为这些字符分别在训练集中的下一个字符，例如“要”、“有”、“直”、“升”、“机”。
接下来使用两种方式对时序数据采样。

2.1 随机采样

在随机采样中，每个样本是原始序列上任意截取的一段序列。相邻的两个随机小批量在原始序列上的位置不一定相邻。因此无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。
在模型训练时，每次随机采样都需要重新初始化隐藏状态：

def load_jaychou_lyrics_iter_random(data_idx, batch_size=2, num_step=5,device=torch.device("cuda" if torch.cuda.is_available() else "cpu")):""":param data_idx: 数据选取索引:param batch_size: 批次大小:param num_step: 每个样本的时间步数:param device: 设备"""# 减1是因为输出的索引x是相应输入的索引y+1num_data = (len(data_idx) - 1) // num_stepnum_epoch = num_data // batch_sizeidx = np.random.permutation(num_data)def _data(pos):return data_idx[pos: pos + num_step]for i in range(num_epoch):j = i * batch_sizebatch_idx = idx[j: j + batch_size]X = [_data(k * num_step) for k in batch_idx]Y = [_data(k * num_step + 1) for k in batch_idx]yield (torch.tensor(X, dtype=torch.float32, device=device),torch.tensor(Y, dtype=torch.float32, device=device))if __name__ == '__main__':for (a, b) in load_jaychou_lyrics_iter_random(list(range(30))):print(a, "\n", b)

输出如下：

tensor([[10., 11., 12., 13., 14.],[15., 16., 17., 18., 19.]]) tensor([[11., 12., 13., 14., 15.],[16., 17., 18., 19., 20.]])
tensor([[20., 21., 22., 23., 24.],[ 0.,  1.,  2.,  3.,  4.]]) tensor([[21., 22., 23., 24., 25.],[ 1.,  2.,  3.,  4.,  5.]])

2.2 相邻采样

这里的相邻采样是指：两个随机小批量在原始序列上的位置相毗邻。这时，就可以用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态，从而使下一个小批量的输出也取决于当前小批量的输入：

def load_jaychou_lyrics_iter_consecutive(data_idx, batch_size=2, num_step=5,device=torch.device("cuda" if torch.cuda.is_available() else "cpu")):""":param data_idx: 数据选取索引:param batch_size: 批次大小:param num_step: 每个样本的时间步数:param device: 设备"""data_idx = torch.tensor(data_idx, dtype=torch.float32, device=device)num_data = len(data_idx)num_batch = num_data // batch_sizeidx = data_idx[0: batch_size * num_batch].view(batch_size, num_batch)num_epoch = (num_batch - 1) // num_stepfor i in range(num_epoch):j = i * num_stepX = idx[:, j: j + num_step]Y = idx[:, j + 1: j + num_step + 1]yield X, Yif __name__ == '__main__':for (a, b) in load_jaychou_lyrics_iter_consecutive(list(range(30))):print(a, "\n", b)

输出如下：

tensor([[ 0.,  1.,  2.,  3.,  4.],[15., 16., 17., 18., 19.]]) tensor([[ 1.,  2.,  3.,  4.,  5.],[16., 17., 18., 19., 20.]])
tensor([[ 5.,  6.,  7.,  8.,  9.],[20., 21., 22., 23., 24.]]) tensor([[ 6.,  7.,  8.,  9., 10.],[21., 22., 23., 24., 25.]])

语言模型数据集 (周杰伦专辑歌词)相关推荐

【从零开始学习深度学习】34. Pytorch-RNN项目实战：RNN创作歌词案例--使用周杰伦专辑歌词训练模型并创作歌曲【含数据集与源码】
目录 RNN项目实战使用周杰伦专辑歌词训练模型并创作歌曲 1.语言模型数据集预处理 1.1 读取数据集 1.2 建立字符索引 1.3 时序数据的2种采样方式 1.3.1 随机采样 1.3.2 相邻采样 ...
（五）循环神经网络 -- 3 语言模型数据集
3. 语言模型数据集本节将介绍如何预处理一个语言模型数据集,并将其转换成字符级循环神经网络所需要的输入格式. 为此,收集了周杰伦从第一张专辑<Jay>到第十张专辑<跨时代>的 ...
夜曲（歌手：周杰伦专辑：十一月的萧邦）
一直不喜欢这个烂人,没想到居然可以作出这么好的曲子来歌曲:夜曲歌手:周杰伦专辑:十一月的萧邦 LRC歌词打印预览词:方文山曲:周杰伦一群嗜血的蚂蚁被腐肉所吸引我面无表情看孤独的风景失去 ...
AI作诗，模仿周杰伦创作歌词-实战项目
点击上方"码农的后花园",选择"星标" 公众号精选文章,第一时间送达很久以来,我们都想让机器自己创作诗歌,当无数作家.编辑还没有抬起笔时,AI已经完成了数千 ...
python爬取qq音乐周杰伦首页歌词
#爬取qq音乐周杰伦首页歌词 #未名编程 import requests from bs4 import BeautifulSoup import json import reURL = 'https ...
scrapy遇上ajax，抓取QQ音乐周杰伦专辑与歌词
目录序言分析网页分析请求代码实现瞎比比序言好久没写原创文章,早就手痒痒了,所以挤出时间写了这篇,这是下面这五篇文章的连载文章: 爬虫利器初体验(1) 听说你的爬虫又被封了?(2) 爬取数 ...
scrapy遇上ajax，抓取QQ音乐周杰伦专辑与歌词（6）
目录序言分析网页分析请求代码实现瞎比比序言好久没写原创文章,早就手痒痒了,所以挤出时间写了这篇,这是下面这五篇文章的连载文章: (1) (2) 那这段时间我都去干嘛了呢?时间都用在写小程 ...
Selenium+Request+Beautifulsoup(周杰伦,林俊杰歌词爬取)
爬去JZ的歌词是为了做一个NlLP的任务,这里是在python上使用Selenuim+Requests+BeautifulSoup实现的.使用selenuim是因为会涉及到动态网页抓取,又使用Requ ...
陈慧娴《永远是你的朋友》专辑歌词
千千阕歌词:林振强徐徐回望曾属于彼此的晚上,红红仍是你赠我的心中艳阳,如流傻泪,祈望可体恤兼见谅.明晨离别你,路也许孤单得漫长.一瞬间太多东西要讲,可惜即将在各一方,只好深深把这刻尽凝望. 来日纵 ...
动手学深度学习 - 11.7. d2lzh 包索引
动手学深度学习 - 11.7. d2lzh 包索引动手学深度学习 - Dive into Deep Learning Aston Zhang, Zachary C. Lipton, Mu Li, a ...

语言模型数据集 (周杰伦专辑歌词)

文章目录

引入

1 原始数据处理

2 时序数据的采样

2.1 随机采样

2.2 相邻采样

语言模型数据集 (周杰伦专辑歌词)相关推荐

最新文章

热门文章