学习日志，更新起点爬虫，下载已经付费订阅vip的章节

欢迎有大佬指点优化。

import requests
from pyquery import PyQuery as pq
import json
import sysdef load(name):# 获取起点的搜索页面url_select = 'https://www.qidian.com/search?kw=' + nameresponse_select = requests.get(url_select).content.decode('utf8')doc_select = pq(response_select)# clear 加了items变成了生成器，clear_select = doc_select('.book-mid-info h4 a').items()# 获取书id，使用next进行迭代，由于只取第一个数据，所以不用fordata_eid = next(clear_select).attr('data-bid')# print(data_eid)# 获取章节目录url_catalog = 'https://book.qidian.com/ajax/book/category?_csrfToken' \'=KxOyODbbsZHWGtIfUsnDEqI9teZBDuUDC4QJ5YsZ&bookId=' + data_eidresponse_catalog = requests.get(url_catalog).content.decode('utf8')# 返回的是json格式其中包含起点所有的章节需要的idJson = json.loads(response_catalog)# 分析Json结构date = Json["data"]vs = date["vs"]for i in vs:cs = i["cs"]  # 包含正文的url的id以及章节名称vN = i["vN"]  # 分卷名称# with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:#     f.write(str(cs) + '\n')if vN == '作品相关':continueelif vN == 'VIP卷':for cU in cs:only = cU["id"]  # id是vip章节url的idcN = cU["cN"]  # 章节名称list_cU = {cN: str(only)}vip(list_cU, data_eid)else:for cU in cs:only = cU["cU"]  # cU是章节url的idcN = cU["cN"]  # 章节名称list_cU = {cN: only}down(list_cU)# Cookie内容需要用自己账号登陆后产生的
headers = {'Cookie': '''User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH''TML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}# 已经订阅的VIP章节
def vip(ID_url, data_eid):# key是章节名称，value章节idfor key, value in ID_url.items():# 组合完成的每一章节的urlurls = f'https://vipreader.qidian.com/chapter/{data_eid}/{value}'response = requests.get(urls, headers=headers).content.decode('utf8')text = pq(response)# 使用PyQuery 筛选正文内容text_w = text(".read-content.j_readContent p")# 写入标题with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:f.write(str(key) + '\n')# 由于起点是每句一个<p></p>加属性 i获得是属性，需要加text方法获得内容# 之所以不整个列表打印，是因为好看=-=所以和页面同步，逐段打印for i in text_w:# 为了减少不必要的运行，一般未订阅的VIP章节，只能看三行，字数必然小于1000就直接停止程序if len(text_w.text()) > 1500:with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:f.write(str(i.text) + '\n')else:with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:f.write('对不起，未订阅' + '\n')sys.exit()# 免费章节
def down(ID_url):# key是章节名称，value章节idfor key, value in ID_url.items():# 组合完成的每一章节的urlurls = 'https://read.qidian.com/chapter/' + valueresponse = requests.get(urls).content.decode('utf8')text = pq(response)# 使用PyQuery 筛选正文内容text_w = text(".read-content.j_readContent p")# 写入标题with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:f.write(str(key) + '\n')# 由于起点是每句一个<p></p>加属性 i获得是属性，需要加text方法获得内容for i in text_w:with open(r'D:\Users\MSI-PC\Desktop\123.txt', encoding='utf8', mode='a+') as f:f.write(str(i.text) + '\n')if __name__ == '__main__':namebook = input('请输入小说名称: ')load(namebook)

学习日志，更新起点爬虫，下载已经付费订阅vip的章节相关推荐

Z01 - 003、阶段Ⅰ：爬虫开发小案例Ⅰ - 起点爬虫
0.本章学习目录大纲 - 起点爬虫初学耗时:1h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 一.需求:爬取起点中文网中的一本小说内容 1.1 创建包名.类名. ...
python爬虫实训日志_Python学习学习日志——爬虫《第一篇》（BeautifulSoup）
爬虫简介(学习日志第一篇) 一.爬虫介绍爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Pyyhon爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.U ...
一篇文章教会你使用Python网络爬虫下载酷狗音乐
[一.项目背景] 现在的听歌软件动不动就是各种付费,要下载软件才能听,当你下载了之后,你会惊奇的发现这首歌还收费,这就让一向喜欢白嫖的小编感到很伤心了.于是,小编冥思苦想,终于让我发现了其中的奥秘,一 ...
Python学习日志12 - 办公自动化
Python学习日志 RBHGO的主页欢迎关注温馨提示:创作不易,如有转载,注明出处,感谢配合~ 目录文章目录 Python学习日志目录前言进入正题 Python学习日志12课 - 办公自动 ...
deepin更新失败_深度操作系统deepin 20更新：深度下载器和浏览器
原标题:深度操作系统deepin 20更新:深度下载器和浏览器深度操作系统20 1003更新发布11031.106(build),新增备份还原.深度下载器.深度浏览器,针对桌面环境.应用软件等进行2 ...
Golang学习日志 ━━ LiteIDE的主要配置
用LiteIDE开发golang半年换到VSCode,vs用了一年多后,最近又用回LiteIDE,感觉还是针对性强的IDE用起来舒适,界面什么不重要. 我个人一般什么东西都喜欢用默认配置,能不改的就不 ...
从零开始学习Python在e站上下载蕾姆的本子
从零开始学习Python在e站上下载蕾姆的本子郑重说明: 1. 本文仅仅只是Python技术应用的实践和探讨,本人绝不提供和传递任何违背国家相关法律的视频.音频及图像资料. 2. 本人也是刚刚开始接 ...
安卓学习日志 Day11 — JSON 解析
文章目录概述 USGS 网站导入项目 JSON JSON 处理 Unix 时间位置信息拆分震级信息震级显示一位小数震级的圆圈背景改进界面添加地震Intent 总结参考概述我们将设 ...
微信小程序学习日志（一）
微信小程序学习日志之工具配置及创建简单页面 1.任务与分工在这次点餐系统项目中,我和我所在的小程序组的共三个成员主要负责小程序前端的实现.我们针对菜单,点菜清单(结算页面)以及评论三个主要页面进行了 ...

学习日志，更新起点爬虫，下载已经付费订阅vip的章节

学习日志，更新起点爬虫，下载已经付费订阅vip的章节相关推荐

最新文章

热门文章