import requests
from lxml import etree
import time
import json
import re# 书面链接有每本书的编码,可复制到这里修改
book_name = 130900
# https://doupocangqiong1.com/130900/url = f'https://doupocangqiong1.com/'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
}def write_txt(html, title):with open(f'{book}.txt', 'a+', encoding='utf-8') as f:f.write(f'{title}\n\n')f.write(f'{html}\n\n')f.write('*' * 100)html = requests.get(f'{url}{book_name}', headers=headers)
html.encoding = 'utf-8'
html = etree.HTML(html.text)
titles = html.xpath('/html/body/section/div[3]/div[2]/ul/li/a/@href')
# 获取书名
book = html.xpath('/html/body/section/div[1]/div[1]/div/div[1]/h1/text()')[0]
# print(book)
for i in titles:try:html = requests.get(f'{url}{i}', headers=headers, timeout=5)except:html = requests.get(f'{url}{i}', headers=headers,)html.encoding = 'utf-8'title = re.findall(r'<h1><a href="/\d+/\d+.html" title="(.*)">', html.text)[0]cid = re.findall(r"cid:'(\d+)'}", html.text)[0]data = {'siteid': 0,'bid': book_name,'cid': cid,}result_url = 'https://doupocangqiong1.com/novelsearch/chapter/transcode.html'try:html = requests.post(result_url, headers=headers, data=data, timeout=5).json()except:html = requests.post(result_url, headers=headers, data=data,).json()html = re.sub(r'</?\w+[^>]*>', '', html['info'])# print(html)print(title)# time.sleep(0.5)write_txt(html, title)

无难点内容,随手写的保存下,有时网络会请求超时,所以设置了第二次请求,,可能也是报错,但是懒得管了。。。。

斗破苍穹网小说爬取,相关推荐

  1. qu.la网站上的小说爬取

    qu.la网站上的小说爬取 ##这个项目是我最早开始写的爬虫项目,代码比较简陋 在写这个项目时,我还不会Python的协程编程,用协程可提升爬虫速度至少5倍,参考我的文章[线程,协程对比和Python ...

  2. python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取(十六)

    Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...

  3. 知网爬虫——爬取某个主题下的文章标题以及发表时间

    前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...

  4. python爬虫--小说爬取

    requests+bs4模块–简单爬虫实例–小说爬取 文章目录 section1:声明 section2:想法 section3:下载链接分析: section4:代码编写 1.导包 2.构建请求头 ...

  5. Python爬虫--笔趣阁小说爬取

    Python爬虫–笔趣阁小说爬取 爬虫用到的插件 import requests from lxml import etree 小说目录页 以小说"我有百万技能点"为例,在笔趣阁搜 ...

  6. 多线程爬虫实战--彼岸图网壁纸爬取

    多线程爬虫实战–彼岸图网壁纸爬取 普通方法爬取 import requests from lxml import etree import os from urllib import requesth ...

  7. Scrapy入门、当当网商品爬取实战

    文章目录 一.如何创建Scrapy爬虫项目 二.Scrapy的一些指令说明 三.当当网商品爬取实战 一.如何创建Scrapy爬虫项目 (1) Win+R 打开cmd,假如我要在F盘的Scrapy文件中 ...

  8. 20200223——起点文学免费小说爬取

    这个单子爬取的是起点文学的免费小说,最开始由于只传入两个参数,我就手动了,结果坑参了,只要手动量大于50的一定要写代码完成!!!!!!!!! from lxml import etree import ...

  9. 网易云爬取首页歌单里的所有歌曲

    网易云爬取首页歌单里的所有歌曲 前言:本文章仅供个人参考使用,非商用用途,其中参考了其他的文献资料,如有不妥之处,请联系本人邮箱:wurenjie8@163.com 思路:通过首页URL获取所有首页的 ...

最新文章

  1. 【ACM】家喻户晓的中药店(待更)
  2. supervisor简介、安装与入门使用
  3. 为什么程序员不擅长估算时间
  4. 百度AI原生云实践: 基于容器云打造 AI 开发基础设施
  5. 活动目录域结构和域信任关系建立实验
  6. [FreeBSD]x86地址映射实例
  7. 奇妙的数学动图,美到令人窒息!
  8. 搜索引擎的那些事(多线程web遍历)
  9. 运行Eclipse出现:a java runtime environment(JRE) or java development kit(JDK) must be....
  10. 拓端tecdat|r语言空间可视化绘制道路交通安全事故地图
  11. protues元件库中英文对照表,对初学者找不到元件的很有用
  12. IDEA设置背景与字体大小
  13. 红巨星转场特效预设AE插件 Red Giant Universe 6.0.1 WIN
  14. baidu 地图 3d版 自定义地图样式
  15. 10015---Nginx 常用命令
  16. 方舟非主机服务器无限距离,方舟生存进化怎么调主机距离
  17. 微博怎么批量取消所有的关注
  18. 鸟哥的linux私房菜_linux磁盘与文件系统管理
  19. ToC产品和ToB产品的区别
  20. Matlab-输出函数表达

热门文章

  1. (清华源)ERROR: Could not find a version that satisfies the requirement pycocotools (unavailable)
  2. 《永磁无刷直流电机技术》笔记
  3. QQ/微信如何自定义分享链接缩略图?
  4. 结合DVWA的反射型XSS浅析
  5. Win10无法访问网上邻居,此方法适用于被访问端共享正常
  6. ppvt智力测试系统软件,PPVT智力测试
  7. Google Earth Engine(GEE)——Landsat 全球土地调查 1975年数据集
  8. 走路拥有众多好处!SBF胜博发说走路可以帮助消除负面情绪
  9. 算法竞赛宝典 分治算法 聪明的质检员
  10. 猎豹浏览器抢票专版 v5.0.8702 官方版