斗破苍穹网小说爬取，

import requests
from lxml import etree
import time
import json
import re# 书面链接有每本书的编码，可复制到这里修改
book_name = 130900
# https://doupocangqiong1.com/130900/url = f'https://doupocangqiong1.com/'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
}def write_txt(html, title):with open(f'{book}.txt', 'a+', encoding='utf-8') as f:f.write(f'{title}\n\n')f.write(f'{html}\n\n')f.write('*' * 100)html = requests.get(f'{url}{book_name}', headers=headers)
html.encoding = 'utf-8'
html = etree.HTML(html.text)
titles = html.xpath('/html/body/section/div[3]/div[2]/ul/li/a/@href')
# 获取书名
book = html.xpath('/html/body/section/div[1]/div[1]/div/div[1]/h1/text()')[0]
# print(book)
for i in titles:try:html = requests.get(f'{url}{i}', headers=headers, timeout=5)except:html = requests.get(f'{url}{i}', headers=headers,)html.encoding = 'utf-8'title = re.findall(r'<h1><a href="/\d+/\d+.html" title="(.*)">', html.text)[0]cid = re.findall(r"cid:'(\d+)'}", html.text)[0]data = {'siteid': 0,'bid': book_name,'cid': cid,}result_url = 'https://doupocangqiong1.com/novelsearch/chapter/transcode.html'try:html = requests.post(result_url, headers=headers, data=data, timeout=5).json()except:html = requests.post(result_url, headers=headers, data=data,).json()html = re.sub(r'</?\w+[^>]*>', '', html['info'])# print(html)print(title)# time.sleep(0.5)write_txt(html, title)

无难点内容，随手写的保存下，有时网络会请求超时，所以设置了第二次请求，，可能也是报错，但是懒得管了。。。。

斗破苍穹网小说爬取，相关推荐

qu.la网站上的小说爬取
qu.la网站上的小说爬取 ##这个项目是我最早开始写的爬虫项目,代码比较简陋在写这个项目时,我还不会Python的协程编程,用协程可提升爬虫速度至少5倍,参考我的文章[线程,协程对比和Python ...
python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）
Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...
知网爬虫——爬取某个主题下的文章标题以及发表时间
前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...
python爬虫--小说爬取
requests+bs4模块–简单爬虫实例–小说爬取文章目录 section1:声明 section2:想法 section3:下载链接分析: section4:代码编写 1.导包 2.构建请求头 ...
Python爬虫--笔趣阁小说爬取
Python爬虫–笔趣阁小说爬取爬虫用到的插件 import requests from lxml import etree 小说目录页以小说"我有百万技能点"为例,在笔趣阁搜 ...
多线程爬虫实战--彼岸图网壁纸爬取
多线程爬虫实战–彼岸图网壁纸爬取普通方法爬取 import requests from lxml import etree import os from urllib import requesth ...
Scrapy入门、当当网商品爬取实战
文章目录一.如何创建Scrapy爬虫项目二.Scrapy的一些指令说明三.当当网商品爬取实战一.如何创建Scrapy爬虫项目 (1) Win+R 打开cmd,假如我要在F盘的Scrapy文件中 ...
20200223——起点文学免费小说爬取
这个单子爬取的是起点文学的免费小说,最开始由于只传入两个参数,我就手动了,结果坑参了,只要手动量大于50的一定要写代码完成!!!!!!!!! from lxml import etree import ...
网易云爬取首页歌单里的所有歌曲
网易云爬取首页歌单里的所有歌曲前言:本文章仅供个人参考使用,非商用用途,其中参考了其他的文献资料,如有不妥之处,请联系本人邮箱:wurenjie8@163.com 思路:通过首页URL获取所有首页的 ...

斗破苍穹网小说爬取，

斗破苍穹网小说爬取，相关推荐

最新文章

热门文章