Python 爬取笔趣阁小说

python 爬取小说

#[url=https://www.biquge.info/wanjiexiaoshuo/]https://www.biquge.info/wanjiexiaoshuo/[/url]   笔趣阁小说全本爬虫
import time
import requests
import os
import random
from lxml import etree
import webbrowser
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89.0.774.77"
}
noName = ['#','/','\\',':','*','?','\"','<','>','|']     #\/:*?"<>|
filePath = './保存小说'
def strZ(_str): #将特殊字符转换为空格ret = ''for _ in _str:if _ in noName:ret += " "else:ret += _return ret
def main():webbrowser.open('https://www.biquwx.la/')if not os.path.exists(filePath):os.mkdir(filePath)print('1.爬取指定小说')print('2.爬取整个站点')if input('使用哪种方式爬取小说？  ') == '1':appintDown()else :allDown()input("按下任意键退出")
def appintDown(): #爬取指定小说  前提是网页没错page_url = input('输入要爬取的小说网站(例如 [url=https://www.biquwx.la/10_10240/]https://www.biquwx.la/10_10240/[/url]) ：  ')page = requests.get(url=page_url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'page_tree = etree.HTML(page.text)page_title = page_tree.xpath('//div[@id="info"]/h1/text()')[0]_filePath = filePath + '/' + page_titleif not os.path.exists(_filePath):os.mkdir(_filePath)page_dl_list = page_tree.xpath('//div[@class="box_con"]/div[@id="list"]/dl/dd')for _ in page_dl_list:_page_url = page_url + _.xpath('./a/@href')[0]_page_title = _filePath + '/' + strZ(_.xpath('./a/@title')[0]) + '.txt'_page = requests.get(_page_url, headers=header)if _page.status_code == 200:_page.encoding = 'utf-8'_tree = etree.HTML(_page.text)_page_content = _tree.xpath('//div[@id="content"]/text()')fileContent = ''for _ in _page_content:fileContent += _ + '\n'with open(_page_title, 'w', encoding='utf-8') as fp:fp.write(fileContent)print('%s成功下载到本地' % (_page_title))time.sleep(random.uniform(0.05, 0.2))
def allDown(): #整个站点小说爬取url = 'https://www.biquge.info/wanjiexiaoshuo/'  # 目录page = requests.get(url=url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'tree = etree.HTML(page.text)page_last = tree.xpath('//div[@class="pagelink"]/a[@class="last"]/text()')[0]for page_i in range(1, int(page_last)):  # 小说页数遍历url = 'https://www.biquge.info/wanjiexiaoshuo/' + str(page_i)page = requests.get(url=url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'tree = etree.HTML(page.text)li_list = tree.xpath('//div[@class="novelslistss"]/ul/li')for li in li_list:page_url = li.xpath('./span[@class="s2"]/a/@href')[0]  # 目录链接page_title = strZ(li.xpath('./span[@class="s2"]/a/text()')[0])page = requests.get(url=page_url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'page_tree = etree.HTML(page.text)_filePath = filePath + '/' + page_titleif not os.path.exists(_filePath):os.mkdir(_filePath)page_dl_list = page_tree.xpath('//div[@class="box_con"]/div[@id="list"]/dl/dd')for _ in page_dl_list:_page_url = page_url + _.xpath('./a/@href')[0]_page_title = _filePath + '/' + strZ(_.xpath('./a/@title')[0]) + '.txt'_page = requests.get(_page_url, headers=header)if _page.status_code == 200:_page.encoding = 'utf-8'_tree = etree.HTML(_page.text)_page_content = _tree.xpath('//div[@id="content"]/text()')fileContent = ''for _ in _page_content:fileContent += _ + '\n'with open(_page_title, 'w', encoding='utf-8') as fp:fp.write(fileContent)print('%s成功下载到本地' % (_page_title))time.sleep(random.uniform(0.05, 0.2))
if __name__ == '__main__':main()

效果图：

Python 爬取笔趣阁小说相关推荐

python爬取笔趣阁小说（附源码）
python爬取笔趣阁小说文章目录 python爬取笔趣阁小说前言一.获取小说目录结构获取目录连接请求代码解析目录 XPath tqdm 解析二.获取小说章节结构请求代码解析章节代 ...
python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...
1.python爬取笔趣阁小说
前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...
Python爬取笔趣阁小说，有趣又实用！
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
用python爬取笔趣阁小说并分章节保存到本地
在宿舍无聊时想做点小程序,刚好又看到笔趣阁的广告,就想着爬一下小说看看,通过网上的爬取教程整理的使用beautifulsoup解析request获取的HTML http://beautifulsou ...
Python爬取笔趣阁小说2.0版
之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...
通过python爬取笔趣阁小说，获取图片保存本地，数据保存mysql
通过python爬取小说图片.小说名称.作者.章节.内容.直接上代码 import requests import time from bs4 import BeautifulSoup from qu ...
1-4 python爬取笔趣阁小说（附带完整代码）
笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度.并且该网站只支持在线浏览,不支持小说打包下载.所以可以通过python爬取文本信息保存, ...
python爬取笔趣阁小说的代码微小调整修改
原文来自: https://blog.csdn.net/u012717715/article/details/92811743 本人说明:其实严格地这不是转载,实际上更应该算是原创!原文代码不能正常 ...
python 爬取笔趣阁小说（TK可视化）
import requests from lxml import etree from pyquery import PyQuery as pq import re import time from ...

Python 爬取笔趣阁小说

Python 爬取笔趣阁小说相关推荐

最新文章

热门文章