python 爬取小说

#[url=https://www.biquge.info/wanjiexiaoshuo/]https://www.biquge.info/wanjiexiaoshuo/[/url]   笔趣阁小说全本爬虫
import time
import requests
import os
import random
from lxml import etree
import webbrowser
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89.0.774.77"
}
noName = ['#','/','\\',':','*','?','\"','<','>','|']     #\/:*?"<>|
filePath = './保存小说'
def strZ(_str): #将特殊字符转换为空格ret = ''for _ in _str:if _ in noName:ret += " "else:ret += _return ret
def main():webbrowser.open('https://www.biquwx.la/')if not os.path.exists(filePath):os.mkdir(filePath)print('1.爬取指定小说')print('2.爬取整个站点')if input('使用哪种方式爬取小说?  ') == '1':appintDown()else :allDown()input("按下任意键退出")
def appintDown(): #爬取指定小说  前提是网页没错page_url = input('输入要爬取的小说网站(例如 [url=https://www.biquwx.la/10_10240/]https://www.biquwx.la/10_10240/[/url]) :  ')page = requests.get(url=page_url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'page_tree = etree.HTML(page.text)page_title = page_tree.xpath('//div[@id="info"]/h1/text()')[0]_filePath = filePath + '/' + page_titleif not os.path.exists(_filePath):os.mkdir(_filePath)page_dl_list = page_tree.xpath('//div[@class="box_con"]/div[@id="list"]/dl/dd')for _ in page_dl_list:_page_url = page_url + _.xpath('./a/@href')[0]_page_title = _filePath + '/' + strZ(_.xpath('./a/@title')[0]) + '.txt'_page = requests.get(_page_url, headers=header)if _page.status_code == 200:_page.encoding = 'utf-8'_tree = etree.HTML(_page.text)_page_content = _tree.xpath('//div[@id="content"]/text()')fileContent = ''for _ in _page_content:fileContent += _ + '\n'with open(_page_title, 'w', encoding='utf-8') as fp:fp.write(fileContent)print('%s成功下载到本地' % (_page_title))time.sleep(random.uniform(0.05, 0.2))
def allDown(): #整个站点小说爬取url = 'https://www.biquge.info/wanjiexiaoshuo/'  # 目录page = requests.get(url=url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'tree = etree.HTML(page.text)page_last = tree.xpath('//div[@class="pagelink"]/a[@class="last"]/text()')[0]for page_i in range(1, int(page_last)):  # 小说页数遍历url = 'https://www.biquge.info/wanjiexiaoshuo/' + str(page_i)page = requests.get(url=url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'tree = etree.HTML(page.text)li_list = tree.xpath('//div[@class="novelslistss"]/ul/li')for li in li_list:page_url = li.xpath('./span[@class="s2"]/a/@href')[0]  # 目录链接page_title = strZ(li.xpath('./span[@class="s2"]/a/text()')[0])page = requests.get(url=page_url, headers=header)if page.status_code == 200:  # 响应就爬取page.encoding = 'utf-8'page_tree = etree.HTML(page.text)_filePath = filePath + '/' + page_titleif not os.path.exists(_filePath):os.mkdir(_filePath)page_dl_list = page_tree.xpath('//div[@class="box_con"]/div[@id="list"]/dl/dd')for _ in page_dl_list:_page_url = page_url + _.xpath('./a/@href')[0]_page_title = _filePath + '/' + strZ(_.xpath('./a/@title')[0]) + '.txt'_page = requests.get(_page_url, headers=header)if _page.status_code == 200:_page.encoding = 'utf-8'_tree = etree.HTML(_page.text)_page_content = _tree.xpath('//div[@id="content"]/text()')fileContent = ''for _ in _page_content:fileContent += _ + '\n'with open(_page_title, 'w', encoding='utf-8') as fp:fp.write(fileContent)print('%s成功下载到本地' % (_page_title))time.sleep(random.uniform(0.05, 0.2))
if __name__ == '__main__':main()

效果图:

Python 爬取笔趣阁小说相关推荐

  1. python爬取笔趣阁小说(附源码)

    python爬取笔趣阁小说 文章目录 python爬取笔趣阁小说 前言 一.获取小说目录结构 获取目录连接 请求代码 解析目录 XPath tqdm 解析 二.获取小说章节结构 请求代码 解析章节 代 ...

  2. python爬取小说爬取_用python爬取笔趣阁小说

    原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

  3. 1.python爬取笔趣阁小说

    前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...

  4. Python爬取笔趣阁小说,有趣又实用!

    上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...

  5. 用python爬取笔趣阁小说并分章节保存到本地

    在宿舍无聊时想做点小程序,刚好又看到笔趣阁的广告,就想着爬一下小说看看,通过网上的爬取教程整理的 使用beautifulsoup解析request获取的HTML http://beautifulsou ...

  6. Python爬取笔趣阁小说2.0版

    之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...

  7. 通过python爬取笔趣阁小说,获取图片保存本地,数据保存mysql

    通过python爬取小说图片.小说名称.作者.章节.内容.直接上代码 import requests import time from bs4 import BeautifulSoup from qu ...

  8. 1-4 python爬取笔趣阁小说(附带完整代码)

    笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度.并且该网站只支持在线浏览,不支持小说打包下载.所以可以通过python爬取文本信息保存, ...

  9. python爬取笔趣阁小说的代码微小调整修改

    原文来自:  https://blog.csdn.net/u012717715/article/details/92811743 本人说明:其实严格地这不是转载,实际上更应该算是原创!原文代码不能正常 ...

  10. python 爬取笔趣阁小说(TK可视化)

    import requests from lxml import etree from pyquery import PyQuery as pq import re import time from ...

最新文章

  1. 暗网 tor溯源困难根因——用户的请求会在分布全球的主机随机跳转三次,最终才到达服务器,这就造成了溯源的极其困难...
  2. poj 1852 Ants_贪心
  3. C++函数的默认参数
  4. 【Android-NCNN-Vulkan】ncnn-vulkan load param model 速度慢
  5. [Java核心技术(卷I)] - Java中的参数能做什么和不能做什么
  6. java 中通过 Lettuce 来操作 Redis
  7. postfix报错postfix: fatal: parameter inet_interfaces: no local interface found for ::1
  8. if __name__ == '__main__' 如何正确理解?
  9. Julia : DataFrame与replace、delete
  10. 最优化学习 数值优化的例子:实现最小二乘法
  11. SWFObject 2.0 官方文档二
  12. 首家新三板上市区块链公司:他们提供面向政务、商务、公众等解决方案
  13. 智慧农业智能节水灌溉 机井灌溉控制器
  14. 小学二年级计算机组成选择题,小学二年级数学第二学期期末试卷
  15. 我们眼中的人那是极少数,我们才是大多数人
  16. Rap2导出swagger2格式json,方便转入yapi
  17. FMC子卡模块学习资料:FMC303-两路14位2.5Gsps DA FMC子卡模块
  18. 如何 建设新闻 网站
  19. zSpace User Interface Principles-用户界面设计准则
  20. STM32MP157嵌入式开发—5、QT应用开发(2):GRBL控制软件Candle的编译与运行

热门文章

  1. 模拟新浪微博用户注册
  2. matlab 突然打不开
  3. 帝国网站mysql 数据库开发_帝国cms操作数据库函数范例(二次开发)
  4. 组态王串口服务器虚拟串口,串口服务器通过modbus TCP连接组态王实例
  5. 信捷PLC跟西门子700IE通信
  6. python爬取千图网_python 爬取 花瓣网图片,千图网图片
  7. 计算机无法查看隐藏文件夹,电脑里的隐藏文件夹怎么显示不出来啊?
  8. 如何解决浏览器未安装FLASH控件的提示
  9. 互联网周刊:移动互联网时代的运营商之失zz
  10. 国产3G之父--------李世鹤