爬虫第一步:确定要爬取的信息
确定要爬取的网站的URL地址:http://www.xbiquge.la/6/6818/

第二步:分析网站信息
爬小说要获取小说章节目录名称和每一章的阅读链接

第三步:编写代码:
本次爬虫练习完整代码,存在缺陷,小说章节过多的话爬虫可能会被封Ip

import requests
import re
from lxml import etree
import os
import timedef get_html():headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}# 小说目录URL,改变这个URL就可以下载对应的小说url = 'http://www.xbiquge.la/6/6818/'html = requests.get(url, headers=headers).content.decode('utf-8')return htmldef get_novel_url(html):''' 获取章节名和链接 '''pat2 = r"<dd><a href='(.*?)' >(.*?)</a></dd>"title_name = re.findall(pat2, html)# 小说保存文件名称path = '真武世界'if not os.path.exists(path):os.makedirs(path)for title in title_name:# 章节URLnovel_url = title[0]# 章节名novel_name = title[1]# 构造章节URLnewUrl = 'http://www.xbiquge.la' + novel_urlresponse = requests.get(newUrl).content.decode('utf-8', 'ignore')response = etree.HTML(response)# 获取章节内容content = response.xpath('//*[@id="content"]/text()')# content = content[0].replace('?', '')try:# 下载小说print("正在下载小说----->>>>>> %s" % novel_name)filename = path + '/' + '{}.txt'.format(novel_name)with open(filename, 'w', encoding='utf-8') as f:f.writelines(content)time.sleep(1)except Exception as e:print("下载出错!", e)def main():html = get_html()get_novel_url(html)if __name__ == '__main__':main()

python3爬取笔趣阁小说相关推荐

  1. python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)

    python3+re 爬虫爬取笔趣阁小说 斗罗大陆IV终极斗罗 爬取前准备 导入的模块 分析 正则的贪婪与非贪婪 附完整代码示例 爬取前准备 导入的模块 import redis #redis数据库 ...

  2. python爬取笔趣阁小说(附源码)

    python爬取笔趣阁小说 文章目录 python爬取笔趣阁小说 前言 一.获取小说目录结构 获取目录连接 请求代码 解析目录 XPath tqdm 解析 二.获取小说章节结构 请求代码 解析章节 代 ...

  3. 爬取笔趣阁小说网站上的所有小说(二)

    爬取笔趣阁小说网站上的所有小说(二) 网址为:https://www.biqukan.cc/topallvisit/1.html 我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在 ...

  4. python爬取小说爬取_用python爬取笔趣阁小说

    原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

  5. java爬虫爬取笔趣阁小说

    java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...

  6. Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库

    学习了python之后,接触到了爬虫,加上我又喜欢看小说,所以就做了一个爬虫的小程序,爬取笔趣阁小说. 程序中一共引入了以下几个库: import requests import mysql.conn ...

  7. 爬取笔趣阁小说网站上的所有小说(一)

    爬取笔趣阁小说网站上的所有小说(一) 网址为:https://www.biqukan.cc/topallvisit/1.html 反反爬虫 爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是 ...

  8. 爬虫练习-爬取笔趣阁小说

    练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的 思路: Created with Raphaël 2.2.0开始输入书名查询小说是否存在跳转页面 ...

  9. 用Scrapy爬取笔趣阁小说

    今天早上无聊,去笔趣阁扒了点小说存Mongodb里存着,想着哪天做一个小说网站有点用,无奈网太差,爬了一个小时就爬了几百章,爬完全网的小说,不知道要到猴年马月去了.再说说scrapy这个爬虫框架,真是 ...

最新文章

  1. python 城市地图_python – 使用Basemap获取城市地图的最佳方式?
  2. 上下文保存 中断_Linux内核中断顶半部和底半部的理解
  3. 2020牛客国庆集训派对day4 Jokewithpermutation
  4. flash挂载到系统 spi_jffs2根文件系统挂载不上spi flash
  5. linux进程优雅退出,Golang信号处理及如何实现进程的优雅退出详解
  6. 在线教育软件开发 教育APP软件开发分析
  7. java jsp 特殊标签_JSP复习(四):JSTL标记
  8. 秋招已过,各大厂的面试题分享一波 附C++实现
  9. 白话设计模式--实践应用--Chain of Responsibility(职责链)和factory模式
  10. 基于新标注模式的实体和关系联合抽取方法(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)
  11. 模拟电子线路设计 实验报告
  12. 多线程设计实例——Monte Carlo法估算圆周率
  13. C# WinForm打开PDF文件
  14. 第十二章 国民收入的决定:AD-AS模型
  15. <C++>初识多态,剖析virtual关键字
  16. sortby降序java_lodash多列sortBy降序
  17. c语言 余额 自动生成,微信余额生成器
  18. 只学2个月编程能写出什么代码?
  19. CG系统提交Java程序_Cg使用说明 第一章 介绍
  20. android 图库刷新,关于主动刷新Android系统图库方法总结

热门文章

  1. 报名网站html代码,考试报名系统 附源码
  2. js中深浅拷贝理解与方法
  3. 115.n阶方阵求逆
  4. Java编程思想第五版(On Java8)(四)-运算符
  5. 基于FPGA的啸叫检测与抑制系统设计与实现verilog
  6. 计算机组成原理【2】
  7. 正交、独立、不相关区别
  8. 使用快照启动 FIBOS、EOS 节点
  9. 安卓版微信内置浏览器无法触发onchange事件
  10. 呃,bing 桌面词典中的成熟美女