使用多线程爬取笔趣阁

今日目标：新笔趣阁的全部小说目录
爬取分析：暂无任何严重反爬
爬取思路：

Step1：从base网页获取所有小说名字+小说链接
Step2：请求小说链接，获得章节名+章节链接
Step3：请求章节链接，获得小说内容
Step4：根据小说名字创建文件，持久化保存小说内容

技术分析：

01：采用requests库，进行验证请求
02：文件读取操作需要用到os模块
03：解析文件使用xpath
04：验证爬取成功之后再改写为多线程爬虫

开始构建代码：

定义2个常用函数

import os
import requests
from lxml.html import etree#请求函数
def get_html(link):#伪造请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36','Referer': 'http://www.xbiquge.la/paihangbang/','Host': 'www.xbiquge.la'}#实例化sessionsession = requests.session()#发起请求res = session.get(url=link, headers=headers)try:if res.status_code == 200:#避免网页乱码res.encoding = 'utf-8'#返回获取到的网页return res.textexcept requests.ConnectionError:return None#解析函数
def parse_html(html, xpath_bds): ''':param html: 目标网页:param xpath_bds: xpath表达式:return: 解析后的列表  '''  parse_html = etree.HTML(html)result = parse_html.xpath(xpath_bds)return result

构建爬虫文件

#自定义保存位置
PATH = r'G:\小说'+ os.path.sep  + '{}.txt'class BiquSpider:def __init__(self):self.base_url = 'http://www.xbiquge.la/xiaoshuodaquan/'def get_article(self):''':return: 返回格式为{文章名：文章链接}的字典'''html = get_html(self.base_url)xpath_bds = '//div[@id="main"]/div[contains(@class,"novellist")]'parsed_page = parse_html(html,xpath_bds)for article in parsed_page:# 小说名字列表article_title_list = article.xpath('./ul/li/a/text()')# 小说链接列表article_link_list = article.xpath('./ul/li/a/@href')return dict(zip(article_link_list,article_title_list))def get_content(self,article_link):''':param article_link: 文章链接:return: 返回{章节名字 ： 章节内容链接} 形式的字典'''chapter_name_bds = '//div[@id="list"]/dl/dd/a/text()'chapter_link_bds = '//div[@id="list"]/dl/dd/a/@href'html = get_html(article_link)# 章节名列表chapter_name_list = parse_html(html, chapter_name_bds)# 章节链接列表chapter_link_list = parse_html(html, chapter_link_bds)return dict(zip(chapter_name_list,chapter_link_list))def downloader(self,article_title, article_link):''':param article_title: 小说名字:param article_link: 小说链接:return:'''#章节内容表达式xpath_bds = '//div[@id="content"]/text()'content_dict = self.get_content(article_link)target = PATH.format(article_title)print(article_title + '开始下载请等候。。。')with open(target, 'w', encoding='utf-8', newline='') as f:for chapter_name, chapter_link in content_dict.items():html = get_html('http://www.xbiquge.la' + chapter_link)#文章内容列表chapter_info_list= parse_html(html,xpath_bds)print(chapter_name+'下载完毕')# self.write_txt(article_title,chapter_name,chapter_info_list)f.write(chapter_name)f.write('\n')for i in chapter_info_list:f.write("\n" + i.strip())f.write('\n\n')print(article_title + '下载完毕')def main(self):article_dict = self.get_article()for article_title, article_link in article_dict.items():self.downloader(article_title, article_link)if __name__ == '__main__':spider = BiquSpider()spider.main()

改写代码

导入所需要的库

from threading import Thread
from queue import Queue

将所有小说链接入队列

def __init__(self):#实例化队列  self.url_queue = Queue()

def get_article(self):for article_link in article_link_list:#将小说链接放入队列self.url_queue.put(article_link)

编写多进程函数，将mian函数移入

def my_thread(self):#文章链接 与 文章名的字典article_dict = self.get_article()while True:# 当队列不为空时,获取url地址if not self.url_queue.empty():#从队列中取出文章链接article_link = self.url_queue.get()#根据链接获得 文章名字article_title = article_dict[article_link]#开始下载self.downloader(article_title,article_link)

改写main 函数，控制程序多线程运行

def main(self):# 存放所有线程的列表t_list = []for i in range(10):t = Thread(target=self.my_thread)t.start()t_list.append(t)# 统一回收线程for p in t_list:p.join()

总体代码如下

import os
import requests
from threading import Thread
from queue import Queue
from lxml.html import etree#自定义保存位置
PATH = r'G:\小说'+ os.path.sep  + '{}.txt'#请求函数
def get_html(link):#伪造请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36','Referer': 'http://www.xbiquge.la/paihangbang/','Host': 'www.xbiquge.la'}#实例化sessionsession = requests.session()#发起请求res = session.get(url=link, headers=headers)try:if res.status_code == 200:#避免网页乱码res.encoding = 'utf-8'#返回获取到的网页return res.textexcept requests.ConnectionError:return None#解析函数
def parse_html(html, xpath_bds):''':param html: 目标网页:param xpath_bds: xpath表达式:return: 解析后的列表'''parse_html = etree.HTML(html)result = parse_html.xpath(xpath_bds)return resultclass BiquSpider:def __init__(self):#初始目标网页self.base_url = 'http://www.xbiquge.la/xiaoshuodaquan/'#实例化队列self.url_queue = Queue()def get_article(self):''':return: 返回格式为{文章链接：文章名}的字典'''html = get_html(self.base_url)xpath_bds = '//div[@id="main"]/div[contains(@class,"novellist")]'parsed_page = parse_html(html,xpath_bds)for article in parsed_page:# 小说名字列表article_title_list = article.xpath('./ul/li/a/text()')# 小说链接列表article_link_list = article.xpath('./ul/li/a/@href')for article_link in article_link_list:#将小说链接放入队列self.url_queue.put(article_link)return dict(zip(article_link_list,article_title_list))def get_content(self,article_link):''':param article_link: 文章链接:return: 返回{章节名字 ： 章节内容链接} 形式的字典'''chapter_name_bds = '//div[@id="list"]/dl/dd/a/text()'chapter_link_bds = '//div[@id="list"]/dl/dd/a/@href'html = get_html(article_link)# 章节名列表chapter_name_list = parse_html(html, chapter_name_bds)# 章节链接列表chapter_link_list = parse_html(html, chapter_link_bds)return dict(zip(chapter_name_list,chapter_link_list))def downloader(self,article_title, article_link):''':param article_title: 小说名字:param article_link: 小说链接:return:'''#章节内容表达式xpath_bds = '//div[@id="content"]/text()'content_dict = self.get_content(article_link)target = PATH.format(article_title)print(article_title + '开始下载请等候。。。')with open(target, 'w', encoding='utf-8', newline='') as f:for chapter_name, chapter_link in content_dict.items():html = get_html('http://www.xbiquge.la' + chapter_link)#文章内容列表chapter_info_list= parse_html(html,xpath_bds)# print(chapter_name+'下载完毕')# self.write_txt(article_title,chapter_name,chapter_info_list)f.write(chapter_name)f.write('\n')for i in chapter_info_list:f.write("\n" + i.strip())f.write('\n\n')print(article_title + '下载完毕')def my_thread(self):# 文章链接 与 文章名的字典article_dict = self.get_article()while True:# 当队列不为空时,获取url地址if not self.url_queue.empty():# 从队列中取出文章链接article_link = self.url_queue.get()# 根据链接获得 文章名字article_title = article_dict[article_link]# 开始下载self.downloader(article_title, article_link)def main(self):# 存放所有线程的列表t_list = []for i in range(10):t = Thread(target=self.my_thread)t.start()t_list.append(t)# 统一回收线程for p in t_list:p.join()if __name__ == '__main__':spider = BiquSpider()spider.main()

使用多线程爬取笔趣阁相关推荐

python爬取小说写入txt_Python BeautifulSoup 爬取笔趣阁所有的小说
这是一个练习作品.用python脚本爬取笔趣阁上面的免费小说. 环境:python3 类库:BeautifulSoup 数据源:http://www.biqukan.cc 原理就是伪装正常http请求 ...
spider_使用随机User-Agent库，爬取笔趣阁万古天帝章节目录_(fake_useragent)
"""使用随机User-Agent库,爬取笔趣阁万古天帝章节目录 """ import requestsfrom fake_useragen ...
python爬取笔趣阁小说（附源码）
python爬取笔趣阁小说文章目录 python爬取笔趣阁小说前言一.获取小说目录结构获取目录连接请求代码解析目录 XPath tqdm 解析二.获取小说章节结构请求代码解析章节代 ...
2021年scrapy一分钟内爬取笔趣阁整本小说存为txt｜解决章节排序问题
本人是一个小说迷,喜欢用电纸书看小说,但苦于难以寻找网络小说的txt版本,加之最近学习了一下怎么用scrapy爬取网页数据,所以想到去使用scrapy框架来爬取笔趣阁小说存为txt文件,在爬取过程中对 ...
爬取笔趣阁小说网站上的所有小说（二）
爬取笔趣阁小说网站上的所有小说(二) 网址为:https://www.biqukan.cc/topallvisit/1.html 我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在 ...
python爬取笔趣阁
闲来无事,看到别人爬取笔趣阁,我也来试试. 首先打开笔趣阁网站随便找本书看看先查看网页源码,发现这里显示的章节都可以从源码中找到随便找个链接点进去发现是每一个章节.然后对章节查看源码,发现是静 ...
python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)
python3+re 爬虫爬取笔趣阁小说斗罗大陆IV终极斗罗爬取前准备导入的模块分析正则的贪婪与非贪婪附完整代码示例爬取前准备导入的模块 import redis #redis数据库 ...
python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...
java爬虫爬取笔趣阁小说
java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...
Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库
学习了python之后,接触到了爬虫,加上我又喜欢看小说,所以就做了一个爬虫的小程序,爬取笔趣阁小说. 程序中一共引入了以下几个库: import requests import mysql.conn ...

使用多线程爬取笔趣阁

使用多线程爬取笔趣阁相关推荐

最新文章

热门文章