Python爬虫：爬取17K小说

基本配置：

Python版本：3.6
相关模块：

from bs4 import BeautifulSoup
import requests, sys
'''
遇到不懂的问题？Python学习交流群：1136201545满足你的需求，资料都已经上传群文件，可以自行下载！
'''

下载《17K》网小说

class downloader(object):def __init__(self):""":rtype: object"""self.server = 'http://www.17k.com'  # 网站地址self.target = 'http://www.17k.com/list/2731559.html'  # 目录URL地址self.names = []            #存放章节名self.urls = []            #存放章节链接self.nums = 0            #章节数

获取下载链接

    def get_downloader_url(self):req = requests.get(self.target)  # 获取URL地址内容req.encoding = 'utf-8'  # 转码html = req.text  # 保存get到的内容div_bf = BeautifulSoup(html, 'html.parser')  # 使用BeautifulSoup进行解析div = div_bf.find_all('div', class_='Main List')  # 查询符合条件的内容a_bf = BeautifulSoup(str(div[0]),'html.parser')#重新解析a = a_bf.find_all('a')#查找元素为'a'的内容self.nums = len(a[11:])for each in a[11:]:self.names.append(each.string)#把章节名称添加到变量self.urls.append(self.server + each.get('href'))#把章节URL地址添加到变量

获取章节内容

    def get_contents(self,target):req = requests.get(target)#获取URL地址内容req.encoding = 'utf-8'#解码html = req.textbf = BeautifulSoup(html, 'html.parser')#解析texts = bf.find_all('div', class_='readAreaBox content')#使用查找章节正文texts = texts[0].text.replace('\xa0' * 8, '\n\n')#使用replace方法，剔除空格，替换为回车进行分段return texts

将爬取的文章内容写入文件

    def writer(self, name, path, text):write_flag = Truewith open(path, 'a', encoding='utf-8') as f:f.write(name + '\n')f.writelines(text)f.write('\n\n')if __name__ == "__main__":dl = downloader()dl.get_downloader_url()print('《正道潜龙》开始下载：')for i in range(dl.nums):dl.writer(str(dl.names[i]), '正道潜龙.txt', dl.get_contents(dl.urls[i]))sys.stdout.write("  已下载:%.3f%%" %  float(i/dl.nums) + '\r')sys.stdout.flush()print('《正道潜龙》下载完成')

Python爬虫：爬取17K小说相关推荐

Python爬虫-爬取17K小说
随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
python爬虫爬取网络小说
近日沉迷网络小说不能自拔的某人让我趁着网站限免把她想看的小说爬取下来,免得到时候又要付费看书,本来对于这种又要看正版又想占便宜不给钱的行为的我是深恶痛绝的,然而...为了小命我还是做一下吧. ...
Python爬虫爬取某小说网的教程(含全代码)#大佬勿喷
1.主要使用三个库 import parsel import requests import os 2.利用parsel解析网页 3.利用os库保存一本小说 4.链接上小说专题: https://w ...
如何用python爬虫爬取网络小说？
这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节的URL. 分析了该小说的目录页htt ...
使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
Python爬虫爬取纵横中文网小说
Python爬虫爬取纵横中文网小说学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈目标:纵横中文网-完本-免费小说网址:http://book.zongheng.com/st ...
python爬虫爬取《斗破苍穹》小说全文
网络爬虫的入门学习:python爬虫爬取小说全文 python爬虫首先导入基本爬虫库requests:import requests,安装命令pip install requests,使用pychar ...

Python爬虫：爬取17K小说

Python爬虫：爬取17K小说相关推荐

最新文章

热门文章