python爬虫——爬取小说
一、导入requests和parsel库
requests是一个HTTP请求库,像浏览器一样发送THHP请求来获取网站信息。
parsel是对 HTML 和 XML 进行解析库,
import requests
import parsel
二、获取小说网站内容
通过 url = “https://www.777zw.net/1/1429/” 爬取小说网站内容。
url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)
在爬取小说网站时遇见一个错误爬取中文编译乱码:
之后查找资料发现是由于网页编码用的方式不同 :
解决方法
查看网站所用编码方法,打开想爬取页面开启开发人员工具,在控制台输入document.charse查看文本格式
将常规的 “utf-8” 格式转换成 “gbk”
# utf-8格式
response.encoding = 'utf-8'
# 改成gbk格式
response.text.encode('iso-8859-1').decode('gbk')
获取网页内容代码:
url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)
三、获取小说名和获取小说章节
在开发者工具中找到小说名:
爬取方法
selector = parsel.Selector(responses)
novel_name = selector.css('#info h1::text').get() #小说名
#info 获取 id 是 info,h1 存取小说名,小说名是文本文件所以用text
找到小说章节
爬取代码
href = selector.css('#list dd a::attr(href)').getall() #小说章节
get() 获取一个,getall() 获取所有小说章节
四、获取章节名和小说内容
这一步原理和步骤一样就不多赘述了
五、源代码
import requests
import parsel
url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)
selector = parsel.Selector(responses)
novel_name = selector.css('#info h1::text').get() #小说名
href = selector.css('#list dd a::attr(href)').getall() #小说章节
for link in href:link_url = 'https://www.777zw.net/1/1429/' + linkresponse_1 = requests.get(link_url)responses_1 = response_1.text.encode('iso-8859-1').decode('gbk')selecter_1 = parsel.Selector(responses_1)title_name = selecter_1.css('.bookname h1::text').get() #小说章节content_list = selecter_1.css('#content::text').getall() #小说内容content = '
'.join(content_list)break# 保存with open(novel_name + '.txt',mode = 'a',encoding = 'utf-8') as f:f.write(title_name)f.write('
')f.write(content)f.write('
')# print(title_name)
print(novel_name)
print(content_list)
六、结果
先自我介绍一下,小编13年上师交大毕业,曾经在小公司待过,去过华为OPPO等大厂,18年进入阿里,直到现在。深知大多数初中级java工程师,想要升技能,往往是需要自己摸索成长或是报班学习,但对于培训机构动则近万元的学费,着实压力不小。自己不成体系的自学效率很低又漫长,而且容易碰到天花板技术停止不前。因此我收集了一份《java开发全套学习资料》送给大家,初衷也很简单,就是希望帮助到想自学又不知道该从何学起的朋友,同时减轻大家的负担。添加下方名片,即可获取全套学习资料哦
python爬虫——爬取小说相关推荐
- Python爬虫—爬取小说名著
周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...
- python爬虫爬取小说网站并转换为语音文件
前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...
- python 爬虫爬取小说信息
1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...
- Python爬虫爬取小说
近来闲的无聊,天天逛CSDN看到python多火热多火热,就自己根据教程学习爬虫,参考了好几个博文,忘了地址是啥就不贴出来了 开发工具:PcCharm 开发环境:Python3.8 这次爬取的小说网站 ...
- 关于python爬虫爬取小说
写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...
- python 小说cms系统_「博文小说网」Python爬虫爬取小说网站 - seo实验室
博文小说网 #!/usr/bin/env Python # -*- coding: utf-8 -*- # @Author : Woolei # @File : book136_singleproce ...
- python爬虫爬取《斗破苍穹》小说全文
网络爬虫的入门学习:python爬虫爬取小说全文 python爬虫首先导入基本爬虫库requests:import requests,安装命令pip install requests,使用pychar ...
- Python爬虫爬取纵横中文网小说
Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...
- python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
最新文章
- 数据结构:下列选项中,不可能是快速排序第2趟排序结果的是(2019年全国试题10)
- 【SIGIR 2021 最佳学生论文】图像文本检索的动态模态交互建模
- php获取元素位置,jquery如何获取当前元素的位置
- Hadoop安装教程 Mac版
- 测试人员需要自己搭建测试环境吗?(附步骤)
- 成都拓嘉启远:拼多多如何查看同行转化数据
- vc sp5 补丁下载地址
- 手机html送礼,送给家中“老顽童”的好礼物!这些手机的远程功能你会用嘛?...
- 第八章:Java8新增特性,Lambda表达式
- 1.3经济金融基础之金融市场
- JS方法 数组倒序排列
- SharePoint2016 - How to create App Catalog site?
- 编程序,用getchar函数读人两个字符给c1和c2,然后分别用
- Docker:第一章:Docker常用命令
- android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应
- k歌一定要带监听耳机吗_音乐人需要什么样的监听耳机?
- linux console的概念
- 前端安全中的 cookie 防护 - 加速乐(jsl)
- luogu 1057
- 金蝶EAS客户端隐藏快捷键