一、导入requests和parsel库

requests是一个HTTP请求库,像浏览器一样发送THHP请求来获取网站信息。

parsel是对 HTML 和 XML 进行解析库,

import requests
import parsel

二、获取小说网站内容

通过 url = “https://www.777zw.net/1/1429/” 爬取小说网站内容。

url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)

在爬取小说网站时遇见一个错误爬取中文编译乱码:

之后查找资料发现是由于网页编码用的方式不同 :

解决方法

查看网站所用编码方法,打开想爬取页面开启开发人员工具,在控制台输入document.charse查看文本格式

将常规的 “utf-8” 格式转换成 “gbk”

# utf-8格式
response.encoding = 'utf-8'
# 改成gbk格式
response.text.encode('iso-8859-1').decode('gbk')

获取网页内容代码:

url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)

三、获取小说名和获取小说章节

在开发者工具中找到小说名:

爬取方法

selector = parsel.Selector(responses)
novel_name = selector.css('#info h1::text').get() #小说名

#info 获取 id 是 info,h1 存取小说名,小说名是文本文件所以用text

找到小说章节

爬取代码

href = selector.css('#list dd a::attr(href)').getall() #小说章节

get() 获取一个,getall() 获取所有小说章节

四、获取章节名和小说内容

这一步原理和步骤一样就不多赘述了

五、源代码

import requests
import parsel
url = "https://www.777zw.net/1/1429/"
response = requests.get(url)
responses = response.text.encode('iso-8859-1').decode('gbk')
print(responses)
selector = parsel.Selector(responses)
novel_name = selector.css('#info h1::text').get() #小说名
href = selector.css('#list dd a::attr(href)').getall() #小说章节
for link in href:link_url = 'https://www.777zw.net/1/1429/' + linkresponse_1 = requests.get(link_url)responses_1 = response_1.text.encode('iso-8859-1').decode('gbk')selecter_1 = parsel.Selector(responses_1)title_name = selecter_1.css('.bookname h1::text').get() #小说章节content_list = selecter_1.css('#content::text').getall() #小说内容content = '
'.join(content_list)break# 保存with open(novel_name + '.txt',mode = 'a',encoding = 'utf-8') as f:f.write(title_name)f.write('
')f.write(content)f.write('
')# print(title_name)
print(novel_name)
print(content_list)

六、结果

先自我介绍一下,小编13年上师交大毕业,曾经在小公司待过,去过华为OPPO等大厂,18年进入阿里,直到现在。深知大多数初中级java工程师,想要升技能,往往是需要自己摸索成长或是报班学习,但对于培训机构动则近万元的学费,着实压力不小。自己不成体系的自学效率很低又漫长,而且容易碰到天花板技术停止不前。因此我收集了一份《java开发全套学习资料》送给大家,初衷也很简单,就是希望帮助到想自学又不知道该从何学起的朋友,同时减轻大家的负担。添加下方名片,即可获取全套学习资料哦

python爬虫——爬取小说相关推荐

  1. Python爬虫—爬取小说名著

    周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...

  2. python爬虫爬取小说网站并转换为语音文件

    前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...

  3. python 爬虫爬取小说信息

    1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...

  4. Python爬虫爬取小说

    近来闲的无聊,天天逛CSDN看到python多火热多火热,就自己根据教程学习爬虫,参考了好几个博文,忘了地址是啥就不贴出来了 开发工具:PcCharm 开发环境:Python3.8 这次爬取的小说网站 ...

  5. 关于python爬虫爬取小说

    写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...

  6. python 小说cms系统_「博文小说网」Python爬虫爬取小说网站 - seo实验室

    博文小说网 #!/usr/bin/env Python # -*- coding: utf-8 -*- # @Author : Woolei # @File : book136_singleproce ...

  7. python爬虫爬取《斗破苍穹》小说全文

    网络爬虫的入门学习:python爬虫爬取小说全文 python爬虫首先导入基本爬虫库requests:import requests,安装命令pip install requests,使用pychar ...

  8. Python爬虫爬取纵横中文网小说

    Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...

  9. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  10. Python爬虫|爬取喜马拉雅音频

    "GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

最新文章

  1. 数据结构:下列选项中,不可能是快速排序第2趟排序结果的是(2019年全国试题10)
  2. 【SIGIR 2021 最佳学生论文】图像文本检索的动态模态交互建模
  3. php获取元素位置,jquery如何获取当前元素的位置
  4. Hadoop安装教程 Mac版
  5. 测试人员需要自己搭建测试环境吗?(附步骤)
  6. 成都拓嘉启远:拼多多如何查看同行转化数据
  7. vc sp5 补丁下载地址
  8. 手机html送礼,送给家中“老顽童”的好礼物!这些手机的远程功能你会用嘛?...
  9. 第八章:Java8新增特性,Lambda表达式
  10. 1.3经济金融基础之金融市场
  11. JS方法 数组倒序排列
  12. SharePoint2016 - How to create App Catalog site?
  13. 编程序,用getchar函数读人两个字符给c1和c2,然后分别用
  14. Docker:第一章:Docker常用命令
  15. android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应
  16. k歌一定要带监听耳机吗_音乐人需要什么样的监听耳机?
  17. linux console的概念
  18. 前端安全中的 cookie 防护 - 加速乐(jsl)
  19. luogu 1057
  20. 金蝶EAS客户端隐藏快捷键

热门文章

  1. 手机处理器天梯图2021
  2. 图片提取文字怎么操作
  3. mmClassification学习笔记
  4. mate桌面暗色调超好看的配置
  5. IT:如何把骨干留住
  6. 大学生如何培育计算机思维,计算机思维下的计算机课程改革思路探索
  7. “但行好事 莫问前程 只问耕耘 不问收获 成功不必在我 而功力必不唐捐” 科技袁人·年终盛典——5G是科技时代非常重要的基础设施...
  8. 热模块替换/热更新 HMR
  9. ad room 拷贝
  10. vivo 应用商店推荐系统探索与实践