通过python批量自动化下载斗破苍穹小说

效果是这样的

效果展示1

效果展示2

我的代码

import re

import urllib.request

import time

url='http://www.liewen.cc/b/0/18/'

def get_list_link(url):

web_open=urllib.request.urlopen(url)

web_html=web_open.read().decode('gbk')

# time.sleep(1)

# print(web_html)

reg=re.compile(r' (.*?)')

list_links=re.findall(reg,web_html)

# print(list_links)

num=0

for link in list_links:

full_link='http://www.liewen.cc'+link[0]

title=link[1]

# print(full_link,title)

num=num+1

filename='E:/novel/{}.{}.txt'.format(num,title)

print('正在下载:%s,访问链接是:%s'% (title,full_link))

with open(filename,'a') as f:

f.write(title+'\n')

get_detail_info(full_link,filename)

#return full_link

def get_detail_info(url,filename):

web_data=urllib.request.urlopen(url)

web_html=web_data.read().decode('gbk')

# print(web_html)

reg=re.compile('

(.*?)')

detail_infos=re.findall(reg,web_html)

if detail_infos:

clean_infos=detail_infos[0].replace('

','\n')

# print(clean_infos)

with open(filename,'a') as F:

F.write(clean_infos)

if __name__=='__main__':

get_list_link(url)

总结

爬虫思路-获取多页访问链接->获取每页图片链接->正文下载;

正则表达式的使用;

format与with open as语法的使用;

编码方式调整;

urllib.request与re模块的使用。

pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说相关推荐

  1. python爬取正确但不出文件_python爬取糗事百科,该如何正确保存到本地文件夹?报错-问答-阿里云开发者社区-阿里云...

    我的程序已经可以爬取网络内容,但不太清楚怎么保存到当地文件夹,用网上方法试着做,但是有报错 import urllib import urllib.request import requests ## ...

  2. python爬取网页有乱码怎么解决_Python爬取网页requests乱码

    **之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据: 不知道是不是网站对网页内容进行了加密, ...

  3. python爬取网易云音乐热评_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  4. python爬取网易云音乐评论分析_Python爬取网易云音乐评论(附加密算法)

    网易云音乐,里面汇聚了哲学家,小说家,story-teller,皮皮虾等各种人才,某些评论非常值得收藏(甚至开了一个歌单专门收藏它们).竟然这么好玩,何不尝试把他们爬取下来呢? 前置需求 可选:fid ...

  5. python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区

    简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...

  6. python爬取京东数据加载失败_python 爬京东数据时,无法登陆。

    想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...

  7. python爬取音乐并保存的格式_python爬取QQ音乐歌单歌曲保存到本地,json解析

    序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...

  8. python爬取微信小程序(实战篇)_python爬取猫眼的前100榜单并展示在微信小程序

    首先分析要爬取的网页,对其结构及数据获取方式解析后,可采用正则筛选自己要的数据 猫眼榜单.png import requests from requests.exceptions import Req ...

  9. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

  10. python爬取百度云资源分享吧_python爬取百度云盘资源

    小测试,初学python. 1.[代码][Python]代码 import urllib import urllib.request import webbrowser import re def y ...

最新文章

  1. Citrix Synergy 2014 重要信息快速一览
  2. Office CVE-2017-8570 远程代码执行漏洞复现
  3. matlab 多目标规划
  4. 总结一下这几天操作符的学习心得
  5. Ubuntu 16.04设置Redis为开机自动启动服务
  6. pytorch_导入d2l_pytorch包问题
  7. CSS 实现隐藏滚动条同时又可以滚动
  8. java厨房_Java多线程基础
  9. jquery send(data) 对data的处理
  10. GitHub超级火!任意爬取,超全开源爬虫工具箱
  11. Math 对象的扩展
  12. mini2440驱动分析之PWM
  13. 好久以来,就想为你写一首诗
  14. android 是什么编码格式,在Android的JPG图像编码和解码
  15. Linux tmux 使用指南
  16. java反射 反射构造函数 报 wrong number of arguments 错误
  17. 笔记篇二:鸢尾花数据集分类
  18. 数据结构与算法学习笔记——数据结构(四):单向环形链表(约瑟夫问题)
  19. 【Android动画九章】-帧动画
  20. Learning a Proposal Classifier for Multiple Object Tracking

热门文章

  1. 牵引力教育设计总监解密9大2018潮流UI设计趋向
  2. 深挖数据价值 阿里云栖开年大会报道
  3. 一些关于Java的句子
  4. Linux驱动修炼之道-RTC子系统框架与源码分析【转】
  5. Centos配置国内yum源
  6. 域名管理系统 二级域名_域名系统简介
  7. 多个敏捷团队同时做一个项目_您说您的团队很敏捷……但是这个词可能并不代表您的想法。...
  8. java语言二维数组转置_java实现二维数组转置的方法示例
  9. Java程序员到什么级别可以去BAT上班?
  10. 使用intellij idea制作可执行jar文件