pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说
通过python批量自动化下载斗破苍穹小说
效果是这样的
效果展示1
效果展示2
我的代码
import re
import urllib.request
import time
url='http://www.liewen.cc/b/0/18/'
def get_list_link(url):
web_open=urllib.request.urlopen(url)
web_html=web_open.read().decode('gbk')
# time.sleep(1)
# print(web_html)
reg=re.compile(r' (.*?)')
list_links=re.findall(reg,web_html)
# print(list_links)
num=0
for link in list_links:
full_link='http://www.liewen.cc'+link[0]
title=link[1]
# print(full_link,title)
num=num+1
filename='E:/novel/{}.{}.txt'.format(num,title)
print('正在下载:%s,访问链接是:%s'% (title,full_link))
with open(filename,'a') as f:
f.write(title+'\n')
get_detail_info(full_link,filename)
#return full_link
def get_detail_info(url,filename):
web_data=urllib.request.urlopen(url)
web_html=web_data.read().decode('gbk')
# print(web_html)
reg=re.compile('
(.*?)')
detail_infos=re.findall(reg,web_html)
if detail_infos:
clean_infos=detail_infos[0].replace('
','\n')
# print(clean_infos)
with open(filename,'a') as F:
F.write(clean_infos)
if __name__=='__main__':
get_list_link(url)
总结
爬虫思路-获取多页访问链接->获取每页图片链接->正文下载;
正则表达式的使用;
format与with open as语法的使用;
编码方式调整;
urllib.request与re模块的使用。
pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说相关推荐
- python爬取正确但不出文件_python爬取糗事百科,该如何正确保存到本地文件夹?报错-问答-阿里云开发者社区-阿里云...
我的程序已经可以爬取网络内容,但不太清楚怎么保存到当地文件夹,用网上方法试着做,但是有报错 import urllib import urllib.request import requests ## ...
- python爬取网页有乱码怎么解决_Python爬取网页requests乱码
**之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据: 不知道是不是网站对网页内容进行了加密, ...
- python爬取网易云音乐热评_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
- python爬取网易云音乐评论分析_Python爬取网易云音乐评论(附加密算法)
网易云音乐,里面汇聚了哲学家,小说家,story-teller,皮皮虾等各种人才,某些评论非常值得收藏(甚至开了一个歌单专门收藏它们).竟然这么好玩,何不尝试把他们爬取下来呢? 前置需求 可选:fid ...
- python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区
简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...
- python爬取京东数据加载失败_python 爬京东数据时,无法登陆。
想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...
- python爬取音乐并保存的格式_python爬取QQ音乐歌单歌曲保存到本地,json解析
序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...
- python爬取微信小程序(实战篇)_python爬取猫眼的前100榜单并展示在微信小程序
首先分析要爬取的网页,对其结构及数据获取方式解析后,可采用正则筛选自己要的数据 猫眼榜单.png import requests from requests.exceptions import Req ...
- python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
- python爬取百度云资源分享吧_python爬取百度云盘资源
小测试,初学python. 1.[代码][Python]代码 import urllib import urllib.request import webbrowser import re def y ...
最新文章
- Citrix Synergy 2014 重要信息快速一览
- Office CVE-2017-8570 远程代码执行漏洞复现
- matlab 多目标规划
- 总结一下这几天操作符的学习心得
- Ubuntu 16.04设置Redis为开机自动启动服务
- pytorch_导入d2l_pytorch包问题
- CSS 实现隐藏滚动条同时又可以滚动
- java厨房_Java多线程基础
- jquery send(data) 对data的处理
- GitHub超级火!任意爬取,超全开源爬虫工具箱
- Math 对象的扩展
- mini2440驱动分析之PWM
- 好久以来,就想为你写一首诗
- android 是什么编码格式,在Android的JPG图像编码和解码
- Linux tmux 使用指南
- java反射 反射构造函数 报 wrong number of arguments 错误
- 笔记篇二:鸢尾花数据集分类
- 数据结构与算法学习笔记——数据结构(四):单向环形链表(约瑟夫问题)
- 【Android动画九章】-帧动画
- Learning a Proposal Classifier for Multiple Object Tracking