爬取网页小说一键搞定

python爬虫的简单使用

我们都知道爬虫可以爬取网页信息，那么什么信息可以提取呢？又有什么好处呢？
现在就以爬取小说为例，体验一下爬虫的快乐吧。

首先我们要找到爬取的小说网页地址，这个很简单可以直接复制粘贴。之后就是对网页进行解析啦，也就是提取我们想要的部分。

def main():url="https://xxxxx"#爬取的网址batas=Datas(url)   #对网页进行请求数据wen=Data(batas)    #解析数据savepath="xxx.txt"         #存为文本文件地址Savefile(wen,savepath)     #存为文本文件............
if __name__=="__main__":main()

获得到网页之后还要对网页进行请求，也就是伪装一下自己，不能告诉别人你就是爬虫，要是这样谁还给你数据。。

那怎么伪装呢，也是一个很简单的步骤啦，通过开发者工具找到头部进行复制粘贴。

def askURL(url):head={xxxxxxxx}reg=urllib.request.Request(url=url,headers=head)  #请求网页try:                                        #异常判断response=urllib.request.urlopen(reg)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html

之后就是进行登入网页的操作了

def Datas(url):datalist=[]        #存数据html=askURL(url)   #登入网页soup = BeautifulSoup(html, "html.parser")      #解析for item in soup.find_all('li',class_="c3"):data=[]item = str(item)spans=re.findall(span,item)[0]data.append(spans)                      #章节名称urls=re.findall(href,item)[0]           #章节链接data.append(urls)datalist.append(data)return datalist

然后就可以用正则表达式提取我们想要的信息就可以解析了。

hs=re.compile(r'<h1>(.*?)</h1>',re.S)#标题
p=re.compile(r'<p>(.*?)\r</p>',re.S)#内容

对每一章节的提取

def Data(datalist):wenfile=[]for i in datalist:print('%s  正在下载'%i[0])url="https://xxx"+str(i[1])html=askURL(url)soup=BeautifulSoup(html,"html.parser")for items in soup.find_all('div',class_="paper-box paper-article"):wen=[]items=str(items)h=re.findall(hs,items)wen.append(h)itemss=re.findall(p,items)wen.append(itemss)wenfile.append(wen)return wenfile

最后就是保存到文本

def Savefile(datas,savepath):f=open(savepath,'w',encoding="utf-8")for i in datas:for s in i:for r in s:f.write(str(r))f.write('\r\n')f.close()print("下载完成")

大工告成，小说就直接下在到了电脑中，是不是很方便呀。

以上程序不是很完美，如有问题请多多指教。

爬取网页小说一键搞定相关推荐

Android 通过okhttp + jsoup 爬虫爬取网页小说
Android 通过okhttp + jsoup 爬虫爬取网页小说效果图 1.准备工作测试地址:http://www.tlxs.net 第三方依赖: implementation 'com.squ ...
python爬虫之一(2)：爬取网页小说（圣墟）
强化: 爬取最新的小说圣墟代码: #coding=utf-8 import os import sys reload(sys) sys.setdefaultencoding('utf8') from ...
python爬取网页小说去除nbsp_python爬虫爬取内容的时候nbsp 空格内容变成问号‘？’...
正好我也遇到了这个让人无比蛋疼的问题. 一.先说一个与主题无关的蛋疼经历. 我要抓取某网站上电视剧的信息. 1.观察网页,发现我要的导演名字啊,地区啊之类的信息都存在dd标签里面.最开始我用pq对象( ...
python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
使用 requests+lxml 库的 Python 爬虫实例（以爬取网页连载小说《撒野》为例）
需求目标介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说<撒野>为例~ 当然有很多小说基本都能找到现成的 .txt 或者 . ...
Python爬取网页所有小说
Python爬取网页所有小说 python 2.7.15 练习beautifulsoup的使用不了解bs的可以先看一下这个bs文档一.看URL的规律因为是要爬取网页上所有的小说,所以不仅要获取网 ...
python每隔一段时间保存网页内容_利用Python轻松爬取网页题库答案！教孩子不怕尴尬了！...
大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...
python爬虫表格table_Python基于pandas爬取网页表格数据
以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...
python爬虫爬取歌曲_python爬虫实战:爬取全站小说排行榜
喜欢看小说的骚年们都知道,总是有一些小说让人耳目一新,不管是仙侠还是玄幻,前面更了几十章就成功圈了一大波粉丝,成功攀上飙升榜,热门榜等各种榜,扔几个栗子出来: 新笔趣阁是广大书友最值得收藏的网络小说阅 ...

爬取网页小说一键搞定

python爬虫的简单使用

爬取网页小说一键搞定相关推荐

最新文章

热门文章