python爬虫的简单使用

我们都知道爬虫可以爬取网页信息,那么什么信息可以提取呢?又有什么好处呢?
现在就以爬取小说为例,体验一下爬虫的快乐吧。

首先我们要找到爬取的小说网页地址,这个很简单可以直接复制粘贴。之后就是对网页进行解析啦,也就是提取我们想要的部分。

def main():url="https://xxxxx"#爬取的网址batas=Datas(url)   #对网页进行请求数据wen=Data(batas)    #解析数据savepath="xxx.txt"         #存为文本文件地址Savefile(wen,savepath)     #存为文本文件............
if __name__=="__main__":main()

获得到网页之后还要对网页进行请求,也就是伪装一下自己,不能告诉别人你就是爬虫,要是这样谁还给你数据。。

那怎么伪装呢,也是一个很简单的步骤啦,通过开发者工具找到头部进行复制粘贴。

def askURL(url):head={xxxxxxxx}reg=urllib.request.Request(url=url,headers=head)  #请求网页try:                                        #异常判断response=urllib.request.urlopen(reg)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html

之后就是进行登入网页的操作了

def Datas(url):datalist=[]        #存数据html=askURL(url)   #登入网页soup = BeautifulSoup(html, "html.parser")      #解析for item in soup.find_all('li',class_="c3"):data=[]item = str(item)spans=re.findall(span,item)[0]data.append(spans)                      #章节名称urls=re.findall(href,item)[0]           #章节链接data.append(urls)datalist.append(data)return datalist

然后就可以用正则表达式提取我们想要的信息就可以解析了。

hs=re.compile(r'<h1>(.*?)</h1>',re.S)#标题
p=re.compile(r'<p>(.*?)\r</p>',re.S)#内容

对每一章节的提取

def Data(datalist):wenfile=[]for i in datalist:print('%s  正在下载'%i[0])url="https://xxx"+str(i[1])html=askURL(url)soup=BeautifulSoup(html,"html.parser")for items in soup.find_all('div',class_="paper-box paper-article"):wen=[]items=str(items)h=re.findall(hs,items)wen.append(h)itemss=re.findall(p,items)wen.append(itemss)wenfile.append(wen)return wenfile

最后就是保存到文本

def Savefile(datas,savepath):f=open(savepath,'w',encoding="utf-8")for i in datas:for s in i:for r in s:f.write(str(r))f.write('\r\n')f.close()print("下载完成")

大工告成,小说就直接下在到了电脑中,是不是很方便呀。

以上程序不是很完美,如有问题请多多指教。

爬取网页小说一键搞定相关推荐

  1. Android 通过okhttp + jsoup 爬虫爬取网页小说

    Android 通过okhttp + jsoup 爬虫爬取网页小说 效果图 1.准备工作 测试地址:http://www.tlxs.net 第三方依赖: implementation 'com.squ ...

  2. python爬虫之一(2):爬取网页小说(圣墟)

    强化: 爬取最新的小说圣墟 代码: #coding=utf-8 import os import sys reload(sys) sys.setdefaultencoding('utf8') from ...

  3. python爬取网页小说去除nbsp_python爬虫 爬取内容的时候nbsp 空格内容变成问号‘?’...

    正好我也遇到了这个让人无比蛋疼的问题. 一.先说一个与主题无关的蛋疼经历. 我要抓取某网站上电视剧的信息. 1.观察网页,发现我要的导演名字啊,地区啊之类的信息都存在dd标签里面.最开始我用pq对象( ...

  4. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  5. 使用 requests+lxml 库的 Python 爬虫实例(以爬取网页连载小说《撒野》为例)

    需求目标 介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说<撒野>为例~ 当然有很多小说基本都能找到现成的 .txt 或者 . ...

  6. Python爬取网页所有小说

    Python爬取网页所有小说 python 2.7.15 练习beautifulsoup的使用 不了解bs的可以先看一下这个bs文档 一.看URL的规律 因为是要爬取网页上所有的小说,所以不仅要获取网 ...

  7. python每隔一段时间保存网页内容_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!...

    大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

  8. python爬虫表格table_Python基于pandas爬取网页表格数据

    以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...

  9. python爬虫爬取歌曲_python爬虫实战:爬取全站小说排行榜

    喜欢看小说的骚年们都知道,总是有一些小说让人耳目一新,不管是仙侠还是玄幻,前面更了几十章就成功圈了一大波粉丝,成功攀上飙升榜,热门榜等各种榜,扔几个栗子出来: 新笔趣阁是广大书友最值得收藏的网络小说阅 ...

最新文章

  1. quickpcb添加pcb库_quickpcb使用说明
  2. express 的 middleware 设计
  3. pythonurllib模块-python爬虫之urllib模块和requests模块学习
  4. 当输入 xxxxHub 后,到网页显示,其间发生了什么?
  5. charles乱码_基于iOS的Charles抓包实践
  6. 【渝粤教育】国家开放大学2018年春季 0089-22TInternet和Intranet应用 参考试题
  7. windows上编译zlib-1.2.8
  8. 信息学奥赛一本通 1175:除以13 | OpenJudge NOI 1.13 27:除以13
  9. 140款Android开源优秀项目源码
  10. buck电路pscad仿真_100kVar SVG模块主电路选型分析[李博士]
  11. 九江职业技术学院工业机器人_黑龙江农业工程职业学院学子喜获工业机器人大赛一等奖...
  12. Nginx搭建视频流媒体服务(直播点播)
  13. linux系统安装m1136打印机,Ubuntu 安装及共享打印机
  14. 对接海康人脸识别api接口之PHP案例
  15. 方正璞华“劳动人事法律自助咨询服务平台”在武汉武昌区投入使用!
  16. 学习方法和学习经验总结
  17. 【艾琪出品】-【计算机应用基础】测试题系列一、在线作业参考资料
  18. 树链剖分 - 月下“毛景树”(BZOJ 4151)
  19. [笔记]|[FPGA]|[寄存器]|[模拟信号数字信号]《FPGA学习之道》学习笔记(1)
  20. 讲讲如何将图片格式转化成base64格式的

热门文章

  1. Element-UI中调用tinymce6实现本地化加载,并解决提示:This domain is not registered with TinyMCE Cloud,省去api-key
  2. vue组件相关 传值 调用
  3. nodejs 使用npm install express报错解决方案
  4. Python 四大数据类型总结
  5. 控制系统设计指南第四版
  6. 使用python开发宏_Python 如何开发 Excel 宏脚本
  7. ubuntu服务器调风扇转速
  8. 拿到全新电脑安装的软件
  9. 解析csv数据绘制曲线图
  10. 智慧城市同城V4 v2.2.8 同城 同城小程序 同城信息