仅做学习用途!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

看小说请支持正版!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

做了小飞船打外星人之后,课本剩下的两个大项目都不想做,一个看都没看,一个做起来越做越生气。

于是把目光放到了我康康康康康康康!!!仙博客更新过的 python爬虫上

找到了一个比较傻瓜式的简单博客教程,

开始了python的爬虫之旅~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

一:查看元素

先打开笔趣阁中的一篇小说(此为盗版网站,请支持正版!)笔趣阁_圣墟,

然后单击鼠标右键,点击审查元素(不同浏览器的叫法可能不同,但是离不开审查,检查,查看元素这些),

会发现网站右边(不同浏览器地方不同,但是都差不多,我的是搜狗浏览器而不是大多数用的chr~~~)出现了很多看不懂的代码,这些代码相当于是网站的源代码(你可以在本地修改这些代码,网站显示的内容也会相应改变,当然,刷新就会回到原样,一个有趣而简单的使用见附1),在出现的代码框的左上角有一个小箭头,点了之后,鼠标移到那,代码和网页的对应部分就会变蓝以示清白。

简单python爬虫的原理可以说就是抓相应源代码下来,然后分析这些代码从中剥离出需要的部分。

点开小说的任一章节,审查元素,找到章节内容对应的代码,会看到所有的内容文字都属于div class = showtxt的标签中

这些属于html的内容,我也不太懂,但大概懂这些标签中的层次关系。

我们第一层次要做的,就是抓取好这一章这些所有的内容文字。

第二层次要做的就是抓取全部章节,转到txt文件中。

然后就搞定啦

BB了这么多,下面开始代码相关的解析~~~~~

二:requests

requests是一个功能强大的库,可以很方便的获取一个网页的html信息。

常用的函数有 requests.get(某网站),返回值就是这个网站的html的信息。

有中文官方文档查看。

好的,现在下载requests,打开命令行,输入

pip install requests 下载即可

先来简单的使用一下,编译如下代码

import requestsr = requests.get("http://www.biqukan.com/0_178/15661946.html")
print(r.text)

就两行,两个函数,第一个是requests.get(),获取网页信息,第二个r.text转为字符串来输出。

这个代码的输出就是网页的源代码内容。

很明显,我们要的是文章的内容,而不是这么一大串乱七八糟的代码和一些别的内容。

这就是这个简单爬虫的最重要部分

三:BeautifulSoup

得到了一长串的html内容,下面要做的就是解析html内容,身为一个新手,最好用的应该就是BeautifulSoup。

下载方式:打开命令行 输入 pip install beautifulsoup4

同样的,这个库也有官方中文文档

下载好了之后怎么使用这个库来帮助我们进行html的解析呢

运行代码

import requests
from bs4 import BeautifulSoupr = requests.get("    http://www.biqukan.com/0_178/15661946.html")
html = r.text
bf = BeautifulSoup(html)#传递一个字符串,返回一个BeautifulSoup对象,这个对象可以很方便的帮助解析html信息
texts = bf.find_all('div' , class_='showtxt')#返回一个列表,找出所有div标签下面,class属性是showtxt的东西,前面说过,所有文章内容都是在showtxt下面的
print(texts[0])

就两行代码是新的。

运行输出如下

可以看到,文本的确是文本了,但是格式很奇怪,而且有很多brbrbrbr

只需要在print(texts)前加一行

texts = texts[0].text.replace('\xa0'*8,'\n\n')

即可

texts[0]是列表的第一个元素,这里列表也只有一个元素,因为只有一个地方满足class_ = 'showtxt'的条件

texts[0].text滤除br,只显示文本

然后再删除多余的空格改成回车:replace('\xa0'*8,'\n\n')

再运行程序,就会输出最想要的结果,也就是该章小说已经储存进了我们的程序中啦!



。。。。。。。。。。。。。。。。。。。。。。

到这里,已经对这种简单爬虫实现有了一点小小的感觉,下面爬所有章节小说。

这个的思路如下:

1:找到所有章节的对应网站

2:依次爬取并写入txt文件中。

怎么找呢,我们打开这本小说的目录网站


审查元素的时候可以看到,每一章都对应一个网站后缀,

也就是说第二章的网站地址就是http://www.biqukan.com(前缀)          /0_178/15661947.html(后缀)

如果我们能够建立起一个列表,从目录网站获取每一章的网站后缀,再加上固定的网站前缀,那么接下来的就仅是代码的拼接了!

跟之前爬取单章内容的方法类似。发现所有的章节目录网站这些信息都存储在 class  = listmain 的标签中

运行代码

import requests
from bs4 import BeautifulSoupr = requests.get("http://www.biqukan.com/0_178/")
html = r.text
bf = BeautifulSoup(html)
texts = bf.find_all('div' , class_='listmain')
print(texts)#不做解释

部分输出如下:

<dt>《圣墟》最新章节列表</dt>
<dd><a href="/0_178/18803757.html">第九百九十章 万古时空一画卷</a></dd>
<dd><a href="/0_178/18777009.html">第九百八十九章 史上最强的人(附之前断更原因)</a></dd>
<dd><a href="/0_178/18732721.html">第九百八十八章 跃上苍</a></dd>
<dd><a href="/0_178/18710572.html">第九百八十七章 一剑断万古</a></dd>
<dd><a href="/0_178/18629635.html">第九百八十六章 是为上苍仙</a></dd>
<dd><a href="/0_178/18623441.html">第九百八十五章 共举大事</a></dd>
<dd><a href="/0_178/18608001.html">第九百八十四章 长使英雄泪满襟</a></dd>
<dd><a href="/0_178/18596234.html">第九百八十三章 擒仙</a></dd>
<dd><a href="/0_178/18583527.html">第九百八十二章 一个人挑战全阳间</a></dd>
<dd><a href="/0_178/18578505.html">第九百八十一章</a></dd>
<dd><a href="/0_178/18562616.html">第九百八十章 他乡遇故知</a></dd>
<dd><a href="/0_178/18552332.html">第九百七十九章 事了拂衣去</a></dd>
<dt>《圣墟》正文卷</dt>
<dd><a href="/0_178/15661946.html">第一章 沙漠中的彼岸花</a></dd>
<dd><a href="/0_178/15661947.html">第二章 后文明时代</a></dd>

诶,更进一步,我们要的是<a>标签里面的 href 的网站

<a>标签在这代表的是超链接的网站的意思

import requests
from bs4 import BeautifulSoupr = requests.get("http://www.biqukan.com/0_178/")
html = r.text
bf = BeautifulSoup(html)
texts = bf.find_all('div' , class_='listmain')div = BeautifulSoup(str(texts[0]))#将之前的输入作为字符串再转换成一个BeautifulSoup对象
a = div.find_all('a')#在这些对象中,寻找<a>标签中的值,这里注意返回的是一个列表,这个列表有非常多的元素。
for each in a:print( 'http://www.biqukan.com' + each.get('href'))#对列表中的每一个对象,也就是<a>标签中的东西,get他们的href~~~

部分输出:

到这里,简单爬虫的关键内容已经完成啦。

接下来利用这些东西,整合一下代码即可

from bs4 import BeautifulSoup
import requests , sysclass downloader():def __init__(self):self.server = 'http://www.biqukan.com/'self.target = 'http://www.biqukan.com/0_178/'self.names = []self.urls = []self.nums = ()def get_download_url(self):req = requests.get(self.target)html = req.textdiv_bf = BeautifulSoup(html)div = div_bf.find_all('div',class_ = 'listmain')a_bf = BeautifulSoup(str(div[0]))########a = a_bf.find_all('a')self.nums = len(a[15:])for i in a [15:]:self.names.append(i.string)self.urls.append(self.server + i.get('href'))def get_contents(self,target):req = requests.get(target)html = req.textbf = BeautifulSoup(html)texts = bf.find_all('div' , id = 'content')texts = texts[0].text.replace('\xa0'*8,'\n\n')return textsdef write(self , name ,path ,text):write_flag = Truewith open(path , 'a' , encoding = 'utf-8') as f:f.write(name + '\n')f.writelines(text)f.write("\n\n")dl = downloader()
dl.get_download_url()
print("stat:")
for i in range(dl.nums):dl.write(dl.names[i],'shengxu.txt',dl.get_contents(dl.urls[i]))sys.stdout.write("%.3f%%" % float(i/dl.nums) + '\r')sys.stdout.flush()

代码认真看结合内容很容易就能看懂,不多做解释。

guinazongjie归纳总结:

这个第一个爬虫还是比较简单的,虽然我几乎没有任何的html和JAVASXXXXX知识,也还是能够顺畅的写下来。

真正的关键点应该还是BeautifulSoup库的几个函数和对象的使用,以及关于网页源代码的观察。

好了,就这样吧。。。。。。最后再说一句

支持正版!



附1:

 随意打开一个登录界面,比如说qq邮箱,切换到账号密码登录,会看到

密码是显示不出来的,不过修改此处的属性就可以显示出来,审查元素找到这个地方的对应代码

把password改成text并保存

在本地网页就可以看到这个密码

一刷新就没了,那么这个东西有什么用呢,简单来说,你可以趁你舍友上厕所的时候偷你舍友的QQ的密码,只要他保存了账号密码。

额,当然,仅做学习用途,侵犯他人隐私犯法。

第一个简单爬虫之下载小说相关推荐

  1. Python3 网络爬虫:下载小说的正确姿势

    1 前言 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...

  2. Python爬虫实战——下载小说

    Python爬虫实战--下载小说 前言 第三方库的安装 示例代码 效果演示 结尾 前言 使用requests库下载开源网站的小说 注意:本文仅用于学习交流,禁止用于盈利或侵权行为. 操作系统:wind ...

  3. 简单的分布式爬虫(下载小说)

    最初下载小说的爬虫只有二十几行代码,虽然二十几行代码就可以完成这项工作,但是如果把爬虫的各个功能封装成不同的类,这样便于以后复用也便于阅读. 拓展之后,把刚开始下载小说的代码拓展成一个基础爬虫,但是这 ...

  4. node.js 实现简单爬虫批量下载喜马拉雅音频

    前提:最近一直在看node,平时碎觉喜欢听盗墓笔记啥的有声小说,然后突然就就想试着写个爬虫自己下载下来,虽然有点多此一举,但是就当学习练练手了,在这里记录一下! 没有express基础的,请先行了解 ...

  5. Python3简单爬虫之下载相关类型音乐(喜马拉雅网站)!

    一,简单介绍python 1.众所周知,python在近几年可以说是非常火爆,在受欢迎排名上经常位于前列 2017年IEEE Spectrum 最新的研究报告 2018年TIOBE 刚刚发布了 6 月 ...

  6. Python3简单爬虫之下载相关类型音乐(喜马拉雅网站)

    一,简单介绍python 1.众所周知,python在近几年可以说是非常火爆,在受欢迎排名上经常位于前列 2017年IEEE Spectrum 最新的研究报告 2018年TIOBE 刚刚发布了 6 月 ...

  7. python:第一个简单爬虫程序

    爬虫的套路 爬虫就是模拟浏览器行为,将别人网站的内容,抓取下来,提取自己想要的内容. 第一步:分析爬取网站的url,请求的url需要哪些参数呀,要不要用户认证等. 第二步:模拟浏览器行为进行网络请求. ...

  8. java简单爬虫实现打印小说章节至控制台

    最近公司比较闲,就想着研究研究爬虫,因为平时爱看点小说,那就对小说下手吧.话不多少,上源码 目录结构: 主处理方法: package controller;import java.io.Buffere ...

  9. python 爬虫:下载小说

    最近在水滴阅读看英文原著<绿野仙踪>,在PP作文中下载中文版本. 下载到第12章的时候,好像是html网页出错,拿不到下一章的url. 跳过12章,将首页地址更新为第13章,可以继续下 # ...

最新文章

  1. 【已解决】tomcat启动不成功(点击startup.bat闪退)的解决办法
  2. spring mvc学习(5):IDEA修改背景颜色大全
  3. FreeModbus线圈
  4. android 百度地图 点标记偏移,百度地图设置中心点偏移(中心点不被页面其他元素遮挡)...
  5. python消息队列celery_python异步任务神器celery
  6. Unsupported major.minor version 51.0
  7. ScheduledThreadPoolExecutor
  8. rpm安装mysql指定数据仓库_linux(center OS7)安装JDK、tomcat、mysql 搭建java web项目运行环境-Go语言中文社区...
  9. linux服务器双网卡路由优先级冲突 Metric值
  10. Linux——缺少ld-linux.so.2,lbiz.so.1库文件
  11. 敏捷项目管理实战第一天 敏捷开发SCURM的前世今生
  12. 系统方法定位 IOS
  13. faceapp一直显示选择服务器,faceapp提示choosing a serve_faceapp提示choosing a serve解决办法_玩游戏网...
  14. mysqlReport 详细解析
  15. 汇编语言lcall d200c,有没有哪位大佬能帮我把汇编语言帮我转为c或者c++的 求帮助...
  16. XV6 RISC-V 源码阅读报告之进程模型
  17. git的origin/master和origin master
  18. glog编译安装使用
  19. 结构化学习(Structured Learning)
  20. 数制转换 1207 1216

热门文章

  1. java银行转账会出现的问题_java基础入门-多线程同步浅析-以银行转账为例子
  2. 坑系列 --- 高可用架构的银弹 1
  3. 扎实好用的快充双C口数据线
  4. 希捷建议,企业应该重视影响全球业务成功的关键性数据
  5. 奇门排盘app 保存html,‎App Store 上的“奇门-支持多种奇门的专业排盘系统”
  6. 游戏开发中的物理之使用KinematicBody2D
  7. Unity Texture Texture2D RenderTexture
  8. 修改checkbox样式
  9. linux命令之scp命令
  10. css 色弱模式(反色)