Python3网络爬虫(一)-小说爬取(以笔趣看网站小说为例)
一 工具准备
我用的是Anaconda+PyCharm的组合
如何安装使用看这篇教程就够了:
URL: https://blog.csdn.net/yggaoeecs/article/details/78378938
非常详细。
二 简单爬取
1 安装requests及BeautifulSoup库
在pyCharm的终端(Terminal)中输入:
pip install requests //安装requests库
pip install BeautifulSoup //安装Beautiful库
pip list //查看这两个库是否安装成功
2 requests库的使用
详细使用方法请参阅官方中文教程地址:
URL: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
这里我们主要用到的是requests.get()方法,这是获取HTML网页的主要方法,对应于HTTP的GET,requests.get()方法实际上就是模仿浏览器向服务器发送GET请求,并从服务器获得数据。
下面以访问笔趣看主页为例展示requests.get()方法的使用:
import requests #首先需要导入requests库
target = 'https://www.biqukan.com/'#将笔趣看网址保存为字符串变量
req = requests.get(url=target)#使用requests.get()方法获取笔趣看网址主页页面内容
print(req.text)#以文本方式在屏幕上打印出来
运行结果如下:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
<title>笔趣阁,新笔趣阁小说阅读网,笔趣阁打不开就来 - 笔趣看小说网</title>
<meta name="keywords" content="笔趣阁,新笔趣阁" />
<meta name="description" content="笔趣阁是广大书友比较喜欢的小说阅读网,而笔趣看则是笔趣阁小说阅读网的备份网站,收录了当前最热门、最火爆的小说,笔趣阁打不开就来笔趣看小说网!2016新笔趣阁欢迎收藏!" />
<meta http-equiv="Cache-Control" content="no-transform" />
<meta http-equiv="Cache-Control" content="no-siteapp" />
<meta http-equiv="mobile-agent" content="format=html5; url=https://m.biqukan.com" />
<meta http-equiv="mobile-agent" content="format=xhtml; url=https://m.biqukan.com" />
<link href="/css/style.css" rel="stylesheet" type="text/css" />
<script src="/xxgg/common.js"></script>
至此。我们获得了笔趣看主页的HTML信息。
3 BeautifulSoup库的使用
详细使用方法请参阅官方中文教程地址:
URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/
爬虫的第一步,获取整个网页的HTML信息,我们已经完成。接下来就是爬虫的第二步,解析HTML信息,提取我们感兴趣的内容。
在google chrome浏览器中我们可以看到与requests.get()方法得到的相同的HTML信息,具体查看方法如下:
(1)首先打开开发者模式
(2)在开发者模式中找到感兴趣的内容
(3)找到HTML网页信息中的关键字
文章的所有内容都放在了一个名为div的“东西下面”,这个”东西”就是html标签。HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。
关键字部分:
<div id="content", class="showtxt">
根据关键字部分,我们就可以使用Beautiful Soup提取我们想要的内容了,编写代码如下:
import requests
from bs4 import BeautifulSoup
target = 'https://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
texts = soup.select('.showtxt')//根据关键字中的class,应用BeautifulSoup的select()方法可以得到小说正文的内容。
print(texts[0].text.replace(' ', '\n').replace('\xa0'*8, '\n'))
得到结果如下:
正文内容已经被抓取并且打印在输出中。
三 整合代码
这部分有空再填坑吧,哈哈哈
Python3网络爬虫(一)-小说爬取(以笔趣看网站小说为例)相关推荐
- Python3网络爬虫,简单爬取网络小说并下载
相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...
- [Python3网络爬虫开发实战] -爬取电影排行数据
爬取猫眼电影排行 利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容,选用正则表达式来作为解析工具. 主要目标 提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的 ...
- python3.6爬虫案例:爬取朝秀帮图片
一.写在前面 之前写的两篇博客: python3.6爬虫案例:爬取百度歌单点击打开链接: python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)点击打开链接 第一个案例写了如何在百度音乐歌单中 ...
- [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
- [day1]python网络爬虫实战:爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- [day2]python网络爬虫实战:爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- Python 网络爬虫实战:爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...
- python3.6爬虫案例:爬取某网站所有PPT(上)。
写在前面 这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...
- 网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言 过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
- python3 scrapy 爬虫实战之爬取站长之家
爬取目标 站长之家:http://top.chinaz.com/all/ 爬取工具 win10 python3 scrapy BeautifulSoup 爬取内容 1 网站缩略图 2 网站名称 3 网 ...
最新文章
- 【CTF】实验吧 古典密码
- 点滴积累--工作总结
- iOS项目组件化历程
- 028 -bash-4.1$ 出现故障的原理及解决办法?
- 用Android UEventObserver监听内核event
- Commons Collections学习笔记(四)
- 95-34-025-Context-AbstractChannelHandlerContext
- php session不生效_php验证session无效的解决方法
- 通达信公式转python为什么很难_转行数据分析为什么这么难?
- Java程序性能优化技巧
- 长得好看,但没有男朋友是怎样的体验?
- 流量卡之家:英国运营商推出5G无限流量套餐 每月约300元
- Python 读文件并按十六进制输出
- 笨方法学python 习题34
- Python 实现 双人五子棋对局
- Android 11.0 PackageManagerService(一)工作原理和启动流程
- 微信扫码背后的图像超分辨率技术
- 千万年斗转星移,小屏幕见大宇宙 - “钦天明时” 天文时钟万年历应用程序(iOS App)说明
- java构建器出错nullpoint_空指针错误 java.lang.NullPointerException 浅谈
- Android手机QQ的UI自动化实践,死磕原理