一 工具准备

我用的是Anaconda+PyCharm的组合
如何安装使用看这篇教程就够了:
URL: https://blog.csdn.net/yggaoeecs/article/details/78378938
非常详细。

二 简单爬取

1 安装requests及BeautifulSoup库

在pyCharm的终端(Terminal)中输入:

pip install requests //安装requests库
pip install BeautifulSoup //安装Beautiful库
pip list //查看这两个库是否安装成功

2 requests库的使用

详细使用方法请参阅官方中文教程地址:
URL: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

这里我们主要用到的是requests.get()方法,这是获取HTML网页的主要方法,对应于HTTP的GET,requests.get()方法实际上就是模仿浏览器向服务器发送GET请求,并从服务器获得数据。

下面以访问笔趣看主页为例展示requests.get()方法的使用:

import requests #首先需要导入requests库
target = 'https://www.biqukan.com/'#将笔趣看网址保存为字符串变量
req = requests.get(url=target)#使用requests.get()方法获取笔趣看网址主页页面内容
print(req.text)#以文本方式在屏幕上打印出来

运行结果如下:

<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
<title>笔趣阁,新笔趣阁小说阅读网,笔趣阁打不开就来 - 笔趣看小说网</title>
<meta name="keywords" content="笔趣阁,新笔趣阁" />
<meta name="description" content="笔趣阁是广大书友比较喜欢的小说阅读网,而笔趣看则是笔趣阁小说阅读网的备份网站,收录了当前最热门、最火爆的小说,笔趣阁打不开就来笔趣看小说网!2016新笔趣阁欢迎收藏!" />
<meta http-equiv="Cache-Control" content="no-transform" />
<meta http-equiv="Cache-Control" content="no-siteapp" />
<meta http-equiv="mobile-agent" content="format=html5; url=https://m.biqukan.com" />
<meta http-equiv="mobile-agent" content="format=xhtml; url=https://m.biqukan.com" />
<link href="/css/style.css" rel="stylesheet" type="text/css" />
<script src="/xxgg/common.js"></script>

至此。我们获得了笔趣看主页的HTML信息。

3 BeautifulSoup库的使用

详细使用方法请参阅官方中文教程地址:
URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/
爬虫的第一步,获取整个网页的HTML信息,我们已经完成。接下来就是爬虫的第二步,解析HTML信息,提取我们感兴趣的内容。
在google chrome浏览器中我们可以看到与requests.get()方法得到的相同的HTML信息,具体查看方法如下:
(1)首先打开开发者模式
(2)在开发者模式中找到感兴趣的内容
(3)找到HTML网页信息中的关键字

文章的所有内容都放在了一个名为div的“东西下面”,这个”东西”就是html标签。HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。
关键字部分:

<div id="content", class="showtxt">

根据关键字部分,我们就可以使用Beautiful Soup提取我们想要的内容了,编写代码如下:

import requests
from bs4 import BeautifulSoup
target = 'https://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
texts = soup.select('.showtxt')//根据关键字中的class,应用BeautifulSoup的select()方法可以得到小说正文的内容。
print(texts[0].text.replace(' ', '\n').replace('\xa0'*8, '\n'))

得到结果如下:

正文内容已经被抓取并且打印在输出中。

三 整合代码

这部分有空再填坑吧,哈哈哈

Python3网络爬虫(一)-小说爬取(以笔趣看网站小说为例)相关推荐

  1. Python3网络爬虫,简单爬取网络小说并下载

    相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...

  2. [Python3网络爬虫开发实战] -爬取电影排行数据

    爬取猫眼电影排行 利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容,选用正则表达式来作为解析工具. 主要目标 提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的 ...

  3. python3.6爬虫案例:爬取朝秀帮图片

    一.写在前面 之前写的两篇博客: python3.6爬虫案例:爬取百度歌单点击打开链接: python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)点击打开链接 第一个案例写了如何在百度音乐歌单中 ...

  4. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  5. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  6. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  7. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  8. python3.6爬虫案例:爬取某网站所有PPT(上)。

    写在前面   这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...

  9. 网络爬虫之scrapy爬取某招聘网手机APP发布信息

    1 引言 过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...

  10. python3 scrapy 爬虫实战之爬取站长之家

    爬取目标 站长之家:http://top.chinaz.com/all/ 爬取工具 win10 python3 scrapy BeautifulSoup 爬取内容 1 网站缩略图 2 网站名称 3 网 ...

最新文章

  1. 【CTF】实验吧 古典密码
  2. 点滴积累--工作总结
  3. iOS项目组件化历程
  4. 028 -bash-4.1$ 出现故障的原理及解决办法?
  5. 用Android UEventObserver监听内核event
  6. Commons Collections学习笔记(四)
  7. 95-34-025-Context-AbstractChannelHandlerContext
  8. php session不生效_php验证session无效的解决方法
  9. 通达信公式转python为什么很难_转行数据分析为什么这么难?
  10. Java程序性能优化技巧
  11. 长得好看,但没有男朋友是怎样的体验?
  12. 流量卡之家:英国运营商推出5G无限流量套餐 每月约300元
  13. Python 读文件并按十六进制输出
  14. 笨方法学python 习题34
  15. Python 实现 双人五子棋对局
  16. Android 11.0 PackageManagerService(一)工作原理和启动流程
  17. 微信扫码背后的图像超分辨率技术
  18. 千万年斗转星移,小屏幕见大宇宙 - “钦天明时” 天文时钟万年历应用程序(iOS App)说明
  19. java构建器出错nullpoint_空指针错误 java.lang.NullPointerException 浅谈
  20. Android手机QQ的UI自动化实践,死磕原理

热门文章

  1. JUC笔记-同步器(AQS原理、ReentrantLock原理)
  2. JUC并发包基于AQS实现的线程同步器的案例分析
  3. 利用python实现压韵(双压版)
  4. 网狐大联盟服务器环境搭建完整教程
  5. 定义方法-求矩形的面积
  6. 一行代码教你屏蔽你的博客广告
  7. JS 模拟手机页面文件的下拉刷新
  8. Typora加超链接实现页内跳转的三种方法
  9. 中国3G蛋糕1.5万亿 10倍三峡工程
  10. 在线生成ico图标的网站