前言

刚学完pyhon的爬虫,总结一下我的学习成果。以及解析一下我写的爬取小说的案例。

爬虫基础

准备

要求:
1.安装requests库
2.有python环境
验证：
如果你运行import requests出现报错的话，应该就是没有安装requests库。
安装：

pip install requests

打开cmd窗口，输入代码，即可安装requests库。PS：如果你想要安装别的库，代码基本就是这个格式，pip install xxx。
如果出现报错的话，根据报错，会有安装不成功，和版本的问题。
版本的问题按照报错把双引号的代码运行一下就可以了。
安装不成功话，多再次运行一下代码，再不行的话就求助网上吧。

所以关于环境的准备我就讲这些，如果有其他的问题的还就看一下其他人的文章吧。
现在，让我们开始爬虫的开始吧。

爬虫代码的开始

import requests #引入requests库
hd={"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}#声明user-agent
url="https://www.ibswtan.com/33/33270/"
r = requests.get(url,headers=hd) #进行网页获取

最开始的时候，我们就会接触这几行代码，即最基本的爬取网页。
分为基本三步：
1.引入库
2.前置条件
3.进行获取
引入库的操作基本就是import xxx，不用多讲
最主要的分析就是这行代码：

r=requests.get(url,headers=hd)

开始解析：
requests.get 就是调用requests库的get函数，效果就是进行网络的交互，获取网页的内容。返回正常的话就是这个数据类型了。
url 就是网页的链接
headers=hd 也是很重要的参数，在我的理解的话，headers就是你访问网站的给予的参数，通俗点就是你访问网站的身份，
我通常会比喻成“帽子”，你的帽子代表你的身份，如果没有它的话，你在别人眼里就是陌生人，或者”python“这个身份，别人就知道你是一个爬虫了，自然会给你一些阻扰，或者直接禁止你访问。
在之前的代码中：

hd={"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}#声明user-agent

user-agent 这个参数就是声明你的身份什么的。我们这里声明身份为谷歌浏览器，你们可以在任何地方搜索user-agent获取别的浏览器的user-agent。
我们可以使用随机的user-agent，可以做一下反爬的措施。

虽然最基本的讲了怎么多，但其实也就怎么回事，如果你还是不懂的话可以只知道这段代码会输出什么需要更改什么就可以了。

输出源代码

现在我们已经可以有一点python爬虫最基本的操作了。
现在让我随便获取一个网页的源代码吧。
输出源代码

import requests #引入requests库
hd={"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}#声明user-agent
url="https://www.ibswtan.com/33/33270/"
r = requests.get(url,headers=hd) #进行网页获取
print(r.text)#转换为文本，进行输出

这个小说是我蛮喜欢的一部，有兴趣可以看看。不过网站地址应该不会有什么侵权吧。

如以上代码所示，我们使用.text的方法输出了一个网页的源代码。
PS：如果出现乱码，就是编码格式的问题，

r.encoding=r.apparent_encoding
#或者
r.encoding="utf-8"

使用这串代码，可以解决一下乱码的问题。
很简单是不是？

往期文章：
Pyhton爬小说实例解析笔记——内容分析（正则表达式）
Pyhton爬小说实例解析笔记——错误处理
Pyhton爬小说实例解析笔记——文件写入

觉得有用的话点个赞吧。

Pyhton爬小说实例解析笔记——爬虫基础相关推荐

以视频爬取实例讲解Python爬虫神器Beautiful Soup用法
1.安装BeautifulSoup4 easy_install安装方式,easy_install需要提前安装 1 easy_install beautifulsoup4 pip安装方式,pip也需要提 ...
Python爬虫笔记——爬虫基础第一课
爬虫的四个步骤 0.获取数据--爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据. 1.解析数据--爬虫程序会把服务器返回的数据解析成我们能读懂的格式. 2.提取数据--爬虫程序再从中提取 ...
python3网络爬虫笔记-爬虫基础原理
本笔记是学习崔庆才老师的网络爬虫课程的总结一.HTTP基础原理 1. URI.URL.URN URI: Uniform Resource Identifier,即统一资源标志符 URL:Univer ...
python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python爬取头条图集_Python爬虫基础练习(六) 今日头条街头篮球图片爬取
今天我们要爬取的仍然是图片,不过与上一篇有所不一样的是,今天爬取的是今日头条上的图集,接着往下看吧~ 运行平台:Windows Python版本:Python3.6 IDE: Sublime Text ...
python爬虫实例解析-Python(爬虫)- 动态加载案例分析
requests """ 基于网络请求的模块. 环境的安装:pip install requests 作用:模拟浏览器发起请求分析requests的编码流程: 1.指定 ...
opencv自定义深度学习层官方实例解析笔记
环境 Windows,visual studio 15,opencv3.4.2,c++ 1.代码地址 https://docs.opencv.org/3.4.2/dc/db1/tutorial_dnn ...
c 爬虫 html解析,C# 爬虫 Jumony html解析
前言前几天写了个爬虫,然后认识到了自己的不足. 烽火情怀推荐了Jumony.Core,通过倚天照海- -推荐的文章,也发现了Jumony.Core. 研究了2天,我发现这个东西简单粗暴,非常好用,因 ...
python爬虫怎么爬小说_python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
python爬虫教程（五）：解析库bs4及爬取实例
大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录一.bs4简介二.安装及初始印象 1.安装 2.解析器 3.初始印象三.选择元素的方法 1.方 ...

Pyhton爬小说实例解析笔记——爬虫基础

Pyhton爬小说实例解析笔记——爬虫基础

前言

爬虫基础

准备

爬虫代码的开始

输出源代码

Pyhton爬小说实例解析笔记——爬虫基础相关推荐

最新文章

热门文章