day10 爬虫导言

爬虫（网络数据采集）

定义：按照程序猿自己的想法编写程序批量的爬取数据（图片、音频、视频、数据等）
爬虫的流程：
1. 解析HTML页面
2. 根据前端的语法，或者正则表达式来提取数据
3. 保存数据
  #爬虫只能爬网页吗？
requests、urllib、selenium、playwariter等
requests：通过网址向服务器发送请求，等待服务器的响应结果
疑问： 1.爬虫只能爬网页吗？2.从网页上能爬到什么东西？3.爬虫能给到什么东西，技术边界在哪？

具体的爬虫流程

向网页发送请求 --> 使用requests.get（url = ‘’）
查看页面状态 --> 使用response.status_code
response.text查看是否乱码 --> response.text - 肉眼查看有没有看不懂的 -response.encoding = ‘gbk’
未完待续

import requests# 1. 发送网页读取请求
URL = 'https://pvp.qq.com/web201706/index.shtml'#返回了一个响应对象,所有东西都在里面
response = requests.get(url=URL)
print(response)# 1. 页面状态# 1.查看状态码
print(response.status_code)# status_code ：状态码 --> 判断服务器和网页状态，以防服务器是崩的（404）# 200：表示程序和服务器正常通信# 403：表示服务器理解客户端的请求，但是拒绝了客户端的请求。（没崩但拒绝了）# 404：网页丢失# 500：服务器崩溃# 2. 查看页面源代码# 网页出现乱码：  如果网页发生乱码，只需要根据页面指定的编码方式解码即可（不用ASCII解码）
# 如何查找解码方式：  在返回的response.text里，用command+f，查找'charset'；如果没有charset：response.encoding = None
# requests默认使用ISO-8858-1的编码（即ASCII），也能使用页面服务器所指定的解码方式
# 常用：ASCII 和 gbk（国标码，我国自主指定的编码方式，可识别中文）
response.encoding = 'gbk'# 2.1 text 查看页面源代码（字符串类型）：
print(response.text, type(response.text))# 2.2 content：页面源代码（二进制）:
# b'......' --> 二进制一般用于图片音频视频
# print(response.contant)

网页图片/视频爬取

import requestsURL = 'https://video.pearvideo.com/mp4/adshort/20220614/cont-1765337-15895934_adpkg-ad_hd.mp4'
response = requests.get(url = URL)if response.status_code == 200 :print(response.content)           # 使用二进制查看页面源码#拿到二进制格式的文件 ，写入本地文件video = open('1.mp4', 'wb')       # 在本地先建立一个文件，注意格式要和你要保存下来的文件格式保持一致。注意是‘wb’video.write(response.content)     # 直接用write写入本地文件video.close()
else :print(response.status_code)#爬取视频/照片流程：
#1. 先获得图片/视频地址。
#2. 检查网页状态。
#3. 把二进制读取出来的文件，写入本地文件

day10 爬虫导言相关推荐

爬虫只能用python吗_只针对 Python 爬虫，该如何学习？
最近刚好准备开始写一个从零开始写python爬虫的系列专栏希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...
外星人颜色python练习_在知乎上学Python爬虫
有很多人正在入门Python爬虫,学习Python爬虫.在这个过程中,会遇到很多难题,许多小伙伴都会去寻找答案,但是因为答案的纷繁复杂和种类多样,往往要花上好些时间. 而码不理经常会在知乎上寻找学习问 ...
爬虫python编程与cvi编程_无编程经验学习Python做爬虫，目前遇到困难，请各位指点下?...
这种规模的爬虫用sqlite3就够了另外如果你要全天运转推荐写成scrapy框架的形式下面推荐一下我写的如何从零开始写python爬虫有系列文章了,可以看一下专栏 ------------- ...
没有python基础直接学爬虫_只针对 Python 爬虫，该如何学习？
最近刚好准备开始写一个从零开始写python爬虫的系列专栏希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...
pythonのgevent同步异步区别
1 #!/usr/bin/env python 2 3 from urllib import request 4 import gevent 5 from gevent import monkey 6 ...
python爬虫入门案例day10:珠宝图片
目标网址 http://pic.525zb.com/ 开发环境 1.window11 2.python3.7 3.PyCharm Community Edition 2021.2.1 4.双核浏览器 ...
爬虫文档学习 xpath bs4 selenium scrapy...
爬虫一.介绍 1.什么是爬虫 1.1 爬虫(Spider)的概念爬虫用于爬取数据, 又称之为数据采集程序. 爬取的数据来源于网络,网络中的数据可以是由Web服务器(Nginx/Apache).数据 ...
python中for循环的用法_@Python小白，一文让你掌握Python爬虫
兴趣我没事喜欢逛知乎,有一段时间看到了这个问题:利用爬虫技术能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx 觉得回答的一个个炒鸡酷炫就对爬虫产生了浓厚的兴趣, 于是就开 ...
“人工智能”•从入门到入土 –导言
"人工智能"·从入门到入土 –导言自毕业踏进半导体行业工作已1年半,虽然日常工作与这个系列联系不大,但平时喜欢写一些python爬虫玩玩,进入这个坑的原因,是因为去年在人工智能火 ...

day10 爬虫导言

day10 爬虫导言

爬虫（网络数据采集）

具体的爬虫流程

网页图片/视频爬取

day10 爬虫导言相关推荐

最新文章

热门文章