day10 爬虫导言
day10 爬虫导言
爬虫(网络数据采集)
定义:按照程序猿自己的想法编写程序批量的爬取数据(图片、音频、视频、数据等)
爬虫的流程:
- 解析HTML页面
- 根据前端的语法,或者正则表达式来提取数据
- 保存数据
#爬虫只能爬网页吗?
requests、urllib、selenium、playwariter等
requests:通过网址向服务器发送请求,等待服务器的响应结果
疑问: 1.爬虫只能爬网页吗?2.从网页上能爬到什么东西?3.爬虫能给到什么东西,技术边界在哪?
具体的爬虫流程
- 向网页发送请求 --> 使用requests.get(url = ‘’)
- 查看页面状态 --> 使用response.status_code
- response.text查看是否乱码 --> response.text - 肉眼查看有没有看不懂的 -response.encoding = ‘gbk’
- 未完待续
import requests# 1. 发送网页读取请求
URL = 'https://pvp.qq.com/web201706/index.shtml'#返回了一个响应对象,所有东西都在里面
response = requests.get(url=URL)
print(response)# 1. 页面状态# 1.查看状态码
print(response.status_code)# status_code :状态码 --> 判断服务器和网页状态,以防服务器是崩的(404)# 200:表示程序和服务器正常通信# 403:表示服务器理解客户端的请求,但是拒绝了客户端的请求。(没崩但拒绝了)# 404:网页丢失# 500:服务器崩溃# 2. 查看页面源代码# 网页出现乱码: 如果网页发生乱码,只需要根据页面指定的编码方式解码即可(不用ASCII解码)
# 如何查找解码方式: 在返回的response.text里,用command+f,查找'charset';如果没有charset:response.encoding = None
# requests默认使用ISO-8858-1的编码(即ASCII),也能使用页面服务器所指定的解码方式
# 常用:ASCII 和 gbk(国标码,我国自主指定的编码方式,可识别中文)
response.encoding = 'gbk'# 2.1 text 查看页面源代码(字符串类型):
print(response.text, type(response.text))# 2.2 content:页面源代码(二进制):
# b'......' --> 二进制一般用于图片音频视频
# print(response.contant)
网页图片/视频爬取
import requestsURL = 'https://video.pearvideo.com/mp4/adshort/20220614/cont-1765337-15895934_adpkg-ad_hd.mp4'
response = requests.get(url = URL)if response.status_code == 200 :print(response.content) # 使用二进制查看页面源码#拿到二进制格式的文件 ,写入本地文件video = open('1.mp4', 'wb') # 在本地先建立一个文件,注意格式要和你要保存下来的文件格式保持一致。注意是‘wb’video.write(response.content) # 直接用write写入本地文件video.close()
else :print(response.status_code)#爬取视频/照片流程:
#1. 先获得图片/视频地址。
#2. 检查网页状态。
#3. 把二进制读取出来的文件,写入本地文件
day10 爬虫导言相关推荐
- 爬虫只能用python吗_只针对 Python 爬虫,该如何学习?
最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...
- 外星人颜色python练习_在知乎上学Python爬虫
有很多人正在入门Python爬虫,学习Python爬虫.在这个过程中,会遇到很多难题,许多小伙伴都会去寻找答案,但是因为答案的纷繁复杂和种类多样,往往要花上好些时间. 而码不理经常会在知乎上寻找学习问 ...
- 爬虫python编程与cvi编程_无编程经验学习Python做爬虫,目前遇到困难,请各位指点下?...
这种规模的爬虫用sqlite3就够了 另外如果你要全天运转 推荐写成scrapy框架的形式 下面推荐一下我写的 如何从零开始写python爬虫 有系列文章了,可以看一下专栏 ------------- ...
- 没有python基础直接学爬虫_只针对 Python 爬虫,该如何学习?
最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...
- pythonのgevent同步异步区别
1 #!/usr/bin/env python 2 3 from urllib import request 4 import gevent 5 from gevent import monkey 6 ...
- python爬虫入门案例day10:珠宝图片
目标网址 http://pic.525zb.com/ 开发环境 1.window11 2.python3.7 3.PyCharm Community Edition 2021.2.1 4.双核浏览器 ...
- 爬虫文档学习 xpath bs4 selenium scrapy...
爬虫 一.介绍 1.什么是爬虫 1.1 爬虫(Spider)的概念 爬虫用于爬取数据, 又称之为数据采集程序. 爬取的数据来源于网络,网络中的数据可以是由Web服务器(Nginx/Apache).数据 ...
- python中for循环的用法_@Python小白,一文让你掌握Python爬虫
兴趣 我没事喜欢逛知乎,有一段时间看到了这个问题:利用爬虫技术能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx 觉得回答的一个个炒鸡酷炫 就对爬虫产生了浓厚的兴趣, 于是就开 ...
- “人工智能”•从入门到入土 –导言
"人工智能"·从入门到入土 –导言 自毕业踏进半导体行业工作已1年半,虽然日常工作与这个系列联系不大,但平时喜欢写一些python爬虫玩玩,进入这个坑的原因,是因为去年在人工智能火 ...
最新文章
- 小鱼易连获腾讯数亿C轮投资,云视频布局产业互联网
- 阿里三面,P9面试官是如何360°无死角考察候选人的?
- 055_Unicode字符官方标准六
- win10 笔记本猎豹WiFi无法打开
- HarmonyOS之深入解析视频的功能和使用
- 20应用统计考研复试要点(part31)--简答题
- leetcode 55. 跳跃游戏 思考分析
- java读取src xml文件路径_Java获取路径方法相对路径读取xml文件方法
- C++学习网站——www.cplusplus.com
- 中秋福利!开源基础设施峰会9折票!另有限量免费门票!
- 阿里云 SLB CDN SCDN DCDN区别在哪?如何选择?
- 全国青少年软件编程等级考试标准(正式级)
- 百度之星1004度度熊的午饭时光
- GB和RGBW排列区别,谁是真假4K
- 【微信小程序宝典】从零开始做微信小程序开发
- deployer安装
- rn 滑动验证_rn-fetch-blob
- MTK android11 新增按键流程(framework)
- Android studio 入门第一个APP
- Hi3516EV200使用UART1笔记