day10 爬虫导言

爬虫(网络数据采集)

  • 定义:按照程序猿自己的想法编写程序批量的爬取数据(图片、音频、视频、数据等)

  • 爬虫的流程:

    1. 解析HTML页面
    2. 根据前端的语法,或者正则表达式来提取数据
    3. 保存数据
      #爬虫只能爬网页吗?
  • requests、urllib、selenium、playwariter等

  • requests:通过网址向服务器发送请求,等待服务器的响应结果

  • 疑问: 1.爬虫只能爬网页吗?2.从网页上能爬到什么东西?3.爬虫能给到什么东西,技术边界在哪?

具体的爬虫流程

  1. 向网页发送请求 --> 使用requests.get(url = ‘’)
  2. 查看页面状态 --> 使用response.status_code
  3. response.text查看是否乱码 --> response.text - 肉眼查看有没有看不懂的 -response.encoding = ‘gbk’
  4. 未完待续
import requests# 1. 发送网页读取请求
URL = 'https://pvp.qq.com/web201706/index.shtml'#返回了一个响应对象,所有东西都在里面
response = requests.get(url=URL)
print(response)# 1. 页面状态# 1.查看状态码
print(response.status_code)# status_code :状态码 --> 判断服务器和网页状态,以防服务器是崩的(404)# 200:表示程序和服务器正常通信# 403:表示服务器理解客户端的请求,但是拒绝了客户端的请求。(没崩但拒绝了)# 404:网页丢失# 500:服务器崩溃# 2. 查看页面源代码# 网页出现乱码:  如果网页发生乱码,只需要根据页面指定的编码方式解码即可(不用ASCII解码)
# 如何查找解码方式:  在返回的response.text里,用command+f,查找'charset';如果没有charset:response.encoding = None
# requests默认使用ISO-8858-1的编码(即ASCII),也能使用页面服务器所指定的解码方式
# 常用:ASCII 和 gbk(国标码,我国自主指定的编码方式,可识别中文)
response.encoding = 'gbk'# 2.1 text 查看页面源代码(字符串类型):
print(response.text, type(response.text))# 2.2 content:页面源代码(二进制):
# b'......' --> 二进制一般用于图片音频视频
# print(response.contant)

网页图片/视频爬取

import requestsURL = 'https://video.pearvideo.com/mp4/adshort/20220614/cont-1765337-15895934_adpkg-ad_hd.mp4'
response = requests.get(url = URL)if response.status_code == 200 :print(response.content)           # 使用二进制查看页面源码#拿到二进制格式的文件 ,写入本地文件video = open('1.mp4', 'wb')       # 在本地先建立一个文件,注意格式要和你要保存下来的文件格式保持一致。注意是‘wb’video.write(response.content)     # 直接用write写入本地文件video.close()
else :print(response.status_code)#爬取视频/照片流程:
#1. 先获得图片/视频地址。
#2. 检查网页状态。
#3. 把二进制读取出来的文件,写入本地文件

day10 爬虫导言相关推荐

  1. 爬虫只能用python吗_只针对 Python 爬虫,该如何学习?

    最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...

  2. 外星人颜色python练习_在知乎上学Python爬虫

    有很多人正在入门Python爬虫,学习Python爬虫.在这个过程中,会遇到很多难题,许多小伙伴都会去寻找答案,但是因为答案的纷繁复杂和种类多样,往往要花上好些时间. 而码不理经常会在知乎上寻找学习问 ...

  3. 爬虫python编程与cvi编程_无编程经验学习Python做爬虫,目前遇到困难,请各位指点下?...

    这种规模的爬虫用sqlite3就够了 另外如果你要全天运转 推荐写成scrapy框架的形式 下面推荐一下我写的 如何从零开始写python爬虫 有系列文章了,可以看一下专栏 ------------- ...

  4. 没有python基础直接学爬虫_只针对 Python 爬虫,该如何学习?

    最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...

  5. pythonのgevent同步异步区别

    1 #!/usr/bin/env python 2 3 from urllib import request 4 import gevent 5 from gevent import monkey 6 ...

  6. python爬虫入门案例day10:珠宝图片

    目标网址 http://pic.525zb.com/ 开发环境 1.window11 2.python3.7 3.PyCharm Community Edition 2021.2.1 4.双核浏览器 ...

  7. 爬虫文档学习 xpath bs4 selenium scrapy...

    爬虫 一.介绍 1.什么是爬虫 1.1 爬虫(Spider)的概念 爬虫用于爬取数据, 又称之为数据采集程序. 爬取的数据来源于网络,网络中的数据可以是由Web服务器(Nginx/Apache).数据 ...

  8. python中for循环的用法_@Python小白,一文让你掌握Python爬虫

    兴趣 我没事喜欢逛知乎,有一段时间看到了这个问题:利用爬虫技术能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx 觉得回答的一个个炒鸡酷炫 就对爬虫产生了浓厚的兴趣, 于是就开 ...

  9. “人工智能”•从入门到入土 –导言

    "人工智能"·从入门到入土 –导言 自毕业踏进半导体行业工作已1年半,虽然日常工作与这个系列联系不大,但平时喜欢写一些python爬虫玩玩,进入这个坑的原因,是因为去年在人工智能火 ...

最新文章

  1. 小鱼易连获腾讯数亿C轮投资,云视频布局产业互联网
  2. 阿里三面,P9面试官是如何360°无死角考察候选人的?
  3. 055_Unicode字符官方标准六
  4. win10 笔记本猎豹WiFi无法打开
  5. HarmonyOS之深入解析视频的功能和使用
  6. 20应用统计考研复试要点(part31)--简答题
  7. leetcode 55. 跳跃游戏 思考分析
  8. java读取src xml文件路径_Java获取路径方法相对路径读取xml文件方法
  9. C++学习网站——www.cplusplus.com
  10. 中秋福利!开源基础设施峰会9折票!另有限量免费门票!
  11. 阿里云 SLB CDN SCDN DCDN区别在哪?如何选择?
  12. 全国青少年软件编程等级考试标准(正式级)
  13. 百度之星1004度度熊的午饭时光
  14. GB和RGBW排列区别,谁是真假4K
  15. 【微信小程序宝典】从零开始做微信小程序开发
  16. deployer安装
  17. rn 滑动验证_rn-fetch-blob
  18. MTK android11 新增按键流程(framework)
  19. Android studio 入门第一个APP
  20. Hi3516EV200使用UART1笔记

热门文章

  1. 打印模板-Zebra指令
  2. android主动获取手机电量,获取Android手机的电量信息
  3. Android8.0 蓝牙系统
  4. 【4. 扫描节点】 分布式漏洞扫描系统设计与实现
  5. mysql制作搜索引擎_MySQL 实现一个简单版搜索引擎,真是绝了!
  6. android 盈利模式
  7. Android无线调试 Wifi连接ADB不用数据线
  8. 7个等级 容灾等级_详细分析容灾备份的区别以及容灾的级别分类
  9. XCTF-PWN welpwn
  10. Foxmail.exe -损坏的映像 错误修复