本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

一、前言

yy平台,直播界的先驱,有很多主播会把一些自己的直播精彩看点上传到该平台下的小视频栏目中今天带大家爬取yy小视频栏目中所有的小视频。

二、课程亮点

1、动态数据抓包演示
2、json数据解析方法
3、视频数据保存

三、所用到得库

import requests  # 第三方模块
import pprint

四、环境配置

python 3.6
pycharm(专门为python打造的一款编辑器) 环境搭建 专业版收费
requests

五、爬虫案例一般步骤(思路):

1.找数据所在的url地址(分析网页页面<静态/动态(抓包)>)
2.发送网络请求(requests)
3.数据的解析(我们要的数据)
4.数据保存(本地\数据库)

六、找寻数据地址:

按照常规操作就是:
1、打开开发者工具,选择 network
2、点击刷新网页、查看返回数据

但是这个网站和平常的静态网页有所不同,按照正常的网站它是有翻页的,而这个网站是下滑网页,才会出现新的视频数据。

所以按照步骤应该是:

1、打开开发者工具,选择清空所有数据内容

2、下滑网页内容
如果需要一个一个去找的话,是非常的麻烦且浪费时间,可以选择复制一个视频的名字或者发布视频用户的名字,在开发者工具当中进行搜索。

七、发送网络请求找寻数据所在的url地址(分析网页页面<静态/动态(抓包):

# 1.找数据所在的url地址(分析网页页面<静态/动态(抓包)>)
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2?'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
params = {'data': '{"uid":0,"page":1,"pageSize":10}'}# 2.发送网络请求(requests)
response = requests.get(url=url, params=params, headers=headers)
json_data = response.json()
# pprint.pprint(json_data)# 3.数据的解析(我们要的数据)
data_list = json_data['data']['data']
for data in data_list:username = data['username'] + '.mp4' # 直播名字   flv avi rmvbresurl = data['resurl']  # 视频地址# print(username, resurl)# 请求视频数据video_data = requests.get(url=resurl, headers=headers).content  # 请求到的视频数据

注意点:

我传的param的参数和链接有一些不一样,我只传入了data,因为如果是所有的参数都传入的话,那么返回的结果是字符串形式,这样还会多一些步骤

1、正则匹配只提取里面的json格式数据;

2、字符串转json。

八、进行数据保存:

# 4.数据保存(本地\数据库)
with open('video\\' + username, mode='wb') as f:f.write(video_data)print('保存完成:', username)

python爬虫你们最爱的YY小姐姐,这不爬取下来看看?相关推荐

  1. Python爬虫系列之多多买菜小程序数据爬取

    Python爬虫系列之多多买菜小程序数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流, ...

  2. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  3. Python爬虫新手入门教学(十六):爬取好看视频小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  4. Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...

  5. Python爬虫系列之MeiTuan网页美食版块商家数据爬取

    Python爬虫系列之MeiTuan网页美食版块商家数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代 ...

  6. python爬虫实践——零基础快速入门(四)爬取小猪租房信息

    上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影 接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...

  7. Python爬虫 | 对广州市政府数据统一开放平台数据的爬取

    Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...

  8. Python爬虫新手入门教学(十五):爬取网站音乐素材

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  9. python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析

    前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...

最新文章

  1. 用python自动化做ecshop测试_Python-自动化测试面试
  2. 实用ListView加载提示工具类
  3. Android RuntimePermissions运行时权限:单个运行时权限申请简例
  4. zcmu2117(普通母函数)
  5. 音频管理_人力资源管理师考试历年真题试卷+视频教程+音频讲义合集分享
  6. 汇编排序知识之冒泡排序
  7. delphi中的copy,delete,pos和leftstr,RightStr的用法
  8. TQ210——S5PV210 uboot顶层mkconfig分析
  9. 二进制权值计算 lsb_2020年二级计算机基础知识备考(第二章)
  10. 历史习题与答案解析(1-50期)
  11. 微型计算机在工作过程中突然遇到电源中断,微型计算机在工作过程中突然遇到电源中断,则计算机 中的信息将全部丢失,再次接通电源后也不能恢复数据。...
  12. Mybatis高级应用 查询缓存
  13. 原来真的不会用指针[*p++]
  14. 01背包问题python实现
  15. 拓端tecdat|在R语言中用模拟探索回归的P值
  16. 线程锁并不是想象的那样可靠
  17. c51单片机模块化编程
  18. Datawhale组队学习开源内容汇总
  19. 【经典】产品人面试中的一些软回答~~
  20. 洛谷 P5144 蜈蚣

热门文章

  1. 一年中的最后一天说说_新的一年又开始了说说 年底最后一天的心情说说
  2. 最新Maven(apache-maven-3.8.6)在Win10安装部署(超详细)
  3. 想搞人工智能,却又不会用Linux?GPU主机+远程调试来帮你!
  4. 昆虫有趋光性?我来告诉你,并不是!
  5. 灵魂有香气的女子李筱懿:充实自己,学会把自己变成奢侈品
  6. 做XRD有什么用途?
  7. java设计模式知识总结(23种)
  8. 几款优秀的开源数据挖掘工具
  9. Android百度语音识别/语音助手
  10. DeepMind重大突破:AI进化出大脑级导航能力,像动物一样会“抄小路”