大家好啊!经常听别人说爬虫玩的好,*****!其实没有这么恐怖,爬虫你一般都是采集公开的信息,所以不会像网络传言那样,大家只要遵守协议,不会出问题的。

话说学编程语言的应该都是男孩子哈,所以今天这个大家应该会挺喜欢的吧,毕竟我都喜欢看票了的女孩子,更别说你们男孩子了!

这个喜欢吗?我都喜欢!

知识点:采集基本流程re正则表达式简单使用requestsjson数据解析方法数据保存

采集网站:

 开发环境

Python3.8

编辑器

pycharm

模块:

  • requests

  • re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名即可

如果爆红,估计是网络连接超时,因为它这个还是挺大的,自己加个镜像源就可以了!

整个案例的基本流程

一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

完整代码

导入模块

# 导入数据请求模块
import requests   # 第三方模块 pip install requests 需要自行安装
# 导入re正则表达式
import re   # 内置模块 不需要安装
# 导入格式化输出模块
import pprint   # 内置模块 不需要安装

发送请求, 对于舞蹈视频列表页面发送请求

for page in range(1, 11):print(f'正在爬取第{page}页的数据内容')url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}'# 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容# user-agent: 用户代理 表示浏览器基本身份信息  (一种简单反反爬手段)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}# 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据response = requests.get(url=url, headers=headers)# <Response [200]> 表示请求成功, 请求网址成功了  *** 200状态码表示请求成功, 但是不一定能够得到数据

获取数据, 服务器返回数据内容 response.text 获取响应文本数据

    # print(response.text)

解析数据, 提取我们想要数据内容 视频ID

    # 解析方式: css re xpath# <li data-vid="676382675">  想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容# .*?  是可以匹配任意字符(除了\n换行符以外)  如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字video_ids = re.findall('<li data-vid="(\d+)">', response.text)  # 返回列表数据for video_id in video_ids:  # 通过for循环遍历 提取列表里面元素 一个一个提取# print(video_id)
  1. 发送请求, 把视频ID传入到视频数据包里面

  2. 发送请求获取数据, 服务器返回数据内容

        # f 字符串格式化方法 {} 占位符video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180'json_data = requests.get(url=video_info, headers=headers).json()# print(json_data)# pprint.pprint(json_data)# 根据冒号左边的内容, 提取冒号右边的内容

解析数据

        title = json_data['data']['moment']['title']video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']

保存数据 >>> 发送请求 并且获取数据

        """response.text   >>> 文本数据返回字符串数据response.json() >>> json字典数据response.content >>> 二进制数据"""video_content = requests.get(url=video_url, headers=headers).contentwith open('video\\' + title + '.mp4', mode='wb') as f:f.write(video_content)print(title, video_url)

结语

今天就分享到这里了,完整代码,在线解答可以点击下方名片自动获取!

对下一篇大家想看什么内容,可在评论区留言哦!

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。相关推荐

  1. python爬b站视频_python代码福利:用requests爬取B站视频封面

    最近看到一篇文章介绍了利用Python爬虫爬取B站视频封面的文章,虽然我完全没看文章,但是只看了一眼这个封面图就彻底把我吸引了.不过我也对爬虫这方面比较熟悉了,这么简单的事情还用看别人的文章教我做事? ...

  2. 揭秘刘安和兄弟连不是骗子吗,手法如此传销,培训机构竟利用网络营销上市 现在互联网这么大,娱乐界乱搞,教育界还乱搞,如今泛媒体时代,人人都是KOL,每个人都是意见领袖,一人一个自媒体号,人人都可以发飙

    揭秘刘安和兄弟连不是骗子吗,手法如此传销,培训机构竟利用网络营销上市 现在互联网这么大,娱乐界乱搞,教育界还乱搞,如今泛媒体时代,人人都是KOL,每个人都是意见领袖,一人一个自媒体号,人人都可以发飙, ...

  3. 爬取美女图片保存本地与入MySQL库(宅男福利)

    本文详细记录如何爬取美女图片,并将图片下载保存在本地,同时将图片url进行入库.保存在本地肯定是为了没事能拿出来养养眼啊,那入库就是为了定位图片啊,要懂点技术的话,还能搬运搬运做个小图片网站,不为别的 ...

  4. 爬取B站视频 - m4s与flv文件的那些事

    参考链接 使用 Python 爬取 B 站视频 爬取B站视频 目录 1. 前言说明 2. 自动化分析 3. 爬取单个视频 4. 批量爬取视频 5. 总结 一.前言说明 ↶ 前言 每次查找资料和研究总是 ...

  5. 谷歌爬虫ua_Python爬虫,实战爬取腾讯视频评论!

    文章目录: 一.前提条件 二.分析思路 三.代码编写 四.结果展示 一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyO ...

  6. Scrapy爬取美女图片续集 (原创)

    上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用. 在学习Scra ...

  7. 制作点击文字变颜色_手机照片、视频怎样添加文字?原来很简单,4种方法一分钟搞定...

    手机照片.视频怎样添加文字?原来很简单,4种方法一分钟搞定 还有3天就到了元旦佳节,相信大家都很开心,美好的假期开始了. 那么可以说是你们元旦必备手机技巧,怎样给照片.视频添加文字,分享4种笔者常用的 ...

  8. python如何把ts视频拼接起来_Python爬取网站m3u8视频,将ts解密成mp4,合并成整体视频...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 今天群里面有一个小伙伴发了一个链接,出于好奇,点击去看了一下,然后确定试试看. 基本开发环境 ...

  9. python爬取bilibili弹幕_用Python爬取B站视频弹幕

    原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...

最新文章

  1. Linux中与进程终止相关的信号SIGTERM,SIGKILL,SIGINT
  2. 数据库优化(学习笔记)
  3. FB邮件服务器测试smtp,pop3
  4. Linq之select子句
  5. Spring Cloud Netflix Eureka client源码分析
  6. 中国机器人减速机行业十四五发展规划及未来需求预测报告2021-2027年
  7. Docker操作容器2
  8. js中load载入html页面,使用jquery的load方法加载html页面,但是html引入的js不生效
  9. Python爬虫入门五URLError异常处理
  10. Atitit.Gui控件and面板----数据库区-mssql 2008 权限 配置 报表查看成员
  11. zabbix替代smokeping的解决方案
  12. 机器学习基础(八)——感知机(iterative optimization)
  13. angularjscheckbox全选_Vue Checkbox全选和选中的方法
  14. Unity3D插件 Doozy UI 学习(一):打开一个面板
  15. PID控制器原理详解
  16. 确定性网络(DetNet、D-IP)技术
  17. 设置路由器显示检查代理服务器连接失败,路由器设置成功了可检测认证连接失败是为什?...
  18. 2021年最后一件大事!
  19. Pycharm中的Python程序整体缩进、整体取消缩进
  20. python安装requirements.txt文件

热门文章

  1. GNSS文献阅读的一些专业词汇
  2. 让你能进“大厂”的数据分析项目是长怎样的?
  3. Arduino 按钮控制LED灯亮度
  4. stm32外部中断模式控制灯亮灭
  5. 6款电脑必备软件,每一款都非常好用,当场起飞!
  6. 写在壬寅年末,2023年春节
  7. 服务器读取excel文件,关于c#:作为服务器进程读取Excel文件
  8. Opencv学习笔记(八) -- 图像色彩空间转换
  9. 表情识别:Facial Expression Recognition with Two-branch Disentangled Generative Adversarial Network
  10. Java实现HTTPS加密、解密过程