又到了愉快的周末了,今天她不在家我们就来玩点骚操作,我们来玩点男人最喜欢干的事情,来爬取小姐姐视频,晚上就可以偷偷的乐了。喜欢的朋友可以来个一键三连。

一、分析页面

这次我么爬取的是一个六间房的一个网页 官方地址: https://v.6.cn/minivideo/

实现思路:

  • 通过抓包来找到我们想要的url路径
  • 拿到url发送请求返回我们数据
  • 解析数据将我们不需要的数据剔除掉
  • 将数据保存我们本地


到这里我们就已近获取到url就可以发送请求了 我们这边用的是 requests 库

二、什么 requests(小白)

1.请求方式
常见的请求方式:GET / POST
2.请求的URL
url全球统一资源定位符,用来定义互联网上一个唯一的资源 例如:一张图片、一个文件、一段视频都可以用url唯一确定

3.请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
cookies:cookie用来保存登录信息

注意一般做爬虫都会加上请求头

请求头需要注意的参数:
Referrer: 访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)
User-Agent: 访问的浏览器(要加上否则会被当成爬虫程序)
cookie: 请求头注意携带
4.请求体
请求体 如果是get方式,请求体没有内容 (get请求的请求体放在 url后面参数中,直接能看到) 如果是post方式,请求体是format data ps:1、登录窗口,文件上传等,信息都会被附加到请求体内 2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post

三、response 基本介绍

1.响应状态码
  200:代表成功
  301:代表跳转
  404:文件不存在
  403:无权限访问
  502:服务器错误
  
2.response header
         响应头需要注意的参数:Set-Cookie:BDSVRTM=0; path=/:可能有多个,是来告诉浏览器,把cookie保存下来

3.preview就是网页源代码
        json数据
        如网页html,图片
         二进制数据等

四、编写代码

4.1 导入依赖库

import requests
import re
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
'''
@Project :Python-crawler-set
@File    :六间房Start.py
@IDE     :IntelliJ IDEA
@Author  :大数据老哥
@Date    :2020/12/19 15:21
'''# 导入所需要的依赖
import requests
import re# 过滤掉特殊字符
def match(title):compile= re.compile(r'[\\\/:\*\?\"><\|]')match = re.sub(compile, "_",title)return match# 设置请求头等参数,防止被反爬
headers = {'Accept': '*/*','Accept-Language': 'en-US,en;q=0.5','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}def  main(num):url="https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page=%s&pagesize=50" %(num)print("开始下载第%s页" %(num))# 发送请求data=requests.get(url,headers=headers)# 解析数据json=data.json()# 解析出我们想要的数据来datalist=json["content"]["list"]# 循环遍历数据for data in datalist:#获取titletitle=data["alias"]+'.mp4'newTitle=match(title)# 获取视频urlplayurl=data["playurl"]# 在次发一次请求 来请求视频数据video=requests.get(playurl,headers=headers)with open("video\\"+newTitle,'ab') as output:# 以二进制的形式写入到本地output.write(video.content)print("下载成功: ",newTitle)
if __name__ == '__main__':for i in range(1,10):main(i)

总结

好了今天的爬虫分享到这里就结束啦,喜欢的朋友可以关注我的公众号第一时间阅读分享的内容,我这边也为大家搭建了一个我自己Github 喜欢的朋友可以去收藏波,链接:https://github.com/lhh2002/Python-crawler-set 里面主要内容有我自己编写的一些爬虫脚本都会在里面,喜欢的可以去下载。
                                                               往期推荐
Python爬取哔哩哔哩(bilibili)视频

使用Python实现PDF转word原来如此简单,你也可以学会哦

玩爬虫不就是为了多爬取几个小姐姐吗,几十行代码快速获取小姐姐视频?相关推荐

  1. python爬取app中的音频_Python爬取抖音APP,只需要十行代码

    环境说明 环境: python 3.7.1 centos 7.4 pip 10.0.1 部署 [root@localhost ~]# python3.7 --version Python 3.7.1 ...

  2. python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据

    python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...

  3. js function如何传入参数未字符串_Python爬虫 JS 案例讲解:爬取漫画

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫案例,作者麦自香 转载地址 https://blo ...

  4. node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)

    之前第一篇爬虫教程node.js爬虫入门(一)爬取静态页面讲解了静态网页的爬取,十分简单,但是遇到一些动态网页(ajax)的话,直接用之前的方法发送请求就无法获得我们想要的数据.这时就需要通过爬取动态 ...

  5. 爬取虎扑NBA首页主干道推荐贴的一只小爬虫,日常爬不冷笑话解闷

    虎扑是广大jrs的家园,步行街是这个家园里最繁华的地段.据称广大jrs平均学历985,步行街街薪30w起步. 大学时经舍友安利,开始了解虎扑,主要是看看NBA的一些资讯. 偶尔也上上这个破街,看看jr ...

  6. python爬虫可以爬取哪些有用的东西_Python爬虫系列(十三) 用selenium爬取京东商品...

    这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析 原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...

  7. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. 丘维声高等代数pdf_2020年兰州大学高等代数真题出处简直惊讶
  2. phpcmsV9SQL注射+列目录
  3. 第一个OpenGL程序
  4. js实践篇:例外处理Try{}catch(e){}
  5. 斐波那契数列算法分析
  6. IC设计Linux设置文件夹颜色,IC设计中常用的Linux命令
  7. python打开excel进行编辑_使用Python进行Excel文件处理
  8. java多个mapreduce_java – 在hadoop中运行多个MapReduce作业
  9. oracle无法远程安装,docker部署Oracle,无法远程连接(已解决)
  10. Vue2.x总结(1)
  11. win7一直显示正在关机_LG可编程控制器一直显示正在通信维修选凌科公司规模大...
  12. predicate 列存储索引扫描_MySQL中IS NULL、IS NOT NULL、!=不能用索引?胡扯!
  13. Win10 Powershell ssh到WSL
  14. 如何在Adobe Illustrator中矢量化图像
  15. 安装jdk-linux-i586.rpm.bin
  16. 拓端tecdat|R语言互联网金融下的中国保险业数据分析
  17. jquery和ajax实战教程电子书,《jQuery和Ajax实战教程》邵山欢_孔网
  18. 配置虚拟机NAT模式连通外网并使用Xshell登陆
  19. 实验(一)时间片轮转调度算法(Java)
  20. 华为太极magisk安装教程_Magisk 需要修复运行环境,缺失Magisk正常工作所需的文件...

热门文章

  1. 轻松破解windows2003 server的用户密码
  2. canvas 真机上设置文字“粗体”无效
  3. android mqtt详解_安卓开发之mqtt协议
  4. 使用神卓互联内网穿透实现微信公众号开发:介绍了如何通过神卓互联实现微信公众号的开发和调试。
  5. 百度无人驾驶、自动驾驶Apollo无人车-战略Xmind思维导图(有哪些大公司有无人驾驶?自动驾驶前沿)
  6. 使能中断与禁止中断策略比较
  7. python怎么创建变量不赋值_python声明变量不赋值
  8. 移动硬盘文件被恶意隐藏
  9. 2021年二级建造师该怎么样开社保证明?
  10. iris数据集 分类