python梨视频爬虫下载,反反爬

跟着b站视频学习,发现和视频里面讲的不一样

视频URL改成ajax异步请求得到的

拿到视频url之后发现居然是个假链接不是真实的

仔细观察真实的视频url发现,刚才异步请求到的视频链接和图片链接拼接成的缝合怪

正则处理一下就能愉快的下载视频了

import requests
from lxml import etree
from multiprocessing.dummy import Pool
import re
import random
import time
seesion=requests.session()
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0'
}
def get_vide(dic):url = dic['url']name = dic['name']time.sleep(random.random())# print(url)data = seesion.get(url=url,headers=headers).contentprint(name)name=re.search ('[\u4E00-\u9FA5]+',name).group()print(name)
#     持久化with open('C:\\Users\\Public\\Desktop\\'+str.strip(name)+'2.mp4', 'wb') as fp:fp.write(data)print('下载成功'+name+str(len(data)))if __name__ == '__main__':url = 'https://www.pearvideo.com/category_5'respones=seesion.get(url=url,headers=headers)trees = etree.HTML(respones.text)li_list=trees.xpath('//ul[@class="listvideo-list clearfix"]/li')Mp4s=[]i=1for li in li_list:href = li.xpath('./div[1]/a[1]/@href')text = li.xpath('./div/a/div[2]/text()')[0]# 视频的idvide_id=re.sub('video_','',href[0])# 拿到视频的链接 放在头请求中href = 'https://www.pearvideo.com/'+href[0]# ajax请求获取到视频地址url='https://www.pearvideo.com/videoStatus.jsp'params= {'mrd': '0.08621106931553091','contId': str.strip(vide_id)}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0','Referer': href}respones= seesion.get(url=url,headers=headers,params=params)json_text=respones.json()# 这里的视频地址和图片地址是 假的,要分开组合成真正的视频地址mp4_jpg=json_text['videoInfo']['video_image']mp4_url=json_text['videoInfo']['videos']['srcUrl']# 瞎几把拼接出真实的视频地址c=str(mp4_jpg).split('/')[5][0:-13]mp4_url=re.sub('/(\d*)-','/'+c+'-',mp4_url)# 把视频url和名称添加到列表中dic={'url': mp4_url,'name': text}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0'}# url和视频名称加到数组中Mp4s.append(dic)# 初始化一个线程池pool = Pool(len(Mp4s))pool.map(get_vide,Mp4s)

python梨视频爬虫下载,反反爬相关推荐

  1. Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)

    由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...

  2. 利用Python编写网络爬虫下载文章

    今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨... 韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_119125812 ...

  3. 一键视频爬虫下载神器,广告还没加载就下载完了

    欢迎关注微信公众号数云智连. 关注后将收到: 1.各式各样的公开数据.采集程序提供,如广交会.海关数据.股票数据等等,你有需要的数据也请留言,评估后将会在采集后在公号发布: 2.提升个人能力的办公技巧 ...

  4. 【Python】Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息

    Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息 背景 Scrapy工作原理 创建项目 创建爬虫 确定数据爬取思路 编写对象:item.py 制作爬虫:muchongrecruit.py 存储内容:p ...

  5. Python爬取梨视频并下载【ajax抓包】

    涉及的知识点 基础爬虫 数据解析(xpath与正则表达式) 多线程异步基础(线程池) import requests import os import random from lxml import ...

  6. python爬虫下载小说_python 爬取小说并下载的示例

    代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...

  7. python知乎爬虫收藏夹_Python爬取知乎问题收藏夹 爬虫入门

    简介 知乎的网站是比较好爬的,没有复杂的反爬手段,适合初学爬虫的人作为练习 因为刚刚入门python,所以只是先把知乎上热门问题的一些主要信息保存到数据库中,待以后使用这些信息进行数据分析,爬取的网页 ...

  8. m3u8视频爬虫下载及合并(二)

    前言 爬虫获取m3u8视频资源的步骤 目前所要作的流程处理先把m3u8里下载链接批量提取.png把这几百个切片链接先批量下载.png再批量改文件后缀为.ts 再按照m3u8文件提取所有不规则链接文件的 ...

  9. 【Python】实现爬虫(完整版),爬取天气数据并进行可视化分析

    ✌️✌️✌️大家好呀,你们的作业侠又轰轰轰的出现了,这次给大家带来的是python爬虫,实现的是爬取某城市的天气信息并使用matplotlib进行图形化分析✌️✌️✌️ 好了,老规矩,我的可爱粉丝们不 ...

最新文章

  1. html5 响应式布局
  2. MSSQL 如何实现 MySQL 的 limit 查询方式【转存】
  3. Educational Codeforces Round 111 (Rated for Div. 2) E. Stringforces 二分 + 状压dp
  4. Spring MVC定制用户登录注销实现示例
  5. 浮点数的运算精度丢失
  6. 由HTTPS抓包引发的一系列思考(HTTPS解密)
  7. Flutter 从配制开发环境再到开发第一个应用
  8. Bootstrap3 Font Awesome 字体图标带动画的图标
  9. 2019.03.07【APIO2018】【洛谷P4630】【BZOJ5463】铁人两项(圆方树)(树形DP)
  10. iis访问服务器文件夹权限设置,Windows中合理设置共享文件夹访问权限
  11. mysql 1236_MySQL 1236错误解决方法
  12. js中的引号使用不正确导致js方法传入参数类型错误
  13. crt上传数据_使用SecureCRT上传文件到Linux服务器
  14. go语言复数包_Go语言圣经 2.3-复数
  15. python 拦截windows弹窗广告_win10怎么阻止弹窗广告拦截功能的方法
  16. 诛仙手游噬血珠碎片隐藏任务大全
  17. 使用icecast搭建在线电台并使用ffmpeg推流
  18. 小黄车们的命:押金难退成共享家族“职业病”
  19. ESP使用MQTT登陆阿里云,arduino环境
  20. PAT日志 1086

热门文章

  1. Android 开源项目分类汇总--1
  2. 论文排版1-图片-eps、pdf格式转换
  3. 构建高可用的方式总结
  4. 将数字编号翻译为英文编号(python)实现
  5. python模拟微信发红包,并验证随机性
  6. 2022年中国互联网数据中心(IDC)行业产业链及市场现状分析(附国家绿色数据中心公示名单)[图]
  7. [渝粤教育] 南京大学 建筑设备 参考 资料
  8. matlab算kdj指标,KDJ指标(随机指标)详解
  9. HDR视频色调映射算法(之六:Real-time automatic TMO)
  10. pytorch实现手写数字图片识别