python爬app西瓜视频_Python爬虫工程师面试题,采集头条西瓜视频
使用工具Python 3.7.0
requests库
re库
base64库
分析过程
确定视频资源下载地址
由于之前没有这方面的项目经历,在网上查找资料后,这篇文章给了我灵感(原来西瓜视频上的Url是经过Base64加密的),那么是如何确定西瓜视频上的Url是经过Base64加密的呢?这个字符串仅有64个字符(A~Z a~z + / )以及后缀=组成
将目标字符串解密后再将解密字符串加密回去与原来的值做比较如果相同就是Base64
import requests
import re
from base64 import b64decode, b64encode
url = 'https://www.ixigua.com/i6704446868685849092'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}
resp =requests.get(url=url, headers=headers)
ex = '''"main_url":"(.*?)"'''
def doCheck(source):
if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):
return True
return False
if doCheck(re.findall(ex, resp.text)[0]):
print('该Url是Base64加密!!!')
else:
print('该Url不是Base64加密!!!')
下载测试
import requests
import re
from base64 import b64decode, b64encode
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}
url = 'https://www.ixigua.com/i6704446868685849092'
resp =requests.get(url=url, headers=headers)
ex = '''"main_url":"(.*?)"'''
def doCheck(source):
if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):
return True
return False
def getVideoUrl(source):
return b64decode(source).decode('utf-8')
source =re.findall(ex, resp.text)[0]
if doCheck(source):
resp = requests.get(url=getVideoUrl(source), headers=headers)
with open('./Video.mp4', 'wb') as fp:
fp.write(resp.content)
else:
print('该Url不是Base64加密!!!')
运行结果
python爬app西瓜视频_Python爬虫工程师面试题,采集头条西瓜视频相关推荐
- python爬取收费素材_Python爬虫练习:爬取素材网站数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...
- python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
- python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
- 爬虫技术python爬到女性语音_python爬虫看看虎牙女主播中谁最“顶”步骤详解
网页链接:https://www.huya.com/g/4079 这里的主要步骤其实还是和我们之前分析的一样,如下图所示: 这里再简单带大家看一下就行,重点是我们的第二部分. 既然网页结构我们已经分析 ...
- python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析
先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...
- python爬取论坛帖子_Python爬虫实战(1):爬取Drupal论坛帖子列表
1,引言 在<Python即时网络爬虫项目: 内容提取器的定义>一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间.本文将用一个实例讲解怎样使用这个爬 ...
- python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
- python爬取新闻网站内容_python爬虫案例:抓取网易新闻
此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...
- python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...
最新文章
- JS与CSS阻止元素被选中及清除选中的方法总结
- Python(五)列表
- Module Zero之用户管理
- python学习记录(三)
- Xampp配置本地域名及常见错误解决
- Sublime 的中文乱码问题
- qt 子窗口与父窗口数据通信_Qt实例--主窗口和子窗口互发信号
- 大数据学习笔记55:搭建HBase环境
- 数据结构思维 第十四章 持久化
- SAP License:SAP 初学者指南
- php主动推送弹幕_源起网-织梦发布文档主动百度推送熊掌推送批量推送
- postgre非零相除等于0_LeetCode刷题实战29:两数相除
- Axure总结和感想
- 铁岭市奔腾计算机学校地址,辽宁省铁岭市奔腾计算机职业高级中学2020年高三数学理上学期期末试题.docx...
- 华为云域名转入到阿里云的基本流程
- 计算机组成原理(3)——存储器
- mxGraph Web在线绘图
- pdf 添加水印、页眉页脚、签名
- 江湖上再也没有摩拜单车了
- Windows.old可以删除吗?
热门文章
- Android项目:基于安卓Android校园零食配送系统app(计算机毕业设计)
- php微信摇一摇开发文档,摇一摇关注的JSAPI
- 广西工业职业技术学院计算机宿舍,广西工业职业技术学院2021年宿舍条件
- 如何避免2.4GHz ISM频段下各种无线设备的干扰
- WeixinJSBridge.call 不被支持,请参考 http://mp.weixin.qq.com/wiki/7/aaa137b55fb2e0456bf8dd9148dd613f.html 进行
- 用计算机求正有理数算术平方根的步骤,用计算器求算数平方根、用有理数估计算数平方根的大小 (2).ppt...
- 读论文:(nvdiffrec) Extracting Triangular 3D Models, Materials, and Lighting From Images
- 使用 SendARP 获取 MAC 地址
- Dubbo,入门Demo案列使用,框架原理,Zookeeper的使用,安装监控中心和管理控制台,service,provider,comsumer三个项目的Demo
- python反序数函数_python逆序函数