python爬app西瓜视频_Python爬虫工程师面试题，采集头条西瓜视频

使用工具Python 3.7.0

requests库

re库

base64库

分析过程

确定视频资源下载地址

由于之前没有这方面的项目经历，在网上查找资料后，这篇文章给了我灵感(原来西瓜视频上的Url是经过Base64加密的)，那么是如何确定西瓜视频上的Url是经过Base64加密的呢？这个字符串仅有64个字符(A~Z a~z + / )以及后缀=组成

将目标字符串解密后再将解密字符串加密回去与原来的值做比较如果相同就是Base64

import requests

import re

from base64 import b64decode, b64encode

url = 'https://www.ixigua.com/i6704446868685849092'

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'

}

resp =requests.get(url=url, headers=headers)

ex = '''"main_url":"(.*?)"'''

def doCheck(source):

if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):

return True

return False

if doCheck(re.findall(ex, resp.text)[0]):

print('该Url是Base64加密!!!')

else:

print('该Url不是Base64加密!!!')

下载测试

import requests

import re

from base64 import b64decode, b64encode

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'

}

url = 'https://www.ixigua.com/i6704446868685849092'

resp =requests.get(url=url, headers=headers)

ex = '''"main_url":"(.*?)"'''

def doCheck(source):

if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):

return True

return False

def getVideoUrl(source):

return b64decode(source).decode('utf-8')

source =re.findall(ex, resp.text)[0]

if doCheck(source):

resp = requests.get(url=getVideoUrl(source), headers=headers)

with open('./Video.mp4', 'wb') as fp:

fp.write(resp.content)

else:

print('该Url不是Base64加密!!!')

运行结果

python爬app西瓜视频_Python爬虫工程师面试题，采集头条西瓜视频相关推荐

python爬取收费素材_Python爬虫练习：爬取素材网站数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...
python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
爬虫技术python爬到女性语音_python爬虫看看虎牙女主播中谁最“顶”步骤详解
网页链接:https://www.huya.com/g/4079 这里的主要步骤其实还是和我们之前分析的一样,如下图所示: 这里再简单带大家看一下就行,重点是我们的第二部分. 既然网页结构我们已经分析 ...
python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析
先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...
python爬取论坛帖子_Python爬虫实战（1）：爬取Drupal论坛帖子列表
1,引言在<Python即时网络爬虫项目: 内容提取器的定义>一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间.本文将用一个实例讲解怎样使用这个爬 ...
python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页例:爬取极客学院课程列表爬虫步骤打开目标网页,先查看网页源代码 get网页源码找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
python爬取新闻网站内容_python爬虫案例：抓取网易新闻
此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...
python爬取bilibili弹幕_python爬虫：bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

python爬app西瓜视频_Python爬虫工程师面试题，采集头条西瓜视频

python爬app西瓜视频_Python爬虫工程师面试题，采集头条西瓜视频相关推荐

最新文章

热门文章