之前写过一篇类似的文章:python爬取公众号,用最简单的方式爬虫

还有同学一直在问,可能中间有一些小细节不明确,这次彻底明确一下细节。

本篇添加一个批量下载公众号内视频的功能,可以实现完全复制一个公众号,危险动作,请不要操作!谢谢

主要功能

如何简单爬虫微信公众号

获取信息:标题、摘要、封面、文章地址

自动批量下载公众号内的视频

本次选取的公众号:熊孩子与萌宠

每天更新视频:熊孩子日常、萌宠日常、熊孩子和萌宠搞笑视频,笑声不断快乐常伴!

请允许我强制打一波广告:

因为每次爬虫公众号都是他家的,一年前是,现在亦是,只是更换了主题和名字。

一个喜欢小宠物,养不起猫的码农,工作之余看看还是很开心的。可以关注一下!

为了视频安全与避免造成损失,已友善提醒号主,视频添加水印。

一、获取公众号信息:标题、摘要、封面、文章URL

操作步骤:

1、先自己申请一个公众号

2、登录自己的账号,新建文章图文,点击超链接

3、弹出搜索框,搜索自己需要的公众号,查看历史文章

4、通过抓包获取信息,定位请求的url

通过查看信息,找到了我们需要关键的内容:标题、摘要、封面和文章URL,确定这就是我们需要的URL,通过点击下一页,多次获取url发现,只有random和bengin的参数发生变化

所以主信息URL确定。

那就开始吧:

事实发现我们需要修改的参数为:token、random、cookie

这两个值的来源,获取url时的就可以

# -*- coding: utf-8 -*-

import re

import requests

import jsonpath

import json

headers = {

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",

"Host": "mp.weixin.qq.com",

"Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&isMul=1&isNew=1&lang=zh_CN&token=1862390040",

"Cookie": "自己获取信息时的cookie"

}

def getInfo():

for i in range(80):

# token random 需要要自己的 begin:参数传入

url = "https://mp.weixin.qq.com/cgi-bin/appmsg?token=1904193044&lang=zh_CN&f=json&ajax=1&random=0.9468236563826882&action=list_ex&begin={}&count=5&query=&fakeid=MzI4MzkzMTc3OA%3D%3D&type=9".format(str(i * 5))

response = requests.get(url, headers = headers)

jsonRes = response.json()

titleList = jsonpath.jsonpath(jsonRes, "$..title")

coverList = jsonpath.jsonpath(jsonRes, "$..cover")

urlList = jsonpath.jsonpath(jsonRes, "$..link")

# 遍历 构造可存储字符串

for index in range(len(titleList)):

title = titleList[index]

cover = coverList[index]

url = urlList[index]

scvStr = "%s,%s, %s,\n" % (title, cover, url)

with open("info.csv", "a+", encoding="gbk", newline='') as f:

f.write(scvStr)

获取结果(成功):

二、获取文章内视频:实现批量下载

通过对单篇视频文章分析,我找到了这个链接:

通过网页打开发现,是视频的网页下载链接:

哎,好像有点意思了,找到了视频的网页纯下载链接,那就开始吧。

发现链接里的有一个关键参数vid 不知道哪来的?

和获取到的其他信息也没有关系,那就只能硬来了。

通过对单文章的url请求信息里发现了这个参数,然后进行获取。

response = requests.get(url_wxv, headers=headers)

# 我用的是正则,也可以使用xpath

jsonRes = response.text # 匹配:wxv_1105179750743556096

dirRe = r"wxv_.{19}"

result = re.search(dirRe, jsonRes)

wxv = result.group(0)

print(wxv)

视频下载:

def getVideo(video_title, url_wxv):

video_path = './videoFiles/' + video_title + ".mp4"

# 页面可下载形式

video_url_temp = "https://mp.weixin.qq.com/mp/videoplayer?action=get_mp_video_play_url&preview=0&__biz=MzI4MzkzMTc3OA==&mid=2247488495&idx=4&vid=" + wxv

response = requests.get(video_url_temp, headers=headers)

content = response.content.decode()

content = json.loads(content)

url_info = content.get("url_info")

video_url2 = url_info[0].get("url")

print(video_url2)

# 请求要下载的url地址

html = requests.get(video_url2)

# content返回的是bytes型也就是二进制的数据。

html = html.content

with open(video_path, 'wb') as f:

f.write(html)

那么所有信息就都完成了,进行code组装。

a、获取公众号信息

b、筛选单篇文章信息

c、获取vid信息

d、拼接视频页面下载URL

e、下载视频,保存

代码实验结果:

获取公众号的:标题,摘要、封面、视频,

可以说拥有了一个视频公众号的所有信息,完全可以复制一个出来。

危险动作,请勿操作!切记 ! 切记!切记!

获取code请公众号回复:20191210 或 公众号code

python爬微信公众号视频_python爬虫公众号所有信息,并批量下载公众号视频相关推荐

  1. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

  2. python爬取数据的原理_Python爬虫原理

    前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前: 一.爬虫是什 ...

  3. python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  4. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  5. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  6. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  7. python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例

    本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的 从网上获 ...

  8. python爬歌词生成词云图_Python爬虫摇滚网易云音乐歌词生成词云图

    我相信经过前三篇文章,大家已经学会了怎么下载歌词和歌曲了.看了我的文章后开始行动起来的应该都享受到音乐的福利了.问一个问题,当你疲惫时,你想提起精神来去工作或者看书,你会选择听什么歌曲让自己兴奋起来呢 ...

  9. python爬微博超话图片_Python爬虫:《庆余年》人物图谱和微博传播路径

    利用Python分析<庆余年>人物图谱和微博传播路径 庆余年电视剧终于在前两天上了,这两天赶紧爬取微博数据看一下它的表现. 庆余年 <庆余年>是作家猫腻的小说.这部从2007年 ...

  10. python爬取学校题库_Python爬虫实战-获取某网站题库

    爬取*网站题库 import requests import re import time import html headers = { 'User-Agent':'Mozilla/5.0 (Win ...

最新文章

  1. 干货 | YOLOV5 训练自动驾驶数据集,并转Tensorrt,收藏!
  2. SAP MM 事务代码RWBE查询库存
  3. eclipse(myeclipse) JavaWeb项目导入Idea2017
  4. yii2 引入php文件,Yii2中YiiBase自动加载类、引用文件方法分析(autoload)
  5. 关于各组评价的自我评价
  6. Scrapy 爬虫去重效率优化之 Bloom Filter的算法的对接
  7. r 函数返回多个值_第四讲 R描述性统计分析
  8. java c 简单例子_通过一个简单的例子来理解C语言中的LAPACK调用
  9. Spread for Windows Forms高级主题(6)---数据绑定管理
  10. ArcEngine C# 二次开发 PolyLine 多次打断操作
  11. WMI 查询分析工具更新
  12. 使用Bus Hound抓USB转串口数据包,助力问题分析
  13. Unity 安卓打包
  14. LeCun、Bengio、Hinton三巨头曾合体,Nature发文综述深度学习(论文精华)
  15. 树莓派小实验 | 制作一个带快门的照相机 录像机
  16. 2020秋招提前批--大疆--机器学习算法工程师--线上笔试题
  17. word操作 mathtype插入公式 表格
  18. linux内核熵池,快速的给内核熵池喂随机数
  19. python登录教务系统_记python登陆学校教务系统踩过的坑
  20. 继Pyecharts之后,蚂蚁又开源一款国产可视化利器

热门文章

  1. Linux开机启动过程-centos7
  2. 分享两个小技巧,让你的PPT看起来更高级
  3. 美女主管送我这个撸码神器!爽翻了......
  4. 【用户价值分析 RFM模型】用户价值分析
  5. 常用数字与字母的正则表达式(转载)
  6. 实战 Vue 之配置多页面应用
  7. 股票买卖接口源码分享
  8. idea右侧maven依赖飘红解决办法
  9. 深入浅出Mybatis-改造Cache
  10. OpenBot开源小车