这是本菜鸟第一次写文章,如果大佬看见请轻点喷。

使用的模块是selenium 和 requests

第三方工具:chromedriver(因浏览器的不同需要进行修改,这里是使用谷歌的,版本要与自己所用浏览器版本相对应。)

正文开始:

在一个音频集合的公众号文章中是有需要跳转公众号音频的链接,首先需要的第一步就是将影片的所有链接进行收集,以下为演示代码:

chrome_options = Options()
chrome_options.add_argument('--headless')#隐藏模式driver = webdriver.Chrome(options=chrome_options) #使用浏览器情况driver.get(url)
a=[]
try:for i in range(100): #数量限制path=driver.find_elements_by_xpath('//a[@target="_blank"]')[i].get_attribute('href')a.append(path)
except:print('超出限制')

该代码是主要收集集合链接的,但是公众号发送的文章会因为使用的插件的关系导致标签值吧变化以至于抓取失败,这个不是代码的问题。是文章中链接所存放的编写于代码中的标签值不一样导致的,可以自己去修改抓取标签来进行修改。其中使用的浏览器是谷歌,如果是ie或者火狐需要自己修改webriver.Chrome

接着是对于标签抓取后的跳转:

for j in a:driver.get(j)try:aa=driver.find_element_by_xpath("//mpvoice[@frameborder='0']").get_attribute('voice_encode_fileid')name=driver.find_element_by_xpath("//mpvoice[@frameborder='0']").get_attribute('name')url_1=r'https://res.wx.qq.com/voice/getvoice?mediaid='+aaprint(url_1)newflie = namefilepath = os.path.join(filename_1, str(newflie) + '.mp3')open(filepath,'wb').write(rq.get(url_1).content)except:continue

这个是对于上个步骤抓取的链接进行跳转以及抓取。

完整代码如下:

import requests as rq
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import os
import reheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'}
url=input('输入链接')filename_1=input('输入存储位置')
chrome_options = Options()
chrome_options.add_argument('--headless')#隐藏模式driver = webdriver.Chrome(options=chrome_options) #使用浏览器情况driver.get(url)
a=[]
try:for i in range(100): #数量限制path=driver.find_elements_by_xpath('//a[@target="_blank"]')[i].get_attribute('href')a.append(path)
except:print('超出限制')for j in a:driver.get(j)try:aa=driver.find_element_by_xpath("//mpvoice[@frameborder='0']").get_attribute('voice_encode_fileid')name=driver.find_element_by_xpath("//mpvoice[@frameborder='0']").get_attribute('name')url_1=r'https://res.wx.qq.com/voice/getvoice?mediaid='+aaprint(url_1)newflie = namefilepath = os.path.join(filename_1, str(newflie) + '.mp3')open(filepath,'wb').write(rq.get(url_1).content)except:continue

如果出现一个文章多音频的情况可以修改find_element_by_xpath,将xpath改为xpaths[?](?问好为函数)。以上代码是一条音频对应一个命名,如果需要下载多个音频需要编写多一个循环,不然名字会相同导致音频进行相互之间的覆盖。

关于微信公众号音频批量爬虫相关推荐

  1. 转载:使用pythonr脚本实现微信公众号音频批量下载

    文章转载自:https://blog.csdn.net/lpwmm/article/details/108722225 原文作者给出详细的步骤,感谢分享.这里一方面对资源做个备份,另一方面对失效链接终 ...

  2. 微信公众号文章批量保存到本地的方法

    其他不多说,直接入主题,目前比较常见的保存微信文章的方法有以下几种,简要分析如下: 1. 手动保存 微信登陆电脑客户端,用自带浏览器打开微信公众号文章,然后选择,复制,粘贴到Word里,进行保存. 这 ...

  3. 订阅号微信公众号历史文章爬虫php,一步步教你怎么打造微信公众号历史文章爬虫...

    原标题:一步步教你怎么打造微信公众号历史文章爬虫 开篇语: 邓爷爷曾说过:不管黑猫白猫,逮到耗子就是好猫.不管我是凑的还是笨办法堆出来的,确实把批量导出微信公众号所有历史文章的这个功能给做出来了,而且 ...

  4. 微信公众号 文章的爬虫系统

    差不多俩个星期了吧,一直在调试关于微信公众号的文章爬虫系统,终于一切都好了,但是在这期间碰到了很多问题,今天就来回顾一下,总结一下,希望有用到的小伙伴可以学习学习. 1.做了俩次爬虫了,第一次怕的凤凰 ...

  5. 【微信采集助手】Python Tkinter 微信公众号文章批量采集工具

    现如今大部分优质内容都是闭环的,都在移动端,app端,或者百度都无法搜录到,比如微信公众号文章内容,而且这些地方还存在着比较高质量的内容,大部分人都有着这方面的采集需求! 其实前面本渣渣已经写过了一篇 ...

  6. 解决微信公众号音频不能重复播放

    最近碰到 一个微信公众号音频不能重复播放的问题,这是什么原因呢 查了资料后发现 安卓微信在不是X5内核的情况下,音频就不会重复播放(audio标签) 解决方法(只针对安卓用户)如下: 使用如下快捷指令 ...

  7. python爬微信公众号视频_python爬虫公众号所有信息,并批量下载公众号视频

    之前写过一篇类似的文章:python爬取公众号,用最简单的方式爬虫 还有同学一直在问,可能中间有一些小细节不明确,这次彻底明确一下细节. 本篇添加一个批量下载公众号内视频的功能,可以实现完全复制一个公 ...

  8. 使用代理爬去微信公众号_Python3网络爬虫开发实战之使用代理爬取微信公众号文章...

    本节目标 我们的主要目标是利用代理爬取微信公众号的文章,提取正文.发表日期.公众号等内容,爬取来源是搜狗微信,其链接为 http://weixin.sogou.com/,然后把爬取结果保存到 MySQ ...

  9. 微信公众号采集小爬虫

    最近在做一个自己的项目,涉及到需要通过python爬取微信公众号的文章,因为微信独特一些手段,导致无法直接爬取,研究了一些文章大概有了思路,并且网上目前能搜到的方案思路都没啥问题,但是里面的代码因为一 ...

  10. 微信公众号文章批量下载成网页和PDF格式-真正完全免费工具

    很多公众号文章确实写的很棒很有价值,我们想保存到本地慢慢看的时候,就可以用到这个工具了. 经过实测可用,完全免费,无限制. 一.功能列表 目前已实现以下功能: - 简洁易用的的UI界面 - 开启/停止 ...

最新文章

  1. Android开发总结
  2. CSS3的chapter3
  3. python 的下划线_
  4. ie 调用java的时候报错,关于java的applet在网页中打开的时候出错
  5. 嵌入式Linux系统编程学习之十六用程序发送信号
  6. php不支持redis
  7. 5分钟带你入门vuex(vue状态管理)
  8. vue组件库(Element UI)
  9. SSRF---gopher和dict打redis
  10. spring源码系列(一)——spring循环引用
  11. 详解Runtime运行时机制
  12. Python3 Mac剪切板存取内容-xerox
  13. asp.net(c#)中IsPostBack是什么意思
  14. rpi4 实现 qiuqiu - Ultralight-SimplePose
  15. 图像质量评估-BRISQUE
  16. java入门之 ArrayList类(动态数组)
  17. 自然语言处理顶会 NAACL 2018 最佳论文、时间检验论文揭晓
  18. Table Compression Characteristics
  19. 阿里会成为下一个谷歌?谁才是Google真正的挑战者
  20. Windows2008 Server 常规设置及基本安全策略

热门文章

  1. 如何根据vin码查询_VIN车辆识别代码查询
  2. 家乡主题html模板,html+css模板 我的家乡有模板
  3. 用友u8怎么导出凭证_老师,用友U8里的凭证如何导出(导出有借贷方向的)?...
  4. 计算机审计 pdf,巧学计算机审计.pdf
  5. 米思齐MT1637简单显示字符串和时间
  6. html5前端图片压缩,大小可配置
  7. CAD文字宽度因子无法修改解决办法
  8. Autodesk如何炸开增加属性块
  9. 李宏毅2021春季机器学习教程HW1-COVID-19 Cases Prediction介绍
  10. mmWave AWR1x Interference Detection - A crucial step to effective mitigation