此文已在本人知乎号上首发: 微信公众号文章采集的一些基础概念

背景

经常有人问我微信文章采集相关的基础常识问题,对于新手来说,一些概念性的问题确实不太了解。但经常被问得也烦了,所以单独写一篇文章总结一些。

对于一些公众号文章/阅读量等接口采集需求,可参见此接口文档,也可直接访问我的网站进行免费测试。

公众号文章发布相关概念

单次发布

单次发布指公众号在同一时间发布的单篇/多篇文章(文章数量在1-8篇)。

日发文次数

一般来说,一个公众号每日只能发布一次,但部分政务/自媒体类型的公众号可发文多次。

公众号历史文章列表

公众号的历史文章列表是按照发布时间排序的,最新发布的排在最前面。一般来说,接口每次返回最近10次发布,也就是10-80篇文章。

微信文章相关字段介绍

文章链接

公众号文章链接可分为临时链接永久链接,其中永久链接又可分为短链接长链接两种。

临时链接是从搜狗微信获取到的,有效期为6小时。

永久链接是从微信app里获取得到的,不会过期(短链接可能在很久以后会失效)。

# 临时链接(搜狗微信)
https://mp.weixin.qq.com/s?src=11&timestamp=1591759801&ver=2391&signature=LRDTtpHjzm9w087lNZ-mUdy1TkEfrUoLsecGGO5WILQnxR3QymaGD-mCxiysWAmwUwMrGRBvX19uLtMNnFtm4-uT2s5zgMMehmULiO8tnZs=&new=1# 永久链接-长链接
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650742155&idx=1&sn=137825a13a4c31fffb6b2347c0304366# 永久链接-短链接
https://mp.weixin.qq.com/s/zxznxZNWuAUVJW6W7MrPJQ

对于文章采集,能直接采集到永久链接是最好的,否则需要将临时链接转为永久链接(如果只需要采集文章内容,可以在临时链接失效前及时采集)。

biz字段

biz是公众号的唯一ID标识,biz本身是一个base64编码的字符串,如: MjM5MjAxNDM4MA==

biz可以在文章的网页源码里找到(如下图),如果是长链接,链接里__biz参数的值就是biz。

值得注意的是,如果公众号被迁移了,biz也会更改。

alias

alias是公众号的对外id,通俗也叫accountId,比如公众号-人民日报的alias是rmrbwx。

值得注意的是,如果公众号作者没有主动设置,alias为空,此时一般用username作为默认id代替。

nickname

公众号名称/昵称,比如【人民日报】。

username

公众号原始id,每个公众号都有,以gh_开头,如:gh_363b924965e9。

author

文章发布作者,不设置的时候为空。

mid

文章发布的序号id,同一批次发布的文章拥有相同的mid,这个值是递增的。

idx

文章发布的位置,在同一批次发布的文章里,idx的值从1开始递增,其中1代表头条(第一篇文章),以此类推。

文章发布时间

需要注意的是:搜狗微信和微信app里的文章发布时间是有轻微区别的,不一定完全相等。

为了100%保证文章发布顺序,请使用mid进行判断。

总结

以上是我认为采集微信文章前需要理解的基础概念,这样能省掉之后的一些重构麻烦~

微信公众号文章采集的一些基础概念相关推荐

  1. python采集微信公众号_Python爬虫,微信公众号文章采集工具

    #微信公众号文章采集 import requests from lxml import etree import re import os def get_con(url): #url="h ...

  2. 微信公众号文章采集获取方案附接口说明-文章阅读点赞在看数获取工具接口

    更多方案详细分析流程和接口说明地址:根据文章链接获取点赞阅读 | 全网公号数据 搜狗微信采集 注意:此方法列表内容已经采集不到了,可用性基本不高,只能作为补充使用(一般没人使用) 在网上可以找到很多针 ...

  3. 微信公众号文章采集_一键导出Excel-蚂蚁舆情

    蚂蚁舆情是一款基于舆情的运营工具,目前支持公众号平台,主要提供优质的公众号/文章搜索功能,以及相关的报表下载功能,本文将介绍如何使用蚂蚁舆情导出微信文章. 首先,在官网注册账号后,登陆进去,点击[任务 ...

  4. 最新微信公众号文章采集发布到destoon网站,免费教程!

    DESTOON B2B网站管理系统是一套基于PHP+MySQL的开源B2B电子商务行业门户网站解决方案,当前已发布会员.分站.商城.供应.求购.行情.公司.展会.文章.信息.品牌.团购.图库.专题.视 ...

  5. 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?

    获取微信key工具:fiddler2+phpstudy 本文介绍的是获取的是公众号key,不是万能微信key.不过思路类似. 我已经找了微信万能key的方法,不过是万万不能说的,嘿嘿 phpstudy ...

  6. 【微信采集助手】Python Tkinter 微信公众号文章批量采集工具

    现如今大部分优质内容都是闭环的,都在移动端,app端,或者百度都无法搜录到,比如微信公众号文章内容,而且这些地方还存在着比较高质量的内容,大部分人都有着这方面的采集需求! 其实前面本渣渣已经写过了一篇 ...

  7. 最新微信公众号文章数据导出软件工具

    相信大家经常都会使用微信软件,对于微信公众号都不陌生,有很多人都会经常阅读公众号的文章.下面集宝数据就给大家说说如何找到好用的微信公众号文章采集器? 如何找到好用的微信公众号文章采集器 第一步:首先, ...

  8. 关于微信公众号文章抓取

    今天公司要我抓取微信公众号文章,我百度了半天得到的方法有三种: 具体内容我就不复制了请去下面这个链接去看,写的挺好 微信公众号文章采集方案 在三者中我选择了比较稳妥的第二种:对手机微信进行中间人攻击 ...

  9. 爬虫实战教程:采集微信公众号文章

    一.场景简介 1.场景描述:通过搜狗采集微信公众号的文章 2.入口网址:https://weixin.sogou.com/weixin?type=1&s_from=input&quer ...

最新文章

  1. 如何编写更好的SQL查询:终极指南-第二部分
  2. python语言必背代码-让你的Python代码实现类型提示功能
  3. 数据回归分析和拟合的Matlab实现
  4. C++struct和class区别
  5. Linux C一站式学习 第八章第三小节习题一答案
  6. 初级开发人员的缺点_我希望成为初级开发人员的事情
  7. SQL、NoSQL、NewSQL,论开源之路谁主沉浮
  8. 【英语学习】【Daily English】U15 Culture L02 For a second I wanted to go home
  9. mysql 杀掉连接_批量杀死MySQL连接的几种方法
  10. Linux故障解决(3)——YUM安装任何软件 报错:ERROR: XZ COMPRESSION NOT AVAILABLE
  11. Linux服务器挂载ntfs移动硬盘
  12. 主进程退出后子进程还会存在吗?_[docker]从一个实例,一窥docker进程管理
  13. 作业 3 应用分支与循环结构解决问题 计算分段函数的值
  14. 借助传感器用计算机测速度讲解,高中物理个性化教学的开展论文
  15. Rust : 闭包、move、复制与移动语义
  16. Chap 06 HTML使用表格
  17. win10 64位 JavaJDK的下载、安装与配置。
  18. novatel中DGPS和RTK以及ppp的terrraStar-x的记录
  19. mysql查询区分英文大小写_Mysql查询英文如何严格区分大小写?
  20. 【BIT数据库实验】openGauss数据库实验二:数据库查询

热门文章

  1. 宁波初级职称证书查询
  2. 深入了解PHP8 JIT(即时编译)功能
  3. sparksql语法,读json
  4. cad设计草图_草图和乐高积木如何启动您的设计系统
  5. 数据分析 —— 数据挖掘是什么、能干嘛、怎么做
  6. X265-Android
  7. 选来选去,最终决定把家安在这里。现在看来还没有什么问题。
  8. 商业银行数据资产管理体系建设实践报告
  9. 2021年中国教育行业发展现状及未来发展趋势分析:在校生人数达2.91亿人[图]
  10. 车联网平台介绍(一)