场景描述:

在用户提出需要爬取微信公总号推送消息的时候,感觉是懵逼的,之前从来没爬取过,无从下手,没办法顾客是上帝,既然用户提出了需求,我们只能想法去解决问题。

然后根据用户提供微信公总号  安泰科现货报价 去爬取,发现公总号推送的消息的url并不是固定不变的,这咋整。好在对于我们开发人员来说有度娘,ok,百度一下,发现搜狗微信能解决该问题。写了一个测试发现,果然能解决,之后就有了这篇博文,用来记录,免得忘记,也多少能给大家一些参考,废话不多说,言归正传:

首先需要jsoup的jar包,我用的1.10.2版本。

     <!-- jsoup --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>

然后是测试类的代码,简单的注释已经写上,如下

package crawler;import java.io.IOException;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;/*** 微信公总号测试类* @author siqiangming 2018年5月9日 上午9:59:18*/
public class WeChatTest{@Testpublic void getFirst(){String baseUrl = "http://weixin.sogou.com/weixin?type=1&ie=utf8&query=";//搜狗微信的基础地址String searchUrl = baseUrl + "gh_3756da4d163e";//加上安泰科现货价格的微信公总号Document document = getDocument(searchUrl);String listUrl = document.select(".tit a").attr("href");//查询到所有列表信息的urlSystem.out.println(listUrl);System.out.println("-----------------------");Document doc = getDocument(listUrl);//截取前10条推送信息的json中的list数据String jsonList = doc.html().split("var msgList = ")[1].split("seajs.use")[0].trim();//截取出来第一条信息的urlString url = jsonList.split("content_url\":\"")[1].split("\",\"copyright_stat")[0].replaceAll("amp;", "");if(url.startsWith("/s")){//如果url以/s开头,处理成http格式url = "http://mp.weixin.qq.com" + url;}System.out.println(url);//获取第一条推送信息的标题String title = jsonList.split("title\":\"")[1].split("\"},\"comm_msg_info")[0];System.out.println(title);}/*** 获取页面* @author siqiangming 2018年5月9日 下午2:23:01* @param url url* @return*/public Document getDocument(String url){Document document = null;try {document = Jsoup.connect(url).get();} catch (IOException e) {e.printStackTrace();}return document;}
}

ok,url已经获取到,剩下的爬取的就省略了。

java获取微信公总号推送的所有信息的url,用于爬取微信推送的文章内容相关推荐

  1. 教你快速推广微信公总号

    随着互联网科技的飞速发展,自媒体平台正在发挥着越来越大的影响力,企业进行互联网的品牌建设,一定会通过网络媒体,推广自己在网络中的知名度以及品牌内容,从而形成公众认识的企业品牌形象.同事个人自媒体也在发 ...

  2. node.js egg框架接入微信公总号

    接入流程 首先申请一个微信公总号,点击左侧菜单的开发>>基本配置下 点击启用服务器配置 这里url为你自己的后台服务地址,注意是get请求,token可以随便填作为验签使用,提交后后台接口 ...

  3. 注册微信公总号的方法与种类

    微信公众号选择时有三种,分别是订阅号.企业号.还有服务号,这三类也有分认证的和没认证的.认证的平台认证收费300元/年,我们只能注册不能认证的订阅号.注册个人订阅号步骤:先激活邮箱,然后选择订阅号,选 ...

  4. 基于django框架下的werobot微信公总号开发(一)

    环境:阿里云服务器 python:3.5 个人微信测试号(去微信官网申请) django搭建:https://www.aliyun.com/jiaocheng/462696.html django版本 ...

  5. 【转】最优传输理论---(微信公总号:老顾谈几何)顾险峰

    海天讲座(一):最优传输理论 海天讲座(二):最优传输理论 海天讲座(三):最优传输理论 海天讲座(四):最优传输理论 菲尔兹奖青睐的领域:最优传输和蒙日-安培方程

  6. 微信公总号开发(二)

  7. python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...

    一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...

  8. 微信小程序爬虫python_爬虫爬取微信小程序

    之前打算做个微信小程序的社区,所以写了爬虫去爬取微信小程序,后面发现做微信小程序没有前途,就把原来的项目废弃了做了现在的网站观点,不过代码放着也是放着,还不如公开让大家用,所以我把代码贴出来,有需要的 ...

  9. python爬取微信小程序(实战篇)_爬虫爬取微信小程序

    之前打算做个微信小程序的社区,所以写了爬虫去爬取微信小程序,后面发现做微信小程序没有前途,就把原来的项目废弃了做了现在的网站观点,不过代码放着也是放着,还不如公开让大家用,所以我把代码贴出来,有需要的 ...

最新文章

  1. JavaScript Collection
  2. telnet 退出命令
  3. 【模块】脉搏血氧仪和心率监测仪生物传感器MAX30102
  4. 2021年7月【RHCE考试战报】他们都在提升,你还在吃鸡王者吗?
  5. 什么是JAP,什么是ORM,与hibernate的关系
  6. 实验一 分治与递归—用分治法实现元素选择 java算法
  7. JAVA学习笔记(五)
  8. php查询mysql语句_PHP之路——MySql查询语句
  9. const和define在值定义上的区别
  10. view-source是一种协议,查看源码
  11. AmchartsJS版设置属性/方法总结
  12. oracle omf管理,使用OMF管理表空间
  13. CSS设置元素内边距(padding)、外边距(margin)
  14. java对一个课程树进行无限极递归获取其中的某一个值
  15. 整数规划 - 数学建模
  16. 仙人掌之歌——金秋十月(2)
  17. 有趣的搬砖工 No.2 cout格式化输出
  18. Open-iscs源码分析之---iscsiadm.c
  19. 【如何实现RS232/485串口转CANbus总线以及介绍使用说明】
  20. PLC实验:天塔之光控制

热门文章

  1. 基础篇:带你从头到尾玩转注解
  2. 基于STM32F103C8的USART串口通讯程序
  3. 推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)
  4. 《亚马逊二十年—贝索斯的公开信》
  5. Cordova config.xml配置WebView全屏浏览
  6. Waifu2x 算法黑科技二次元图片无损放大
  7. PWM调光5V脉冲信号转模拟量信号隔离转换器,PWM控制芯片
  8. 前端手写(二十二)——手写图片懒加载
  9. 实用软件推荐(1):思维导图软件XMind
  10. 引用 移动机器人运动控制器的设计