java获取微信公总号推送的所有信息的url,用于爬取微信推送的文章内容
场景描述:
在用户提出需要爬取微信公总号推送消息的时候,感觉是懵逼的,之前从来没爬取过,无从下手,没办法顾客是上帝,既然用户提出了需求,我们只能想法去解决问题。
然后根据用户提供微信公总号 安泰科现货报价 去爬取,发现公总号推送的消息的url并不是固定不变的,这咋整。好在对于我们开发人员来说有度娘,ok,百度一下,发现搜狗微信能解决该问题。写了一个测试发现,果然能解决,之后就有了这篇博文,用来记录,免得忘记,也多少能给大家一些参考,废话不多说,言归正传:
首先需要jsoup的jar包,我用的1.10.2版本。
<!-- jsoup --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>
然后是测试类的代码,简单的注释已经写上,如下
package crawler;import java.io.IOException;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;/*** 微信公总号测试类* @author siqiangming 2018年5月9日 上午9:59:18*/
public class WeChatTest{@Testpublic void getFirst(){String baseUrl = "http://weixin.sogou.com/weixin?type=1&ie=utf8&query=";//搜狗微信的基础地址String searchUrl = baseUrl + "gh_3756da4d163e";//加上安泰科现货价格的微信公总号Document document = getDocument(searchUrl);String listUrl = document.select(".tit a").attr("href");//查询到所有列表信息的urlSystem.out.println(listUrl);System.out.println("-----------------------");Document doc = getDocument(listUrl);//截取前10条推送信息的json中的list数据String jsonList = doc.html().split("var msgList = ")[1].split("seajs.use")[0].trim();//截取出来第一条信息的urlString url = jsonList.split("content_url\":\"")[1].split("\",\"copyright_stat")[0].replaceAll("amp;", "");if(url.startsWith("/s")){//如果url以/s开头,处理成http格式url = "http://mp.weixin.qq.com" + url;}System.out.println(url);//获取第一条推送信息的标题String title = jsonList.split("title\":\"")[1].split("\"},\"comm_msg_info")[0];System.out.println(title);}/*** 获取页面* @author siqiangming 2018年5月9日 下午2:23:01* @param url url* @return*/public Document getDocument(String url){Document document = null;try {document = Jsoup.connect(url).get();} catch (IOException e) {e.printStackTrace();}return document;}
}
ok,url已经获取到,剩下的爬取的就省略了。
java获取微信公总号推送的所有信息的url,用于爬取微信推送的文章内容相关推荐
- 教你快速推广微信公总号
随着互联网科技的飞速发展,自媒体平台正在发挥着越来越大的影响力,企业进行互联网的品牌建设,一定会通过网络媒体,推广自己在网络中的知名度以及品牌内容,从而形成公众认识的企业品牌形象.同事个人自媒体也在发 ...
- node.js egg框架接入微信公总号
接入流程 首先申请一个微信公总号,点击左侧菜单的开发>>基本配置下 点击启用服务器配置 这里url为你自己的后台服务地址,注意是get请求,token可以随便填作为验签使用,提交后后台接口 ...
- 注册微信公总号的方法与种类
微信公众号选择时有三种,分别是订阅号.企业号.还有服务号,这三类也有分认证的和没认证的.认证的平台认证收费300元/年,我们只能注册不能认证的订阅号.注册个人订阅号步骤:先激活邮箱,然后选择订阅号,选 ...
- 基于django框架下的werobot微信公总号开发(一)
环境:阿里云服务器 python:3.5 个人微信测试号(去微信官网申请) django搭建:https://www.aliyun.com/jiaocheng/462696.html django版本 ...
- 【转】最优传输理论---(微信公总号:老顾谈几何)顾险峰
海天讲座(一):最优传输理论 海天讲座(二):最优传输理论 海天讲座(三):最优传输理论 海天讲座(四):最优传输理论 菲尔兹奖青睐的领域:最优传输和蒙日-安培方程
- 微信公总号开发(二)
- python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
- 微信小程序爬虫python_爬虫爬取微信小程序
之前打算做个微信小程序的社区,所以写了爬虫去爬取微信小程序,后面发现做微信小程序没有前途,就把原来的项目废弃了做了现在的网站观点,不过代码放着也是放着,还不如公开让大家用,所以我把代码贴出来,有需要的 ...
- python爬取微信小程序(实战篇)_爬虫爬取微信小程序
之前打算做个微信小程序的社区,所以写了爬虫去爬取微信小程序,后面发现做微信小程序没有前途,就把原来的项目废弃了做了现在的网站观点,不过代码放着也是放着,还不如公开让大家用,所以我把代码贴出来,有需要的 ...
最新文章
- JavaScript Collection
- telnet 退出命令
- 【模块】脉搏血氧仪和心率监测仪生物传感器MAX30102
- 2021年7月【RHCE考试战报】他们都在提升,你还在吃鸡王者吗?
- 什么是JAP,什么是ORM,与hibernate的关系
- 实验一 分治与递归—用分治法实现元素选择 java算法
- JAVA学习笔记(五)
- php查询mysql语句_PHP之路——MySql查询语句
- const和define在值定义上的区别
- view-source是一种协议,查看源码
- AmchartsJS版设置属性/方法总结
- oracle omf管理,使用OMF管理表空间
- CSS设置元素内边距(padding)、外边距(margin)
- java对一个课程树进行无限极递归获取其中的某一个值
- 整数规划 - 数学建模
- 仙人掌之歌——金秋十月(2)
- 有趣的搬砖工 No.2 cout格式化输出
- Open-iscs源码分析之---iscsiadm.c
- 【如何实现RS232/485串口转CANbus总线以及介绍使用说明】
- PLC实验:天塔之光控制