java 抓取搜狗微信_大虾们,求帮助……用httpclient 进行获取微信搜狗公众号文章问题...
大虾们,求帮助……用httpclient 进行获取微信搜狗公众号文章问题,
http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFtyoPnoKxqvND4ufXLQ-4SRc&page=1该地址如频繁调用微信搜狗会限制查询,返回的结果不对,求指导……
try {
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet("http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFtyoPnoKxqvND4ufXLQ-4SRc&page=1");
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
entity.consumeContent();
}
}
System.out.println(strBuf.toString());
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
访问频繁后连接会返回如下结果:并不是文章信息。
charset=ISO-8859-1
HttpMethodBase - Going to buffer response body of large or unknown size. Using getResponseBodyAsStream instead is recommended.
var uri = document.location.href;
var pos = uri.indexOf("?");
if(pos!=-1)uri = uri.substr(0,pos);
var domain = ".sogou.com";
if(uri.indexOf("soso.com")>-1)domain = ".soso.com";
var date = new Date();
if(document.cookie.indexOf("SUV=")<0)
document.cookie="SUV="+(date.getTime())*1000+Math.round(Math.random()*1000)+";path=/;expires=Sun, 29 July 2046 00:00:00 UTC;domain="+domain;
date.setTime(date.getTime()+5*24*3600*1000);//2tian
document.cookie = "SNUID=25489A3D898F9BD9987AC9D68A8B356D; path=/; expires="+date.toGMTString();
document.location.href = "/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFtyoPnoKxqvND4ufXLQ-4SRc&page=1&t=1427522889323&repp=1";
java 抓取搜狗微信_大虾们,求帮助……用httpclient 进行获取微信搜狗公众号文章问题...相关推荐
- 微信公众号开发——微信获取、操作公众号文章
微信获取,操作公众号文章 项目地址:https://gitee.com/wrzhxy/wx_article 我以为微信支付和微信企业付款文档就够坑爹了,直到我遇到了微信获取公众号文章... 微信获取公 ...
- java抓取网页数据_实现网络图片爬虫,只需5秒快速把整个网页上的图片全下载打包zip...
我们经常需要用到互联网上的一些共享资源,图片就是资源的一种,怎么把网页上的图片批量下载下来?有时候我们需要把网页上的图片下载下来,但网页上图片那么多,怎么下载我们想要的东西呢,如果这个网页都是我们想要 ...
- java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码
[实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...
- java抓取页面数据_通过java抓取任何指定网页的数据
假设你需要获取51job人才网上java人才的需求数量,首先你需要分析51job网站的搜索这一块是怎么运作的,通过解析网页的源代码,我们发现了以下一些信息: 1. 搜索时页面请求的URL是 http: ...
- java抓取网页数据_简易数据分析 10 | Web Scraper 翻页——抓取滚动加载类型网页...
[这是简易数据分析系列的第 10 篇文章] 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到 ...
- java抓取并保存图片_利用JAVA抓取网站的所有图片并保存于本地
由于今天我要保存一个网页上的所有图片并做一个ppt,但是这个网页比较蛋疼,是微信上的一个类似于动画的东西,所以没法保存整个网页然后直接取照片, 所以我采用java写了一个程序,采用类似于网络爬虫的思路 ...
- java抓取并保存图片_【初学】java爬虫并抓取图片保存
这是我参考了网上一些资料写的第一个java爬虫程序 本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站 /* * 网络爬虫取数据 * * */ public class Jian ...
- 公众号jdk 获取手机号_怎样快速获取使用国庆节公众号文章的素材和模板
国庆节又称十一.国庆节.国庆日.中国国庆节.国庆黄金周.自1950年起,每年的10月1日,为中华人民共和国宣告成立的日子,即国庆日.峥嵘岁月,71年风雨兼程.终将迎来历史曙光.我们也马上迎来了国庆节小 ...
- 如何用来逗微信图文编辑器整理高质量的端午节公众号文章
端午节是古已有之的民俗大节,起源于中国,比韩国的江陵端午祭早,最初是我国古代百越地区崇拜龙图腾的部族以龙舟竞渡形式祭龙祖的节日.微信公众号文章可以从不同地域的端午节习俗的差异入手,使用来逗微信图文编辑 ...
- java 抓取搜狗微信_搜狗微信公众号文章抓取
机器能做的事就别让人来做! 目标: 抓取特定微信公众号文章 思路:利用selenium模拟浏览器行为,进行抓取(理由:搜狗已将文章链接进行处理,且页面为动态生成) 框架: 步骤: 1.登录搜狗 a.找 ...
最新文章
- 让Python不在mac的dock上显示火箭图标
- 织梦dedecms移动版设置二级域名的方法 织梦如何设置m.开头的域名
- mybatis深入理解(一)之 # 与 $ 区别以及 sql 预编译
- python实现轨迹回放供应_运动轨迹回放 百度地图api示例源码
- Golang的单引号、双引号与反引号
- oracle t44,SecureFiles LOBs基础知识之存储篇
- php设置session 生命周期,php会话(session)生命周期概念介绍及设置更改和回收
- 详解RecyclerView下拉刷新与上拉更多
- bgll算法 matlab,一种复杂网络社区检测的方法与流程
- [Python] numpy.ndenumerate() 获得一对数组坐标和值
- Python基础15_装饰器
- wordpress知更鸟begin主题添加菜单字体图标
- Nesterov Momentum牛顿动量法
- Cadence下载 安装 与 和谐教程
- 微信小程序双击底部导航栏刷新页面
- UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u25aa‘ in position 11923: illegal multibyte
- 数据库update方法同时更新多条数据
- 信必优成功案例 – 中国网络电视台(CNTV)
- vs2015下载路径
- 微信小程序:用户头像的更改与保存