httpclient+Jsoup总结
Jsoup.parse解析HTML字符串,如Jsoup.parse("<html><head><title>Firstparse</title></head>")Jsoup.connect解析url网站地址,如Jsoup.connect(http://www.baidu.com).get()
可以用httpclient获取网页,再用Jsoup.parse解析页面
String text = getMethod.getResponseBodyAsString();
Document doc = Jsoup.parse(text);
法一:httpclient+Jsoup
1 String dataUrl = "http://hi.mop.com/?"; 2 HttpClient httpClient = new HttpClient(); 3 String cookies = "_ml=371386500452711504675;"; 4 GetMethod getMethod = new GetMethod(dataUrl); 5 // 每次访问需授权的网址时需带上前面的 cookie 作为通行证 6 getMethod.setRequestHeader("cookie", cookies); 7 getMethod.setRequestHeader("Referer", "http://passport.mop.com/"); 8 getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); 9 int statusCodes = httpClient.executeMethod(getMethod); 10 System.out.println(statusCodes); 11 System.out.println("模拟登录成功"); 12 String text = getMethod.getResponseBodyAsString();
法二:Jsoup Connction + Jsoup解析
Connection conn = Jsoup.connect(String url); conn.data("txtBill", key);// 设置关键字查询字段 Document doc = null; doc = conn.timeout(100000).post();//设置请求类型为post型或者get型,超时100000毫秒 results = doc.select(TagName);// 处理返回数据 for (Element result : results){}
package Step1;import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader;import javax.lang.model.element.Element;import org.apache.commons.httpclient.Cookie; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.NameValuePair; import org.apache.commons.httpclient.cookie.CookiePolicy; import org.apache.commons.httpclient.methods.GetMethod; import org.apache.commons.httpclient.methods.PostMethod; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements;/*** * @ClassName: HttpLogin * @Description: java通过httpclient结合Jsoup* @author zeze* @date 2015年11月10日 下午5:07:33 **/public class HttpLogin {public static void main(String[] args) {//UrlString dataUrl = "http://hi.mop.com/?";HttpClient httpClient = new HttpClient();try {// 获得登陆后的 CookieString cookies = "_ml=371386500452711504675;";GetMethod getMethod = new GetMethod(dataUrl);// 每次访问需授权的网址时需带上前面的 cookie 作为通行证getMethod.setRequestHeader("cookie", cookies);getMethod.setRequestHeader("Referer", "http://passport.mop.com/");getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");int statusCodes = httpClient.executeMethod(getMethod);System.out.println("状态码:"+statusCodes);//如果返回的头信息没有指定长度或长度大于1M则抛出异常需把 getResponseBodyAsString()换成 getResponseBodyAsStream()//String text = getMethod.getResponseBodyAsString();InputStream inputStream = getMethod.getResponseBodyAsStream();BufferedReader br = new BufferedReader(new InputStreamReader(inputStream));StringBuffer stringBuffer = new StringBuffer();String str= "";while((str = br.readLine()) != null){stringBuffer.append(str );}//Element result=text;Document doc = Jsoup.parse(stringBuffer.toString()); Elements name=doc.select("[class=tc c068 fs14 yahei mt5 username]");System.out.println(name.text());}catch (Exception e) {e.printStackTrace();}} }
转载于:https://www.cnblogs.com/zeze/p/4953574.html
httpclient+Jsoup总结相关推荐
- JAVA之HttpClient+Jsoup实现代理IP爬虫
文章目录: HttpClient(请求数据): Jsoup解析筛选数据: 通过httpclient+jsoup爬取代理ip网址上面的ip和端口,并存入数据库: 筛选数据库中的有效代理IP,并实现代理I ...
- 第9个HttpClient 例子,HttpClient+jsoup 扩展获取网站信息
2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...
- 第8个HttpClient 例子.HttpClient+jsoup 获取网站相关信息
2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...
- JAVA网络爬爬学习之HttpClient+Jsoup
JAVA网络爬爬学习 HttpClient用法简单整理 GET请求 无参 带参 POST请求 无参 带参 连接池 请求request的相关配置 httpclient用法详解 Jsoup用法简单整理 j ...
- httpclient+jsoup实现小说线上采集阅读
前言 用过老版本UC看小说的同学都知道,当年版权问题比较松懈,我们可以再UC搜索不同来源的小说,并且阅读,那么它是怎么做的呢?下面让我们自己实现一个小说线上采集阅读.(说明:仅用于技术学习.研究) 看 ...
- 使用Eclipse+httpClient+Jsoup读取网页数据-初级
本人最近几天学习使用HttpClient包读取网页上的数据,运行博客http://ducaijun.iteye.com/blog/1335453上的例子: 1.首先打开Eclipse,File-> ...
- 【Java爬虫】HttpClient+Jsoup实现爬取校内新闻
介绍 接上一篇博客,本篇主要讲如何利用上一篇的HttpUtil工具类实现爬取校内新闻 上篇地址: https://blog.csdn.net/m0_64261982/article/details/1 ...
- java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup
1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...
- HttpClient+jsoup登录+解析 163邮箱
为什么80%的码农都做不了架构师?>>> http://www.oschina.net/code/snippet_128625_12592 记录此地址, 转载于:https:/ ...
最新文章
- 【 Notes 】RFID Preliminary Introduction
- IOS网络篇1之截取本地URL请求(NSURLProtocol)
- sublime text常用快捷键及多行光标批量操作教程
- 《程序设计与数据结构》第四周学习总结
- avalon2学习教程15指令总结
- snownlp文本分词、情感分析、文本相似度与摘要生成
- JAVA math.sin(X)画圆_关于Math.sin(),Math.cos()画圆
- 消耗性缺口_衰竭缺口分析
- MySQL主从同步相关-主从多久的延迟?
- 微软4月13日发布Silverlight 4正式版
- Java表示语言(文化)代码及国家地区对照表
- 一个支持国密SM2/SM3/SM4/SM9/ZUC/SSL的密码工具箱
- linux服务器通过代理连接网络
- python语音控制地图导航_基于python语音控制大疆创新EP机器人并进行对话——第一步学会录音...
- dcos - marathon - 有的时候健康检查不是绿条
- unity android光照贴图格式,Unity3D-光照贴图技术
- Excel表格中数据比对和查找的几种技巧
- 计算机操作系统选择题
- Linux下PhysX3.4编译和环境搭建
- 软件复杂性正在杀死我们