httpclient+Jsoup总结

Jsoup.parse解析HTML字符串，如Jsoup.parse("<html><head><title>Firstparse</title></head>")Jsoup.connect解析url网站地址，如Jsoup.connect(http://www.baidu.com).get()

可以用httpclient获取网页，再用Jsoup.parse解析页面

String text = getMethod.getResponseBodyAsString();
Document doc = Jsoup.parse(text);

法一：httpclient+Jsoup

 1 String dataUrl = "http://hi.mop.com/?";
 2 HttpClient httpClient = new HttpClient();
 3 String cookies = "_ml=371386500452711504675;";
 4 GetMethod getMethod = new GetMethod(dataUrl);
 5 // 每次访问需授权的网址时需带上前面的 cookie 作为通行证
 6 getMethod.setRequestHeader("cookie", cookies);
 7 getMethod.setRequestHeader("Referer", "http://passport.mop.com/");
 8 getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
 9 int statusCodes = httpClient.executeMethod(getMethod);
10 System.out.println(statusCodes);
11 System.out.println("模拟登录成功");
12 String text = getMethod.getResponseBodyAsString();

法二：Jsoup Connction + Jsoup解析

Connection conn = Jsoup.connect(String url);
conn.data("txtBill", key);// 设置关键字查询字段
Document doc = null;
doc = conn.timeout(100000).post();//设置请求类型为post型或者get型，超时100000毫秒
results = doc.select(TagName);// 处理返回数据
for (Element result : results){}

package Step1;import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;import javax.lang.model.element.Element;import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;/*** * @ClassName: HttpLogin * @Description:  java通过httpclient结合Jsoup* @author zeze* @date 2015年11月10日 下午5:07:33 **/public class HttpLogin {public static void main(String[] args) {//UrlString dataUrl = "http://hi.mop.com/?";HttpClient httpClient = new HttpClient();try {// 获得登陆后的 CookieString cookies = "_ml=371386500452711504675;";GetMethod getMethod = new GetMethod(dataUrl);// 每次访问需授权的网址时需带上前面的 cookie 作为通行证getMethod.setRequestHeader("cookie", cookies);getMethod.setRequestHeader("Referer", "http://passport.mop.com/");getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");int statusCodes = httpClient.executeMethod(getMethod);System.out.println("状态码："+statusCodes);//如果返回的头信息没有指定长度或长度大于1M则抛出异常需把 getResponseBodyAsString（）换成 getResponseBodyAsStream（）//String text = getMethod.getResponseBodyAsString();InputStream inputStream = getMethod.getResponseBodyAsStream();BufferedReader br = new BufferedReader(new InputStreamReader(inputStream));StringBuffer stringBuffer = new StringBuffer();String str= "";while((str = br.readLine()) != null){stringBuffer.append(str );}//Element result=text;Document doc = Jsoup.parse(stringBuffer.toString());              Elements name=doc.select("[class=tc c068 fs14 yahei mt5 username]");System.out.println(name.text());}catch (Exception e) {e.printStackTrace();}}
}

转载于:https://www.cnblogs.com/zeze/p/4953574.html

httpclient+Jsoup总结相关推荐

JAVA之HttpClient+Jsoup实现代理IP爬虫
文章目录: HttpClient(请求数据): Jsoup解析筛选数据: 通过httpclient+jsoup爬取代理ip网址上面的ip和端口,并存入数据库: 筛选数据库中的有效代理IP,并实现代理I ...
第9个HttpClient 例子,HttpClient+jsoup 扩展获取网站信息
2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...
第8个HttpClient 例子.HttpClient+jsoup 获取网站相关信息
2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...
JAVA网络爬爬学习之HttpClient+Jsoup
JAVA网络爬爬学习 HttpClient用法简单整理 GET请求无参带参 POST请求无参带参连接池请求request的相关配置 httpclient用法详解 Jsoup用法简单整理 j ...
httpclient+jsoup实现小说线上采集阅读
前言用过老版本UC看小说的同学都知道,当年版权问题比较松懈,我们可以再UC搜索不同来源的小说,并且阅读,那么它是怎么做的呢?下面让我们自己实现一个小说线上采集阅读.(说明:仅用于技术学习.研究) 看 ...
使用Eclipse+httpClient+Jsoup读取网页数据-初级
本人最近几天学习使用HttpClient包读取网页上的数据,运行博客http://ducaijun.iteye.com/blog/1335453上的例子: 1.首先打开Eclipse,File-> ...
【Java爬虫】HttpClient+Jsoup实现爬取校内新闻
介绍接上一篇博客,本篇主要讲如何利用上一篇的HttpUtil工具类实现爬取校内新闻上篇地址: https://blog.csdn.net/m0_64261982/article/details/1 ...
java 手机网页_Java爬虫：爬取京东上的手机搜索页面 HttpClient+Jsoup
1.需求及配置需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...
HttpClient+jsoup登录+解析 163邮箱
为什么80%的码农都做不了架构师?>>> http://www.oschina.net/code/snippet_128625_12592 记录此地址, 转载于:https:/ ...

httpclient+Jsoup总结

httpclient+Jsoup总结相关推荐

最新文章

热门文章