Jsoup.parse解析HTML字符串,如Jsoup.parse("<html><head><title>Firstparse</title></head>")Jsoup.connect解析url网站地址,如Jsoup.connect(http://www.baidu.com).get()

可以用httpclient获取网页,再用Jsoup.parse解析页面

String text = getMethod.getResponseBodyAsString();
Document doc = Jsoup.parse(text);

法一:httpclient+Jsoup

 1 String dataUrl = "http://hi.mop.com/?";
 2 HttpClient httpClient = new HttpClient();
 3 String cookies = "_ml=371386500452711504675;";
 4 GetMethod getMethod = new GetMethod(dataUrl);
 5 // 每次访问需授权的网址时需带上前面的 cookie 作为通行证
 6 getMethod.setRequestHeader("cookie", cookies);
 7 getMethod.setRequestHeader("Referer", "http://passport.mop.com/");
 8 getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
 9 int statusCodes = httpClient.executeMethod(getMethod);
10 System.out.println(statusCodes);
11 System.out.println("模拟登录成功");
12 String text = getMethod.getResponseBodyAsString();

法二:Jsoup Connction + Jsoup解析

Connection conn = Jsoup.connect(String url);
conn.data("txtBill", key);// 设置关键字查询字段
Document doc = null;
doc = conn.timeout(100000).post();//设置请求类型为post型或者get型,超时100000毫秒
results = doc.select(TagName);// 处理返回数据
for (Element result : results){}

package Step1;import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;import javax.lang.model.element.Element;import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;/*** * @ClassName: HttpLogin * @Description:  java通过httpclient结合Jsoup* @author zeze* @date 2015年11月10日 下午5:07:33 **/public class HttpLogin {public static void main(String[] args) {//UrlString dataUrl = "http://hi.mop.com/?";HttpClient httpClient = new HttpClient();try {// 获得登陆后的 CookieString cookies = "_ml=371386500452711504675;";GetMethod getMethod = new GetMethod(dataUrl);// 每次访问需授权的网址时需带上前面的 cookie 作为通行证getMethod.setRequestHeader("cookie", cookies);getMethod.setRequestHeader("Referer", "http://passport.mop.com/");getMethod.setRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");int statusCodes = httpClient.executeMethod(getMethod);System.out.println("状态码:"+statusCodes);//如果返回的头信息没有指定长度或长度大于1M则抛出异常需把 getResponseBodyAsString()换成 getResponseBodyAsStream()//String text = getMethod.getResponseBodyAsString();InputStream inputStream = getMethod.getResponseBodyAsStream();BufferedReader br = new BufferedReader(new InputStreamReader(inputStream));StringBuffer stringBuffer = new StringBuffer();String str= "";while((str = br.readLine()) != null){stringBuffer.append(str );}//Element result=text;Document doc = Jsoup.parse(stringBuffer.toString());              Elements name=doc.select("[class=tc c068 fs14 yahei mt5 username]");System.out.println(name.text());}catch (Exception e) {e.printStackTrace();}}
}

转载于:https://www.cnblogs.com/zeze/p/4953574.html

httpclient+Jsoup总结相关推荐

  1. JAVA之HttpClient+Jsoup实现代理IP爬虫

    文章目录: HttpClient(请求数据): Jsoup解析筛选数据: 通过httpclient+jsoup爬取代理ip网址上面的ip和端口,并存入数据库: 筛选数据库中的有效代理IP,并实现代理I ...

  2. 第9个HttpClient 例子,HttpClient+jsoup 扩展获取网站信息

    2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...

  3. 第8个HttpClient 例子.HttpClient+jsoup 获取网站相关信息

    2019独角兽企业重金招聘Python工程师标准>>> 目标:https://www.cnblogs.com/ 1.目标获取博客园的文章与超链接 2.获取指定图像的超链接地址: PO ...

  4. JAVA网络爬爬学习之HttpClient+Jsoup

    JAVA网络爬爬学习 HttpClient用法简单整理 GET请求 无参 带参 POST请求 无参 带参 连接池 请求request的相关配置 httpclient用法详解 Jsoup用法简单整理 j ...

  5. httpclient+jsoup实现小说线上采集阅读

    前言 用过老版本UC看小说的同学都知道,当年版权问题比较松懈,我们可以再UC搜索不同来源的小说,并且阅读,那么它是怎么做的呢?下面让我们自己实现一个小说线上采集阅读.(说明:仅用于技术学习.研究) 看 ...

  6. 使用Eclipse+httpClient+Jsoup读取网页数据-初级

    本人最近几天学习使用HttpClient包读取网页上的数据,运行博客http://ducaijun.iteye.com/blog/1335453上的例子: 1.首先打开Eclipse,File-> ...

  7. 【Java爬虫】HttpClient+Jsoup实现爬取校内新闻

    介绍 接上一篇博客,本篇主要讲如何利用上一篇的HttpUtil工具类实现爬取校内新闻 上篇地址: https://blog.csdn.net/m0_64261982/article/details/1 ...

  8. java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...

  9. HttpClient+jsoup登录+解析 163邮箱

    为什么80%的码农都做不了架构师?>>>    http://www.oschina.net/code/snippet_128625_12592 记录此地址, 转载于:https:/ ...

最新文章

  1. 【 Notes 】RFID Preliminary Introduction
  2. IOS网络篇1之截取本地URL请求(NSURLProtocol)
  3. sublime text常用快捷键及多行光标批量操作教程
  4. 《程序设计与数据结构》第四周学习总结
  5. avalon2学习教程15指令总结
  6. snownlp文本分词、情感分析、文本相似度与摘要生成
  7. JAVA math.sin(X)画圆_关于Math.sin(),Math.cos()画圆
  8. 消耗性缺口_衰竭缺口分析
  9. MySQL主从同步相关-主从多久的延迟?
  10. 微软4月13日发布Silverlight 4正式版
  11. Java表示语言(文化)代码及国家地区对照表
  12. 一个支持国密SM2/SM3/SM4/SM9/ZUC/SSL的密码工具箱
  13. linux服务器通过代理连接网络
  14. python语音控制地图导航_基于python语音控制大疆创新EP机器人并进行对话——第一步学会录音...
  15. dcos - marathon - 有的时候健康检查不是绿条
  16. unity android光照贴图格式,Unity3D-光照贴图技术
  17. Excel表格中数据比对和查找的几种技巧
  18. 计算机操作系统选择题
  19. Linux下PhysX3.4编译和环境搭建
  20. 软件复杂性正在杀死我们

热门文章

  1. 为什么农产品电商不好做
  2. 在创投界有个公开的秘密
  3. 揭秘情场高手的三大套路
  4. 计算机网络之物理层基本概念
  5. 索引sql server_SQL Server索引操作
  6. 学习PowerShell和SQL Server –简介
  7. ef 连接localdb_如何连接和使用Microsoft SQL Server Express LocalDB
  8. ssma5.3_适用于Oracle的Microsoft SQL Server迁移助手(SSMA)v7.1
  9. java jdk1.8 API
  10. JavaScript实现AES算法加密和解密