Java爬取网页源代码解析
1.搜索词的地址采用模拟地址方法(通过分析搜索引擎的参数得到,如百度),然后将搜索词加到模拟的地址中。
2.函数的输入参数是模拟地址。
String query = URLEncoder.encode("潘柱廷", "UTF-8");
String url="http://www.baidu.com/s?wd="+query+"&pn="+p*10+"&tn=baiduhome_pg&ie=utf-8"
public void MakeQuery(String domain) {
try {
HttpClient httpClient = new HttpClient();
GetMethod getMethod = new GetMethod(domain);
//System.out.println("*************************************************************");
//System.out.println(getMethod);
try{
httpClient.executeMethod(getMethod);
}catch(Exception e){
System.out.println("网络问题");
}
getMethod.getParams()。setParameter(HttpMethodParams.RETRY_HANDLER,
new DefaultHttpMethodRetryHandler());
int statusCode = httpClient.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println("Method failed: "
+ getMethod.getStatusLine());
}
byte[] responseBody = getMethod.getResponseBody();
//System.out.println("*************************************************************");
//System.out.println(responseBody);
String response = new String(responseBody, "UTF-8");
//System.out.println("*************************************************************");
//System.out.println(response);
//Jsoup解析html
Document doc=Jsoup.parse(response);
//System.out.println("*************************************************************");
//System.out.println(doc);
Elements contents=doc.getElementsByClass("f");
for(Element content:contents){
Element links = content.getElementsByTag("a")。first();
String link links.attr("href"); //链接
String linkText = links.text();//摘要
FoursearchZH.map.put(linkHref, linkText);
System.out.println("------------------");
System.out.println(linkHref);
System.out.println(linkText);
}
} catch (Exception e) {
System.err.println("Something went wrong…");
e.printStackTrace();
}
}
疯狂软件Java培训的课程采用针对性培养,全面提升学员就业能力,重点加强,训练职业素质。采用企业全真模拟开发训练,迅速积累项目经验。让学员迅速获得其他人需要花费两年才能获得的工作技能,迅速获得高薪就业!
转载于:https://blog.51cto.com/javaaiho/1183696
Java爬取网页源代码解析相关推荐
- Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...
- C++实现爬取网页源代码并下载至本地文件(可直接运行)
文章目录 1.引言 2.演示效果 3.源码 4.补充 1.引言 哈喽,各位小伙伴们,今天我给大家分享的是如何用C++实现爬取网页源代码. 本人用的开发环境为visual studio 2013,涉及到 ...
- 【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
- Java 爬取网页图片并下载
Java 爬取网页图片并下载 源码; package a; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup. ...
- (第一个java爬虫)java爬取网页文本并抽取中英文关键词
问题引入 对于给定的任意一个网址,爬取这个网页上的所有文本信息,并抽取出文本的中文和英文关键词 搭建环境 首先需要具备eclipse开发环境.然后导入jsoup包,用来爬取网页,再到这个网址http: ...
- Java 爬虫:是时候 Get 新技能了,使用 Java 爬取网页信息
如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...
- 是时候 Get 新技能了:使用 Java 爬取网页信息
如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...
- java 爬取网页数据 多页爬取 jsoup 和 httpClient 实现
预览结果视图 目录 预览结果视图 介绍 代码 依赖 爬取网页数据代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup 和HttpClients实现 2.爬取多页内容的时候进行循环, ...
- java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
最新文章
- [C++再学习系列] 函数模板和类模板
- 正常正则表达式(不允许为空…
- [导入]实现数字分页
- 微信终端跨平台组件 mars 系列(一) - 高性能日志模块xlog
- 通用函数get和set
- 【clickhouse】Clickhouse 的group_concat 实现
- 程序默认在副屏显示_树莓派使用 OLED 屏显示图片及文字
- 未经授权的ADB Android设备
- java网络爬虫基础学习(二)
- MFS 高可用存储分布式文件系统
- RDP Wrapper 大于10.0.19041
- SQLEXPRESS的连接字符串
- 第十周项目2——二叉树的便利的递归算法
- 第五模块 常用邮件沟通场景(1):求职信
- amoeba主从复制
- OpenCv图像处理之Mat类使用
- Spark自定义对象排序及自定义序列化
- C# DataGridView行列转换
- Java面试基础知识III
- 移动通信电波传播及损耗(二)