Java爬取网页源代码解析

　　1.搜索词的地址采用模拟地址方法(通过分析搜索引擎的参数得到，如百度)，然后将搜索词加到模拟的地址中。

　　2.函数的输入参数是模拟地址。

　　String query = URLEncoder.encode("潘柱廷", "UTF-8");

　　String url="http://www.baidu.com/s?wd="+query+"&pn="+p*10+"&tn=baiduhome_pg&ie=utf-8"

　　public void MakeQuery(String domain) {

　　try {

　　HttpClient httpClient = new HttpClient();

　　GetMethod getMethod = new GetMethod(domain);

　　//System.out.println("*************************************************************");

　　//System.out.println(getMethod);

　　try{

　　httpClient.executeMethod(getMethod);

　　}catch(Exception e){

　　System.out.println("网络问题");

　　}

　　getMethod.getParams()。setParameter(HttpMethodParams.RETRY_HANDLER,

　　new DefaultHttpMethodRetryHandler());

　　int statusCode = httpClient.executeMethod(getMethod);

　　if (statusCode != HttpStatus.SC_OK) {

　　System.err.println("Method failed: "

　　+ getMethod.getStatusLine());

　　}

　　byte[] responseBody = getMethod.getResponseBody();

　　//System.out.println("*************************************************************");

　　//System.out.println(responseBody);

　　String response = new String(responseBody, "UTF-8");

　　//System.out.println("*************************************************************");

　　//System.out.println(response);

　　//Jsoup解析html

　　Document doc=Jsoup.parse(response);

　　//System.out.println("*************************************************************");

　　//System.out.println(doc);

　　Elements contents=doc.getElementsByClass("f");

　　for(Element content:contents){

　　Element links = content.getElementsByTag("a")。first();

　　String link links.attr("href"); //链接

　　String linkText = links.text();//摘要

　　FoursearchZH.map.put(linkHref, linkText);

　　System.out.println("------------------");

　　System.out.println(linkHref);

　　System.out.println(linkText);

　　}

　　} catch (Exception e) {

　　System.err.println("Something went wrong…");

　　e.printStackTrace();

　　}

　　疯狂软件Java培训的课程采用针对性培养，全面提升学员就业能力，重点加强，训练职业素质。采用企业全真模拟开发训练，迅速积累项目经验。让学员迅速获得其他人需要花费两年才能获得的工作技能，迅速获得高薪就业!

转载于:https://blog.51cto.com/javaaiho/1183696

Java爬取网页源代码解析相关推荐

Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
C++实现爬取网页源代码并下载至本地文件（可直接运行）
文章目录 1.引言 2.演示效果 3.源码 4.补充 1.引言哈喽,各位小伙伴们,今天我给大家分享的是如何用C++实现爬取网页源代码. 本人用的开发环境为visual studio 2013,涉及到 ...
【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
Java 爬取网页图片并下载
Java 爬取网页图片并下载源码; package a; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup. ...
（第一个java爬虫）java爬取网页文本并抽取中英文关键词
问题引入对于给定的任意一个网址,爬取这个网页上的所有文本信息,并抽取出文本的中文和英文关键词搭建环境首先需要具备eclipse开发环境.然后导入jsoup包,用来爬取网页,再到这个网址http: ...
Java 爬虫：是时候 Get 新技能了，使用 Java 爬取网页信息
如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...
是时候 Get 新技能了：使用 Java 爬取网页信息
如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...
java 爬取网页数据多页爬取 jsoup 和 httpClient 实现
预览结果视图目录预览结果视图介绍代码依赖爬取网页数据代码解析代码解析介绍完整代码介绍 1.爬取通过org.jsoup 和HttpClients实现 2.爬取多页内容的时候进行循环, ...
java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

Java爬取网页源代码解析

Java爬取网页源代码解析相关推荐

最新文章

热门文章