1.搜索词的地址采用模拟地址方法(通过分析搜索引擎的参数得到,如百度),然后将搜索词加到模拟的地址中。

  2.函数的输入参数是模拟地址。

  String query = URLEncoder.encode("潘柱廷", "UTF-8");

  String url="http://www.baidu.com/s?wd="+query+"&pn="+p*10+"&tn=baiduhome_pg&ie=utf-8"

  public void MakeQuery(String domain) {

  try {

  HttpClient httpClient = new HttpClient();

  GetMethod getMethod = new GetMethod(domain);

  //System.out.println("*************************************************************");

  //System.out.println(getMethod);

  try{

  httpClient.executeMethod(getMethod);

  }catch(Exception e){

  System.out.println("网络问题");

  }

  getMethod.getParams()。setParameter(HttpMethodParams.RETRY_HANDLER,

  new DefaultHttpMethodRetryHandler());

  int statusCode = httpClient.executeMethod(getMethod);

  if (statusCode != HttpStatus.SC_OK) {

  System.err.println("Method failed: "

  + getMethod.getStatusLine());

  }

  byte[] responseBody = getMethod.getResponseBody();

  //System.out.println("*************************************************************");

  //System.out.println(responseBody);

  String response = new String(responseBody, "UTF-8");

  //System.out.println("*************************************************************");

  //System.out.println(response);

  //Jsoup解析html

  Document doc=Jsoup.parse(response);

  //System.out.println("*************************************************************");

  //System.out.println(doc);

  Elements contents=doc.getElementsByClass("f");

  for(Element content:contents){

  Element links = content.getElementsByTag("a")。first();

  String link links.attr("href"); //链接

  String linkText = links.text();//摘要

  FoursearchZH.map.put(linkHref, linkText);

  System.out.println("------------------");

  System.out.println(linkHref);

  System.out.println(linkText);

  }

  } catch (Exception e) {

  System.err.println("Something went wrong…");

  e.printStackTrace();

  }

  }

  疯狂软件Java培训的课程采用针对性培养,全面提升学员就业能力,重点加强,训练职业素质。采用企业全真模拟开发训练,迅速积累项目经验。让学员迅速获得其他人需要花费两年才能获得的工作技能,迅速获得高薪就业!

转载于:https://blog.51cto.com/javaaiho/1183696

Java爬取网页源代码解析相关推荐

  1. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  2. C++实现爬取网页源代码并下载至本地文件(可直接运行)

    文章目录 1.引言 2.演示效果 3.源码 4.补充 1.引言 哈喽,各位小伙伴们,今天我给大家分享的是如何用C++实现爬取网页源代码. 本人用的开发环境为visual studio 2013,涉及到 ...

  3. 【用Java爬取网页图片——爬虫爬取数据】

    用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...

  4. Java 爬取网页图片并下载

    Java 爬取网页图片并下载 源码; package a; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup. ...

  5. (第一个java爬虫)java爬取网页文本并抽取中英文关键词

    问题引入 对于给定的任意一个网址,爬取这个网页上的所有文本信息,并抽取出文本的中文和英文关键词 搭建环境 首先需要具备eclipse开发环境.然后导入jsoup包,用来爬取网页,再到这个网址http: ...

  6. Java 爬虫:是时候 Get 新技能了,使用 Java 爬取网页信息

    如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...

  7. 是时候 Get 新技能了:使用 Java 爬取网页信息

    如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...

  8. java 爬取网页数据 多页爬取 jsoup 和 httpClient 实现

    预览结果视图 目录 预览结果视图 介绍 代码 依赖 爬取网页数据代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup 和HttpClients实现 2.爬取多页内容的时候进行循环, ...

  9. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

最新文章

  1. [C++再学习系列] 函数模板和类模板
  2. 正常正则表达式(不允许为空…
  3. [导入]实现数字分页
  4. 微信终端跨平台组件 mars 系列(一) - 高性能日志模块xlog
  5. 通用函数get和set
  6. 【clickhouse】Clickhouse 的group_concat 实现
  7. 程序默认在副屏显示_树莓派使用 OLED 屏显示图片及文字
  8. 未经授权的ADB Android设备
  9. java网络爬虫基础学习(二)
  10. MFS 高可用存储分布式文件系统
  11. RDP Wrapper 大于10.0.19041
  12. SQLEXPRESS的连接字符串
  13. 第十周项目2——二叉树的便利的递归算法
  14. 第五模块 常用邮件沟通场景(1):求职信
  15. amoeba主从复制
  16. OpenCv图像处理之Mat类使用
  17. Spark自定义对象排序及自定义序列化
  18. C# DataGridView行列转换
  19. Java面试基础知识III
  20. 移动通信电波传播及损耗(二)

热门文章

  1. Atlas客户端类库、控件介绍(2)
  2. Apache Cassandra 开源数据库软件修复高危RCE漏洞
  3. 谷歌 Chrome 同步功能可滥用于 C2 通信及数据提取
  4. 从 CVE-2020-1048 到 CVE-2020-17001:Windows打印机模块中多个提权漏洞分析
  5. 万豪国际数据再遭泄露影响520万客户,两名员工账户为突破口
  6. Tabio – 轻松,高效的管理 Chrome 标签页
  7. 撰写oracle-sql-hint的注意事项
  8. MVC工作中的笔记~2(架构师是一步一步练成的)
  9. 分享30个网页设计色彩搭配的优秀案例
  10. debugfs dd恢复误删数据