项目环境

ide:intellij IDEA 2017.2.5

编程语言:java

数据库:mysql

管理工具:maven

需要导包:mysql-connector-java,jsoup(解析html)等,如果要解析json可能还要导入gson的包。

我把重要的依赖贴出来(默认大家都是使用过maven的,如果不使用maven,你可以到网上下载jar包添加到项目里):

com.google.code.gson

gson

2.8.0

mysql

mysql-connector-java

5.1.38

org.jsoup

jsoup

1.9.2

代码解析html页面

我是以boss直聘网搜索职业为html爬取的

如:https://www.zhipin.com/job_detail/?query=java&city=101020100&industry=&position=

public static void main(String[] args) throws IOException {

Boss boss = new Boss();

//输入要爬取的页面

String url = "https://www.zhipin.com/job_detail/?query=java&city=101020100&industry=&position=";

System.out.println(url);

try {

// 添加时间间隔 5s 解决 418问题。

Thread.sleep(5000);

} catch (InterruptedException e) {

e.printStackTrace();

}

//解析html

Document doc = Jsoup.connect(url)

.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36").get();

System.out.println(doc);

Elements listDiv = doc.getElementsByAttributeValue("class", "company-text");

for (Element text : listDiv) {

Elements a = text.getElementsByTag("a");

String href = a.get(0).attr("href");

String ka= a.get(0).attr("ka");

String span = a.text();

System.out.println(href);

System.out.println(ka);

System.out.println(span);

String url2 = "https://www.zhipin.com"+href+"?ka="+ka;

Document document = Jsoup.connect(url)

.userAgent("Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").get();

Elements listdiv = document.getElementsByAttributeValue("class", "business-detail");

for (Element text1 : listdiv) {

Elements li = text1.getElementsByTag("li");

String legalperson = li.get(0).text();

String capital = li.get(1).text();

String province = li.get(5).text();

System.out.println(legalperson);

System.out.println(capital);

System.out.println(province);

}

}

}

爬取boss直聘网需谨慎,随时封ip

java多个页面爬取_java爬取html页面(简易通用版)相关推荐

  1. java抖音广告爬取_java爬取新版抖音无水印视频教程(2020/09/14附带java代码)

    本帖最后由 三木猿 于 2020-9-14 10:55 编辑 附加Java版的去抖音代码 1.从抖音上复制链接,大概长这样"https://v.douyin.com/JB9Fveb/ 复制此 ...

  2. 循环爬取图片_Java爬取简单的网页内容和图片

    Java爬取简单的网页内容和图片 根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码. 针对得到的html代码,通过使用正则表达式即可得到我们想要的内容. ...

  3. java 获取每月每一天_java 求取某一段时间内的每一天、每一月、每一年

    1.求取某一段时间内的每一天 Date date0 = new SimpleDateFormat("yyyy-MM-dd").parse("2014-01-01" ...

  4. java主键后四位顺序号_JAVA中取顺序号 (转)

    JAVA中取顺序号 (转)[@more@] 在写系统的时候,经常会遇到用一个唯一的键值去票识一个对象,如数据库中一条记录的主键,文件的文件名 等.常用的做法将这个键值从1,2,3--这样一值递加下去, ...

  5. java创建有序的map代码_java使用HashMap实现斗地主(有序版)

    本文实例为大家分享了java使用HashMap实现斗地主的具体代码,供大家参考,具体内容如下 案例介绍 按照斗地主的规则,完成洗牌发牌的动作. 具体规则: 使用54张牌打乱顺序,三个玩家参与游戏,三人 ...

  6. Java基础与实践题库_Java程序设计基础与实践(题库版)

    第1章Java概述 1.1Java的发展过程 1.1.1Java技术的形成 1.1.2Java的成熟和发展 1.2Java技术 1.2.1Java的技术特点 1.2.2Java的相关技术 1.3Jav ...

  7. java类的方法 作用 属性_JAVA:类和对象(秒懂版)

    JAVA:类和对象(秒懂版) 本节我们重点研究对象和类的概念. 1.现实生活中的对象和类. 对象: 一个具体的实体.一个具体的实例(不是抽象的,是具象的). 举例: 你写字的笔.我的电脑 描述我的电脑 ...

  8. java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...

  9. java爬虫京东商品,Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用maven项目,log4j记录日志,日志仅导出到控制台. maven依赖如下 ...

最新文章

  1. 一般熟练盲打需要多久_进口攻略!一般货物进口清关需要多久?如何有效提高清关效率?...
  2. CyberRT使用笔记
  3. 4000字,详解 Python 操作 MySQL 数据库!
  4. linux查找指定修改时间的文件夹,linux 查找某个日期以后修改过哪些文件 shell脚本...
  5. 4.设计模式---单例模式(上)
  6. JAVA定时任务的简单实现
  7. 单片机c语言编程入门下載,51系列单片机C语言编程入门(下)
  8. 运动世界校园显示服务器异常,运动世界校园跑完是异常成绩,计入有效成绩里吗?...
  9. php7微信公众号41005,微信公众号添加永久图片素材为什么老是报41005
  10. 靖哥哥教你一步一步安装redis监控redis-stat-超详细
  11. 【Golang开发面经】字节跳动(三轮技术面)
  12. 初中级前端面试题目汇总和答案解析
  13. 普教同步课堂、专递课堂建设解决方案
  14. QChart动态生成图表(曲线)
  15. 多线程就一定快吗?天真!
  16. 每日一算法:冒泡排序
  17. iperf和iperf3测速使用
  18. Java Pair类的使用
  19. 浅析基于AI烟火识别的森林防火风险监测预警系统设计方案
  20. 改计算机名后ansys打不开,更改计算机名后 Ansys重新注册的简单办法 20140611.pdf

热门文章

  1. 主席树学习小结(POJ 2104)
  2. jquery-基础事件[下]
  3. 实战Java内存泄漏问题分析 -- hazelcast2.0.3使用时内存泄漏 -- 2
  4. c#语言基础编程-转义符
  5. 求数的绝对值一定是正数_人教版初中数学七年级上册绝对值公开课优质课课件教案视频...
  6. C语言oj中a b怎么做,【HDUOJ】第1002题 A + B Problem II 纯C语言解法
  7. linux 模拟时序,stm32GPIO模拟时序读写nandflash(K9F1G08U0B)问题
  8. java 传递bean_如何将bean作为参数传递给JSP标记?
  9. mysql delete temporary denied_这些错误是什么意思?djang中的mysql
  10. python学生类出不来中文_Python 这类看起来学习门槛低的语言,是否真的适合入门编程学习?...