java多个页面爬取_java爬取html页面(简易通用版)
项目环境
ide:intellij IDEA 2017.2.5
编程语言:java
数据库:mysql
管理工具:maven
需要导包:mysql-connector-java,jsoup(解析html)等,如果要解析json可能还要导入gson的包。
我把重要的依赖贴出来(默认大家都是使用过maven的,如果不使用maven,你可以到网上下载jar包添加到项目里):
com.google.code.gson
gson
2.8.0
mysql
mysql-connector-java
5.1.38
org.jsoup
jsoup
1.9.2
代码解析html页面
我是以boss直聘网搜索职业为html爬取的
如:https://www.zhipin.com/job_detail/?query=java&city=101020100&industry=&position=
public static void main(String[] args) throws IOException {
Boss boss = new Boss();
//输入要爬取的页面
String url = "https://www.zhipin.com/job_detail/?query=java&city=101020100&industry=&position=";
System.out.println(url);
try {
// 添加时间间隔 5s 解决 418问题。
Thread.sleep(5000);
} catch (InterruptedException e) {
e.printStackTrace();
}
//解析html
Document doc = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36").get();
System.out.println(doc);
Elements listDiv = doc.getElementsByAttributeValue("class", "company-text");
for (Element text : listDiv) {
Elements a = text.getElementsByTag("a");
String href = a.get(0).attr("href");
String ka= a.get(0).attr("ka");
String span = a.text();
System.out.println(href);
System.out.println(ka);
System.out.println(span);
String url2 = "https://www.zhipin.com"+href+"?ka="+ka;
Document document = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").get();
Elements listdiv = document.getElementsByAttributeValue("class", "business-detail");
for (Element text1 : listdiv) {
Elements li = text1.getElementsByTag("li");
String legalperson = li.get(0).text();
String capital = li.get(1).text();
String province = li.get(5).text();
System.out.println(legalperson);
System.out.println(capital);
System.out.println(province);
}
}
}
爬取boss直聘网需谨慎,随时封ip
java多个页面爬取_java爬取html页面(简易通用版)相关推荐
- java抖音广告爬取_java爬取新版抖音无水印视频教程(2020/09/14附带java代码)
本帖最后由 三木猿 于 2020-9-14 10:55 编辑 附加Java版的去抖音代码 1.从抖音上复制链接,大概长这样"https://v.douyin.com/JB9Fveb/ 复制此 ...
- 循环爬取图片_Java爬取简单的网页内容和图片
Java爬取简单的网页内容和图片 根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码. 针对得到的html代码,通过使用正则表达式即可得到我们想要的内容. ...
- java 获取每月每一天_java 求取某一段时间内的每一天、每一月、每一年
1.求取某一段时间内的每一天 Date date0 = new SimpleDateFormat("yyyy-MM-dd").parse("2014-01-01" ...
- java主键后四位顺序号_JAVA中取顺序号 (转)
JAVA中取顺序号 (转)[@more@] 在写系统的时候,经常会遇到用一个唯一的键值去票识一个对象,如数据库中一条记录的主键,文件的文件名 等.常用的做法将这个键值从1,2,3--这样一值递加下去, ...
- java创建有序的map代码_java使用HashMap实现斗地主(有序版)
本文实例为大家分享了java使用HashMap实现斗地主的具体代码,供大家参考,具体内容如下 案例介绍 按照斗地主的规则,完成洗牌发牌的动作. 具体规则: 使用54张牌打乱顺序,三个玩家参与游戏,三人 ...
- Java基础与实践题库_Java程序设计基础与实践(题库版)
第1章Java概述 1.1Java的发展过程 1.1.1Java技术的形成 1.1.2Java的成熟和发展 1.2Java技术 1.2.1Java的技术特点 1.2.2Java的相关技术 1.3Jav ...
- java类的方法 作用 属性_JAVA:类和对象(秒懂版)
JAVA:类和对象(秒懂版) 本节我们重点研究对象和类的概念. 1.现实生活中的对象和类. 对象: 一个具体的实体.一个具体的实例(不是抽象的,是具象的). 举例: 你写字的笔.我的电脑 描述我的电脑 ...
- java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup
1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...
- java爬虫京东商品,Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup
1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用maven项目,log4j记录日志,日志仅导出到控制台. maven依赖如下 ...
最新文章
- 一般熟练盲打需要多久_进口攻略!一般货物进口清关需要多久?如何有效提高清关效率?...
- CyberRT使用笔记
- 4000字,详解 Python 操作 MySQL 数据库!
- linux查找指定修改时间的文件夹,linux 查找某个日期以后修改过哪些文件 shell脚本...
- 4.设计模式---单例模式(上)
- JAVA定时任务的简单实现
- 单片机c语言编程入门下載,51系列单片机C语言编程入门(下)
- 运动世界校园显示服务器异常,运动世界校园跑完是异常成绩,计入有效成绩里吗?...
- php7微信公众号41005,微信公众号添加永久图片素材为什么老是报41005
- 靖哥哥教你一步一步安装redis监控redis-stat-超详细
- 【Golang开发面经】字节跳动(三轮技术面)
- 初中级前端面试题目汇总和答案解析
- 普教同步课堂、专递课堂建设解决方案
- QChart动态生成图表(曲线)
- 多线程就一定快吗?天真!
- 每日一算法:冒泡排序
- iperf和iperf3测速使用
- Java Pair类的使用
- 浅析基于AI烟火识别的森林防火风险监测预警系统设计方案
- 改计算机名后ansys打不开,更改计算机名后 Ansys重新注册的简单办法 20140611.pdf
热门文章
- 主席树学习小结(POJ 2104)
- jquery-基础事件[下]
- 实战Java内存泄漏问题分析 -- hazelcast2.0.3使用时内存泄漏 -- 2
- c#语言基础编程-转义符
- 求数的绝对值一定是正数_人教版初中数学七年级上册绝对值公开课优质课课件教案视频...
- C语言oj中a b怎么做,【HDUOJ】第1002题 A + B Problem II 纯C语言解法
- linux 模拟时序,stm32GPIO模拟时序读写nandflash(K9F1G08U0B)问题
- java 传递bean_如何将bean作为参数传递给JSP标记?
- mysql delete temporary denied_这些错误是什么意思?djang中的mysql
- python学生类出不来中文_Python 这类看起来学习门槛低的语言,是否真的适合入门编程学习?...