java 爬虫 html页面 parse,Java 爬虫 爬取html网页解析
1、springboot项目,引入jsoup
org.jsoup
jsoup
1.10.2
2、准备解析对象
Content.javapackage com.asia.pojo;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
//java项目 www.fhadmin.org
@Data
@NoArgsConstructor
@AllArgsConstructor
public class Content {
private String title;
private String img;
private String price;
}
3、爬虫工具类
HtmlParseUtil.javapackage com.asia.utils;
import java.net.URL;
import java.net.URLDecoder;
import java.util.ArrayList;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import com.asia.pojo.Content;
//java项目 www.fhadmin.org
public class HtmlParseUtil {
public static void main(String[] args) throws Exception {
new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);
}
public List parseJD(String keywords) throws Exception {
String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");
// 解析网页.(Jsoup返回Document就是浏览器的Document对象)
Document document = Jsoup.parse((new URL(url)), 30000);
Element element = document.getElementById("J_goodsList");
Elements elements = element.getElementsByTag("li");
List list = new ArrayList();
for (Element el : elements) {
String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");
String price = el.getElementsByClass("p-price").eq(0).text();
String name = el.getElementsByClass("p-name").eq(0).text();
list.add(new Content(name, src, price));
}
return list;
}
}
java 爬虫 html页面 parse,Java 爬虫 爬取html网页解析相关推荐
- python爬虫 - GET和POST分别对爬取的网页状态的影响以及常见网页状态码(200、401、402、404等等)
主要内容:GET和POST分别对爬取的网页状态的影响以及常见的网页状态码 目录 区分网页请求GET or POST get方法的特点 post方法的特点 网页返回状态码 200 非200 区 ...
- Python网页爬虫练习:requests库Beautiful爬取bilibili网页信息
我是卢本伟! import requests from bs4 import BeautifulSoup import bs4 def get_blibli_vedio():#获取bilibili实时 ...
- python 爬虫(一) requests+BeautifulSoup 爬取简单网页图片代码示例
最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...
- python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
- Python网络爬虫实例——“中国最好大学排名爬取”(嵩天:北理工大学)学习笔记
这个例子比较简单也容易理解,我将细致的解析这个例子中算法流程.写一个博客算是给自己一个激励吧.一起加油.(_ZHJ三月和九月) 完整版代码 import requests from bs4 impor ...
- java爬虫系列(二)——爬取动态网页
准备工作 项目地址 网页解析工具地址 启动网页解析器 根据系统选择所需文件 指定端口号启动工具 项目配置 seimi.properties SeimiAgentDemo.java 分析原网页代码 Bo ...
- 【Java网络爬虫实战篇】使用Jsoup爬取和解析王者荣耀全英雄全皮肤(思路/代码/问题分析)
由于博主前两天刚入门Java爬虫,并且自学了Jsoup的爬取和解析方式以及输入输出流的相关知识,因此打算检验一下目前的学习成果.在一番深思熟虑(x)后,毅然打算爬取王者荣耀官网全英雄全皮肤的壁纸. 爬 ...
- Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息
Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海.北京关于区块链职位的求职信息 目录 输出结果 1.上海区块链职位 2.北京区块链职位 设计思路 核心代码 输出结果 1. ...
- Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
最新文章
- PHP沉思录-第三篇-Smarty-左轻侯-《程序员》2007年10月号
- 3、循序渐进设计模式-创建型
- java8 stream_使用Java Stream摘要统计
- python对电脑最低要求-用Python编写的代码瑕疵程度最低
- 高通Vuforia优化目标检测与跟踪稳定性
- redis数据丢失_有效避免数据丢失!Redis持久化方案选择详解
- 深入jar包:从jar包中读取资源文件
- es统计mysql 报表_Elasticsearch(简称ES)实现日报表、月报表、年报表统计,没数据补0...
- oracle in _all和any的区别,oracle经验之ANY,SOME,ALL区别
- 电商App如何让用户直接打开商品详情页
- rtmp播放器,使用videojs播放,稳定
- 神经网络 游戏,神经连接游戏
- 爬虫->TpImgspider
- vue 实现验证码、刷新以及校验验证码输入是否准确
- 在记事本中无限循环_意外空间:比恐怖游轮更无解的循环迷宫
- 高数-不定积分-分部积分法
- 《前端》初次使用webpack遇到的问题
- 14. 异步加载Js的方式有哪些?
- 第三章:做一个简易登陆界面
- 蚂蚁金服新一代数据可视化引擎 G2
热门文章
- 一个简单的Matlab面向对象编程实例
- Atitit 网络存储协议 远程存储协议 目录 1. Email类	1 1.1. Eas Exchange Activesync介绍	1 1.2. Imap pop3	1 2. 网盘类远程存储web
- Atitit 项目沟通管理 艾提拉总结 目录 1. 项目中沟通对象	2 1.1. 主要为项目干系人 产品部门 运营部门组员等	2 1.2. 适当越级沟通, 与高层直接沟通	3 2. 沟通频率	3
- Atitit 常用加密算法 aes des rsa 比较 历史演进 目录 1.1. 常规加密算法如下 Aes 3des des rsa	1 2. 加密算法历史演进 按照出现时间和加密强度 流行
- Atitit 虚拟经济世代 与 知识管理
- Atitit 图像处理之仿油画效果 Oilpaint油画滤镜 水彩画 漫画滤镜 v2
- atitit.软件开发概念--过滤和投影 数据操作
- paip.php 5.0 5.3 5.4 5.5 -6.0的新特性总结与比较
- XML wsdl soap xslt xsl ide
- paip.验证码识别---图像处理类库