java 爬虫 html页面 parse,Java 爬虫爬取html网页解析

1、springboot项目，引入jsoup

org.jsoup

jsoup

1.10.2

2、准备解析对象

Content.javapackage com.asia.pojo;

import lombok.AllArgsConstructor;

import lombok.Data;

import lombok.NoArgsConstructor;

//java项目 www.fhadmin.org

@Data

@NoArgsConstructor

@AllArgsConstructor

public class Content {

private String title;

private String img;

private String price;

}

3、爬虫工具类

HtmlParseUtil.javapackage com.asia.utils;

import java.net.URL;

import java.net.URLDecoder;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.asia.pojo.Content;

//java项目 www.fhadmin.org

public class HtmlParseUtil {

public static void main(String[] args) throws Exception {

new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);

}

public List parseJD(String keywords) throws Exception {

String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");

// 解析网页.(Jsoup返回Document就是浏览器的Document对象)

Document document = Jsoup.parse((new URL(url)), 30000);

Element element = document.getElementById("J_goodsList");

Elements elements = element.getElementsByTag("li");

List list = new ArrayList();

for (Element el : elements) {

String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");

String price = el.getElementsByClass("p-price").eq(0).text();

String name = el.getElementsByClass("p-name").eq(0).text();

list.add(new Content(name, src, price));

}

return list;

}

java 爬虫 html页面 parse,Java 爬虫爬取html网页解析相关推荐

python爬虫 - GET和POST分别对爬取的网页状态的影响以及常见网页状态码（200、401、402、404等等）
主要内容:GET和POST分别对爬取的网页状态的影响以及常见的网页状态码目录区分网页请求GET or POST get方法的特点 post方法的特点网页返回状态码 200 非200 区 ...
Python网页爬虫练习：requests库Beautiful爬取bilibili网页信息
我是卢本伟! import requests from bs4 import BeautifulSoup import bs4 def get_blibli_vedio():#获取bilibili实时 ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页图片代码示例
最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
Python网络爬虫实例——“中国最好大学排名爬取”（嵩天：北理工大学）学习笔记
这个例子比较简单也容易理解,我将细致的解析这个例子中算法流程.写一个博客算是给自己一个激励吧.一起加油.(_ZHJ三月和九月) 完整版代码 import requests from bs4 impor ...
java爬虫系列（二）——爬取动态网页
准备工作项目地址网页解析工具地址启动网页解析器根据系统选择所需文件指定端口号启动工具项目配置 seimi.properties SeimiAgentDemo.java 分析原网页代码 Bo ...
【Java网络爬虫实战篇】使用Jsoup爬取和解析王者荣耀全英雄全皮肤（思路/代码/问题分析）
由于博主前两天刚入门Java爬虫,并且自学了Jsoup的爬取和解析方式以及输入输出流的相关知识,因此打算检验一下目前的学习成果.在一番深思熟虑(x)后,毅然打算爬取王者荣耀官网全英雄全皮肤的壁纸. 爬 ...
Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息
Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海.北京关于区块链职位的求职信息目录输出结果 1.上海区块链职位 2.北京区块链职位设计思路核心代码输出结果 1. ...
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

java 爬虫 html页面 parse,Java 爬虫爬取html网页解析

java 爬虫 html页面 parse,Java 爬虫爬取html网页解析相关推荐

最新文章

热门文章

java 爬虫 html页面 parse,Java 爬虫 爬取html网页解析

java 爬虫 html页面 parse,Java 爬虫 爬取html网页解析相关推荐

最新文章

热门文章

java 爬虫 html页面 parse,Java 爬虫爬取html网页解析

java 爬虫 html页面 parse,Java 爬虫爬取html网页解析相关推荐