Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
一、资源
为什么接下来的代码中要使用
el.getElementsByTag("img").eq(0)
?因为:JavaScript中getElementById,getElementsByTagNam和getElementsByClassName的区别与用法
ID与CLASS的区别?
Lombok Requires Annotation Processing: Do you want to enable annotation processors? Enable
.text()
用于获取元素中的文本内容(即被渲染的部分,被<…> <…>包围的内容)Java学习-055-Jsoup爬虫通过设置获取响应数据大小的最大值,解决因默认获取 1MB 响应数据导致的无法获取全部的响应数据内容问题
二、数据来源
网站:https://www.jd.com/
搜索内容:java
搜索网址:https://search.jd.com/Search?keyword=java
界面截图:
数据内容:J_goodsList —> li —> p-name|p-price|img
三、代码
xml依赖
<!--Jsoup解析网页--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency>
实体类
@Data @NoArgsConstructor @AllArgsConstructor public class Content {private String name;private String price;private String img; }
工具类
@Component public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD("java").forEach(System.out::println);}public List<Content> parseJD(String keyword) throws Exception {//获取请求 https://search.jd.com/Search?keyword=javaString url = "https://search.jd.com/Search?keyword=" + keyword;ArrayList<Content> contents = new ArrayList<>();//解析网页Document document = Jsoup.parse(new URL(url), 300000);//获取产品列表Element element = document.getElementById("J_goodsList");//获取产品列表中的li元素Elements li = element.getElementsByTag("li");//获取li里面的具体内容for (Element el : li) {String name = el.getElementsByClass("p-name").eq(0).text();String price = el.getElementsByClass("p-price").eq(0).text();String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img");Content content = new Content();content.setName(name);content.setPrice(price);content.setImg(img);contents.add(content);}return contents;} }
四、运行结果
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索相关推荐
- 转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
转载自http://blog.csdn.net/sac761/article/details/48379173 android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式) 标签: ...
- java jsoup爬动态网页_使用Jsoup+HtmlUnit抓取动态网页数据
最后更新日期为2018.1.3 只为自己留个记录 待添加功能: 1.获取历史全部消息 2.爬取大于10条数据 3.自定义抓取公众号信息 package cc.buckler.test; import ...
- Node.js抓取网页信息并展示(cheerio网络爬虫)
书接上回,哈哈,昨天发表了,怎么使用Node的cheerio模块进行抓取网页的信息,那我们拿到数据肯定是有自己的用处的啊. 我昨天抓取的是一些超级诱人的糕点的图片,今天展示出来,大家一起眼馋啊,啊哈哈 ...
- python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...
利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...
- 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
- python爬取网页文字和图片_简单的爬虫:爬取网站内容正文与图片
我们来写个简单的爬虫#### 需要用到的模块 需要用到python的urllib和lxml模块,urllib为python的自带模块,lxml需要自行安装:pip install lxml 简单介绍u ...
- 【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
- 【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化(上篇)
文章目录 一.学习内容 二.任务介绍 三.爬虫知识 四.基本流程 五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据 一.学习内容 Python 语言的基础知识 网络爬虫的技术实现 数 ...
- 爬虫取中间文本_零基础学 Python 爬虫 I:了解爬虫基础
人生苦短,我用 Python 引言 各位同学大家好,好久不见(可能只有一两天没见:囧)~~~ 先讲一件事情,昨天为啥没更新. emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的 ...
最新文章
- keras 的 example 文件 mnist_denoising_autoencoder.py 解析
- win32: 查询滚动条相关信息的注意事项
- java 反序列化漏洞简介
- 自己写的一个BMP转PNG工具BMP2PNGen
- chrome 扩展 修改 html,制作并反映Chrome扩展程序中popup.html的更改
- oracle之Flash Recovery Area全面介绍
- 逻辑分析推理(戴帽子问题)博弈
- 理论基础 —— 二叉树 —— 三叉链表
- C#根据身份证获出生日期和性别---含C#代码
- 第三十八篇、给UITabBar按钮的动画效果
- 信息检索 IR 中的评价指标
- android6.0 goldfish内核,ubuntu16.04下编译android-goldfish-3.4内核源码(android6.0.1系统源代码)...
- Android AppCompat 库详解
- linux安装时路径错误,科学网—安装Linux版的hysplit及相关问题集锦-系统Centos - 周勤迁的博文...
- C盘深度清理(超快简单全面)
- 对面装修,办公室放置绿萝,袋装活性炭,空气净化器,有用吗?
- ipv4地址的编码长度为_IPv4 中IP地址的长度为 ( ) 位,IPv6中IP地址的长度位 ( ) 位。_建筑施工技术答案_学小易找答案...
- 卸载奇安信360天擎
- js闭包的理解(传递闭包的通俗理解)
- selenium使用 webdriver.Chrome() 报错,找不到执行文件的解决方法(一)