Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索



一、资源



二、数据来源

  • 网站:https://www.jd.com/
  • 搜索内容:java
  • 搜索网址:https://search.jd.com/Search?keyword=java
  • 界面截图:

  • 数据内容:J_goodsList —> li —> p-name|p-price|img


三、代码

  • xml依赖
            <!--Jsoup解析网页--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency>
    
  • 实体类
    @Data
    @NoArgsConstructor
    @AllArgsConstructor
    public class Content {private String name;private String price;private String img;
    }
    
  • 工具类
    @Component
    public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD("java").forEach(System.out::println);}public List<Content> parseJD(String keyword) throws Exception {//获取请求 https://search.jd.com/Search?keyword=javaString url = "https://search.jd.com/Search?keyword=" + keyword;ArrayList<Content> contents = new ArrayList<>();//解析网页Document document = Jsoup.parse(new URL(url), 300000);//获取产品列表Element element = document.getElementById("J_goodsList");//获取产品列表中的li元素Elements li = element.getElementsByTag("li");//获取li里面的具体内容for (Element el : li) {String name = el.getElementsByClass("p-name").eq(0).text();String price = el.getElementsByClass("p-price").eq(0).text();String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img");Content content = new Content();content.setName(name);content.setPrice(price);content.setImg(img);contents.add(content);}return contents;}
    }
    


四、运行结果

Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索相关推荐

  1. 转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)

    转载自http://blog.csdn.net/sac761/article/details/48379173 android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式) 标签: ...

  2. java jsoup爬动态网页_使用Jsoup+HtmlUnit抓取动态网页数据

    最后更新日期为2018.1.3 只为自己留个记录 待添加功能: 1.获取历史全部消息 2.爬取大于10条数据 3.自定义抓取公众号信息 package cc.buckler.test; import ...

  3. Node.js抓取网页信息并展示(cheerio网络爬虫)

    书接上回,哈哈,昨天发表了,怎么使用Node的cheerio模块进行抓取网页的信息,那我们拿到数据肯定是有自己的用处的啊. 我昨天抓取的是一些超级诱人的糕点的图片,今天展示出来,大家一起眼馋啊,啊哈哈 ...

  4. python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  5. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  6. python爬取网页文字和图片_简单的爬虫:爬取网站内容正文与图片

    我们来写个简单的爬虫#### 需要用到的模块 需要用到python的urllib和lxml模块,urllib为python的自带模块,lxml需要自行安装:pip install lxml 简单介绍u ...

  7. 【用Java爬取网页图片——爬虫爬取数据】

    用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...

  8. 【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化(上篇)

    文章目录 一.学习内容 二.任务介绍 三.爬虫知识 四.基本流程 五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据 一.学习内容 Python 语言的基础知识 网络爬虫的技术实现 数 ...

  9. 爬虫取中间文本_零基础学 Python 爬虫 I:了解爬虫基础

    人生苦短,我用 Python 引言 各位同学大家好,好久不见(可能只有一两天没见:囧)~~~ 先讲一件事情,昨天为啥没更新. emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的 ...

最新文章

  1. keras 的 example 文件 mnist_denoising_autoencoder.py 解析
  2. win32: 查询滚动条相关信息的注意事项
  3. java 反序列化漏洞简介
  4. 自己写的一个BMP转PNG工具BMP2PNGen
  5. chrome 扩展 修改 html,制作并反映Chrome扩展程序中popup.html的更改
  6. oracle之Flash Recovery Area全面介绍
  7. 逻辑分析推理(戴帽子问题)博弈
  8. 理论基础 —— 二叉树 —— 三叉链表
  9. C#根据身份证获出生日期和性别---含C#代码
  10. 第三十八篇、给UITabBar按钮的动画效果
  11. 信息检索 IR 中的评价指标
  12. android6.0 goldfish内核,ubuntu16.04下编译android-goldfish-3.4内核源码(android6.0.1系统源代码)...
  13. Android AppCompat 库详解
  14. linux安装时路径错误,科学网—安装Linux版的hysplit及相关问题集锦-系统Centos - 周勤迁的博文...
  15. C盘深度清理(超快简单全面)
  16. 对面装修,办公室放置绿萝,袋装活性炭,空气净化器,有用吗?
  17. ipv4地址的编码长度为_IPv4 中IP地址的长度为 ( ) 位,IPv6中IP地址的长度位 ( ) 位。_建筑施工技术答案_学小易找答案...
  18. 卸载奇安信360天擎
  19. js闭包的理解(传递闭包的通俗理解)
  20. selenium使用 webdriver.Chrome() 报错,找不到执行文件的解决方法(一)

热门文章

  1. Xilinx SelectIO 接口
  2. 手机项目,html抬头,HTMLCSS学习笔记(二十)-- 移动端项目准备工作
  3. 如何用php向wsdl服务器发请求,知道服务器端Wsdl,不写服务端代码,仅写客户端代码能调用服务端的方法吗?...
  4. linux shell写的文件断网没保存
  5. 使用Python实现真正意义上的随机数,谁能破解奖励1千万
  6. 将excel中的数据写入xml
  7. 自己整理的shell笔记
  8. XSS攻击之窃取Cookie
  9. 苹果「热修复门」事件复盘、分析和展望
  10. validate做前端表单验证