一、什么是Jsoup?

jsoup是一款Java的HTML解析器、可以通过URL获取DOM元素并解析,也可对HTML文本内容进行解析,jsoup提供了一套非常简单的方法,类似于CSS、JQuery的操作方法对元素或者是数据进行操作。

二、Jsoup的特点及作用

  • 从URL,文件或字符串中抓取并解析HTML
  • 使用DOM遍历或CSS选择器查找和提取数据
  • 处理HTML元素,属性和文本
  • 根据安全的白名单清除用户提交的内容,以防止XSS攻击
  • 输出整洁的HTML

三、示例

1、解析资源的方式

(1) Jsoup.connect(urlPath).get();   //加载URL
(2) Jsoup.parse("");   //从字符串中解析
(3) Jsoup.parse(File in,String charsetName,String baseUri);  //从本地文件进行解析

该示例使用第一种方式,加载URL

2、添加相关依赖
2.1 pom.xml中添加依赖

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version>
</dependency>

2.2 或者下载Jar包:
jsoup-1.13.1.jar

3、示例代码

红色框中是我们想要的部分,每一个DIV对应一张图片


public class Test {/*** Jsoup常用对象:* 1、Document:文档对象* 2、Element:元素对象* 3、Elements:Element元素对象的集合* @param args*/public static void main(String[] args) {//设置请求的地址String urlPath = "http://sc.chinaz.com/tupian/fengjingtupian.html";//调用方法test(urlPath);}public static void test(String urlPath){try {         //加载URL中的元素Document document = Jsoup.connect(urlPath).get();//获取我们需要的内容(大概的节点)Elements elements = document.select(".all_wrap #container");//定位到我们想要的标签(详细节点)Elements elements2 = elements.select("img");//使用循环获取当个的元素for(Element node:elements2){//获取img标签中src属性值String href = node.attr("src");//从图像地址中截取一段文件名出来String fileName = href.substring(href.lastIndexOf("/")+1);//使用URL单个访问URL url = new URL(href);//打开连接URLConnection conn = url.openConnection();//使用文件流读取网页上的内容InputStream is = conn.getInputStream();//把获取到的内容,保存在本地中OutputStream os = new FileOutputStream(new File("d:\\images",fileName));//设置临时存储变量int i = 0 ;while((i = is.read())!=-1){os.write(i);}System.out.println(fileName+"   ----------->下载成功!");                }   } catch (Exception e) {e.printStackTrace();}}}

使用Jsoup实现网络爬虫相关推荐

  1. Android实战——jsoup实现网络爬虫,糗事百科项目的起步

    Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...

  2. Android爬虫(一)使用OkHttp+Jsoup实现网络爬虫

    这几天写了一个Android上面简单的爬虫Demo 数据爬取完后通过RecyclerView展示,这篇文章先写爬取数据部分 这里我爬虫测试网站是:什么值得买 想要爬取的数据是首页的一些精选文章,主要爬 ...

  3. java是由Jsoup实现网络爬虫(爬取豆瓣书评top25)的书籍数据

    这是主要对Jsoup 的方法熟悉,Jsoup 学习推荐 下面就是爬取数据的有关代码: String link = null; // 书的链接String title = null; // 书的名称St ...

  4. 基于Jsoup实现的简单网络爬虫

    之前是完全不会爬虫的,但是新项目中需要从网页上爬一大堆的数据,所以就花了一天时间学习了下.主题部分还是很简单的. * 既然想要写博文,那我就要写的细致点,对自己对读者都是一种负责! 什么是爬虫? 我所 ...

  5. 网络爬虫——Jsoup

    一.什么是Jsoup? Jsoup是java的HTML解析器,直接解析某个URL地址.HTML文本内容,可通过DOM.CSS等操作方法取出和操作数据. 二.Jsoup的主要功能: 1.从某个URL.文 ...

  6. java jsoup 网络爬虫 jsoup解析html Java爬虫 Jsoup爬虫 jsoup例子

    java jsoup 网络爬虫 java jsoup 网络爬虫 学习例子(一)抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫 学习例子(二)只抓取豆瓣电影5星(力荐)电影名称 java j ...

  7. java毕业设计——基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码)——网络新闻分析系统

    基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络 ...

  8. 如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel

    1:闲话少说,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. ...

  9. java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS

    java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS /** filename getHtml.js* phantomjs.exe 2.0.0* author InJa ...

  10. 基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序(以纵横中文网为例)

    这个程序是我的毕业设计所设计的一个程序,由于时间原因,可能有些地方或者细节没有考虑清楚,请各位多多包涵 最后的源代码工程我已经上传,有需要的可以自取,希望可以帮助到大家 程序简介 此程序使用Java语 ...

最新文章

  1. gzip压缩後的javascript在ie下不加载
  2. Miniconda3的环境配置
  3. Java如何解析markdown_使用Java实现的一款Markdown解析器md2x
  4. Unity重置Animator到初始状态和重复播放同一个Animation
  5. 云架构师是做什么的_为什么以及如何成为云架构师
  6. 6月首批国产游戏获批:共55款 腾讯B站上榜
  7. Scala:未受重视却潜力巨大的Android编程语言
  8. 手工删除oracle的方法
  9. 深入浅出统计学-第三章
  10. MATLAB 2018a Mac版安装激活教程
  11. Windows设置程序开机自启动_设置程序开机自启动的几种方法_添加启动项
  12. 面向对象编程 — 为什么要引入抽象概念?
  13. 在线供应链服务平台方案:构建企业供应链平台业务、功能、技术管理架构
  14. Windows添加系统桌面常用图标
  15. Chakra-UI 学习笔记
  16. java存储字节_Java字节与字符流永久存储json数据
  17. 如何在电脑/手机上将JPEG图片保存为PDF?
  18. VBA字符串操作:从右向左截取特定分隔符后的内容
  19. PAT 甲级 1121  Damn Single
  20. 如何把计算机软件卸载干净

热门文章

  1. 城市统计年鉴数据查询
  2. rose服务器系统,Rose HA for windows
  3. 计算机的excel的知识,计算机基础知识:Excel常用操作(一)
  4. 唐宇迪学习笔记12:sklearn构造决策树
  5. 搜索文件夹中word文档中的关键字
  6. 机器学习入门:隐马尔科夫模型-8
  7. java项目加载器_Java程序的类加载器
  8. 深入理解java虚拟机
  9. 查看计算机桌面隐藏文件夹,怎么查看隐藏文件?2种方法教你查看电脑中的隐藏文件...
  10. 流程管理思想与方法论(流程的永恒之道——笔记一)