Java培训教程之使用Jsoup实现简单的爬虫技术
1.Jsoup简述
Java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序。
Jsoup拥有十分方便的api来处理html文档,比如参考了DOM对象的文档遍历方法,参考了CSS选择器的用法等等,因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。
2.快速开始
1)编写HTML页面
页面中表格的商品信息是我们要爬取的数据。其中属性pname类的商品名称,以及属于pimg类的商品图片。
2)使用HttpClient读取HTML页面
HttpClient是一个处理Http协议数据的工具,使用它可以将HTML页面作为输入流读进java程序中。可以从http://hc.apache.org/下载HttpClient的jar包。
3)使用Jsoup解析html字符串
通过引入Jsoup工具,直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。相关API可以参考Jsoup官方文档:https://jsoup.org/cookbook/
下面我们使用Jsoup来获取上述html中指定的商品名称和价格的信息。
至此,我们已经实现使用HttpClient+Jsoup爬取HTML页面数据的功能。接下来,我们让效果更直观一些,比如将爬取的数据存到数据库中,将图片存到服务器上。
3.保存爬取的页面数据
1)保存普通数据到数据库中
将爬取的数据封装进实体Bean中,并存到数据库内。
2)保存图片到服务器上
直接通过下载图片的方式将图片保存到服务器本地。
4.总结
本案简单实现了使用HttpClient+Jsoup爬取网络数据,对于爬虫技术本身,还有很多值得深挖的地方,以后再为大家讲解。
本文来自千锋教育,转载请注明出处。
Java培训教程之使用Jsoup实现简单的爬虫技术相关推荐
- Java教程之使用Jsoup实现简单的爬虫技术
1.Jsoup简述 Java中支持的爬虫框架有很多,比如WebMagic.Spider.Jsoup等.今天我们使用Jsoup来实现一个简单的爬虫程序. Jsoup拥有十分方便的api来处理ht ...
- java图片简单爬虫_[Java教程]使用jsoup进行简单的爬虫操作爬取图片
[Java教程]使用jsoup进行简单的爬虫操作爬取图片 0 2015-12-01 17:00:27 package com.guanglan.util;import java.io.File;imp ...
- java培训教程分享:Java中怎样将数据对象序列化和反序列化?
本期为大家介绍的java培训教程是关于"Java中怎样将数据对象序列化和反序列化?"的内容,相信大家都知道,程序在运行过程中,可能需要将一些数据永久地保存到磁盘上,而数据在Java ...
- java培训教程分享:Java编写软件代码自动提示功能
本期的java培训教程分享主要是介绍的java编写软件代码的一个自动提示功能,很多零基础和初学java的同学们对这一块还不是很了解,Eclipse for android 实现代码自动提示智能提示功能 ...
- java培训教程分享:Java中用户如何自定义异常?
我们在学习java技术的时候应该有了解过,在java中是定义了很多的异常类的,虽然这些大量异常类可以帮助我们描述编程时出现的大部分异常情况,但是在程序开发中有时可能需要描述程序中特有的异常情况,例如在 ...
- java培训教程:什么是匿名内部类?怎样创建匿名内部类?
本期java教程要为大家分享的是关于java中的匿名内部类,相信很多同学在学java技术的时候有了解过,下面我们就来详细的看一下. java培训教程:什么是匿名内部类?怎样创建匿名内部类?匿名内部类是 ...
- Java培训教程:”==“和 equals 方法究竟有什么区别?
在学习java技术过程中,我们会接触到一些变量值的相关知识,本期小编为大家介绍的教程就是关于"=="和 equals 方法究竟有什么区别?来看看下面的详细介绍. Java培训教程: ...
- 深圳java培训:使用原生JS重构简单的音乐播放器
深圳java培训:使用原生JS重构简单的音乐播放器 上次,我们使用Jquery开发了一款简单的音乐播放器(如下图), 后来学生希望能够用原生的JS重构一次, 那么,下面就来看看如何使用原生的JS重构吧 ...
- java毕业设计——基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码)——网络新闻分析系统
基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络 ...
最新文章
- 在Websphere AppServer 5.1中配置数据源
- mysql客户端与服务端_mysql语句在客户端与服务端的基本使用
- 百度2016/2017秋招部分题目解析
- 怎么像编辑提供wb原图_PLoS One:7月1日起,投稿必须提供原始WB图片!
- java图片压缩不失真_软件分享 | Lit图片压缩
- 为什么强烈禁止开发人员使用isSuccess作为变量名
- 20丨8年哈工程计算机专业录取分数线多少,双一流211大学 哈尔滨工程大学2020年各省各专业录取分数线...
- 10月31 安装redis报错
- CheerpJ相当于一个容器,效果类似Applet
- html静态页面作跳转
- CTOD安悦系统目录转移软件
- linux蓝牙遥控,蓝牙遥控器连接流程分析
- 安卓手机格式化后怎么恢复
- Java之自定义异常类、常用类String、StringBuilder、StringBuffer、时间类和枚举类的学习
- 第一个爬虫项目-爬取唯美小姐姐网站
- Swagger简单使用之从入门到精通
- 信创办公--基于WPS的Word最佳实践系列(使用智能图形丰富表达内容)
- Unity TouchScript大屏
- 【MySQL多表操作练习】
- Arduino(3) Mega2560和外部设备SPI通信
热门文章
- include_fns.php_管理页面
- SpringBoot接口参数校验
- MyBatis mapper代理方式
- 非主流图片编辑软件_快火拼多多直播发言软件怎么下载
- Spring Boot-@Value获取值和@ConfigurationProperties获取值的比较
- Baby Coins
- 【过程记录 】windows和ubuntu两台电脑局域网进行socket通信收发数据和传输文件
- Android复习01(内部存储、外部存储、SD卡存储、XML解析、Json解析、保存登录密码)
- Java【全排列 算法 模板】
- Runloop底层原理--源码分析