Jsoup处理URLs
我们在处理HTML内容时,可能经常会遇到这种问题,需要将html页面里面的链接地址从相对地址转换成绝对地址,如何使用Jsoup来解决这个问题呢?
方法
在你解析文档时确保有指定base URI,然后
使用 abs: 属性前缀来取得包含base URI的绝对路径。
示例
Document doc = Jsoup.connect("http://www.baidu.com/").get();Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href");
// "http://www.baidu.com/gaoji/preferences.html"
解说:
在HTML元素中,URLs经常写成相对于文档位置的相对路径: …. 当你使用 Node.attr(String key) 方法来取得a元素的href属性时,它将直接返回在HTML源码中指定定的值。
假如你需要取得一个绝对路径,需要在属性名前加 abs: 前缀。这样就可以返回包含根路径的URL地址attr(“abs:href”)
因此,在解析HTML文档时,定义base URI非常重要。如果你不想使用abs: 前缀,还有一个方法能够实现同样的功能 Node.absUrl(String key)。
Jsoup处理URLs相关推荐
- 使用jsoup入门java爬虫 案例
1.导入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifac ...
- java手机壁纸_java-爬取手机高清壁纸
public class DownWallpaper extends JFrame implementsActionListener{private JButton down = null;publi ...
- 全国城市空气质量实时发布平台数据抓取采集获取
全国城市空气质量实时发布平台(https://air.cnemc.cn:18007/ 原http://106.37.208.233:20035/)数据抓取采集获取,数据处理方法 import or ...
- java编写爬虫_手把手教你从零开始用Java写爬虫
本文将手把手地教大家从零开始用Java写一个简单地爬虫! 目标 爬取全景网图片,并下载到本地 收获 通过本文,你将复习到:IDEA创建工程 IDEA导入jar包 爬虫的基本原理 Jsoup的基本使用 ...
- java手机壁纸_用java爬取手机壁纸
JFrame包,循环爬取图片然后下载图片 public class DownWallpaper extends JFrame implements ActionListener{ privat ...
- java用jsoup爬网页数据_java使用jsoup爬取网页数据
1.导入依赖 org.jsoup jsoup 1.11.3 1.解析一个html字符串 示例如下:String html = " 这是P元素的内容 ";Document docum ...
- JAVA----爬虫(一)JSoup
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 官方ap ...
- jsoup 获取html中body内容_jsoup实现java抓取网页内容
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.jsoup ...
- Jsoup解析HTML实例及文档方法详解
转载自 Jsoup解析HTML实例及文档方法详解 这篇文章主要介绍了Jsoup如何解析一个HTML文档.从文件加载文档.从URL加载Document等方法,对Jsoup常用方法做了详细讲解,最近提供 ...
最新文章
- BeanUtils.copyProperties 需要getset方法支持
- 通过经度纬度得到距离
- jQuery表单验证的几种方法
- react jest测试_如何使用React测试库和Jest开始测试React应用
- 信号调制疑问_DSM 调制器simulink仿真分析
- 在 IntelliJ IDEA 中部署应用到服务器
- Scala入门到精通——第五节 函数与闭包
- 杨凌职业技术学院计算机专业宿舍,杨凌职业技术学院宿舍条件怎么样
- 大工18春《c和c语言程序设计》,东大21春《高级语言程序设计基础》在线平时作业1题目及答案...
- ARMv6 ARMv7 架构 整体介绍
- kali rpm 安装方法_解决kali linux中无法使用RPM命令
- matlab计算方差和平均值,matlab求平均值和方差
- ARGB颜色转16进制颜色
- 计算机课情感态度与价值观,浅谈信息技术课中情感态度价值观的培养
- VIVADO与Matlab版本对照表
- hdu6060 RXD and dividing
- C++程序员发展方向
- CHINAPLAS国际橡塑展落户深圳,扬帆启航踏新程
- (转)JPVideoPlayer 基于avplayer的音视频列表播放
- Windows下双网卡配置静态路由,实现内外网同时使用
热门文章
- 华为硬件工程师社招机考题库_中级会计机考你了解吗?机考操作常见八大问题速看...
- Win10桌面的图标都不见了怎么办 Win10电脑桌面图标找回方法
- QQ浏览器如何添加并进入书签地址?QQ浏览器添加并进入书签地址的方法
- 糖果浏览器和139邮箱巧妙应用:将网页文字一键发送到手机上
- java中的Static、final、Static final各种用法
- 使用between and查找时间范围时的日期边界问题
- Redmine使用手册
- JAVA分布式篇2——Zookeeper
- sql读取excel数据_Python 读取 Excel 数据,并插入到MySQL
- 利用电脑上自带指纹识别嵌入程序中_Win 10 隐藏功能:不用任何软件就可实现手机投屏到电脑...