在解析获得一个Document实例对象,并查找到一些元素之后,我们如何取得在这些元素中的数据呢???

使用Jsoup抽取属性,一般方法如下:
1.要取得一个属性的值,可以使用Node.attr(String key) 方法
2.对于一个元素中的文本,可以使用Element.text()方法
3.对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法

示例

String html = "<p>An <a href='http://baidu.com/'><b>baidu</b></a> link.</p>";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
Element link = doc.select("a").first();//查找第一个a元素</pre>String text = doc.body().text(); // "An baidu link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://baidu.com/"//取得链接地址
String linkText = link.text(); // "baidu""//取得链接地址中的文本</pre>String linkOuterH = link.outerHtml();
// "<a href="http://baidu.com"><b>baidu</b></a>"
String linkInnerH = link.html(); // "<b>baidu</b>"//取得链接内的html内容

解说:
 上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用:

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)

这些访问器方法都有相应的setter方法来更改数据.

Jsoup从元素中抽取属性 文本和HTML相关推荐

  1. HTML元素中的属性2(路径详解)—零基础自学网页制作

    相对路径与绝对路径的使用方法 在<HTML元素中的属性1-零基础自学网页制作>这一篇教程最后内容中,我们详细展示了"绝对路径"与"相对路径"在写法上 ...

  2. input眼睛显示 vue_修改表单元素中placeholder属性样式、清除IE浏览器中input元素的清除图标和眼睛图标...

    一.修改input元素placeholder属性样式 在做项目的时候,一般表单元素的placeholder属性样式都是使用浏览器默认的,但有时候为了追求设计上的美感需要修表单元素的placeholde ...

  3. java vtd-xml_在java中使用vtd-xml获取xml中的属性文本

    给出以下xml: Lorem ipsum... .... ... 我正在使用带有XPath的vtd-xml来检索'textGoal',如下所示: VTDGen vg = new VTDGen(); v ...

  4. HTML中td元素的nowrap属性

    HTML中td元素的nowrap属性表示禁止单元格中的文字自动换行. 但使用时要注意的是,td元素中nowrap属性的行为与td元素的width属性有关.如果未设置td宽度,则nowrap属性起作用的 ...

  5. jsoup 获取html中body内容_jsoup实现java抓取网页内容

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.jsoup ...

  6. ​​​​​​​​​​​​​​使用dom方式遍历文档||获取元素||从元素中获取数据

    使用dom方式遍历文档 获取元素 根据id查询元素getElementById 根据标签获取元素getElementsByTag 根据class获取元素getElementsByClass 根据属性获 ...

  7. php js怎么去掉类属性,如何修改DOM中的属性,类和样式

    通过jQuery来获取要修改的DOM元素,然后通过JavaScript中方法来对属性.类以及样式进行修改 今天在本篇文章中将分享的是如何通过修改html元素节点的样式,类和属性来进一步的更改dom,, ...

  8. 单击时选择HTML文本输入中的所有文本

    我有以下代码在HTML网页中显示文本框. <input type="text" id="userid" name="userid" v ...

  9. html常用语义化元素和全局属性整理

    WWW www其实是World Wide Web 的缩写,它是一个由许多互相链接的超文本组成的系统,通过互联网访问, 在汉语中,www 被翻译成(web 万维网 全球广域网). <HTML> ...

最新文章

  1. python gui选择_Python之GUI的最终选择(Tkinter)
  2. Flink在美团的应用与实践听课笔记
  3. jsx怎么往js里传参数_实践Vue 3.0做JSX(TSX)风格的组件开发
  4. oracle 安装程序异常终止,Oracle安装错误“程序异常终止
  5. Go学习之-用vscode写go代码遇到的问题
  6. 计算机的主存储器可以分为哪两类,2017年计算机应用基础模拟试题「答案」(2)...
  7. day10-列表生成式
  8. dnn学习:数据访问(1)
  9. 游戏开发物语方案点数分配_直播开发平台解决方案——如何开发游戏直播平台...
  10. 安装配置rabbitmq
  11. tricks about and-or in python
  12. [转]Birdfont 2.10 发布,字体编辑器
  13. Apache Tomcat 官网下载
  14. scala下载和环境搭建
  15. 手机modem开发之VoLTE信令
  16. mmWave AWR1x Interference Detection - A crucial step to effective mitigation
  17. 外包的水有多深?华为15k+的外包测试岗能去吗?
  18. 制造业升级:老调年年弹
  19. ssh连接远程服务器报错:ssh_exchange_identification: read: Connection reset by peer
  20. springboot + shiro的配置

热门文章

  1. 华为硬件工程师社招机考题库_中级会计机考你了解吗?机考操作常见八大问题速看...
  2. c语言数码管的动态显示时间,8位数码管动态显示时间,可调节,调节的数闪烁显示...
  3. Win7系统桌面壁纸换不了怎么办
  4. Mybatis判断int类型是否为空
  5. springboot项目中关于时间类型转换的格式问题
  6. 学习Spring Boot:(四)应用日志
  7. JAVA WEB篇1——初识JAVAWEB
  8. php通过ajax下载文件,通过Ajax如何请求下载Execl文件
  9. python与linux关系_如何处理Linux / Python依赖关系?
  10. hive中导入text文件遇到的坑