Jsoup基本是用来解析html的

package com.peko.demo;import com.peko.demo.utils.HttpUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;import java.io.File;
import java.io.IOException;/*** Jsoup 解析 html*/
public class Test02 {/*** 元素获取法* @throws IOException*/@Testpublic void test01() throws IOException {//chuanzhi.txt的内容是某一个网站的htmlDocument document = Jsoup.parse(new File("D:/my_project/chuanzhi.txt"),"UTF-8");
//        System.out.println(document);//根据 id 获取元素 getElementByIdElement element = document.getElementById("people");System.out.println(element.text());//根据标签获取元素Elements elements = document.getElementsByTag("title");Element titleElement = elements.get(0);System.out.println(titleElement.text());//根据 class 获取元素Element s_name = document.getElementsByClass("s_name").last();System.out.println(s_name.text());//根据属性获取元素Element adc = document.getElementsByAttribute("adc").last();System.out.println(adc.text());}/*** 选择器获取法* @throws IOException*/@Testpublic void test03() throws IOException {Document doc= Jsoup.parse(new File("D:/my_project/chuanzhi.txt"),"UTF-8");//根据标签名获取元素Elements spans = doc.select("span");for(Element span : spans){System.out.println(span.text());}//根据id获取元素String text = doc.select("#id").text();System.out.println(text);//根据class获取元素String text1 = doc.select(".class").text();System.out.println(text1);//根据属性获取元素String text2 = doc.select("[attribute]").text();System.out.println(text2);//根据属性值获取元素String text3 = doc.select("[class]=s_name").text();System.out.println(text3);}/*** 选择器高级用法* @throws IOException*/@Testpublic void test04() throws IOException {Document doc= Jsoup.parse(new File("D:/my_project/chuanzhi.txt"),"UTF-8");//根据标签名+id获取元素String text = doc.select("li#test").text();   //标签为li,id为testSystem.out.println(text);//根据标签名+classString text1 = doc.select("li.class_a").text();System.out.println(text1);//根据标签名+元素名String text2 = doc.select("span[abc]").text();System.out.println(text2);//任意组合String text3 = doc.select("span[abc].class").text();System.out.println(text3);//查找某个元素下的直接子元素String text4 = doc.select(".city_con > ul > li").text();  //ul下有两个子元素,li和ul这里只获取到了li//查找某个元素下的子元素String text5 = doc.select(".city_con li").text();System.out.println(text5);//查找某个元素下的所有直接子元素String text6 = doc.select("city_con > *").text();    //ul下有两个子元素,li和ul,这里都获取到了System.out.println(text6);}
}

【Jsoup】 基本使用相关推荐

  1. Jsoup获取全国地区数据(省市县镇村)

    为什么80%的码农都做不了架构师?>>>    `package com.soft.di.jsoup; import java.io.BufferedWriter; import j ...

  2. Jsoup 替换文本中所有的img src属性

    2019独角兽企业重金招聘Python工程师标准>>> 解决思路:在本地展示使用本地的src,发送到微信的时候使用微信的src.要实现功能,先需要做一些工作. 1.在富文本框中上传图 ...

  3. WebDriver 登陆 Jsoup抓取内容

    2019独角兽企业重金招聘Python工程师标准>>> 1. 环境 pom: <project xmlns="http://maven.apache.org/POM/ ...

  4. Jsoup下载图片报错:UnsupportedMimeTypeException

    2019独角兽企业重金招聘Python工程师标准>>> 使用Jsoup下载图片时,报错:不支持MimeType异常. Response request = Jsoup.connect ...

  5. atitit. java jsoup html table的读取解析 总结

    atitit. java jsoup html table的读取解析 总结 1. 两个大的parser ,,,jsoup 跟个   htmlparser 1 2. 资料比较 1 3. jsoup越佳. ...

  6. jsoup 多个 class Selector 怎么写?

    jsoup 多个 class Selector 怎么写? Jsoup select 选择器如何选择多个class Jsoup选择器选择的class有多个属性的写法 方法一: 写成两个select : ...

  7. Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中

    Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中 一.资源 EasyExcel使用教程 Jsoup爬虫教程 二.代码 xml依赖 ...

  8. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  9. Android之使用Jsoup抓取网络数据

    官方文档:http://www.open-open.com/jsoup/parsing-a-document.htm 例子:OSchinatest.zip

  10. JSOUP 打开url的方式

    一般采用这种方式: try{doc = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0 (Windows NT ...

最新文章

  1. CCIE-LAB-第四篇-OSPFv2+SHA384+BFD
  2. MYSQL Training: MySQL I
  3. linux中date命令设置系统时间的方法-转
  4. pom文件中配置阿里远程仓库
  5. Android学习(二):Android Studio创建并运行Android项目(Hello World ~.~)
  6. cns/clns搭建给clnc(udp转发)
  7. PowerShell通过Word批量打印文件
  8. 微信小程序弹窗有输入框且可以使用名文和密文输入
  9. 架构搜索文献笔记(5):《APQ:联合搜索网络结构、剪枝和量化策略》
  10. 电脑无缘无故黑屏,无法调节亮度。
  11. Android:音乐播放器(3)—从播放列表到播放歌曲
  12. 如何使用界面控件DevExpress WinForms自带的UI模板?其实很简单
  13. 基于微信小程序Map标签及高德地图开源方法实现路径导航
  14. CSS之text-overflow--怎么让多余的文字不显示或者以省略号表示
  15. 网络安全——Linux基础
  16. Unity Shader (Wave Trail)波追踪效果(一)
  17. 五大方面多管齐下,用友助力企业建设世界一流司库体系
  18. 百度SEO蓝色eBook电子书企业网站模板
  19. [转]马化腾:如何从“较好”到“最好”
  20. 广西大学计算机考研录取名单,广西大学2020考研推免生录取名单

热门文章

  1. python分析红楼梦中人物形象_红楼梦中四个人物形象分析
  2. 系统学习——Bootstrap
  3. 字符集和字符编码(Charset Encoding)
  4. 阿里巴巴编码规范 java认证记录
  5. 沈寅鑫银行内训实战专家
  6. 加密勒索病毒:诞生、忽视以及爆炸式增长
  7. 商场抽奖软件 android,召唤抽奖系统3.0正式版
  8. 从编程当中走向创业之路
  9. c语言输出变量案例,C语言经典例题100例——C语言练习实例41解答(static静态变量的用法)...
  10. HTML 媒体(Media)