使用Jsoup完成网页爬虫

网络爬虫
含义就是自动抓取互联网信息的程序，
jsoup可以通过url获取到html源文件，源文件中包含着网站数据，我们可以解析html源文件的数据来获取需要的信息，
开发步骤
1 引入jar包
2 使用jsonp获取网页html源文件，转化成Document对象
3 通过Document对象，获取需要的Element对象，
4 获取Element对象中的数据，
5 设置循坏自动爬取

public class CrawlerDemo {//爬虫public static void main(String[] args) {//使用jsoup获取网页中的html源文件，转化成Document对象，try {Document parse = Jsoup.parse(new URL("https://pic.netbian.com/"), 5000);System.out.println(parse); //输出的源文件数据信息//通过document对象来获取需要element对象Elements img = parse.getElementsByAttributeValue("alt", "天空小姐姐 黑色唯美裙子 厚涂画风 4k动漫壁纸");Elements title = parse.getElementsByAttributeValue("title", "4k壁纸");Elements select = parse.select(".w");System.out.println("++++++++++++++++++++");System.out.println(img);System.out.println(title);System.out.println(select);//获取Element对象中的数据String href = img.get(0).attr("src");String href1 = title.get(1).attr("href");String text = select.text();System.out.println("+++++++++++++++++++++++++++");System.out.println("href"+href);System.out.println("href1"+href1);System.out.println("text"+text);System.out.println(href1+href);} catch (IOException e) {e.printStackTrace();}}

认识Jsoup
是用来解析html页面的工具包，把页面解析出来封装成一个document对象，同时也可以解析xml配置文件，

//第一步先了解parse()方法 获取document对象
try {//解析html页面 parse方法是解析文件或是路径String path = "com/bjsxt/xml/haha.xml";Jsoup.parse(new File(path), "utf-8");//给定本地文件的路径和字符集 返回document对象Jsoup.parse("html");//给定一个页面解析成document对象  返回document对象Jsoup.parse(new URL("url"),1000);//给定时间内解析url网页文件  返回document对象} catch (IOException e) {e.printStackTrace();}//第二步 根据parse方法返回的documnet对象来获取对应的元素标签 Elements对象Elements a = parse.getElementsByTag("a"); //根据选择标签名来获取对应的标签
Elements img = parse.getElementsByAttributeValue("alt", "天空小姐姐 黑色唯美裙子 厚涂画风 4k动漫壁纸");
Elements title = parse.getElementsByAttributeValue("title", "4k壁纸"); //根据元素标签的属性值来获取对应的标签
Elements select = parse.select(".w"); //根据选择器选择元素标签
parse.getElementById(Sting id) //根据元素标签中的id属性来获取对应的标签// 根据获取到的元素标签 来获取标签中的内容，属性值
String href = img.get(0).attr("src"); //获取到标签中的src属性值
String href1 = title.get(1).attr("href");//获取到的是标签中的href属性值
String text = select.text();//获取到的是标签中的文本内容
select.html();//获取元素包含带标签的文本，

使用Jsoup完成网页爬虫相关推荐

Android实战——jsoup实现网络爬虫，糗事百科项目的起步
Android实战--jsoup实现网络爬虫,爬糗事百科主界面本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用结语前言对于Android初学者想要做项目时,最 ...
利用Fiddler手机抓包对ONE·APP网页爬虫实现电影资讯微信Java开发
前言好久没写博客了,打算把之前做的一个电影评分资讯推送的微信开发全程记录一下,适合对网络爬虫.微信开发感兴趣的童鞋.在教程开始之前,我想先引出两个问题(这次写博客假装很有条理的样子= =) 1. 为 ...
利用Fiddler手机抓包对ONE APP网页爬虫实现电影资讯微信Java开发
前言好久没写博客了,打算把之前做的一个电影评分资讯推送的微信开发全程记录一下,适合对网络爬虫.微信开发感兴趣的童鞋.在教程开始之前,我想先引出两个问题(这次写博客假装很有条理的样子= =) 1. 为 ...
Jsoup学习 JAVA爬虫爬取美女网站 JAVA爬虫爬取美图网站爬虫
最近对爬虫起了兴趣,但是网上都说做爬虫最好得语言是py.但是我只会java,所以就想能不能用java实现一个爬虫,百度搜索发现,其实java也有很多优秀得开源爬虫框架,包括Gecco,webmagic ...
Selenium+Jsoup框架实现爬虫与自动化测试实战
爬虫的场景小许同学想做一个新闻网站,但新闻网站需要很多新闻素材,并且新闻对实时性要求比较高,从发现新闻热点,写稿,审核,排版.发稿.投放需要多人多个部门协同完成,当你这些资源都不具备的时候,而你恰恰 ...
【谷歌推网页爬虫新标准，开源robots.txt解析器】
https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...
jsoup开发网页客户端3
这个系列好久没更新,最近好忙,老大说未来是Html5的,所以最近一直学习前端以及Html5的一些东西.Android5.0的诞生,让我们眼前一亮,独特的Material风格更是吸引了无数人. 话说不学 ...
python网页爬虫-python网页爬虫浅析
Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. ...
python网页爬虫-Python网页爬虫
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
Python十分适合用来开发网页爬虫
Python十分适合用来开发网页爬虫,理由如下: 1.抓取网页自身的接口比较与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简练:比较其他动态脚本语言,如perl,sh ...

使用Jsoup完成网页爬虫

使用Jsoup完成网页爬虫相关推荐

最新文章

热门文章