• 网络爬虫
    含义就是自动抓取互联网信息的程序,
    jsoup可以通过url获取到html源文件,源文件中包含着网站数据,我们可以解析html源文件的数据来获取需要的信息,

  • 开发步骤
    1 引入jar包
    2 使用jsonp获取网页html源文件,转化成Document对象
    3 通过Document对象,获取需要的Element对象,
    4 获取Element对象中的数据,
    5 设置循坏自动爬取

public class CrawlerDemo {//爬虫public static void main(String[] args) {//使用jsoup获取网页中的html源文件,转化成Document对象,try {Document parse = Jsoup.parse(new URL("https://pic.netbian.com/"), 5000);System.out.println(parse); //输出的源文件数据信息//通过document对象来获取需要element对象Elements img = parse.getElementsByAttributeValue("alt", "天空小姐姐 黑色唯美裙子 厚涂画风 4k动漫壁纸");Elements title = parse.getElementsByAttributeValue("title", "4k壁纸");Elements select = parse.select(".w");System.out.println("++++++++++++++++++++");System.out.println(img);System.out.println(title);System.out.println(select);//获取Element对象中的数据String href = img.get(0).attr("src");String href1 = title.get(1).attr("href");String text = select.text();System.out.println("+++++++++++++++++++++++++++");System.out.println("href"+href);System.out.println("href1"+href1);System.out.println("text"+text);System.out.println(href1+href);} catch (IOException e) {e.printStackTrace();}}
  • 认识Jsoup
    是用来解析html页面的工具包,把页面解析出来封装成一个document对象,同时也可以解析xml配置文件,
//第一步先了解parse()方法 获取document对象
try {//解析html页面 parse方法是解析文件或是路径String path = "com/bjsxt/xml/haha.xml";Jsoup.parse(new File(path), "utf-8");//给定本地文件的路径和字符集 返回document对象Jsoup.parse("html");//给定一个页面解析成document对象  返回document对象Jsoup.parse(new URL("url"),1000);//给定时间内解析url网页文件  返回document对象} catch (IOException e) {e.printStackTrace();}//第二步 根据parse方法返回的documnet对象来获取对应的元素标签 Elements对象Elements a = parse.getElementsByTag("a"); //根据选择标签名来获取对应的标签
Elements img = parse.getElementsByAttributeValue("alt", "天空小姐姐 黑色唯美裙子 厚涂画风 4k动漫壁纸");
Elements title = parse.getElementsByAttributeValue("title", "4k壁纸"); //根据元素标签的属性值来获取对应的标签
Elements select = parse.select(".w"); //根据选择器选择元素标签
parse.getElementById(Sting id) //根据元素标签中的id属性来获取对应的标签// 根据获取到的元素标签 来获取标签中的内容,属性值
String href = img.get(0).attr("src"); //获取到标签中的src属性值
String href1 = title.get(1).attr("href");//获取到的是标签中的href属性值
String text = select.text();//获取到的是标签中的文本内容
select.html();//获取元素包含带标签的文本,

使用Jsoup完成网页爬虫相关推荐

  1. Android实战——jsoup实现网络爬虫,糗事百科项目的起步

    Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...

  2. 利用Fiddler手机抓包对ONE·APP网页爬虫实现电影资讯微信Java开发

    前言 好久没写博客了,打算把之前做的一个电影评分资讯推送的微信开发全程记录一下,适合对网络爬虫.微信开发感兴趣的童鞋.在教程开始之前,我想先引出两个问题(这次写博客假装很有条理的样子= =) 1. 为 ...

  3. 利用Fiddler手机抓包对ONE APP网页爬虫实现电影资讯微信Java开发

    前言 好久没写博客了,打算把之前做的一个电影评分资讯推送的微信开发全程记录一下,适合对网络爬虫.微信开发感兴趣的童鞋.在教程开始之前,我想先引出两个问题(这次写博客假装很有条理的样子= =) 1. 为 ...

  4. Jsoup学习 JAVA爬虫爬取美女网站 JAVA爬虫爬取美图网站 爬虫

    最近对爬虫起了兴趣,但是网上都说做爬虫最好得语言是py.但是我只会java,所以就想能不能用java实现一个爬虫,百度搜索发现,其实java也有很多优秀得开源爬虫框架,包括Gecco,webmagic ...

  5. Selenium+Jsoup框架实现爬虫与自动化测试实战

    爬虫的场景 小许同学想做一个新闻网站,但新闻网站需要很多新闻素材,并且新闻对实时性要求比较高,从发现新闻热点,写稿,审核,排版.发稿.投放需要多人多个部门协同完成,当你这些资源都不具备的时候,而你恰恰 ...

  6. 【谷歌推网页爬虫新标准,开源robots.txt解析器】

    https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...

  7. jsoup开发网页客户端3

    这个系列好久没更新,最近好忙,老大说未来是Html5的,所以最近一直学习前端以及Html5的一些东西.Android5.0的诞生,让我们眼前一亮,独特的Material风格更是吸引了无数人. 话说不学 ...

  8. python网页爬虫-python网页爬虫浅析

    Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. ...

  9. python网页爬虫-Python网页爬虫

    曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...

  10. Python十分适合用来开发网页爬虫

    Python十分适合用来开发网页爬虫,理由如下: 1.抓取网页自身的接口 比较与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简练:比较其他动态脚本语言,如perl,sh ...

最新文章

  1. $.ajax datatype默认是什么类型,理解jquery ajax中的datatype属性选项值
  2. 复旦大学计算机保研经历,#易保研#经验分享 | 个人经历分享,圆梦复旦大学!...
  3. JSON 序列化 与 反序列化
  4. mysql group by_技术分享 | 回顾 MySQL 的 MTS
  5. python windows 消息通讯_如何使用python與windows中的事件/消息掛鈎
  6. [软件更新]暴风影音2009最新特别版光盘免费赠送(暴风门特别版)
  7. Delphi源码网站
  8. 计算机基础视频教程百度云,计算机应用基础视频教程
  9. 新路由3 Newifi3 D2 Lede固件
  10. c# WPF中通过双击编辑DataGrid中Cell的示例(附源码)
  11. C语言估算数学常量e,数学常数e
  12. vim生成连续数字列
  13. canvas流星雨网页h5动画
  14. 一段经典模拟退火算法代码
  15. 福大软工 · 第十一次作业 - Alpha 事后诸葛亮(团队)
  16. Content type 'multipart/form-data;boundary=--------------------------496238283102520395700876;解决方案
  17. 非遗“洋蛇灯”国家级传承人身患尿毒症 期待年轻人加入
  18. 戴尔服务器光盘装Linux系统,DELL服务器引导光盘下载连接,DELL引导盘万能驱动支持所有型号...
  19. 人工智能:PyTorch深度学习框架介绍
  20. B端产品经理的发展路径思考(间歇性更新完毕)

热门文章

  1. appium工作原理及启动方式
  2. http中响应状态码表示的意义?
  3. [学习日记] 文件读写 FileStream
  4. java jvm 1.6_JVM1.6 GC详解
  5. python货币转化为资本的前提_深度剖析比特币背后的技术细节
  6. c语言输入数字 获取星期几,输入字母,判断星期几,求大神指点
  7. stn算子_C++学习(七)入门篇——C++算数运算符
  8. python中dtype与dtypes区别
  9. ERROR: CMake must be installed to build dlib
  10. ValueError: This sheet is too large! Your sheet size