首先是工具介绍

Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

HttpClient

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。

可能看的有点迷,直接上例子就好了

首先我们要确定一个要爬取的网站拿一个都快被爬破的经典教材起点中文网的完美世界吧

https://www.qidian.com/search?kw=%E5%AE%8C%E7%BE%8E%E4%B8%96%E7%95%8C

然后我们要对这个网页的结构进行分析,按F12

找到书的名字和作者名字的具体在哪个div里面,或者可以直接根据class名字找到要爬取的内容

下面具体看代码解释

packagecom.wpb.dao;importjava.io.IOException;imp

java爬虫实例_关于java爬虫以及一些实例相关推荐

  1. java 爬虫框架_不知道Python爬虫?这篇文章丢给他(内含框架结构)

    前言 爬虫即网络爬虫,英文是Web Spider.翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来. 我们在浏览器中输入一个网 ...

  2. java 获取邮编_基于JAVA的根据地名查邮编api调用代码实例

    代码描述:基于JAVA的根据地名查邮编api调用代码实例 接口地址:http://www.juhe.cn/docs/api/id/66 1.[代码][Java]代码 import java.io.Bu ...

  3. java 数据结构实例_数据结构(Java)——栈的实例

    惟大英雄能本色,是真名士自风流 --易中天(百家讲坛) 1.表达式的转换 1.1 中缀表达式转前缀表达式 中缀表达式转前缀表达式有许多的方式,有加括号去除法.语法树遍历法.堆栈处理法1. 测试程序的实 ...

  4. java反射实例_关于java反射的一个案例

    案例: *需求:"写一个框架",可以帮我们创建任意类的对象,并且执行其中任意的方法. *实现: 1.配置文件 2.反射 *步骤: 1.将需要创建的对象的全类名和需要执行的方法定义在 ...

  5. 泛型java实例_【Java学习笔记】Java6泛型实例

    你若是不使用泛型,则会这样处理数据类型不确定的问题: class Stash { private Object x; void set(Object x) { this.x = x; } Object ...

  6. java 解析m3u8的实例_使用java线程池批量下载m3u8。合并mp4.

    使用java线程池批量下载m3u8合并mp4. 看了线程池的demo,然后就想下载文件试试. 代码未必规范,多多建议. 大家可以自行修改,满足自己的需求. 还需要深入学习一下线程池. 给俺个星星⭐,可 ...

  7. java 字符串包_包java字符串

    Java核心技术卷I基础知识3.6.3 不可变字符串 3.6.3 不可变字符串 String类没有提供用于修改字符串的方法.如果希望将greeting的内容修改为"Help!",不 ...

  8. java武功秘籍_请问java全套内容都有什么呢?

    我整理的Java全套内容学习路线,分为6个阶段(大阶段)第一阶段:java内功心法篇 第二阶段:Java武功秘籍(经典框架) 第三阶段:Java高级功法(主流框架) 第四阶段:Java成神之路 第五阶 ...

  9. java初始化数据报_初始化java原因

    虚拟机的类加载机制 虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的Java类 即虚拟机的类加载机制. 在Java中,类型的加载.链接 ...

  10. 基于python爬虫数据处理_基于Python爬虫的校园数据获取

    苏艺航 徐海蛟 何佳蕾 杨振宇 王佳鹏 摘要:随着移动时代的到来,只适配了电脑网页.性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求.为此,设计了一种基于网络爬虫的高实用性查询系統.它首先通过 ...

最新文章

  1. nodeJs --- web服务器创建
  2. anime.js 实战:实现一个带有描边动画效果的复选框...
  3. redis set数据类型常用命令及应用场景
  4. 超高清视觉体验需要哪些技术栈?
  5. maven (http://repo1.maven.org/maven2/): Failed to transfer file 和PKIX path building failed: sun.secu
  6. 研华数据采集卡如何采集压力信号转化为数字信号_厦门信号发生器-泰华仪表...
  7. 图:[营养美食知识竞赛-PPT双屏技术策划]浙江海洋学院营养美食知识竞赛结束.
  8. Python - PyCharm部分快捷键
  9. python实现K近邻算法
  10. The Porter Stemming Algorithm
  11. 计算机复试读研规划,【图片】2020考研,老学长教你如何规划!【计算机考研吧】_百度贴吧...
  12. 采云端采云链:从订单协同到采购供应链,让采购供应链互联互通
  13. matplotlib 绘制直方图
  14. Oracle等待事件之buffer busy waits
  15. phalapi-进阶篇6(解决大量数据存储数据库分表分库拓展)
  16. 看了这个,再也不怕流量劫持了!
  17. Kotlin开发第六天,数据存储,持久化
  18. 如何利用Syncthing+蒲公英快速实现异地文件同步
  19. flume 对接 kafka 报错: Error while fetching metadata with correlation id 35 {=INVALID_TOPIC_EXCEPTION}
  20. 用modprobe 加载模块时,提示模块找不到的问题

热门文章

  1. 有关iot相关参考书籍的介绍
  2. 微信开发(三)创建菜单
  3. 图像处理-图像金字塔
  4. 亲子关系-《亲子关系全面技巧》书中的精髓:学会正确处理亲子关系的技巧,与孩子建立良好的关系。
  5. linux后台挂起、恢复进程相关命令
  6. java aes 中文_从Java到Python的AES加密
  7. mysql导入excel
  8. 基于STM32动态密码锁(手机APP)_2022
  9. lua认识(lua)中的变量
  10. Mybatis使用及原理