Jsoup爬虫小案例

Jsoup爬虫是众多爬虫中的一种,今天分享一个爬取网页中图片的方式,若是通过javascript循环放入图片的话,那就爬取不到了哟!

在代码书写之前,需要做好以下工作准备:

  1. 创建好一个web工程。
  2. 配置好服务器。
  3. 倒入两个包:① commons-io-2.4.jarjsoup-1.8.3.jar
    这两个包可以在网上直接下载。

接下来就是代码的编写:
index.jsp

<%@ page contentType="text/html;charset=UTF-8" language="java" %>
<html><head><title>首页</title></head><body><input type="button" onclick="fun()" value="开始爬图"></body><script>function fun() {//location.href='/工程名/Servlet名';location.href='/as/img';}</script>
</html>

ImgServlet.java

@WebServlet("/img")
public class ImgServlet extends HttpServlet {@Overrideprotected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {//1. 根据网址获取网页源码Document doc = Jsoup.connect("爬取的网站名").get();//2. 找到所有图片标签imgElements es = doc.select("img[src]");//3. 遍历每一个图片标签for (Element e : es) {String src = e.attr("src");//输出获取的图片名称System.out.println(src);getImg(src);}}private void getImg(String src) {System.out.println(1);try {//借助URL -- 将网页上的图片以字节流形式加载到程序中InputStream is = new URL("爬取的网站名" + src).openStream();//指定一个图片保存路径 -- 具体文件名FileOutputStream os = new FileOutputStream("爬取图片后存放的路径" + System.currentTimeMillis() + ".jpg");//io工具类,对接两个流IOUtils.copy(is,os);} catch (IOException e) {e.printStackTrace();}}
}

这样就可以爬取网页中所有的jpg格式的图片啦!

Jsoup爬虫小案例相关推荐

  1. Java网络爬虫小案例(详细版)

    有bug:修改了<scope>test</scope>后,在控制台还是不能显示日志信息,没找到解决办法 配置了log4j.properties,控制台没有显示日志信息_连胜是我 ...

  2. 爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库

    在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...

  3. 简易的Java网络爬虫小案例(二):获取b站视频的详细点赞、收藏和硬币数

    Java爬虫案例之获取视频详细点赞.收藏等参数 最近是b站的11周年庆,相信不少朋友也看过了这个特映视频<喜相逢>了吧?看完视频给个三连支持,衷心祝愿小破站越来越好!不过在长按完大拇指后, ...

  4. 爬虫小案例:基于Bing关键词批量下载图片(第二版)

    一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.代码展示: import requests from lxml import etree import os from multi ...

  5. ajax爬虫小案例(百度翻译)

    一.爬虫分析的三个步骤 第一步:右键"查看网页源代码",查找[Ctrl+F]需要的数据(复制整个url或者是复制id的具体内容) 第二步:分析网页ajax异步加载可能性 第三步:j ...

  6. Appium爬虫小案例

    ** Appium 用途和特点 ** Appium 是一个移动 App (手机应用)自动化工具. 手机APP 自动化有什么用? 自动化完成一些重复性的任务 比如微信客服机器人 爬虫 就是通过手机自动化 ...

  7. python爬虫小案例_从豆瓣爬取《哪吒之魔童降世》的剧照

    一.在豆瓣电影网爬取以下剧照保存到本地: 本次案例只爬取前 5 页的剧照,先获取前五页的链接: for i in range(5):url = 'https://movie.douban.com/su ...

  8. 爬虫小案例:基于Bing关键词批量下载图片

    一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.演示: 三.直接上代码 import os import urllib.request import urllib.parse f ...

  9. 爬虫小案例之爬取京东商品链接

    观察URL翻页的变化 爬取页面URL如下 base_url='https://search.jd.com/Search?keyword='+keyword     for x in range(1,n ...

  10. 爬虫小案例 爬取笑话 xpath

    import requests from lxml import etree# 写入文件 def write_file(art):with open("笑话.txt", " ...

最新文章

  1. JavaScript如何获得项目根路径
  2. python连接oracle用法_【Python Oracle】使用cx_Oracle 连接oracle的简单介绍
  3. Sizzle 官方API翻译
  4. python基础学习[python编程从入门到实践读书笔记(连载一)]
  5. bootstrap-实现loading效果
  6. html5无意义标签,无意义的div和span标签
  7. 网上购物安全防范很重要
  8. 360公司2019秋季校园招聘内部推荐启动啦!!!
  9. Mysql学习总结(78)——MySQL各版本差异整理
  10. exfat文件系统相关数据结构以及数据恢复方法
  11. java zk_zk框架:zul文件,純Java或混合更好的性能
  12. ipad上html语言编辑,Html编辑器iPad版
  13. python将多张图片合并成一张图片
  14. Spring MVC 接口返回406错误
  15. 属于计算机与网络技术在医学中应用的是,计算机网络技术在医学论文写作与投稿中的应用...
  16. 嵌入式UWB定位测距设备开发实战(4)硬件之元器件选型
  17. uni-app 遮罩层事件穿透解决办法catchtouchmove
  18. linux部署的Oracle 11G数据库创建实例
  19. Echarts 实现动态地图
  20. PWM互补脉冲配置,互补输出异常

热门文章

  1. R语言从入门到精通Day2之【R语言软件下载与安装】
  2. C语言员工信息管理系统
  3. winfrom实现,斑马Gk888t打印机,连续打印二维码
  4. wps计算机打印双面输出,如何在电脑wps软件内设置双面打印
  5. 唐宇迪学习笔记17:支持向量机
  6. python ddos_python 检查是否存在ddos攻击
  7. vue json 编辑组件_内置为Vue组件的Visual JSON编辑器
  8. mdt 计算机名_配置 MDT 部署共享规则
  9. python pygame 的下载方法
  10. 可靠性标准: TL9000