Jsoup爬虫小案例
Jsoup爬虫小案例
Jsoup爬虫是众多爬虫中的一种,今天分享一个爬取网页中图片的方式,若是通过javascript循环放入图片的话,那就爬取不到了哟!
在代码书写之前,需要做好以下工作准备:
- 创建好一个web工程。
- 配置好服务器。
- 倒入两个包:①
commons-io-2.4.jar
②jsoup-1.8.3.jar
。
这两个包可以在网上直接下载。
接下来就是代码的编写:
index.jsp
<%@ page contentType="text/html;charset=UTF-8" language="java" %>
<html><head><title>首页</title></head><body><input type="button" onclick="fun()" value="开始爬图"></body><script>function fun() {//location.href='/工程名/Servlet名';location.href='/as/img';}</script>
</html>
ImgServlet.java
@WebServlet("/img")
public class ImgServlet extends HttpServlet {@Overrideprotected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {//1. 根据网址获取网页源码Document doc = Jsoup.connect("爬取的网站名").get();//2. 找到所有图片标签imgElements es = doc.select("img[src]");//3. 遍历每一个图片标签for (Element e : es) {String src = e.attr("src");//输出获取的图片名称System.out.println(src);getImg(src);}}private void getImg(String src) {System.out.println(1);try {//借助URL -- 将网页上的图片以字节流形式加载到程序中InputStream is = new URL("爬取的网站名" + src).openStream();//指定一个图片保存路径 -- 具体文件名FileOutputStream os = new FileOutputStream("爬取图片后存放的路径" + System.currentTimeMillis() + ".jpg");//io工具类,对接两个流IOUtils.copy(is,os);} catch (IOException e) {e.printStackTrace();}}
}
这样就可以爬取网页中所有的jpg格式的图片啦!
Jsoup爬虫小案例相关推荐
- Java网络爬虫小案例(详细版)
有bug:修改了<scope>test</scope>后,在控制台还是不能显示日志信息,没找到解决办法 配置了log4j.properties,控制台没有显示日志信息_连胜是我 ...
- 爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库
在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...
- 简易的Java网络爬虫小案例(二):获取b站视频的详细点赞、收藏和硬币数
Java爬虫案例之获取视频详细点赞.收藏等参数 最近是b站的11周年庆,相信不少朋友也看过了这个特映视频<喜相逢>了吧?看完视频给个三连支持,衷心祝愿小破站越来越好!不过在长按完大拇指后, ...
- 爬虫小案例:基于Bing关键词批量下载图片(第二版)
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.代码展示: import requests from lxml import etree import os from multi ...
- ajax爬虫小案例(百度翻译)
一.爬虫分析的三个步骤 第一步:右键"查看网页源代码",查找[Ctrl+F]需要的数据(复制整个url或者是复制id的具体内容) 第二步:分析网页ajax异步加载可能性 第三步:j ...
- Appium爬虫小案例
** Appium 用途和特点 ** Appium 是一个移动 App (手机应用)自动化工具. 手机APP 自动化有什么用? 自动化完成一些重复性的任务 比如微信客服机器人 爬虫 就是通过手机自动化 ...
- python爬虫小案例_从豆瓣爬取《哪吒之魔童降世》的剧照
一.在豆瓣电影网爬取以下剧照保存到本地: 本次案例只爬取前 5 页的剧照,先获取前五页的链接: for i in range(5):url = 'https://movie.douban.com/su ...
- 爬虫小案例:基于Bing关键词批量下载图片
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.演示: 三.直接上代码 import os import urllib.request import urllib.parse f ...
- 爬虫小案例之爬取京东商品链接
观察URL翻页的变化 爬取页面URL如下 base_url='https://search.jd.com/Search?keyword='+keyword for x in range(1,n ...
- 爬虫小案例 爬取笑话 xpath
import requests from lxml import etree# 写入文件 def write_file(art):with open("笑话.txt", " ...
最新文章
- JavaScript如何获得项目根路径
- python连接oracle用法_【Python Oracle】使用cx_Oracle 连接oracle的简单介绍
- Sizzle 官方API翻译
- python基础学习[python编程从入门到实践读书笔记(连载一)]
- bootstrap-实现loading效果
- html5无意义标签,无意义的div和span标签
- 网上购物安全防范很重要
- 360公司2019秋季校园招聘内部推荐启动啦!!!
- Mysql学习总结(78)——MySQL各版本差异整理
- exfat文件系统相关数据结构以及数据恢复方法
- java zk_zk框架:zul文件,純Java或混合更好的性能
- ipad上html语言编辑,Html编辑器iPad版
- python将多张图片合并成一张图片
- Spring MVC 接口返回406错误
- 属于计算机与网络技术在医学中应用的是,计算机网络技术在医学论文写作与投稿中的应用...
- 嵌入式UWB定位测距设备开发实战(4)硬件之元器件选型
- uni-app 遮罩层事件穿透解决办法catchtouchmove
- linux部署的Oracle 11G数据库创建实例
- Echarts 实现动态地图
- PWM互补脉冲配置,互补输出异常