jsoup jar包 1.11.2

链接: https://pan.baidu.com/s/1pe3-r5_YB-pGEsosfRLbsA?pwd=41w5

提取码: 41w5

效果:

代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public static void main(String[] args) {
try {

        String parentUrl = "XXXX"; URL indexUrl = new URL("XXXX");Document indexHtml = Jsoup.parse(indexUrl, 10000);//获取分类节点Elements fenleis = indexHtml.getElementsByClass("classify clearfix");for (Element fenLei : fenleis) {Elements fenLeiA = fenLei.select("a");for (int i = 0; i < fenLeiA.size(); i++) {Element fenLeiA1 = fenLeiA.get(i);Elements a1 = fenLeiA1.select("a");String fenLeiHref = a1.select("a").attr("href");String fenLeiName = a1.select("a").attr("title");try {//本地盘符File file = new File("E:\\worm\\" + fenLeiName + "\\1.txt");//创建文件夹file.mkdirs();} catch (Exception e) {}//每个类别爬取10页for (int j = 1; j < 10; j++) {URL fenLeiIndexUrl = new URL("https://xxxxxxx");if (j != 1) {//第二页开始的url规则fenLeiIndexUrl = new URL(parentUrl + fenLeiHref + "index_" + j + ".html");} else {fenLeiIndexUrl = new URL(parentUrl + fenLeiHref + "index.html");}Document doc = Jsoup.parse(fenLeiIndexUrl, 10000);Elements clearfixList = doc.getElementsByClass("clearfix");for (Element e : clearfixList) {Elements lis = e.getElementsByTag("li");for (Element li : lis) {Elements a = li.select("a");String href = a.select("a").attr("href");URL url2 = new URL(parentUrl + href);Document doc1 = Jsoup.parse(url2, 10000);Elements img = doc1.getElementsByClass("photo-pic");Element first = img.first();Elements imgUrla = first.select("img");String imgsrc = imgUrla.select("img").attr("src");String title = imgUrla.select("img").attr("title");title = title.replace(" ", "");//文件名过滤title = title.replaceAll("[*]", "");title = title.replaceAll(" ", "");title = title.replaceAll("[?]", "");title = title.replaceAll("[|]", "");download(parentUrl + imgsrc, fenLeiName, title);}}}}}} catch (Exception e) {e.printStackTrace();}}public static void download(String urlString, String dirsName, String imgName) throws Exception {// 构造URLURL url = new URL(urlString);// 打开连接URLConnection con = url.openConnection();// 输入流InputStream is = con.getInputStream();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流String filename = "E:\\worm\\" + dirsName + "\\" + imgName + ".jpg";  //下载路径及下载图片名称File file = new File(filename);FileOutputStream os = new FileOutputStream(file, true);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕,关闭所有链接os.close();is.close();}

JSOUP爬取4K高清壁纸相关推荐

  1. python爬取4k高清壁纸(多线程版)

    刚学了多线程,于是把上次写的博客拿出来进行改写, 原文链接:python爬取4k高清壁纸(再也不怕没有壁纸了) 爬取过程已经在上一次写过了,可以点击原文链接查看. 废话不多说,直接上多线程代码: im ...

  2. python爬取4k高清壁纸(再也不怕没有壁纸了)

    今天突然想换壁纸,在网上找了一圈没有找到满意的,正好学了爬虫,于是我就想把它们全都爬取下来,慢慢挑选. 这次爬取的目标是:彼岸图网动漫壁纸 接下来,我将详细讲解爬取过程: 首先点开网站,右键–检查 观 ...

  3. 全网最细------爬取4k高清大图

    本次案例将教大家免费爬取4k高清大图,即使你是爬虫新手,也可以食用本次文章实现你的免费下载梦,话不多说,先看效果 网站视图: 看到这些图片你是否怦然心动,跟着我一起看下去. 一.思路分析 首先最基本的 ...

  4. 爬虫爬取大量高清壁纸图片

    爬虫爬取大量高清壁纸 思路: 首先从网页入手,观察网页整体结构,因为本段代码使用的是Xpath解析(想了解Xpath解析可以看上一篇) import requests from lxml import ...

  5. Python 网络爬虫:爬取4K高清美图

    爬取4K高清美图 这篇爬虫主要是用来爬取网站高清4K图片,这也是笔者学初学爬虫的时候最先写一个的爬虫脚本,现在回过头来重新梳理一下,也算是对从前知识的一个总结,希望对大家有所帮助! 文章目录 爬取4K ...

  6. python爬虫系列(2):分析Ajax 爬取搜狗高清壁纸

    这次我们来分析一下Ajax(至于Ajax是什么意思请自行百度了,这里就不过多解释),爬取一些高清壁纸,等待下载到本地之后,然后我们再慢慢的筛选这些壁纸.那么这次的目标就是搜狗壁纸,啥1280*720的 ...

  7. python手机壁纸超清_详解Python静态网页爬取获取高清壁纸

    前言 在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤 一般地,我们去网上批量打开壁纸的时候一般操作如下: 1.打开壁纸网页 2.单击壁纸图(打开指定壁纸的页面) 3.选择分辨率(我 ...

  8. Python爬虫从入门到精通:(9)数据解析_xpath解析2_爬取4K高清动漫图片_Python涛哥

    使用xpath爬取4K高清动漫图片名称和图片数据 爬取当前页: # 创建文件夹 存储图片 dirName = 'GirlsLib' if not os.path.exists(dirName):os. ...

  9. Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸

    来源:公众号[杰哥的IT之旅] 作者:阿拉斯加 ID:Jake_Internet 如需获取本文完整代码及 LOL 壁纸,请为本文右下角点赞并添加杰哥微信:Hc220088 获取. 一.背景介绍 随着移 ...

最新文章

  1. 力扣(LeetCode)刷题,简单题(第2期)
  2. 【Network Security!】虚拟化架构与系统部署
  3. python 装饰器 参数-python函数装饰器之带参数的函数和带参数的装饰器用法示例...
  4. GMM、fisher vector、SIFT与HOG特征资料
  5. 生成pfx文件需要在服务器上执行,PEM文件和private.key文件生成IIS服务器所需的pfx文件(配置SSL用)...
  6. android 字母索引三方,Android 字母索引动态自定义布局
  7. 高性能红黑二叉树实现
  8. Mysql8.0安装+navicat for Mysql安装+navicat for Mysql。
  9. php 手册中show的使用,文档工具--showdoc(一)
  10. HCIE-RS面试--RSTP为什么优于STP
  11. 数据恢复关键技术与实战指南
  12. JEB2.2.7闪退
  13. 萤火商城前端页面搭建(一)
  14. 麻省理工学院计算机科学与工程博士,2020美国麻省理工大学计算机科学博士专排...
  15. OpenWRT配置 -- 网络配置network文件
  16. PMI第七章 挣值分析
  17. VUE根据url下载文件
  18. 【无标题】2021年施工员-装饰方向-岗位技能(施工员)考试题及施工员-装饰方向-岗位技能(施工员)考试试卷
  19. 【论文笔记】ParamE模型学习
  20. 电脑运行应用程序出现0xc000007b的解决方法

热门文章

  1. java.lang.IllegalArgumentException: No enum constant org.apache.ibatis.type.JdbcType.INT
  2. php 实现店铺装修6
  3. 《Python深度学习》读书笔记:第1章 什么是深度学习
  4. 中兴通讯加入星策开源社区 携手推动企业智能化转型建设
  5. 晶体谐振器和晶体振荡器的优缺点分析
  6. WebCam snap应用实例
  7. 最新MTK平台芯片简介
  8. RocketMq客户端日志参数设置
  9. 每天干的啥?(2018.11)
  10. 一文看懂用word制作电子公章,2分钟就能搞定!