**主要功能是:**爬取百度图片中的图片,一键下载
功能就是这样,根据输入的关键字不同,自动下载不同的图片,当然,这些图片都是从百度图片中爬取出来的。
思路
随便输入一个关键字,百度图片就会展示出很多图片
F12打开控制台,看源码,找到图片的地址,多看几个,会发现规律都一样。

规律还是很容易简单的吧,写一个简单的正则表达式 https://.*?0.jpg 当然,可以写得更准确,但是这个已经够用,就不写那么精确了。

剩下的就简单了,利用java中的URL这个类和IO流,把展示很多图片的那个页面给读出成一个字符串,然后在字符串中,去查找和上面正则匹配的图片路径。然后再用匹配到的每个路径,去下载图片,就OK了。

但是这样就将要下载图片的主题固定死了,因为我们输入的关键字没变。
仔细观察这个路径,发现我们输入的关键字,被拼接到了URL的最后。这是因为这里采用了get请求,请求数据被放在URL里,所以我们可以对这个URL做手脚,自己来手动拼接,就可以达到输入不同关键字,下载不同图片的功能了。
关键点有两个:
一是改变首页URL的提交参数
二是利用正则获取到每张图片的URL

package com.git.commons.service;import java.io.*;
import java.net.URL;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;@SuppressWarnings("all")
public class InetAddressTest02
{public static void main(String[] args){Scanner input = new Scanner(System.in);System.out.println("欢迎体验这个小程序!");while (true){System.out.println("请输入您要下载图片明星的姓名(输入E\\e退出):");String name = input.next();if ("e".equals(name) || "E".equals(name)){ break; }System.out.println("正在下载,请稍等……");downBeautyPicture(name);System.out.println();}System.out.println("成功退出,欢迎下次光临!");}public static void downBeautyPicture(String name){String targetPath = "C://Users//15517//Desktop//down//"+name+System.currentTimeMillis();new File(targetPath).mkdir();int count = 0;InputStream is = null;FileOutputStream fos = null;try{URL url = new URL("https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word="+name);is = url.openStream();int len;byte[] buffer = new byte[1024];StringBuilder pageText_ = new StringBuilder();while ((len = is.read(buffer)) != -1){ pageText_.append(new String(buffer,0,len, StandardCharsets.UTF_8)); }String pageText = pageText_.toString();Pattern compile = Pattern.compile("https://.*?0\\.jpg");Matcher matcher = compile.matcher(pageText);ArrayList<String> URLs = new ArrayList<>();while (matcher.find()){String eachURLStr = matcher.group();if (URLs.contains(eachURLStr)){ continue; }count ++;//System.out.println("正在下载第"+ count +"张图片…………");URL eachURL = new URL(eachURLStr);is = eachURL.openStream();fos = new FileOutputStream(targetPath+ "\\" + System.currentTimeMillis()+".jpg");while ((len = is.read(buffer)) != -1){ fos.write(buffer,0,len); }is.close();fos.flush();fos.close();URLs.add(eachURLStr);}}catch (IOException e){System.out.println("对不起,下载错误,请重试");e.printStackTrace();}finally{System.out.println("下载完成,共下载了"+ count +"图片,请到  "+targetPath+"  目录下查看");if (is != null){try{ is.close(); }catch (IOException e){ e.printStackTrace(); }}if (fos != null){try{ fos.close(); }catch (IOException e){ e.printStackTrace(); }}}}
}

原文链接:https://blog.csdn.net/ql_7256/article/details/107778023?utm_medium=distribute.pc_category.none-task-blog-hot-6.nonecase&depth_1-utm_source=distribute.pc_category.none-task-blog-hot-6.nonecase&request_id=
本文只做记录利用,详细原理点链接去原文作者那看。

记录一下很好用的java爬虫代码-很有意思,原理也很简单,一看就懂相关推荐

  1. java爬虫代码示例_那些让你代码思维和能力有较大的提升Java源码

    来源:www.cnblogs.com/jiagou/p/9270070.html 对于学习J2EE的框架有很大的帮助,代码里使用了各种设计模式.事件机制.Java8语法.代码量也很小,web服务使用N ...

  2. Java爬虫代码示例|入门教程 1- 快速爬取百度美图

    文章目录 前言 源码 参考 前言 说起搜索,大家一定对百度不陌生.每个搜索引擎后边都是一个大型爬虫调度系统. 第一篇我们先以百度为例 每天都被它爬,今天我们来爬一下它. 源码 url分析 https: ...

  3. 图解 Java 中的数据结构及原理,傻瓜也能看懂!

    最近在整理数据结构方面的知识, 系统化看了下Java中常用数据结构, 突发奇想用动画来绘制数据流转过程. 主要基于jdk8, 可能会有些特性与jdk7之前不相同, 例如LinkedList Linke ...

  4. Python爬虫入门实战,图文详细教学,一看就懂

    同样都是程序员,为什么别人家的程序员效率那么高?因为他用 Python. 接下来我们一起来看一个入门级的Python爬虫案例是实战. 主讲内容: 1.什么是爬虫 2.浏览器的工作原理 3.爬虫的工作原 ...

  5. java响应式导航栏原理_一个简单的响应式导航栏

    背景 导航对于一个网站重要性,不言而喻.网站上导航一般都置于网站的顶端,每一个导航项都直接详细的列出来,但如果需要去适配移动端的话这样简单粗暴的方法就不大可行了,因为受移动端屏幕宽度所限,在电脑端完美 ...

  6. Java爬虫框架wemgic_Java爬虫框架-WebMagic挖坑补坑指南

    以前总是用的Python下的Scrapy和crawley和PHP的小众爬虫框架,最近突然想到了何不用下Java下的框架试试? 查了下Java下的爬虫框架自然也不在少数,Nutch,WebMagic,W ...

  7. 庆余年“真的”被大家喜欢吗?Java爬虫分析告诉你结果

    文章目录 导语 首先,打开豆瓣,查看豆瓣评论入口 根据抓包分析结果,写Java爬虫代码 [庆余年]豆瓣评论分析 1. [庆余年]电视剧爱奇艺热度排行榜 2. [庆余年]豆瓣短评评论分布 3. [庆余年 ...

  8. 编写Java网络爬虫代码

    好的,我会用中文来回答你的问题. 首先,在编写Java网络爬虫代码之前,你需要了解一些基本的Java知识,并确保你已经安装了Java开发工具包(JDK). 在编写Java爬虫代码时,你可以使用Java ...

  9. Java线程池的实现原理,你清楚么?

    点击关注公众号,实用技术文章及时了解 来源:blog.csdn.net/u013332124/article/details/79587436 原理概述 其实java线程池的实现原理很简单,说白了就是 ...

最新文章

  1. catia 如何提取cgr面_CATIA 创成式外形设计精品课程
  2. 指纹浏览器 开源 linux,浏览器指纹--Canvas指纹
  3. 缓存方式之cookie的使用
  4. 团队作业4——第一次项目冲刺(Alpha版本)-第一篇
  5. Bzoj4503 两个串
  6. Linux Shell脚本专栏_Linux系统发送告警邮件脚本_02
  7. 计算机等级考试机试试题,计算机等级考试二级VFP机试试题18
  8. Java 语言实现的 I/O 模型
  9. 无界面和应用图标的应用程序
  10. java是牌子的眼镜多少钱_基于jsp的眼镜商城-JavaEE实现眼镜商城 - java项目源码
  11. USB-SC-09(假冒PL2303HXA芯片)WIN7-64位驱动之终极大法
  12. Unity中Transform和rotation相关小知识点
  13. python利器app插件_python利器app
  14. 枣庄市建筑物矢量数据(Shp格式+带高度)
  15. MongoDB相关概念
  16. google map 看经度和纬度
  17. 实验9-10 平面向量加法 (15 分)
  18. charles常用功能使用说明
  19. iOS8.0 使用Photos.framework对相册的常用操作
  20. 机器学习之感知机算法

热门文章

  1. 删除病毒ETH的方法 如何解密sql文件 恢复mdf数据库文件
  2. 当你写爬虫抓不到APP请求包的时候该怎么办?【高级篇-混淆导致通用Hook工具失效】...
  3. Java开发技术大杂烩(三)之电商项目优化、rabbitmq、Git、OSI、VIM、Intellj IDEA、HTTP、JS、Java...
  4. 《深入理解OSGi:Equinox原理、应用与最佳实践》一3.2 Bundle状态及转换
  5. 新浪2017校园招聘---C++后台研发
  6. SpringMVC+Thymeleaf如何处理URL中的动态查询参数
  7. 配置系列:(事物管理)ssm中applicationContext-transaction.xml的简单配置
  8. 玩具脚本-----yum源
  9. 谎言被揭露后,你们的时机才会到来!
  10. 软件配置管理(CN) Google讨论组