刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度、谷歌他们的搜索引擎就是个爬虫。

现在大二。再次燃起对爬虫的热爱,查阅资料,知道常用java、python语言编程,这次我选择了java。在网上查找的

代码在本地跑大部分都不能使用,查找相关的资料教程也没有适合的。实在头疼、、、

  现在自己写了一个简单爬取网页图片的代码,先分析一下自己写的代码吧

            //获得html文本内容String HTML = cm.getHtml(URL);//获取图片标签List<String> imgUrl = cm.getImageUrl(HTML);//获取图片src地址List<String> imgSrc = cm.getImageSrc(imgUrl);//下载图片cm.Download(imgSrc);

  简单分为四个功能方法(函数),首先是要获取html文本

 //获取HTML内容private String getHtml(String url)throws Exception{URL url1=new URL(url);//使用java.net.URLURLConnection connection=url1.openConnection();//打开链接InputStream in=connection.getInputStream();//获取输入流InputStreamReader isr=new InputStreamReader(in);//流的包装BufferedReader br=new BufferedReader(isr);String line;StringBuffer sb=new StringBuffer();while((line=br.readLine())!=null){//整行读取sb.append(line,0,line.length());//添加到StringBuffer中sb.append('\n');//添加换行符
        }//关闭各种流,先声明的后关闭
        br.close();isr.close();in.close();return sb.toString();}

然后在获取的html文本中寻找图片,根据html标记语言不难发现图片通常带有<img>,所以

写一个关于img的正则表达式

    // 获取img标签正则private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

接着是获取img标签信息,大部分涉及的是集合接口和正则表达式的知识

//获取ImageUrl地址private List<String> getImageUrl(String html){Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);List<String>listimgurl=new ArrayList<String>();while (matcher.find()){listimgurl.add(matcher.group());}return listimgurl;}

然后获取img标签信息中找取图片的地址信息,需要构造图片地址的正则表达式

// 获取src路径的正则private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";

接着是获取图片地址的信息,大部分涉及的也是集合接口和正则表达式的知识

//获取ImageSrc地址private List<String> getImageSrc(List<String> listimageurl){List<String> listImageSrc=new ArrayList<String>();for (String image:listimageurl){Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);while (matcher.find()){listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));}}return listImageSrc;}

最后通过图片地址信息下载图片

//下载图片private void Download(List<String> listImgSrc) {try {//开始时间Date begindate = new Date();for (String url : listImgSrc) {//开始时间Date begindate2 = new Date();String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());URL uri = new URL(url);InputStream in = uri.openStream();FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));//文件输出流byte[] buf = new byte[1024];int length = 0;System.out.println("开始下载:" + url);while ((length = in.read(buf, 0, buf.length)) != -1) {fo.write(buf, 0, length);}//关闭流
                in.close();fo.close();System.out.println(imageName + "下载完成");//结束时间Date overdate2 = new Date();double time = overdate2.getTime() - begindate2.getTime();System.out.println("耗时:" + time / 1000 + "s");}Date overdate = new Date();double time = overdate.getTime() - begindate.getTime();System.out.println("总耗时:" + time / 1000 + "s");} catch (Exception e) {System.out.println("下载失败");}}    

展示一下运行结果:

上一下全部代码:

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Main {// 地址private static final String URL = "http://www.tooopen.com/view/1439719.html";// 获取img标签正则private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";// 获取src路径的正则private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";public static void main(String[] args) {try {Main cm=new Main();//获得html文本内容String HTML = cm.getHtml(URL);//获取图片标签List<String> imgUrl = cm.getImageUrl(HTML);//获取图片src地址List<String> imgSrc = cm.getImageSrc(imgUrl);//下载图片
            cm.Download(imgSrc);}catch (Exception e){System.out.println("发生错误");}}//获取HTML内容private String getHtml(String url)throws Exception{URL url1=new URL(url);URLConnection connection=url1.openConnection();InputStream in=connection.getInputStream();InputStreamReader isr=new InputStreamReader(in);BufferedReader br=new BufferedReader(isr);String line;StringBuffer sb=new StringBuffer();while((line=br.readLine())!=null){sb.append(line,0,line.length());sb.append('\n');}
        br.close();isr.close();in.close();return sb.toString();}//获取ImageUrl地址private List<String> getImageUrl(String html){Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);List<String>listimgurl=new ArrayList<String>();while (matcher.find()){listimgurl.add(matcher.group());}return listimgurl;}//获取ImageSrc地址private List<String> getImageSrc(List<String> listimageurl){List<String> listImageSrc=new ArrayList<String>();for (String image:listimageurl){Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);while (matcher.find()){listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));}}return listImageSrc;}//下载图片private void Download(List<String> listImgSrc) {try {//开始时间Date begindate = new Date();for (String url : listImgSrc) {//开始时间Date begindate2 = new Date();String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());URL uri = new URL(url);InputStream in = uri.openStream();FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));byte[] buf = new byte[1024];int length = 0;System.out.println("开始下载:" + url);while ((length = in.read(buf, 0, buf.length)) != -1) {fo.write(buf, 0, length);}in.close();fo.close();System.out.println(imageName + "下载完成");//结束时间Date overdate2 = new Date();double time = overdate2.getTime() - begindate2.getTime();System.out.println("耗时:" + time / 1000 + "s");}Date overdate = new Date();double time = overdate.getTime() - begindate.getTime();System.out.println("总耗时:" + time / 1000 + "s");} catch (Exception e) {System.out.println("下载失败");}}
}

  本人还是java初学者,能力有限,如有更好的代码或者教程可以留言,我们可以交流学习。
以上还有不足或者不对之处请指出,非常感谢个位。

转载于:https://www.cnblogs.com/jinxiaohang/p/6637209.html

java爬虫-简单爬取网页图片相关推荐

  1. 爬虫简单爬取网页图片

    仅供学习,请遵守法律法规和robots协议. 请在爬取时设置爬取延时,防止给网站造成不必要的麻烦和损失,也避免给自己送进去. 爬取图片一般需要导入的库有: import requests import ...

  2. HTTP编程(Java爬虫-简单爬取网页数据)

    HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...

  3. node.js 爬虫 实现爬取网页图片并保存到本地

    node.js 爬虫 实现爬取网页图片并保存到本地 没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...

  4. java实现专门爬取网页图片的软件

    发现我的不足: 1.对awt和swing的使用十分的差劲,时不时就要查一下博客... 可以做一个专门爬取网页图片的软件,功能已经实现了,就UI对应的设计一下就好了. 做完了..虽然有很大的局限,但是功 ...

  5. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  6. 【Java爬虫】爬取网页中的内容,提取其中文字

    挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...

  7. Python爬虫:爬取网页图片

    目录 开始: 分析与步骤: 第一步 第二步 第三步 第四步 最后: 开始: 最近在自学爬虫,自己也做了一些实例,(自认为)写的比较好的就是对整个网站的爬取了.接下来我将会说一说我使用的工具及方法. 注 ...

  8. python爬虫实验——爬取网页图片+网页源代码

    爬虫图片 本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片.所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 原理 1.网络爬虫 即Web Spi ...

  9. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

最新文章

  1. AnkhSVN的自动加锁
  2. vtkpolydata图形着色
  3. 爬楼梯 · Climbing Stairs
  4. 海量数据挖掘MMDS week4: 推荐系统之数据降维Dimensionality Reduction
  5. Gentoo Linux 内核指南
  6. 帆软日期格式转换_日期和时间函数- FineReport帮助文档 - 全面的报表使用教程和学习资料...
  7. MATLAB环境下基于深度学习的语音降噪方法
  8. 135、137、138、139和445端口
  9. 风险管理可分为哪两类?具体方法是什么?
  10. html加载富文本_HTML基础
  11. Allegro如何使用快捷键快速切换走线线宽操作指导
  12. 2021年“羊城杯”网络安全大赛部分Writeup
  13. MOSFET开关原理
  14. PHP微信公众平台开发视频
  15. 写论文时如何翻译外文文献?
  16. TM4C123G 硬件spi
  17. 数据分析中的严谨问题
  18. vector的 resize()和reserve()的区别
  19. 在windows上搭建React Native开发环境
  20. 《电子或通信领域当前的主流技术及其社会需求调查报告》

热门文章

  1. mysql模糊查询指定根据第几个字符来匹配
  2. 鸿蒙OS 2.0流畅度实测:差距到底多大?
  3. 分布式查询处理和优化相关知识介绍
  4. 数据库:SQLServer中in和 exists函数用法笔记
  5. 后端:Spring IOC 知识点总结,写得太好了!
  6. MAC电脑常用效率工具推荐
  7. 这些css高级技巧,你知道几个呢
  8. opensll、libcurl库安装的使用,树莓派CSI摄像头的配置,树莓派调用智能API平台实现人脸识别、树莓派配置中文环境
  9. Axios 如何缓存请求数据?
  10. 2019.5.8_此书真乃宝书也_从定位参数到仅限关键字参数