作者|小鱼儿. yanxiao|CSDN

Java代码基于Eclipse简单实现网页源码爬取

今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码。

仅需一页代码:

package 网站爬虫2;/** * 爬取目标网页源代码示例 * @作者 YanXiaolxy * @版本 2020.03 * @时间 2020年12月14日 下午1:14:14 */import java.io.BufferedWriter;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileWriter;import java.io.InputStream;import java.net.HttpURLConnection;import java.net.URL;public class webHtmlCrawer {public static void main(String[] args) {newFile();}public static String getConnection() {String path = "https://www.taobao.com/";try {HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();conn.setRequestMethod("GET");            conn.setConnectTimeout(5000);            if (conn.getResponseCode() == 200) {                InputStream xml = conn.getInputStream();                byte[] data = read(xml);                //System.out.println(xml);                return new String(data);            }else {                System.out.println("连接失败!");            }} catch (Exception e) {e.printStackTrace();}return null;}//读取数据流,转换为字符串    public static byte[] read(InputStream xml) throws Exception {        ByteArrayOutputStream outputStream = new ByteArrayOutputStream();        byte[] buffer = new byte[1024];        int len = 0;        while ((len = xml.read(buffer)) != -1) {            outputStream.write(buffer, 0, len);        }        xml.close();        return outputStream.toByteArray();    }    public static void newFile() {        String html = getConnection();        String dir = "D:/javafile/";//定义创建目录位置        File contents = new File(dir);        contents.mkdirs();//创建文件目录        try {            byte bytes[] = {1, 2, 3, 4};            File file = new File("D:/javafile/test.txt");            //判断文件是否存在,如果不存在就创建            if (!file.exists()) {                file.createNewFile();            }            FileWriter fw = new FileWriter(file.getAbsoluteFile());            BufferedWriter bw = new BufferedWriter(fw);            System.out.println("正在写入.....");            bw.write(html);            bw.close();            System.out.println("录入完毕");        } catch (Exception e) {        e.getStackTrace();        }        }    }

使用注意:

1.图中红色标记为设置目标网站路径.
图片: 1

2.设置网页源代码存放目录和文件创建

欢迎各位发表评论和问题。

eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取相关推荐

  1. 猫眼html源码,爬取猫眼及可视化(示例代码)

    一.主题式网络爬虫设计方案 1,主题式网络爬虫名称: 爬取猫眼电影TOP100 2,主题式网络爬虫爬取的内容与数据特征分析: 爬取内容为:电影名,得分, 数据特征分析:将其储存于xlsx文件中 3.主 ...

  2. 爬虫python代码广告_零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(代码篇)...

    我是怎么想的,在新浪博客里写代码教程. 这篇博客的内容同步到了CSND博客中,那里不限制外链,也可以复制代码. http://blog.csdn.net/sinat_41310868/article/ ...

  3. 前端代码源码爬取下载工具httrack

    如何使用 WinHTTrack / WebHTTrack(Windows或Linux / Unix的GUI版本) HTTrack GUI文档,以及有关Windows版本(WinHTTrack)和Lin ...

  4. js 中 java 代码_在js中嵌套java代码

    jsp中有时候在js中操作某些java后台传递过来的数据逻辑比较复杂,比如list内容的遍历,可以直接在页面上添加java脚本来执行内容,代码如下: //在js中插入java代码操作 //取出java ...

  5. 【java毕业设计】基于java+Eclipse +SQL Server的工厂进销存管理系统设计与实现(毕业论文+程序源码)——工厂进销存管理系统

    基于java+Eclipse +SQL Server的工厂进销存管理系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Eclipse +SQL Server的工厂进销存管理系统 ...

  6. 天天酷跑php源码_使用Java实现天天酷跑(附源码)

    首先,写一个需求文档: 一.项目名称:<天天酷跑>(RunDay) 二.功能介绍: 闯关类游戏,玩家登录后,选择进入游戏,通过键盘控制玩家的上下左右移动,来躲避 障碍物和吃金币,玩家躲避的 ...

  7. 【Java网络爬虫实战篇】使用Jsoup爬取和解析王者荣耀全英雄全皮肤(思路/代码/问题分析)

    由于博主前两天刚入门Java爬虫,并且自学了Jsoup的爬取和解析方式以及输入输出流的相关知识,因此打算检验一下目前的学习成果.在一番深思熟虑(x)后,毅然打算爬取王者荣耀官网全英雄全皮肤的壁纸. 爬 ...

  8. python加密敏感信息_仅需10行代码,使用python加密用户敏感数据

    原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...

  9. vb6编写用户权限_仅需三行代码,即可让Apache Shiro接管Swagger权限认证

    有很多文章提到,在生产环境中需要关闭Swagger功能,防止系统资源泄露.今天,我结合自己开发过程中的经验,分享一个只需几行代码便可实现让Apache Shiro接管Swagger认证和授权的方法.如 ...

最新文章

  1. 开源大咖齐聚2020启智开发者大会,共探深度学习技术未来趋势
  2. 查看动态链接库依赖关系的命令
  3. 科大星云诗社动态20201210
  4. request.getRealPath不推荐使用
  5. 多个iis的进程w3wp
  6. websocket中发生数据丢失_什么是WebSocket,它与HTTP有何不同?
  7. python while语法结构_python语法之流程控制(if while for)
  8. 搭建Android开发环境
  9. 《大道至简》的幕后故事(2):“愚公移山记”人物篇
  10. plsql32位链接64位oracle,32位PLsql连接64位Oracle问题
  11. 项目管理 : 智能家居项目实施计划
  12. mysql调查问卷数据库设计_客服-问卷调查-问题答案表 - 数据库设计 - 数据库表结构 - 果创云...
  13. Android 使用MediaRecorder录音调用stop()方法的时候报错
  14. 麻雀虽小五脏俱全----ZC评价系统
  15. Latex常见数学符号写法
  16. NodeMCU项目(一)天气时钟
  17. js处理blur事件触发多次
  18. 机顶盒联机调试的方法
  19. 高手分享:通过蓝屏错误代码找出问题【乡巴佬下载】
  20. QFileInfo(文件信息)和临时文件

热门文章

  1. PC-如何提高计算机的启动和关机的速度?
  2. Apache实现一个ip(如:127.0.0.1)和多个域名(虚拟主机)绑定
  3. Ubuntu11.04在Win7下从硬盘安装 和 使用体验
  4. 详解centos7使用无线wifi连接的方法
  5. 计算最长公共数字串个数
  6. setsockopt()函数使用详解
  7. matlab 入门 mobi,振动力学基础与MATLAB应用
  8. 双目测距测深度_TOF还能这么玩?荣耀V20黑科技升级变测距神器
  9. java内存溢出排查jstack_Java命令行监控工具(jmap,jstack,jstat,jinfo,jps)
  10. 060_Unicode字符编码