eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
作者|小鱼儿. yanxiao|CSDN
Java代码基于Eclipse简单实现网页源码爬取
今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码。
仅需一页代码:
package 网站爬虫2;/** * 爬取目标网页源代码示例 * @作者 YanXiaolxy * @版本 2020.03 * @时间 2020年12月14日 下午1:14:14 */import java.io.BufferedWriter;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileWriter;import java.io.InputStream;import java.net.HttpURLConnection;import java.net.URL;public class webHtmlCrawer {public static void main(String[] args) {newFile();}public static String getConnection() {String path = "https://www.taobao.com/";try {HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();conn.setRequestMethod("GET"); conn.setConnectTimeout(5000); if (conn.getResponseCode() == 200) { InputStream xml = conn.getInputStream(); byte[] data = read(xml); //System.out.println(xml); return new String(data); }else { System.out.println("连接失败!"); }} catch (Exception e) {e.printStackTrace();}return null;}//读取数据流,转换为字符串 public static byte[] read(InputStream xml) throws Exception { ByteArrayOutputStream outputStream = new ByteArrayOutputStream(); byte[] buffer = new byte[1024]; int len = 0; while ((len = xml.read(buffer)) != -1) { outputStream.write(buffer, 0, len); } xml.close(); return outputStream.toByteArray(); } public static void newFile() { String html = getConnection(); String dir = "D:/javafile/";//定义创建目录位置 File contents = new File(dir); contents.mkdirs();//创建文件目录 try { byte bytes[] = {1, 2, 3, 4}; File file = new File("D:/javafile/test.txt"); //判断文件是否存在,如果不存在就创建 if (!file.exists()) { file.createNewFile(); } FileWriter fw = new FileWriter(file.getAbsoluteFile()); BufferedWriter bw = new BufferedWriter(fw); System.out.println("正在写入....."); bw.write(html); bw.close(); System.out.println("录入完毕"); } catch (Exception e) { e.getStackTrace(); } } }
使用注意:
1.图中红色标记为设置目标网站路径.
图片: 1
2.设置网页源代码存放目录和文件创建
欢迎各位发表评论和问题。
eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取相关推荐
- 猫眼html源码,爬取猫眼及可视化(示例代码)
一.主题式网络爬虫设计方案 1,主题式网络爬虫名称: 爬取猫眼电影TOP100 2,主题式网络爬虫爬取的内容与数据特征分析: 爬取内容为:电影名,得分, 数据特征分析:将其储存于xlsx文件中 3.主 ...
- 爬虫python代码广告_零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(代码篇)...
我是怎么想的,在新浪博客里写代码教程. 这篇博客的内容同步到了CSND博客中,那里不限制外链,也可以复制代码. http://blog.csdn.net/sinat_41310868/article/ ...
- 前端代码源码爬取下载工具httrack
如何使用 WinHTTrack / WebHTTrack(Windows或Linux / Unix的GUI版本) HTTrack GUI文档,以及有关Windows版本(WinHTTrack)和Lin ...
- js 中 java 代码_在js中嵌套java代码
jsp中有时候在js中操作某些java后台传递过来的数据逻辑比较复杂,比如list内容的遍历,可以直接在页面上添加java脚本来执行内容,代码如下: //在js中插入java代码操作 //取出java ...
- 【java毕业设计】基于java+Eclipse +SQL Server的工厂进销存管理系统设计与实现(毕业论文+程序源码)——工厂进销存管理系统
基于java+Eclipse +SQL Server的工厂进销存管理系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Eclipse +SQL Server的工厂进销存管理系统 ...
- 天天酷跑php源码_使用Java实现天天酷跑(附源码)
首先,写一个需求文档: 一.项目名称:<天天酷跑>(RunDay) 二.功能介绍: 闯关类游戏,玩家登录后,选择进入游戏,通过键盘控制玩家的上下左右移动,来躲避 障碍物和吃金币,玩家躲避的 ...
- 【Java网络爬虫实战篇】使用Jsoup爬取和解析王者荣耀全英雄全皮肤(思路/代码/问题分析)
由于博主前两天刚入门Java爬虫,并且自学了Jsoup的爬取和解析方式以及输入输出流的相关知识,因此打算检验一下目前的学习成果.在一番深思熟虑(x)后,毅然打算爬取王者荣耀官网全英雄全皮肤的壁纸. 爬 ...
- python加密敏感信息_仅需10行代码,使用python加密用户敏感数据
原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...
- vb6编写用户权限_仅需三行代码,即可让Apache Shiro接管Swagger权限认证
有很多文章提到,在生产环境中需要关闭Swagger功能,防止系统资源泄露.今天,我结合自己开发过程中的经验,分享一个只需几行代码便可实现让Apache Shiro接管Swagger认证和授权的方法.如 ...
最新文章
- 开源大咖齐聚2020启智开发者大会,共探深度学习技术未来趋势
- 查看动态链接库依赖关系的命令
- 科大星云诗社动态20201210
- request.getRealPath不推荐使用
- 多个iis的进程w3wp
- websocket中发生数据丢失_什么是WebSocket,它与HTTP有何不同?
- python while语法结构_python语法之流程控制(if while for)
- 搭建Android开发环境
- 《大道至简》的幕后故事(2):“愚公移山记”人物篇
- plsql32位链接64位oracle,32位PLsql连接64位Oracle问题
- 项目管理 : 智能家居项目实施计划
- mysql调查问卷数据库设计_客服-问卷调查-问题答案表 - 数据库设计 - 数据库表结构 - 果创云...
- Android 使用MediaRecorder录音调用stop()方法的时候报错
- 麻雀虽小五脏俱全----ZC评价系统
- Latex常见数学符号写法
- NodeMCU项目(一)天气时钟
- js处理blur事件触发多次
- 机顶盒联机调试的方法
- 高手分享:通过蓝屏错误代码找出问题【乡巴佬下载】
- QFileInfo(文件信息)和临时文件
热门文章
- PC-如何提高计算机的启动和关机的速度?
- Apache实现一个ip(如:127.0.0.1)和多个域名(虚拟主机)绑定
- Ubuntu11.04在Win7下从硬盘安装 和 使用体验
- 详解centos7使用无线wifi连接的方法
- 计算最长公共数字串个数
- setsockopt()函数使用详解
- matlab 入门 mobi,振动力学基础与MATLAB应用
- 双目测距测深度_TOF还能这么玩?荣耀V20黑科技升级变测距神器
- java内存溢出排查jstack_Java命令行监控工具(jmap,jstack,jstat,jinfo,jps)
- 060_Unicode字符编码