java代码实现网页源码爬取

java代码基于Eclipse简单实现网页源码爬取

哈哈,大家好！我是yanxiaolxy,前天四级英语考试考完了,作业也不多了,感觉整个人都变得轻松了许多。
今天给大家分享我的最新java学习进程--java网页源码爬虫，废话不多说盘代码。

仅需一页代码:

package 网站爬虫2;
/*** 爬取目标网页源代码示例* @作者 YanXiaolxy* @版本 2020.03* @时间 2020年12月14日 下午1:14:14*/
import java.io.BufferedWriter;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class webHtmlCrawer {public static void main(String[] args) {newFile();}public static String getConnection() {String path = "https://www.taobao.com/";try {HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();conn.setRequestMethod("GET");conn.setConnectTimeout(5000);if (conn.getResponseCode() == 200) {InputStream xml = conn.getInputStream();byte[] data = read(xml);//System.out.println(xml);return new String(data);}else {System.out.println("连接失败！");}} catch (Exception e) {e.printStackTrace();}return null;}//读取数据流,转换为字符串public static byte[] read(InputStream xml) throws Exception {ByteArrayOutputStream outputStream = new ByteArrayOutputStream();byte[] buffer = new byte[1024];int len = 0;while ((len = xml.read(buffer)) != -1) {outputStream.write(buffer, 0, len);}xml.close();return outputStream.toByteArray();}public static void newFile() {String html = getConnection();String dir = "D:/javafile/";//定义创建目录位置File contents = new File(dir);contents.mkdirs();//创建文件目录try {byte bytes[] = {1, 2, 3, 4};File file = new File("D:/javafile/test.txt");//判断文件是否存在，如果不存在就创建if (!file.exists()) {file.createNewFile();}FileWriter fw = new FileWriter(file.getAbsoluteFile());BufferedWriter bw = new BufferedWriter(fw);System.out.println("正在写入.....");bw.write(html);bw.close();System.out.println("录入完毕");} catch (Exception e) {e.getStackTrace();}    }
}

使用注意:

1.图中红色标记为设置目标网站路径.
图片: 12.设置网页源代码存放目录和文件创建
欢迎各位发表评论和问题。

java代码实现网页源码爬取相关推荐

eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...
猫眼html源码,爬取猫眼及可视化(示例代码)
一.主题式网络爬虫设计方案 1,主题式网络爬虫名称: 爬取猫眼电影TOP100 2,主题式网络爬虫爬取的内容与数据特征分析: 爬取内容为:电影名,得分, 数据特征分析:将其储存于xlsx文件中 3.主 ...
GreasyFork的插件源码爬取
今天想看一个插件的源码,但是网页打开了好几次都崩溃了,估计是因为源码太长了,然后GreasyFork的前端没有做优化.所以只能把源码爬下来再看.所以顺手写了一个爬取GreasyFork的插件源码的脚本 ...
vba抓取html源码数据,VBA代码、网页数据采集、爬取文章
应粉丝要求做一篇爬取网页上的文章. 实现功能:爬取网站上的一篇文章并保存到记事本上. 下面是代码分享 Sub 采集网页上的文章保存到记事本() Dim oHtml As Object Set oHtm ...
java springboot VUE 在线学习平台系统开发mysql数据库web结构java编程计算机网页源码maven项目前后端分离
一.源码特点 springboot VUE 在线学习平台系统是一套完善的完整信息管理类型系统前后端分离,结合springboot框架和VUE完成本系统,对理解JSP java编程开发语言有帮助系 ...
前端代码源码爬取下载工具httrack
如何使用 WinHTTrack / WebHTTrack(Windows或Linux / Unix的GUI版本) HTTrack GUI文档,以及有关Windows版本(WinHTTrack)和Lin ...
python 爬虫源代码-Python爬虫学习之获取指定网页源码
本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下 1.任务简介前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇 ...
教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇
文章目录 1:网络爬虫介绍 2:HttpClients类介绍 2.1 HttpGet参数问题 2.2 HttpPost参数问题 2.3 连接池技术问题 3:Jsoup介绍 4:动手实践如何抓取网页上数 ...
python爬网页源码_python爬虫爬取网页的内容和网页源码不同？
可以看到这里id为k_total的元素值不同,爬出来是1,网页源码是55. 附还未完成的代码:import requests from bs4 import BeautifulSoup import ...
Python爬取网页源码，图片和文字到本地
import re import os import os.path from time import sleep from urllib.parse import urljoin from urll ...

java代码实现网页源码爬取

java代码基于Eclipse简单实现网页源码爬取

仅需一页代码:

使用注意:

java代码实现网页源码爬取相关推荐

最新文章

热门文章