java代码实现网页源码爬取
java代码实现网页源码爬取
java代码基于Eclipse简单实现网页源码爬取
哈哈,大家好!我是yanxiaolxy,前天四级英语考试考完了,作业也不多了,感觉整个人都变得轻松了许多。
今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码。
仅需一页代码:
package 网站爬虫2;
/*** 爬取目标网页源代码示例* @作者 YanXiaolxy* @版本 2020.03* @时间 2020年12月14日 下午1:14:14*/
import java.io.BufferedWriter;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class webHtmlCrawer {public static void main(String[] args) {newFile();}public static String getConnection() {String path = "https://www.taobao.com/";try {HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();conn.setRequestMethod("GET");conn.setConnectTimeout(5000);if (conn.getResponseCode() == 200) {InputStream xml = conn.getInputStream();byte[] data = read(xml);//System.out.println(xml);return new String(data);}else {System.out.println("连接失败!");}} catch (Exception e) {e.printStackTrace();}return null;}//读取数据流,转换为字符串public static byte[] read(InputStream xml) throws Exception {ByteArrayOutputStream outputStream = new ByteArrayOutputStream();byte[] buffer = new byte[1024];int len = 0;while ((len = xml.read(buffer)) != -1) {outputStream.write(buffer, 0, len);}xml.close();return outputStream.toByteArray();}public static void newFile() {String html = getConnection();String dir = "D:/javafile/";//定义创建目录位置File contents = new File(dir);contents.mkdirs();//创建文件目录try {byte bytes[] = {1, 2, 3, 4};File file = new File("D:/javafile/test.txt");//判断文件是否存在,如果不存在就创建if (!file.exists()) {file.createNewFile();}FileWriter fw = new FileWriter(file.getAbsoluteFile());BufferedWriter bw = new BufferedWriter(fw);System.out.println("正在写入.....");bw.write(html);bw.close();System.out.println("录入完毕");} catch (Exception e) {e.getStackTrace();} }
}
使用注意:
1.图中红色标记为设置目标网站路径.
图片: 12.设置网页源代码存放目录和文件创建
欢迎各位发表评论和问题。
java代码实现网页源码爬取相关推荐
- eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取 今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...
- 猫眼html源码,爬取猫眼及可视化(示例代码)
一.主题式网络爬虫设计方案 1,主题式网络爬虫名称: 爬取猫眼电影TOP100 2,主题式网络爬虫爬取的内容与数据特征分析: 爬取内容为:电影名,得分, 数据特征分析:将其储存于xlsx文件中 3.主 ...
- GreasyFork的插件源码爬取
今天想看一个插件的源码,但是网页打开了好几次都崩溃了,估计是因为源码太长了,然后GreasyFork的前端没有做优化.所以只能把源码爬下来再看.所以顺手写了一个爬取GreasyFork的插件源码的脚本 ...
- vba抓取html源码数据,VBA代码、网页数据采集、爬取文章
应粉丝要求做一篇爬取网页上的文章. 实现功能:爬取网站上的一篇文章并保存到记事本上. 下面是代码分享 Sub 采集网页上的文章保存到记事本() Dim oHtml As Object Set oHtm ...
- java springboot VUE 在线学习平台系统开发mysql数据库web结构java编程计算机网页源码maven项目前后端分离
一.源码特点 springboot VUE 在线学习平台系统是一套完善的完整信息管理类型系统 前后端分离,结合springboot框架和VUE完成本系统,对理解JSP java编程开发语言有帮助系 ...
- 前端代码源码爬取下载工具httrack
如何使用 WinHTTrack / WebHTTrack(Windows或Linux / Unix的GUI版本) HTTrack GUI文档,以及有关Windows版本(WinHTTrack)和Lin ...
- python 爬虫源代码-Python爬虫学习之获取指定网页源码
本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下 1.任务简介 前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇 ...
- 教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇
文章目录 1:网络爬虫介绍 2:HttpClients类介绍 2.1 HttpGet参数问题 2.2 HttpPost参数问题 2.3 连接池技术问题 3:Jsoup介绍 4:动手实践如何抓取网页上数 ...
- python爬网页源码_python爬虫爬取网页的内容和网页源码不同?
可以看到这里id为k_total的元素值不同,爬出来是1,网页源码是55. 附还未完成的代码:import requests from bs4 import BeautifulSoup import ...
- Python爬取网页源码,图片和文字到本地
import re import os import os.path from time import sleep from urllib.parse import urljoin from urll ...
最新文章
- GitHub上大热的Deep Photo终于有TensorFlow版了!
- ubuntu10.04 的服务管理变动
- GPT-3获NeurIPS 2020最佳论文奖,苹果华人学者获经典论文奖
- Android Studio使用Gradle上传AAR至Maven
- Eclipse Debug maven test
- python字符串长度排序_python-对混合类型和不同长度的字符串进行排序
- 关于MBR、GPT以及BIOS引导模式区分
- 二极管分类 二极型号大全
- jsp如何使用kindeditor
- Linux terminal 终端快捷键
- nginx代理内网服务器的图片服务器
- Android 11.0 12.0修改搜狗为默认输入法,并且授予运行权限
- while循环练习题-检测输入数据中奇数和偶数的个数
- 亲身经历:一个00后的中专生是怎么在深圳拿到15K(Java后端开发)
- python 情感分析实例_基于Python的情感分析案例
- css过滤白色,使用CSS3模糊滤镜时,白色模糊的图像?
- S19文件格式详解(总结)以及与hex文件的互转
- 菜鸟教程mysql创建表_MySQL 创建数据库 | 菜鸟教程
- SSO单点登录教程案例 客户端和服务端
- Java字符串:valueOf() 方法