java代码实现网页源码爬取

java代码基于Eclipse简单实现网页源码爬取

哈哈,大家好!我是yanxiaolxy,前天四级英语考试考完了,作业也不多了,感觉整个人都变得轻松了许多。
今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码。

仅需一页代码:

package 网站爬虫2;
/*** 爬取目标网页源代码示例* @作者 YanXiaolxy* @版本 2020.03* @时间 2020年12月14日 下午1:14:14*/
import java.io.BufferedWriter;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class webHtmlCrawer {public static void main(String[] args) {newFile();}public static String getConnection() {String path = "https://www.taobao.com/";try {HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();conn.setRequestMethod("GET");conn.setConnectTimeout(5000);if (conn.getResponseCode() == 200) {InputStream xml = conn.getInputStream();byte[] data = read(xml);//System.out.println(xml);return new String(data);}else {System.out.println("连接失败!");}} catch (Exception e) {e.printStackTrace();}return null;}//读取数据流,转换为字符串public static byte[] read(InputStream xml) throws Exception {ByteArrayOutputStream outputStream = new ByteArrayOutputStream();byte[] buffer = new byte[1024];int len = 0;while ((len = xml.read(buffer)) != -1) {outputStream.write(buffer, 0, len);}xml.close();return outputStream.toByteArray();}public static void newFile() {String html = getConnection();String dir = "D:/javafile/";//定义创建目录位置File contents = new File(dir);contents.mkdirs();//创建文件目录try {byte bytes[] = {1, 2, 3, 4};File file = new File("D:/javafile/test.txt");//判断文件是否存在,如果不存在就创建if (!file.exists()) {file.createNewFile();}FileWriter fw = new FileWriter(file.getAbsoluteFile());BufferedWriter bw = new BufferedWriter(fw);System.out.println("正在写入.....");bw.write(html);bw.close();System.out.println("录入完毕");} catch (Exception e) {e.getStackTrace();}    }
}

使用注意:

1.图中红色标记为设置目标网站路径.
图片: 12.设置网页源代码存放目录和文件创建
欢迎各位发表评论和问题。

java代码实现网页源码爬取相关推荐

  1. eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取

    作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取 今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...

  2. 猫眼html源码,爬取猫眼及可视化(示例代码)

    一.主题式网络爬虫设计方案 1,主题式网络爬虫名称: 爬取猫眼电影TOP100 2,主题式网络爬虫爬取的内容与数据特征分析: 爬取内容为:电影名,得分, 数据特征分析:将其储存于xlsx文件中 3.主 ...

  3. GreasyFork的插件源码爬取

    今天想看一个插件的源码,但是网页打开了好几次都崩溃了,估计是因为源码太长了,然后GreasyFork的前端没有做优化.所以只能把源码爬下来再看.所以顺手写了一个爬取GreasyFork的插件源码的脚本 ...

  4. vba抓取html源码数据,VBA代码、网页数据采集、爬取文章

    应粉丝要求做一篇爬取网页上的文章. 实现功能:爬取网站上的一篇文章并保存到记事本上. 下面是代码分享 Sub 采集网页上的文章保存到记事本() Dim oHtml As Object Set oHtm ...

  5. java springboot VUE 在线学习平台系统开发mysql数据库web结构java编程计算机网页源码maven项目前后端分离

    一.源码特点   springboot VUE 在线学习平台系统是一套完善的完整信息管理类型系统 前后端分离,结合springboot框架和VUE完成本系统,对理解JSP java编程开发语言有帮助系 ...

  6. 前端代码源码爬取下载工具httrack

    如何使用 WinHTTrack / WebHTTrack(Windows或Linux / Unix的GUI版本) HTTrack GUI文档,以及有关Windows版本(WinHTTrack)和Lin ...

  7. python 爬虫源代码-Python爬虫学习之获取指定网页源码

    本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下 1.任务简介 前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇 ...

  8. 教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇

    文章目录 1:网络爬虫介绍 2:HttpClients类介绍 2.1 HttpGet参数问题 2.2 HttpPost参数问题 2.3 连接池技术问题 3:Jsoup介绍 4:动手实践如何抓取网页上数 ...

  9. python爬网页源码_python爬虫爬取网页的内容和网页源码不同?

    可以看到这里id为k_total的元素值不同,爬出来是1,网页源码是55. 附还未完成的代码:import requests from bs4 import BeautifulSoup import ...

  10. Python爬取网页源码,图片和文字到本地

    import re import os import os.path from time import sleep from urllib.parse import urljoin from urll ...

最新文章

  1. GitHub上大热的Deep Photo终于有TensorFlow版了!
  2. ubuntu10.04 的服务管理变动
  3. GPT-3获NeurIPS 2020最佳论文奖,苹果华人学者获经典论文奖
  4. Android Studio使用Gradle上传AAR至Maven
  5. Eclipse Debug maven test
  6. python字符串长度排序_python-对混合类型和不同长度的字符串进行排序
  7. 关于MBR、GPT以及BIOS引导模式区分
  8. 二极管分类 二极型号大全
  9. jsp如何使用kindeditor
  10. Linux terminal 终端快捷键
  11. nginx代理内网服务器的图片服务器
  12. Android 11.0 12.0修改搜狗为默认输入法,并且授予运行权限
  13. while循环练习题-检测输入数据中奇数和偶数的个数
  14. 亲身经历:一个00后的中专生是怎么在深圳拿到15K(Java后端开发)
  15. python 情感分析实例_基于Python的情感分析案例
  16. css过滤白色,使用CSS3模糊滤镜时,白色模糊的图像?
  17. S19文件格式详解(总结)以及与hex文件的互转
  18. 菜鸟教程mysql创建表_MySQL 创建数据库 | 菜鸟教程
  19. SSO单点登录教程案例 客户端和服务端
  20. Java字符串:valueOf() 方法

热门文章

  1. win10开启cpu虚拟化
  2. word中的左拐箭头和向下箭头的差别
  3. 微信小程序中的网络请求
  4. python 对 文件内容 搜索_python 文件查找及内容匹配方法
  5. uefi下添加显卡驱动
  6. SpringBoot生成条形码
  7. 思维模型 帕累托法则
  8. 歌乎:985博士生对996的困惑
  9. centos7zabbix-agen安装
  10. python把两张图片合成一张_怎么合成图片-利用Python将两张图片合成为一张图