简单爬虫(Java)

  • ​ InputStream类是表示字节输入流的所有类的超类。这是一个抽象类。从输入流读取下一个数据字节。返回 0 到 255 范围内的 int 字节值。如果因已到达流末尾而没有可用的字节,则返回值 -1。在输入数据可用、检测到流的末尾或者抛出异常前,此方法一直阻塞。
package Demo04;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;public class UrlDown {public static void main(String[] args) throws Exception {//1.下载地址URL url = new URL("https://xxxxx.html");//2.连接到这个资源 用HTTP连接HttpURLConnection urlConnection = (HttpURLConnection)url.openConnection();InputStream inputStream = urlConnection.getInputStream();FileOutputStream fos= new FileOutputStream("xxx.mp4");byte[] buffer = new byte[1024];int len;while ((len=inputStream.read(buffer))!=-1){fos.write(buffer,0,len); //写出这个数据}fos.close();inputStream.close();urlConnection.disconnect();//断开连接}
}

如何使用Java进行简单爬虫相关推荐

  1. java图片简单爬虫_[Java教程]使用jsoup进行简单的爬虫操作爬取图片

    [Java教程]使用jsoup进行简单的爬虫操作爬取图片 0 2015-12-01 17:00:27 package com.guanglan.util;import java.io.File;imp ...

  2. Java实现简单爬虫——爬取疫情数据

    1.项目准备 在项目中使用到了jsoup和fastjson jsoup用于创建一个连接(绘画) 用于获取和解析HTML页面 而fastjson对数据进行一个格式化 在pom.xml导入坐标 <d ...

  3. SpringBoot-Jsoup做java简单-爬虫

    使用SpringBoot+Jsoup做java简单'爬虫' Jsoup简介 Jsoup是一款java的Html解析器,可以直接解析Html.针对网页提供了相关Api,可以通过Dom.Css.Jquer ...

  4. 基于Java实现简单亚马逊爬虫

    前言:最近博主买了台Kindle,感觉亚马逊上的图书资源质量挺好,还时不时地会有价格低但质量高的书出售,但限于亚马逊并没有很好的优惠提醒功能,自己天天盯着又很累.于是,我自己写了一个基于Java的亚马 ...

  5. java 使用webmagic 爬虫框架爬取博客园数据

    java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录   webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...

  6. 玩C一定用得到的19款Java开源Web爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...

  7. .net core 实现简单爬虫—抓取博客园的博文列表

    一.介绍一个Http请求框架HttpCode.Core HttpCode.Core 源自于HttpCode(传送门),不同的是 HttpCode.Core是基于.net standard 2.0实现的 ...

  8. 零基础写Java知乎爬虫之进阶篇

    转载自 零基础写Java知乎爬虫之进阶篇 前面几篇文章,我们都是简单的实现了java爬虫抓取内容的问题,那么如果遇到复杂情况,我们还能继续那么做吗?答案当然是否定的,之前的仅仅是入门篇,都是些基础知识 ...

  9. python简单实践作业_【Python】:简单爬虫作业

    使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...

最新文章

  1. 企业级java springcloud b2bc商城系统开源源码二次开发-负载均衡策略...
  2. Python中类方法、类实例方法、静态方法,私有属性和私有方法有何区别?
  3. vscode 使用笔记
  4. HTML form的一些属性(第一版)
  5. DDD中的聚合和UML中的聚合以及组合的关系
  6. 清华毕业生做保姆,那又如何呢
  7. ARX中实现实体的偏移
  8. 摄像头拼接技术-远超海康大华
  9. MySQL迁移安装_mysql数据库安装路径迁移
  10. 二月春风似剪刀的上一句是什么,二月春风似剪刀全诗赏析
  11. TCP_IP Sockets编程C语言实现第2版 源码下载
  12. 网易云音乐下载MP3的方法
  13. Android官方文档中文版
  14. win11系统管理员身份在哪里?怎么设置
  15. Hero image网站转化这么高?21个最佳案例给你参考
  16. Vue +Vant 静态电商商城app(首页版)
  17. 游戏中的网络同步机制——Lockstep(转载)
  18. 解决Vue启动报错 npm ERR! @1.0.0 dev: node build/dev-server.js
  19. 使用python代码举例说明离散随机变量
  20. 基于微信小程序的快递取件及上门服务

热门文章

  1. FTP初始化文件.netrc使用技巧[转发]
  2. zabbix数据库优化
  3. Python3 中打的迭代器与生成器
  4. centos shell 编程-通过端口号kill对应的进程
  5. nginx启动报错 :./nginx: error while loading shared libraries: libpcre.so.1: cannot open shared object fi
  6. 常用JDK系统环境变量配置
  7. 提高Eclipse的速度,去掉对于工程的 Validatioan
  8. mysql show sleep_mysq解决sleep进程过多的办法
  9. 18-CSS问题-让多个div横排显示并设置间距解决方案
  10. 解决RecyclerView瀑布流效果结合Glide使用时图片变形的问题