最近接到一个新的需求,要求给定一个url地址,获取该网页的title和图标地址,大致的思路是使用HttpUrlConnection抓取网页的源码,然后使用正则表达式匹配网页的标题和图标。

开发测试的过程中遇到了N多问题,简单总结一下;

(一).限制返回的网页大小

  在使用HttpUrlConnection获取网页内容时,最基本的做法就是获取http输入流,然后读取完整的网页内容,最后关闭输入流和http连接,但这里需要考虑的就是由于需求只是为了获取网页头信息中的title和icon,因此不需要下载完整的网页内容,只需要保证取到完整的头信息就行,思路就是从http输入流中读取指定大小的数据。

 1 try (InputStream inputStream = httpURLConnection.getInputStream();
 2       InputStreamReader inputStreamReader = new InputStreamReader(inputStream);
 3       BufferedReader reader = new BufferedReader(inputStreamReader);) {
 4
 5                 // 只获取10KB的数据
 6                 char[] chars = new char[10 * 1024];
 7                 reader.read(chars, 0, 10 * 1024);
 8
 9                 httpURLConnection.disconnect();
10                 return new String(chars);
11             }

  验证了几个比较大型的网站,10KB的数据足够获取到head信息。

转载于:https://www.cnblogs.com/superzong/p/6437056.html

使用Java HttpURLConnection抓取网页内容(一)限制返回的网页大小相关推荐

  1. java 抓取网页内容小工具

    之超同志今天问我会不会抓网页的内容,然后把一些表格整理成excel. 好吧,我是不会的,但是我想试试,结果还是可行的. 先说说他的需求吧,他需要把http://www.zjex.com.cn/view ...

  2. java socket抓取资源_Java 通过 Socket 的形式抓取网页内容

    package com.hmw.net; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IO ...

  3. java抓取网页内容

    今天做项目时用到java抓取网页内容,本以为很简单的一件事但是还是让我蛋疼了一会,网上资料一大堆但是都是通过url抓取网页内容,但是我要的是读取本地的html页面内容的方法,网上找不到怎么办我瞬间了! ...

  4. java socket 获取网页源代码_通过java.net.Socket 类抓取网页内容

    /** 文件名 : Firstsocket.java 描述 :通过 java.net.Socket 类访问一个web页面,并且返回结果 作者: 慈勤强 cqq1978@yeah.net 参考:http ...

  5. Java爬虫抓取网页

    Java爬虫抓取网页 原作者:hebedich  原文链接 下面直接贴代码: import java.io.BufferedReader; import java.io.InputStreamRead ...

  6. java爬虫抓取网页数据论坛_Java爬虫抓取网页

    Java爬虫抓取网页原作者:hebedich  原文链接 下面直接贴代码: import java.io.BufferedReader; import java.io.InputStreamReade ...

  7. Asp.Net 之 抓取网页内容

    一.获取网页内容--html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...

  8. python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容

    利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏 Python 3中提供了url打 ...

  9. php 抓取页面图片,php 抓取网页内容与图片的方法

    这篇文章主要介绍了关于php 抓取网页内容与图片的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 例子1:<?php include_once("curl.php& ...

最新文章

  1. nginx中js修改不生效的问题
  2. select into from 用法_年轻同事不讲武德,直接怼上MySQL常见SQL的七大错误用法
  3. Java技术分享:SpringBoot多模块开发
  4. php curl的数据后台如何接收,PHP curl以模拟put请求,后台无法接受到数据是怎么回事?...
  5. 电销机器人价格_箭鱼电销机器人:为什么电话机器人公司不用机器人给你打电话?...
  6. [objective-c] 04 - 消息机制 回调 目标-动作回调
  7. 多重环境下web.config配置管理解决方案
  8. 教新人如何压制AVI和RMVB(教程及下载)
  9. 如何理解 Java 中的继承?
  10. 解决警告Presenting view controllers on detached view controllers is discouraged 以及引申
  11. google全屏快捷方式 关键字 kiosk
  12. 用css伪元素制作箭头图标
  13. JAVA兔子繁衍_Java 编程经典案例之兔子繁殖迭代问题
  14. matlab 代码转 Python
  15. 【记录】前端知识点 - Vue
  16. CSharp中的开源读写Excel组件介绍
  17. 实时语音如何过质量关?
  18. 实训1_获取产业数据并存储_预处理与简单分析
  19. 小满 | 清和暑夏,小得盈满
  20. 强烈给大家推荐一款简单好用免费的甘特图项目进度管理工具-进度猫

热门文章

  1. 3 种场景 @Transactional 失效的解决方法
  2. 震惊 Guava 竟然有坑
  3. 作者解读ICML接收论文:如何使用不止一个数据集训练神经网络模型?
  4. 辞去美国终身教职回国的帅教授,拟增列为顶尖985大学博导
  5. 老师买50斤小龙虾给学生上实验课,网友:我还能有心思上课?
  6. 学习AI方向大半年,为什么你还没有别人几个月更精通?
  7. 数据集轻松按需搜索,这个工具汇集近2000个图像数据集,可免费获取|Reddit高热...
  8. “23岁本科生发14篇SCI”,文章被学校官网悄悄删了,你怎么看?
  9. 神童、数学家、抑郁症患者,控制论之父诺伯特·维纳的一生
  10. 收藏一波:常用正则表达式公式总结