如将连接中的流读取出来方法:/**

* 将网页上的数据流转成字符串

*

* @param url

* @return

* @throws IOError

*/

public String getSourceFromURL(String url) throws IOException {

URL u=new URL(url);

InputStream in=u.openStream();

StringBuilder sb=new StringBuilder();

byte[] buff=new byte[1024];

int len;

while((len=in.read(buff))!=-1){

//此处使用UTF-8编码,如果遇到像新浪这样的网站编码不是UTF-8的,就会乱,

//此处我就不过细处理了

sb.append(new String(buff,0,len,"UTF-8"));

}

in.close();

return String.valueOf(sb);

}

获得网页中的所有数据后,便可以使用正则表达式匹配了,这不得不说要正则表达式灵活运用才方能不用代码进行各种处理了,我的正则表达式都有一段时间没有,又陌生了:

此处我就随便写一个获取标题的正则吧,不过没有做什么就近匹配,如果页面有多个能匹配到的标签,那么可能会匹配不到想要的

java html提取_如何用JAVA从HTML源代码中提取有用的文本信息?相关推荐

  1. java 判断手机号_如何用java判断手机号运营商?

    如何用java实现判断手机号的运营商?因为每个号段都是工信部规定划分给指定运营商的,所以我们可以通过手机号码的号段来判断. 现在手机号的号段那么多,要怎样方便的的判断呢?于是我们就想到了正则表达式,在 ...

  2. java 网络爬虫_如何用Java实现网络爬虫

    原标题:如何用Java实现网络爬虫 微信公众号"书圈"后台回复[Javapachong1],下载本例的PPT和源码 作品描述 本章作品是一个能够抓取指定网站ACM比赛信息的爬虫.A ...

  3. java编写正则表达式_如何用Java编写最快的表达式评估器之一

    java编写正则表达式 当然,标题有点吸引人,但确实如此(您当然不相信自己没有伪造自己的基准,但这是另一回事了). 因此,上周我正在寻找一个小型且可用的库来评估数学表达式. 我几乎直接偶然发现了这个s ...

  4. python java 爬数据_如何用java爬虫爬取网页上的数据

    当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...

  5. java 填充字符串_如何用Java填充字符串?

    素胚勾勒不出你 从Java 1.5开始,String.format()可用于左/右衬垫给定的字符串.public static String padRight(String s, int n) { r ...

  6. java 字符串 加密_如何用JAVA实现字符串简单加密解密?

    展开全部 java加密字符串可以使用des加密算法62616964757a686964616fe4b893e5b19e31333363376462,实例如下: package test; import ...

  7. java用户输入_如何用Java获取用户输入?

    您可以根据需求使用下列任意选项.import java.util.Scanner; Scanner scan = new Scanner(System.in);String s = scan.next ...

  8. java esc的_如何用Java中的Receipt打印机和ESC / POS命令提高速度

    我有一个与Java和热敏打印机通信的应用程序 使用Star tsp 100打印机使热敏打印机以条形码/强调/不同尺寸打印收据等. 我可以让程序打印出我喜欢的东西,但打印机很慢.我相信原因是我使用非优选 ...

  9. java画五角星_如何用Java程序写出五角星?

    展开全部 第一种,用图形 import java.awt.*; import javax.swing.*; public class WuJiaoXing extends JPanel { priva ...

最新文章

  1. Atomic Layer Deposition原子层沉积技术
  2. vs2003不能正常调试或运行!
  3. WS Security 认证方式详解
  4. API网关Kong系列(二)部署
  5. Linux命令行抓包及包解析工具tshark(wireshark)使用实例解析
  6. Camel中的几个重要概念之 Components
  7. Mac OS X下安装nvm的方法
  8. enum in c language
  9. oracle .dbf文件过大_学习这篇Oracle数据库文件坏块损坏的恢复方法,拓展你的知识面...
  10. 留守女孩携笔从戎,被录取为空军飞行员
  11. 武汉大学计算机控制考试卷子,武汉大学计算机学院微机接口0809试题及答案.doc...
  12. Eclipse 4.7(Oxygen)安装Tomcat Plugin 后没有小猫图标解决方法
  13. 基于FPGA的VGA显示,简单的历程和注释(DE2-115)
  14. learning and enjoying
  15. 计算机关闭声音快捷键,电脑声音快捷键【运用方式】
  16. matlab提示参数不足,为什么提示输入参数条目不足?
  17. mac charles 安装教程、使用教程
  18. Python:学习成绩管理系统
  19. linux批量替换文件名、文件内容字符串
  20. 安裝Drupal 7简体中文版

热门文章

  1. 通俗理解并行性和并发性的区别
  2. 45 jQuery中的常用API
  3. wordpress acf字段 不同样式_WordPress强大搜索功能如何实现?安装Ivory Search插件
  4. Transformer 眼中世界 Vs. CNN 眼中世界
  5. NanoDet:轻量级(1.8MB)、超快速(移动端97fps)目标检测项目
  6. copyTo函数、随机数产生器 RNG、轮廓的特征矩 Moment、cvGet2D函数
  7. CentOS7(64位)下运行IPython3出错解决办法
  8. 第十课.蒙特卡洛方法与随机过程
  9. hashmap 扩容是元素还是数组_HashMap的扩容机制---resize()
  10. Journal of Genetics and Genomics科学编辑招聘启事