java html提取_如何用JAVA从HTML源代码中提取有用的文本信息?
如将连接中的流读取出来方法:/**
* 将网页上的数据流转成字符串
*
* @param url
* @return
* @throws IOError
*/
public String getSourceFromURL(String url) throws IOException {
URL u=new URL(url);
InputStream in=u.openStream();
StringBuilder sb=new StringBuilder();
byte[] buff=new byte[1024];
int len;
while((len=in.read(buff))!=-1){
//此处使用UTF-8编码,如果遇到像新浪这样的网站编码不是UTF-8的,就会乱,
//此处我就不过细处理了
sb.append(new String(buff,0,len,"UTF-8"));
}
in.close();
return String.valueOf(sb);
}
获得网页中的所有数据后,便可以使用正则表达式匹配了,这不得不说要正则表达式灵活运用才方能不用代码进行各种处理了,我的正则表达式都有一段时间没有,又陌生了:
此处我就随便写一个获取标题的正则吧,不过没有做什么就近匹配,如果页面有多个能匹配到的标签,那么可能会匹配不到想要的
java html提取_如何用JAVA从HTML源代码中提取有用的文本信息?相关推荐
- java 判断手机号_如何用java判断手机号运营商?
如何用java实现判断手机号的运营商?因为每个号段都是工信部规定划分给指定运营商的,所以我们可以通过手机号码的号段来判断. 现在手机号的号段那么多,要怎样方便的的判断呢?于是我们就想到了正则表达式,在 ...
- java 网络爬虫_如何用Java实现网络爬虫
原标题:如何用Java实现网络爬虫 微信公众号"书圈"后台回复[Javapachong1],下载本例的PPT和源码 作品描述 本章作品是一个能够抓取指定网站ACM比赛信息的爬虫.A ...
- java编写正则表达式_如何用Java编写最快的表达式评估器之一
java编写正则表达式 当然,标题有点吸引人,但确实如此(您当然不相信自己没有伪造自己的基准,但这是另一回事了). 因此,上周我正在寻找一个小型且可用的库来评估数学表达式. 我几乎直接偶然发现了这个s ...
- python java 爬数据_如何用java爬虫爬取网页上的数据
当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...
- java 填充字符串_如何用Java填充字符串?
素胚勾勒不出你 从Java 1.5开始,String.format()可用于左/右衬垫给定的字符串.public static String padRight(String s, int n) { r ...
- java 字符串 加密_如何用JAVA实现字符串简单加密解密?
展开全部 java加密字符串可以使用des加密算法62616964757a686964616fe4b893e5b19e31333363376462,实例如下: package test; import ...
- java用户输入_如何用Java获取用户输入?
您可以根据需求使用下列任意选项.import java.util.Scanner; Scanner scan = new Scanner(System.in);String s = scan.next ...
- java esc的_如何用Java中的Receipt打印机和ESC / POS命令提高速度
我有一个与Java和热敏打印机通信的应用程序 使用Star tsp 100打印机使热敏打印机以条形码/强调/不同尺寸打印收据等. 我可以让程序打印出我喜欢的东西,但打印机很慢.我相信原因是我使用非优选 ...
- java画五角星_如何用Java程序写出五角星?
展开全部 第一种,用图形 import java.awt.*; import javax.swing.*; public class WuJiaoXing extends JPanel { priva ...
最新文章
- Atomic Layer Deposition原子层沉积技术
- vs2003不能正常调试或运行!
- WS Security 认证方式详解
- API网关Kong系列(二)部署
- Linux命令行抓包及包解析工具tshark(wireshark)使用实例解析
- Camel中的几个重要概念之 Components
- Mac OS X下安装nvm的方法
- enum in c language
- oracle .dbf文件过大_学习这篇Oracle数据库文件坏块损坏的恢复方法,拓展你的知识面...
- 留守女孩携笔从戎,被录取为空军飞行员
- 武汉大学计算机控制考试卷子,武汉大学计算机学院微机接口0809试题及答案.doc...
- Eclipse 4.7(Oxygen)安装Tomcat Plugin 后没有小猫图标解决方法
- 基于FPGA的VGA显示,简单的历程和注释(DE2-115)
- learning and enjoying
- 计算机关闭声音快捷键,电脑声音快捷键【运用方式】
- matlab提示参数不足,为什么提示输入参数条目不足?
- mac charles 安装教程、使用教程
- Python:学习成绩管理系统
- linux批量替换文件名、文件内容字符串
- 安裝Drupal 7简体中文版
热门文章
- 通俗理解并行性和并发性的区别
- 45 jQuery中的常用API
- wordpress acf字段 不同样式_WordPress强大搜索功能如何实现?安装Ivory Search插件
- Transformer 眼中世界 Vs. CNN 眼中世界
- NanoDet:轻量级(1.8MB)、超快速(移动端97fps)目标检测项目
- copyTo函数、随机数产生器 RNG、轮廓的特征矩 Moment、cvGet2D函数
- CentOS7(64位)下运行IPython3出错解决办法
- 第十课.蒙特卡洛方法与随机过程
- hashmap 扩容是元素还是数组_HashMap的扩容机制---resize()
- Journal of Genetics and Genomics科学编辑招聘启事