Java读取HTML传人文件,java读取html文件并获取body中所有的标签及内容的案例.pdf
java读读取取html文文件件,并并获获取取body中中所所有有的的标标签签及及内内容容的的案案例例
这里的获取的是html文件中body 中的所有标签以及内容
package com.lmt.service.file;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import org.springframework.stereotype.Component;
import com.lmt.config.UrlConstants;
Component
public class ParseFile {
/**
* 解析html文件
* param file
* return
*/
public String readHtml(File file){
String body = "";
try {
FileInputStream iStream = new FileInputStream(file);
Reader reader = new InputStreamReader(iStream);
BufferedReader htmlReader = new BufferedReader(reader);
String line;
boolean found = false;
while (!found && (line = htmlReader.readLine()) != null) {
if (line.toLowerCase().indexOf("
的前面可能存在空格
found = true;
}
}
found = false;
while (!found && (line = htmlReader.readLine()) != null) {
if (line.toLowerCase().indexOf("
found = true;
} else {
// 果存在图片,则将相对路径转换为绝对路径
String lowerCaseLine = line.toLowerCase();
if (lowerCaseLine.contains("src")) {
//这里是定义图片的访问路径
String directory = "D:/test";
// 果路径名不以反斜杠结尾,则手动添加反斜杠
/*if (!directory.endsWith("\\")) {
directory = directory + "\\";
}*/
// line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory +
line.substring(lowerCaseLine.indexOf("src") + 5);
/*String filename = extractFilename(line);
line = line.substri
Java读取HTML传人文件,java读取html文件并获取body中所有的标签及内容的案例.pdf相关推荐
- java 反射 父类的属性_用反射的方式获取父类中的所有属性和方法
package com.syh.jdbc.reflection_super; /** * 父类 * @author syh * */ public class Parent { public Stri ...
- java list 截取部分数据_Java List.subList()方法:获取列表中指定范围的子列表
集合类中的 List.subList() 方法用于获取列表中指定范围的子列表,该列表支持原列表所支持的所有可选操作.返回列表中指定范围的子列表. 语法: subList(int fromIndex,i ...
- java中content啥意思_JSTL标签中的body-content标签体内容输出格式的介绍
我们在JSTL标签中看到"JSP"这种类型的定义,但是不知道它是什么意思,其实它的意思就是定义了一个JSTL标签内部是否允许使用JSP表达式,先来了解什么是JSTL标签体,请看代码 ...
- Java 实现MP3文件信息读取
前言: 最近在做实训,写一个音乐播放器,将文件存储在服务端,然后将相应的数据信息添加到数据库中.不想一个个手动添加,所以在百度之后发现MP3文件本身是只带这些信息的. 更新因为目前mp3文件中ID3v ...
- java相同字符截取第n次_Java 获取字符串中第N次出现的字符位置
public static int getCharacterPosition(String string){ //这里是获取"/"符号的位置 Matcher slashMatche ...
- cmd命令之Xcopy介绍_复制文件夹里所有文件到另一个文件夹操作方式
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.Xcopy是什么? 二.Xcopy参数介绍 三.使用示例 例1.要将所有文件和子目录(包括任何空子目录)从驱动器 ...
- xml文件、jsp文件、sql文件、shell脚本文件注释
一,各种文件如何注释: 1.xml文件注释 注释以 <!-- 开始并以 --> 结束, 例如 <!--注释内容-->. 2.jsp文件注释 2. 1. html注释: ...
- 怎么读取java文件,Java怎么读取文件
当前位置:我的异常网» J2SE » Java怎么读取文件 Java怎么读取文件 www.myexceptions.net 网友分享于:2013-12-20 浏览:60次 Java如何读取文件? ...
- java 文件写入 读取_JAVA文件的两种读取方法和三种写入方法
在使用java对文件进行读写操作时,有多种方法可以使用,但不同的方法有不同的性能. 此文对常用的读写方法进行了整理,以备不时之需. 1.文件的读取 主要介绍两种常用的读取方法.按行读取和按字符块读取. ...
最新文章
- 从芯片到系统:FPGA加速卡的发展历程与展望
- DL之MobileNetV2:MobileNetV2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
- 4.1.6 OS之文件的基本操作原理(创建、删除、打开、关闭、读-写)
- OpenWrt——Could not lock /var/lock/opkg.lock: Resource temporarily unavailable.
- python字符串应用
- linux 桌面显示视频播放器,Ubuntu 13.10开启媒体播放器VLC桌面通知的步骤
- Win7下如何挂载NFS共享目录
- leetcode1267. 统计参与通信的服务器(dfs)
- idea搭建java openCV环境
- 《程序设计实践》读书笔记第五至六章
- 运筹优化(十六)--排队论基础及其最优化求解
- Luogu1501[国家集训队] Tree II
- IDEA中下载mybatis插件mybatis plugins 离线版安装
- 基于java宿舍管理系统的开题报告_基于Java的学生宿舍管理系统开题报告
- Hibernate的一对一,一对多/多对一关联保存
- 网易云/QQ音乐导入Apple Music
- ZenCart商店 OpenzcTPL模版安装教程
- 官方老爹之痛:为什么苹果能收到推送,而安卓不行?
- 常规心电图和动态心电图的区别
- javascript中getmonth()的问题
热门文章
- elementary安装Java,elementary os怎么样安装java
- 排序千万级数据_从千万级房产成交量排名,窥探中国城市的真实家底
- mysql在哪里写代码_[译] 如何写好 Go 代码
- python 到 poc
- 弱电工程集成商_弱电工程楼宇自控系统基础知识培训资料
- bind() c语言,c/c++ 标准库 bind 函数详解
- 华为p10和p10plus区别_华为p10和p10plus哪个好 华为p10与p10plus区别对比【图文】
- python文件输入符_python读入文件时加r的作用?
- datatables 行分组信息展开与折叠的功能实现_[LaTeX 尝试] fancyvrb - 修复行引用的超链接跳转位置
- 局域网内文件传输速度_详解蒲公英路由器组网 实现文件共享