java利用htmlparser得到网页html内容
java利用htmlparser得到网页html内容,利用org.htmlparser.Parser包我们可以很轻松取到任何页面的源代码,方法如下:
/*** 返回网页内容* * @param path* @return*/public static String getItemDesc() {String htmlStr = "";try {URL url = new URL("http://www.lingshij.com");URLConnection conn = url.openConnection();conn.setConnectTimeout(5000);conn.setReadTimeout(15000);Parser parser = new Parser();parser.setConnection(conn);parser.setEncoding("GBK");TextExtractingVisitor visitor = new TextExtractingVisitor();parser.visitAllNodesWith(visitor);htmlStr = visitor.getExtractedText();} catch (ParserException e) {e.printStackTrace();} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} catch (Exception e) {e.printStackTrace();}return htmlStr;}
转载于:https://www.cnblogs.com/stream1/archive/2012/08/03/htmlparser.html
java利用htmlparser得到网页html内容相关推荐
- java使用htmlparser提取网页纯文本例子
转载自 java使用htmlparser提取网页纯文本例子 这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下 package com.test; impo ...
- aardio - 利用sunny修改网页显示内容
参考网友 庄.园 (zhuang8750) 的文章:https://blog.csdn.net/zhuang8750/article/details/123488702?utm_source=app& ...
- java爬去指定网页的内容_JAVA使用Gecco爬虫 抓取网页内容(示例代码)
JAVA 爬虫工具有挺多的,但是Gecco是一个挺轻量方便的工具. 先上项目结构图. 这是一个 JAVASE的 MAVEN 项目,要添加包依赖,其他就四个文件.log4j.properties 加上三 ...
- htmlparser 获取html,利用htmlparser进行网页信息的抽取
这是个好东西,有相见恨晚之意,也比较容易上手,对很多的功能都进行了封装,做信息采集的朋友应该尽快使用它来做抓取工作.下面给一个完整的例子: 这是一个用来抽取某个网站中产品评论的类,有兴趣的朋友可以仔细 ...
- java使用爬虫工具jsoup实现抓取网页的内容及图片并写入到word文档中
背景: 有个朋友最近让帮忙写个小功能,需求大概是,1万个链接,让爬每个链接中的某一段文章并附一张图片,每五个链接写入到一个word文档中. 基本思路,就是先去找个爬虫框架把链接网页中内容和图片写到wo ...
- html5 websocket java 聊天室_如何利用WebSocket实现网页版聊天室
花了将近一周的时间终于完成了利用WebSocket完成网页版聊天室这个小demo,期间还走过了一段"看似弯曲"的道路,但是我想其实也不算是弯路吧,因为你走过的路必将留下你的足迹.这 ...
- java抓取网页标题内容_[Java教程]java 网页页面抓取标题和正文
[Java教程]java 网页页面抓取标题和正文 0 2014-07-10 09:01:30 import java.io.BufferedReader;import java.io.IOExcept ...
- java如何获取网页全部内容
URL获取 之前在项目中,遇到这样一个问题.需要读取一个网页的内容,却发现只读取到了网页内容的一部分. 下面是代码: public static void read1(String urlStr) { ...
- Java进阶(十九)利用正则表达式批处理含链接内容文档
利用正则表达式批处理含链接内容文档 由于项目需求,自己需要将带有链接的标签去除,例如 <a href="/zhaoyao/17-66.html">头晕</a> ...
最新文章
- tensorflow常用函数解析
- 我新买的红米手机,新浪和360浏览器都能进,也能看电视,就是不能上手机QQ和微信...
- 欢迎使用CSDN-markdown编辑器test
- 高仿QQ即时聊天软件开发系列之三登录窗口用户选择下拉框
- CSS制作简单loading动画
- 天池 在线编程 有效的字符串
- 万有引力的意思_万有引力和引力有什么不同?四种基本性质力中电磁力最多
- 2020年墨天轮数据报告发布!
- context c语言作用,理解 Go context
- Redis牛逼!轻松实现实时订阅推送
- 易语言解析html实例,易语言总使用正则表达式实例解析
- 解决mescroll固定位置上拉加载无效果?真的只需一步
- EXCEL里判断空值(有可能是函数返回的““),可用的3个函数counta() ,countblank() ,countif(),及语法注意点
- django-数据库[ 基本操作 ]
- php怎么实现拼图功能,照片拼图效果怎么做 将一张照片制作成拼图的效果
- 配置静态资源不重启即时生效
- 打造移动应用与游戏安全防线,腾讯WeTest安全服务全线升级
- 心形一行python_心的解释|心的意思|汉典“心”字的基本解释
- 【考研经验】2018三跨哈工大深圳专硕初试复试经验
- JAVA接入微信刷脸支付分支付【V2、V3两种接入都有提供】
热门文章
- java集合的遍历_Java集合之遍历
- (map)出现最多的数
- php保存gbk字符串,php判断字符串gbk/utf8编码和转换
- 计划任务列表 html,OpenWrt使用crontab执行计划任务
- python增删改查csv文件_【练习】Python第四次:实现对文件的增删改查
- python读取raw图片文件_python读取raw binary图片并提取统计信息的实例
- iOS打开沙盒html,iOS WKWebView加载本地/沙盒HTML及css、images
- MySQL回闪_MySQL进行BINLOG回闪
- C++ 重载new和delete运算符
- python matplotlib模块教程_Python中的Matplotlib模块入门教程