java利用htmlparser得到网页html内容,利用org.htmlparser.Parser包我们可以很轻松取到任何页面的源代码,方法如下:

    /*** 返回网页内容* * @param path* @return*/public static String getItemDesc() {String htmlStr = "";try {URL url = new URL("http://www.lingshij.com");URLConnection conn = url.openConnection();conn.setConnectTimeout(5000);conn.setReadTimeout(15000);Parser parser = new Parser();parser.setConnection(conn);parser.setEncoding("GBK");TextExtractingVisitor visitor = new TextExtractingVisitor();parser.visitAllNodesWith(visitor);htmlStr = visitor.getExtractedText();} catch (ParserException e) {e.printStackTrace();} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} catch (Exception e) {e.printStackTrace();}return htmlStr;}

转载于:https://www.cnblogs.com/stream1/archive/2012/08/03/htmlparser.html

java利用htmlparser得到网页html内容相关推荐

  1. java使用htmlparser提取网页纯文本例子

    转载自   java使用htmlparser提取网页纯文本例子 这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下 package com.test; impo ...

  2. aardio - 利用sunny修改网页显示内容

    参考网友 庄.园 (zhuang8750) 的文章:https://blog.csdn.net/zhuang8750/article/details/123488702?utm_source=app& ...

  3. java爬去指定网页的内容_JAVA使用Gecco爬虫 抓取网页内容(示例代码)

    JAVA 爬虫工具有挺多的,但是Gecco是一个挺轻量方便的工具. 先上项目结构图. 这是一个 JAVASE的 MAVEN 项目,要添加包依赖,其他就四个文件.log4j.properties 加上三 ...

  4. htmlparser 获取html,利用htmlparser进行网页信息的抽取

    这是个好东西,有相见恨晚之意,也比较容易上手,对很多的功能都进行了封装,做信息采集的朋友应该尽快使用它来做抓取工作.下面给一个完整的例子: 这是一个用来抽取某个网站中产品评论的类,有兴趣的朋友可以仔细 ...

  5. java使用爬虫工具jsoup实现抓取网页的内容及图片并写入到word文档中

    背景: 有个朋友最近让帮忙写个小功能,需求大概是,1万个链接,让爬每个链接中的某一段文章并附一张图片,每五个链接写入到一个word文档中. 基本思路,就是先去找个爬虫框架把链接网页中内容和图片写到wo ...

  6. html5 websocket java 聊天室_如何利用WebSocket实现网页版聊天室

    花了将近一周的时间终于完成了利用WebSocket完成网页版聊天室这个小demo,期间还走过了一段"看似弯曲"的道路,但是我想其实也不算是弯路吧,因为你走过的路必将留下你的足迹.这 ...

  7. java抓取网页标题内容_[Java教程]java 网页页面抓取标题和正文

    [Java教程]java 网页页面抓取标题和正文 0 2014-07-10 09:01:30 import java.io.BufferedReader;import java.io.IOExcept ...

  8. java如何获取网页全部内容

    URL获取 之前在项目中,遇到这样一个问题.需要读取一个网页的内容,却发现只读取到了网页内容的一部分. 下面是代码: public static void read1(String urlStr) { ...

  9. Java进阶(十九)利用正则表达式批处理含链接内容文档

    利用正则表达式批处理含链接内容文档 由于项目需求,自己需要将带有链接的标签去除,例如 <a href="/zhaoyao/17-66.html">头晕</a> ...

最新文章

  1. tensorflow常用函数解析
  2. 我新买的红米手机,新浪和360浏览器都能进,也能看电视,就是不能上手机QQ和微信...
  3. 欢迎使用CSDN-markdown编辑器test
  4. 高仿QQ即时聊天软件开发系列之三登录窗口用户选择下拉框
  5. CSS制作简单loading动画
  6. 天池 在线编程 有效的字符串
  7. 万有引力的意思_万有引力和引力有什么不同?四种基本性质力中电磁力最多
  8. 2020年墨天轮数据报告发布!
  9. context c语言作用,理解 Go context
  10. Redis牛逼!轻松实现实时订阅推送
  11. 易语言解析html实例,易语言总使用正则表达式实例解析
  12. 解决mescroll固定位置上拉加载无效果?真的只需一步
  13. EXCEL里判断空值(有可能是函数返回的““),可用的3个函数counta() ,countblank() ,countif(),及语法注意点
  14. django-数据库[ 基本操作 ]
  15. php怎么实现拼图功能,照片拼图效果怎么做 将一张照片制作成拼图的效果
  16. 配置静态资源不重启即时生效
  17. 打造移动应用与游戏安全防线,腾讯WeTest安全服务全线升级
  18. 心形一行python_心的解释|心的意思|汉典“心”字的基本解释
  19. 【考研经验】2018三跨哈工大深圳专硕初试复试经验
  20. JAVA接入微信刷脸支付分支付【V2、V3两种接入都有提供】

热门文章

  1. java集合的遍历_Java集合之遍历
  2. (map)出现最多的数
  3. php保存gbk字符串,php判断字符串gbk/utf8编码和转换
  4. 计划任务列表 html,OpenWrt使用crontab执行计划任务
  5. python增删改查csv文件_【练习】Python第四次:实现对文件的增删改查
  6. python读取raw图片文件_python读取raw binary图片并提取统计信息的实例
  7. iOS打开沙盒html,iOS WKWebView加载本地/沙盒HTML及css、images
  8. MySQL回闪_MySQL进行BINLOG回闪
  9. C++ 重载new和delete运算符
  10. python matplotlib模块教程_Python中的Matplotlib模块入门教程