1、java将URL网页博客转化为pdf文件

2、测试博客网页地址为:http://blog.csdn.net/u014520797/article/details/50944998

3、测试结果为

4、工程代码结构为:

5、部分代码展示:

public static String[] extractBlogInfo(String blogURL) throws Exception {

String[] info = new String[4];

//报错:Exception in thread "main" org.jsoup.HttpStatusException:HTTP error fetching URL. Status=403, URL=http://blog.csdn.net/u014520797/article/details/50944998/

//org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).get();

//爬取某个网站太快,会被封。于是要模拟像人一样的取爬取某个网站,那样的话估计几秒爬取一个网页

//参考http://blog.sina.com.cn/s/blog_664fdc7e0102vesz.html

org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").timeout(10000).get();

org.jsoup.nodes.Element e_title = doc.select("span.link_title").first();

info[0] = e_title.text();

org.jsoup.nodes.Element category_r = doc.select("div.category_r").first();

info[1] = category_r.after("label").after("span").text().replace("作者同类文章X", "");

org.jsoup.nodes.Element e_date = doc.select("span.link_postdate").first();

info[2] = e_date.text();

org.jsoup.nodes.Element entry = doc.select("div.article_content").first();

info[3] = formatContentTag(entry);

info[3]=""

+""-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">"

+" "

+" "

+" "

+""+info[3]+"";

System.out.println("info.toString():"+info[0]+",\n"+info[1]+",\n"+info[2]+",\n"+info[3]+",\n");

return info;

}

6、不能使用org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).get();,因为爬取某个网站太快,会被封。于是要模拟像人一样的取爬取某个网站,那样的话估计几秒爬取一个网页。

7、需要在网页部分添加,避免无法显示中文。

"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">

"+info[3]

8、代码下载地址:http://download.csdn.net/detail/u014520797/9469285

java url转成pdf_java URL转PDF文件相关推荐

  1. python 代码替换_用Python将绝对URL替换成相对URL的代码

    下面的内容内容是关于用Python将绝对URL替换成相对URL的内容,应该是对码农有些用途. #!/usr/bin/env python # # # author : cold night # ema ...

  2. Java 使用iText7生成带页码的PDF文件(同时生成目录,但是不会合并两个PDF)

    一.效果图 1.带页码效果 2.目录效果 前言:Java 使用iText7生成带页码的PDF文件,同时生成目录PDF,但限于水平,暂时还在摸索合并两个PDF.不过看了一下,iText好像有生成目录的代 ...

  3. java 使用itextpdf工具实现HTML转PDF文件

    java 使用itextpdf工具实现HTML转PDF文件 本文转载https://my.oschina.net/960823/blog/1588166内容 demo maven依赖包 <dep ...

  4. Java实现多张图片合并成一份PDF文件

    Java实现多张图片合并成一份PDF文件,一行两列展示 引入依赖包 <dependency><groupId>com.lowagie</groupId><ar ...

  5. CAD图纸转换成高质量的PDF文件,两种方法一步搞定哦

    其实提到CAD,可能大家都大致的了解,CAD现在已经是建筑行业运用的非常广泛的一个设计软件了,其实CAD就是一种计算机辅助软件,可以高效的帮助我们进行图纸的绘制.我们一般在设计完图纸,可能定会转换格式 ...

  6. java程序编译成exe文件_将java程序编译成独立运行的exe文件

    将java程序编译成独立运行的exe文件 众所周知java的程序可以"一次编译,到处运行",这个特性不错,但是实现这个特性的前提是当前的平台 必须有相应的jvm,而且如果当前平台的 ...

  7. CAD图纸文件如何转换成常见的彩色PDF文件?

    CAD图纸文件如何转换成常见的彩色PDF文件?将CAD图纸文件进行格式间的转换成为PDF格式也是格式转换中经常见的,编辑完成的CAD图纸文件为了将其进行方便查看会需要将其进行格式间的转换成为PDF格式 ...

  8. java 图片合并成pdf_java实现Img与PDF相互转换

    java实现Img与PDF相互转换 http://blog.csdn.net/hubiao_0618/article/details/29226883?utm_source=tuicool&u ...

  9. java 图片合并成pdf_java将多张图片合并转为PDF

    [实例简介] [实例截图] [核心代码] package weaver.gy.util; import java.awt.image.BufferedImage; import java.io.Fil ...

最新文章

  1. java if and_Java运算符-if分支语句
  2. golang 遍历list_golang如何把一个list遍历给一个切片
  3. BZOJ1150[CTSC2007]数据备份Backup——模拟费用流+堆+链表
  4. 关于css浮动的一点思考
  5. 解决windows下Error:node with name rabbit already running on “XXX” 和管理页面打不开问题
  6. 给fiddle 解密_fiddler学习笔记2 字段说明;移动设备、解密证书
  7. php万年历月份处理_PHP 万年历实现代码
  8. 解决办法:对‘operator delete(void*)’未定义的引用
  9. 离散数学1 命题逻辑-基本的概念
  10. MMORPG开发之七日创世说(二)
  11. 交换机串行损耗解决之预加重与均衡对比
  12. python 100days github_GitHub - 2668599092/Python-100-Days: Python - 100天从新手到大师
  13. 黑客帝国角色 之 先知的另类解读
  14. APP Bomb Lab
  15. 360锁屏壁纸在哪个文件夹
  16. 通用汽车将向底特律郊区一家工厂投资3亿美元
  17. 微信小程序发布动态页面模板
  18. 安装centos7系统 服务器安装系统
  19. 如何查询以太信道接口_查询区块
  20. 计算机二级office高级应用试题,2016年计算机二级office高级应用练习题

热门文章

  1. hdu 1542 Atlantis (线段树+扫描线)
  2. [转]电影《龙纹身女孩》中的那句 SQL-----The Girl With The ANSI Tattoo
  3. 2010年经典语录,我们全OUT了
  4. PS基础教程[1]如何制作微信泡泡
  5. 2016年1月20日总结
  6. 支付宝ios SDK官方下载页面
  7. 排难解惑 为您解开系统无法添加打印机之谜!
  8. 基于消息的异步套接字
  9. 大数据之-Hadoop3.x_HDFS_数据完整性_HDFS的CRC数据校验---大数据之hadoop3.x工作笔记0078
  10. 大数据之-Hadoop之HDFS_HDFS的内容介绍---大数据之hadoop工作笔记0047