java url转成pdf_java URL转PDF文件
1、java将URL网页博客转化为pdf文件
2、测试博客网页地址为:http://blog.csdn.net/u014520797/article/details/50944998
3、测试结果为
4、工程代码结构为:
5、部分代码展示:
public static String[] extractBlogInfo(String blogURL) throws Exception {
String[] info = new String[4];
//报错:Exception in thread "main" org.jsoup.HttpStatusException:HTTP error fetching URL. Status=403, URL=http://blog.csdn.net/u014520797/article/details/50944998/
//org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).get();
//爬取某个网站太快,会被封。于是要模拟像人一样的取爬取某个网站,那样的话估计几秒爬取一个网页
//参考http://blog.sina.com.cn/s/blog_664fdc7e0102vesz.html
org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").timeout(10000).get();
org.jsoup.nodes.Element e_title = doc.select("span.link_title").first();
info[0] = e_title.text();
org.jsoup.nodes.Element category_r = doc.select("div.category_r").first();
info[1] = category_r.after("label").after("span").text().replace("作者同类文章X", "");
org.jsoup.nodes.Element e_date = doc.select("span.link_postdate").first();
info[2] = e_date.text();
org.jsoup.nodes.Element entry = doc.select("div.article_content").first();
info[3] = formatContentTag(entry);
info[3]=""
+""-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">"
+" "
+" "
+" "
+""+info[3]+"";
System.out.println("info.toString():"+info[0]+",\n"+info[1]+",\n"+info[2]+",\n"+info[3]+",\n");
return info;
}
6、不能使用org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).get();,因为爬取某个网站太快,会被封。于是要模拟像人一样的取爬取某个网站,那样的话估计几秒爬取一个网页。
7、需要在网页部分添加,避免无法显示中文。
"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">
"+info[3]
8、代码下载地址:http://download.csdn.net/detail/u014520797/9469285
java url转成pdf_java URL转PDF文件相关推荐
- python 代码替换_用Python将绝对URL替换成相对URL的代码
下面的内容内容是关于用Python将绝对URL替换成相对URL的内容,应该是对码农有些用途. #!/usr/bin/env python # # # author : cold night # ema ...
- Java 使用iText7生成带页码的PDF文件(同时生成目录,但是不会合并两个PDF)
一.效果图 1.带页码效果 2.目录效果 前言:Java 使用iText7生成带页码的PDF文件,同时生成目录PDF,但限于水平,暂时还在摸索合并两个PDF.不过看了一下,iText好像有生成目录的代 ...
- java 使用itextpdf工具实现HTML转PDF文件
java 使用itextpdf工具实现HTML转PDF文件 本文转载https://my.oschina.net/960823/blog/1588166内容 demo maven依赖包 <dep ...
- Java实现多张图片合并成一份PDF文件
Java实现多张图片合并成一份PDF文件,一行两列展示 引入依赖包 <dependency><groupId>com.lowagie</groupId><ar ...
- CAD图纸转换成高质量的PDF文件,两种方法一步搞定哦
其实提到CAD,可能大家都大致的了解,CAD现在已经是建筑行业运用的非常广泛的一个设计软件了,其实CAD就是一种计算机辅助软件,可以高效的帮助我们进行图纸的绘制.我们一般在设计完图纸,可能定会转换格式 ...
- java程序编译成exe文件_将java程序编译成独立运行的exe文件
将java程序编译成独立运行的exe文件 众所周知java的程序可以"一次编译,到处运行",这个特性不错,但是实现这个特性的前提是当前的平台 必须有相应的jvm,而且如果当前平台的 ...
- CAD图纸文件如何转换成常见的彩色PDF文件?
CAD图纸文件如何转换成常见的彩色PDF文件?将CAD图纸文件进行格式间的转换成为PDF格式也是格式转换中经常见的,编辑完成的CAD图纸文件为了将其进行方便查看会需要将其进行格式间的转换成为PDF格式 ...
- java 图片合并成pdf_java实现Img与PDF相互转换
java实现Img与PDF相互转换 http://blog.csdn.net/hubiao_0618/article/details/29226883?utm_source=tuicool&u ...
- java 图片合并成pdf_java将多张图片合并转为PDF
[实例简介] [实例截图] [核心代码] package weaver.gy.util; import java.awt.image.BufferedImage; import java.io.Fil ...
最新文章
- java if and_Java运算符-if分支语句
- golang 遍历list_golang如何把一个list遍历给一个切片
- BZOJ1150[CTSC2007]数据备份Backup——模拟费用流+堆+链表
- 关于css浮动的一点思考
- 解决windows下Error:node with name rabbit already running on “XXX” 和管理页面打不开问题
- 给fiddle 解密_fiddler学习笔记2 字段说明;移动设备、解密证书
- php万年历月份处理_PHP 万年历实现代码
- 解决办法:对‘operator delete(void*)’未定义的引用
- 离散数学1 命题逻辑-基本的概念
- MMORPG开发之七日创世说(二)
- 交换机串行损耗解决之预加重与均衡对比
- python 100days github_GitHub - 2668599092/Python-100-Days: Python - 100天从新手到大师
- 黑客帝国角色 之 先知的另类解读
- APP Bomb Lab
- 360锁屏壁纸在哪个文件夹
- 通用汽车将向底特律郊区一家工厂投资3亿美元
- 微信小程序发布动态页面模板
- 安装centos7系统 服务器安装系统
- 如何查询以太信道接口_查询区块
- 计算机二级office高级应用试题,2016年计算机二级office高级应用练习题
热门文章
- hdu 1542 Atlantis (线段树+扫描线)
- [转]电影《龙纹身女孩》中的那句 SQL-----The Girl With The ANSI Tattoo
- 2010年经典语录,我们全OUT了
- PS基础教程[1]如何制作微信泡泡
- 2016年1月20日总结
- 支付宝ios SDK官方下载页面
- 排难解惑 为您解开系统无法添加打印机之谜!
- 基于消息的异步套接字
- 大数据之-Hadoop3.x_HDFS_数据完整性_HDFS的CRC数据校验---大数据之hadoop3.x工作笔记0078
- 大数据之-Hadoop之HDFS_HDFS的内容介绍---大数据之hadoop工作笔记0047