pdf转图片文字丢失,字体映射替换
pom引入
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.24</version></dependency>
代码
/*** PDF文件转PNG图片* @return*/public void pdf2Image(String pdfPath, String path) throws InterruptedException, IOException {File file = new File(pdfPath);try {PDDocument doc = PDDocument.load(file);int endPage = null == doc ? Integer.MAX_VALUE : doc.getNumberOfPages();PDFTextStripper stripper = new PDFTextStripper();stripper.setSortByPosition(true);stripper.setStartPage(1);stripper.setEndPage(endPage);String content = stripper.getText(doc);System.out.println("pdf 文件解析,内容为:" + content);PDFRenderer renderer = new PDFRenderer(doc);int pageCount = doc.getNumberOfPages();for (int i = 0; i < pageCount; i++) {BufferedImage image = renderer.renderImage(i, 1.5f);// Windows native DPIFile file1 = new File(path);ImageIO.write(image, "JPG", file1);}} catch (Exception e) {e.printStackTrace();}}
运行之后发现转换后的图片少了一个字,但是内容识别出来了,看了下日志
Using fallback FZCHSJW--GB1-0 for CID-keyed font STSong-LightNo glyph for 27765 (CID 38ac) in font STSong-Light
发现是运行时没有找到STSong-Light这个字体,使用FZCHSJW–GB1-0 这个字体进行替换,这个字体导致文字缺失
解决方法:
https://www.jianshu.com/p/b8692da38692
pdf转图片文字丢失,字体映射替换相关推荐
- matplotlib保存图片为pdf格式,文字以字体形式保存,可以illustrator编辑,而不是喵点格式。
用默认的 plt.savefig()保存的图片,图利和label都是以瞄点保存的,而不是以文字格式.这样在矢量图编辑中想要调整文字大小和字体时都不方便.使用mpl可以设置pdf图片文字以字体形式保存: ...
- 将PDF和图片文件如何转为Word或Excel分享几种转换器软件方法
(走思中-)那一年我有着大四独有的忧伤和惆怅,眼看着叫春的姑娘来了又走却不闻方向,人们上上下下来来回回各自繁忙,一种说不出的失落紧贴在枕旁.她的脸庞从未有过如此熟悉的模样,只是一瞬间想起带她流浪的誓言 ...
- C#调用GhostScript,O2S.Components转换PDF为图片
方法一:使用O2S.Components.PDFRENDER4net.DLL https://jingyan.baidu.com/article/47a29f2453ab72c015239946.ht ...
- pdf如何编辑图片文字
在pdf文件中想要编辑文字或者图片内容没有专门的编辑工具是很难实现的,但是有了工具我们又该如何使用呢?下面分享用pdf编辑器来修改pdf文件图片文字的方法. 1.第一步,先将pdf编辑器安装到自己的电 ...
- C# pdf 转图片 and 创建百度AI文字识别应用(识别图片中的文字和数字)
/// <summary>/// pdf 转图片/// </summary>public static void Turnpicture(){string str = &quo ...
- 对java导出PDF进行图片,(图片/文字)水印,页眉页脚的添加
可直接复制粘贴到测试类中,进行测试,当做随手笔记了,用的时候方便 jar: iText-2.0.8.jar iTextAsian.jar import java.awt.Color; import j ...
- java实现在pdf中添加文字和图片
一.在pom文件中引入对应的包: <dependency><groupId>com.itextpdf</groupId><artifactId>itex ...
- Linux字体库问题(PDF转图片中文字缺失)
问题描述 PDF转图片,图片的中文字体缺失,原PDF如下: 转成图片后结果如下: 中文全部丢失了,而且英文格式也对不上 问题分析 根据B站介绍,是linux服务器缺少字体库导致 问题解决步骤 打包wi ...
- PDF上的文字和图片怎么编辑修改
对于word.excel这类常见的文档基本上大家都知道怎么编辑修改,而PDF格式的文档则比较少见,很多人都不知道这种文档是如何编辑的,也不知道怎样去修改PDF文档的内容,其实PDF上的文字图片编辑起来 ...
- 使用Adobe Acrobat X Pro在PDF中添加文字和图片
在pdf中添加文字: 使用右侧"工具">"内容">"添加或编辑文本框"来打开"打字机"工具栏.单击pdf中的 ...
最新文章
- as无效 mysql_mysql 排它锁无效
- jQuery-基本选择器的种类
- 经典算法——KMP模式匹配
- origin安装包_作图技巧|研究生需要会的20个Origin操作,作图又快又好看(二)...
- matlab中esp=1.0e-3,ESP系列杂谈(一): eFuse 简介
- 《华为研发》阅读 - 16 (矩阵式管理)
- 计算机公共课3-字处理软件Word 2010
- 天津麒麟收购中标软件,国产操作系统新旗舰扬帆起航!
- 2017-2018-2 1723《程序设计与数据结构》问题汇总 (更新完毕)
- 硬件设计9---什么是示波器?
- 回收站清空几天可找回?回收站清空的文件怎么恢复?2个方案
- 关于将Java编译过的.class文件打成jar可执行文件/JAR详解
- 多线程就一定快吗?天真!
- Linux解压压缩包到同名目录,里面的文件会自动覆盖吗?
- RHEL6.5和RHEL7 的区别(转)
- Dijkstra算法、Floyd算法的区别与联系,并由此谈到greedy和DP
- web3:颠覆互联网还是白日梦一场?
- Processing 案例 | 由文字构成的球体
- JAVA(集合类)——使用For循环遍历ArrayList
- JSON数组字符串取值方法
热门文章
- PCB集成元件封装库下载推荐
- 向linux内核提交了第一个patch,在3.8中发布,庆祝一下!
- matlab maple函数用法,怎样在matlab中调用maple命令
- java开发利用jacob将word转pdf
- 368计算机毕业设计
- unity透明通道加颜色_Unity的Gamma颜色空间和Linear颜色空间的小研究
- Glide在github上的jar包下载方法
- Code Project精彩系列(1)
- 登陆页面html5代码qq,HTML5QQ登录的一篇代码分享
- 外卖侠4.24源码全插件cps使用教程【干货】