java通过url读取pdf数据

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
/*** 通过URL获得PDF内容 转存* @author sunyang* @date 2019/1/24 14:40*/
public class PdfText2Url {public static void main(String[] args) {try {//需要获取到的PDF地址readPdf("https://img1.xxx.org/tech/file/9bd7/733b/7ef54fbf672cfffaf2b1a6c2.pdf");}catch (Exception e){}}/*** 传入一个.pdf 地址* @param pdfUrl 地址* @throws Exception*/public static void readPdf(String pdfUrl) throws Exception {// 是否排序boolean sort = false;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 内存中存储的PDF DocumentPDDocument pdDocument = null;//输入流InputStream inputStream = null;try {try {// 当作一个URL来装载文件URL url = new URL(pdfUrl);URLConnection con = url.openConnection();con.setConnectTimeout(3 * 1000);inputStream = con.getInputStream();pdDocument = PDDocument.load(inputStream);} catch (MalformedURLException e) {}// 获取页码int endPage = pdDocument.getNumberOfPages();PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);System.out.println(stripper.getText(pdDocument));System.out.println(" 输出成功!");} finally {if (inputStream != null) {// 关闭输出流inputStream.close();}if (pdDocument != null) {// 关闭PDF DocumentpdDocument.close();}}}
}

在pom.xml文件添加依赖

     <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.9</version></dependency>

java通过url读取pdf数据相关推荐

  1. java通过url读取远程数据并保持到本地

    前几天老姐突然告诉我,她在JD上买了本电子图书,然后买完发现,只能在线或者使用它自己的阅读器看,很不方便,让我给想想办法. 然后我就开始琢磨,最开始,我直接使用Acrobat Reader打开,发现只 ...

  2. java通过url获取网页内容_Java语言通过URL读取网页数据并保存到本地文件(代码实例)...

    本文主要向大家介绍了Java语言通过URL读取网页数据并保存到本地文件(代码实例),通过具体的内容向大家展示,希望对大家学习JAVA语言有所帮助. Java通过URL读取网页数据并保存到本地文件(代码 ...

  3. java通过url读取网络图片

    使用java.net读取网络文件 import java.io.BufferedInputStream; import java.io.FileOutputStream; import java.io ...

  4. java json utf-8_java读取json数据发生中文乱码的解决方法

    java读取json数据发生中文乱码的解决方法 发布时间:2020-06-21 15:58:48 来源:亿速云 阅读:268 作者:鸽子 java读取json数据出现乱码的代码://从json文件中读 ...

  5. java使用itex读取pdf,并搜索关键字,为其盖章

    导读:近期要做一个根据关键字定位pdf的盖章位置的相关需求,其中关键字可配置多个(包含pdf文档中可能不存在的关键字),当页面显示盖章完成时,打开pdf显示已经损坏. 排查后发现,当itext搜索的关 ...

  6. java web之读取PDF文件内容

    引入依赖 编写工具类 编写测试用例 运行结果 1 引入依赖 <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -- ...

  7. java 利用POI 读取Excel数据的真实有效行数

    前言 最近发现java导入excel数据时,我的excel数据明明只有4条数据,可是java程序却读取到了第6行.检查代码发现5.6行不小心设置了行高,导致poi的getLastRowNum()方法读 ...

  8. Java使用Poi读取Excel数据(exor)

    读取Excel使用一个小工具exor exor是一个开源项目,封装了一些poi读取excel的操作,可以读取excel数据并格式化为二维结构 xlsx和xls格式都可以读取 exor的依赖:commo ...

  9. Java使用poi读取excel数据(excel可能很大,先转换为csv再读取)

      ------------配置------------   jdbc.properties中加入: excelUrl=/--xlsx文件目录路径/ (excelUrl + "xxxx.xl ...

最新文章

  1. 它估值25亿!被马云领投,是华为“老战友”,网友:也许股价能超茅台!
  2. 周报速递丨《网络安全审查办法》修订发布;微信支持数字人民币支付
  3. N皇后问题——通俗易懂地讲解(C++)
  4. URL、SRC、HREF知识整理
  5. 创业是一个高风险高收入的行业
  6. MES系统最全介绍来了
  7. IntelliJ IDEA开发Java web项目,设置JSP代码自动补全的方法
  8. t分布 u分布 卡方分布_四个分布:正态分布/卡方分布/F分布/T分布
  9. GROW GM65 条码二维码扫描识别模块 兼容大部分条码和二维码
  10. SigmaStudio之Sine Tone的Freq\Ison换算
  11. 完整打造一个多功能音乐播放器项目(初步设想跟酷狗类似)
  12. Netty实战:Springboot+Netty+protobuf开发高性能服务器 (附源码下载)
  13. 解决pytorch官网下载慢ubuntu16.04+anaconda3(python3.6)+pytorch0.4.1+cuda9.0+cudnn7.1安装指南
  14. WPARAM与LPARAM 之区别
  15. COSAGPS进行GAMIT基线解算数据的平差
  16. c155.top index.php,PHP网页游戏《三国霸业》修正版源码
  17. 后缀为.ec的文件如何打开后默认用c语言的高亮
  18. 芝麻ip代理 | 数据可视化小贴士—原则和对比
  19. Visual Studio Error
  20. 2020年安康学院计算机专业代码,2020年陕西所有大学代码四位数 陕西院校代码查询2020四位数...

热门文章

  1. Win7 - 提升电脑键盘反应速度
  2. MATLAB|数字图像处理
  3. 3.15国际消费者权益日:消费者隐私威胁与保护
  4. Spine事件 AnimationState回调
  5. 怎样选择性价比高的主机服务器?
  6. 幼儿计算机培训老师,幼儿园教师计算机的培训计划方案
  7. Dom4j解析XML(详解)
  8. rollup.js使用
  9. springboot使用德鲁伊DruidDataSource数据源启动报Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.6.0
  10. node搭建vue脚手架