以下是我的代码:

            InputStream inputStream = new FileInputStream(new File("mypdf.pdf"));try {byte[]  fileByteStream = IOUtils.toByteArray(inputStream );String base64String = new String(Base64.getEncoder().encodeToString(fileByteStream).getBytes(),"UTF-8");String strEncoded = Base64.getEncoder().encodeToString( base64String.getBytes( "utf-8" ));this.stream.close();JSONObject correspondenceNode = new JSONObject(); correspondenceNode.put("data",strEncoded );String strSsonValues = correspondenceNode.toString();HttpEntity entity = new NStringEntity(strSsonValues , ContentType.APPLICATION_JSON);elasticrestClient.put("/2018/documents/"1, entity);} catch (IOException e) {e.printStackTrace();}

以下是解码代码:

String responseBody = elasticrestClient.get("/2018/documents/1");
//some code to fetch the hits
JSONObject h = hitsArray.getJSONObject(0);
source = h.getJSONObject("_source");
String object = (source.getString("data"));
byte[] decodedStr = Base64.getDecoder().decode( object );FileOutputStream fos = new FileOutputStream("download.pdf");
fos.write(Base64.getDecoder().decode(new String( decodedStr, "utf-8" )));
fos.close();

用户回答回答于 2018-08-02

提取文本和元数据,并将该URL指向二进制文件本身。

{"content": "Extracted text here","meta": {// Meta data there},"url": "file://path/to/file"
}

用Java代码在ElasticSearch中索引PDF文件?相关推荐

  1. java代码在页面实现展示pdf文件

    public void findPdf() throws IOException{ HttpServletResponse response = ServletActionContext.getRes ...

  2. java代码删除ElasticSearch索引

    用java代码删除ElasticSearch索引 public class ElasticsearchDeleteIndexTest {public static void main(String[] ...

  3. 如何使用JAVA代码将WORD转成PDF.

    如何使用JAVA代码将WORD转成PDF. 引入jar包 <!-- 转换doc为pdf的组件 --><dependency><groupId>e-iceblue&l ...

  4. 教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇

    文章目录 1:网络爬虫介绍 2:HttpClients类介绍 2.1 HttpGet参数问题 2.2 HttpPost参数问题 2.3 连接池技术问题 3:Jsoup介绍 4:动手实践如何抓取网页上数 ...

  5. java代码在jsp中怎么写_在jsp中写java代码

    该服务器上的所有的访问者的所有 jsp 页面 D.该服务器上的所有的访问者的所有 jsp 页面和 Java 程序 6.在 JSP 中调用 JavaBean 时不会用到的标记是( )...... jav ...

  6. Java代码---求数组中的平均值

    Java代码-求数组中的平均值 /*** 求数组中的平均值*/ class Demo5 {public static void main(String[] args) {int[] array = { ...

  7. 【Python】用于在 Python 中处理 PDF 文件的 PyPDF2 库

    作者 | megha152 编译 | Flin 来源 | analyticsvidhya 介绍 PDF 代表便携式文档格式.它使用 .pdf 扩展名.这种类型的文件主要用于共享目的.它们不能被修改,从 ...

  8. 【项目管理】Java使用pdfbox调用打印机打印PDF文件

    [项目管理]Java使用pdfbox调用打印机打印PDF文件 1.项目前言 2.项目实现 3.关键代码 4.效果演示 5.问题处理 5.1 安装对应字体 5.2 修改对应代码 系统:Win10 Jav ...

  9. 在html页面中展示pdf文件,实现在线阅读

    参考文章:1.http://blog.csdn.net/broze/article/details/6743314            2.http://www.pdfobject.com/    ...

最新文章

  1. [机器学习] Coursera ML笔记 - 神经网络(Representation)
  2. C/C++隐式类型转换导致的若干问题
  3. html新年倒计时代码_js实现倒计时
  4. ArcGIS Server安装的几个问题
  5. kubernetes实践之运行aspnetcore webapi微服务
  6. Metaspace泄漏排查
  7. 一不小心就对未分配的内存进行访问和修改
  8. android第三方视频播放加密,android 视频 加密/解密(使用AES)
  9. 2022苹果CMS全新二开影视源码App源码完整版
  10. 雷达的工作原理示意图_5张图1个视频,科普激光雷达工作原理
  11. python range 小数_python中如何表示一个无限循环小数?(不用分数的形式)python,使用range语...
  12. 双赞的一体机主板能应用到哪些行业?
  13. python颜色画线_matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)
  14. 微信跳一跳游戏外挂(mac电脑+android手机)
  15. 商务洽谈(谈判)步骤及技巧
  16. Enumeration
  17. 同程联盟景点门票动态程序 beta1.0源码
  18. 如何从一名“普通码农”成长为技术Leader?
  19. kubernetes简介
  20. java序列化指的是什么,java的序列化是什么

热门文章

  1. python并发编程6-协程
  2. OpenCV_ cv2.imshow()
  3. 项目管理实战之团队管理 (转自:zhuweisky)
  4. [转]动态规划DP的分类
  5. CentOS 7.2 安装zabbix 3.4
  6. java基础基础总结----- Date
  7. 对Linux命令od -tc -tx1的C语言程序实现myod-优化版
  8. java 格式化时间计算
  9. Hibernate所用15个jar包
  10. 使用ICSharpCode.TextEditor制作一个语法高亮显示的XML编辑器