参照:solr6.6 导入 pdf文件

  重点就是三个配置文件

  1、建立的data-config.xml

    内容如下:

<dataConfig><dataSource name="fileDataSource" type="FileDataSource" /><!--<document>  <entity name="tika-test" processor="TikaEntityProcessor"  url="C:/docs/solr-word.pdf" format="text">  <field column="Author" name="author" meta="true"/>  <field column="title" name="title" meta="true"/>  <field column="text" name="text"/>  </entity>  </document>-->  <dataSource name="urlDataSource" type="BinURLDataSource" /><!--baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(doc)|(pdf)|(docx)|(txt)"--><document><entity name="files" dataSource="null" rootEntity="false"processor="FileListEntityProcessor"baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(json)|(txt)|(csv)|(xml)"onError="skip"recursive="true"><field column="file" name="id"/><field column="fileAbsolutePath" name="filePath" /><field column="fileSize" name="size" /><field column="fileLastModified" name="lastModified" /><entity processor="PlainTextEntityProcessor" name="txtfile" url="${files.fileAbsolutePath}" dataSource="fileDataSource"><field column="plainText" name="text"/></entity></entity></document>
</dataConfig>

 2、修改managed-schema文件

    增加如下内容:

 <!-- mmseg4j fieldType--><fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" /></analyzer></fieldType><fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /></analyzer></fieldType><fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" /></analyzer></fieldType><field name="text" type="text_mmseg4j_complex" indexed="true" stored="true" omitNorms="true" multiValued="false"/><field name="fileName" type="string" indexed="true" stored="true" /><field name="filePath" type="string" indexed="true" stored="true" required="true" multiValued="false" /><field name="size" type="long" indexed="true" stored="true" /><field name="lastModified" type="date" indexed="true" stored="true" />

  

  3、修改solrconfig.xml文件

 <lib dir="./lib" regex=".*\.jar"/>

  4、导入文件

  

    注意,txt文件编码请保证是UTF-8编码,默认txt文件的编码是GBK

  5、查询

    导入成功后,查询

    

    从上面可以看到,pdf和word文件是乱码,必须用其它Processor进行处理

转载于:https://www.cnblogs.com/shaosks/p/7910402.html

solr6.6 导入 文本(txt/json/xml/csv)文件相关推荐

  1. csv文件导入后台乱码_Excel打开csv文件出现乱码的解决方法

    本文转载自公众号:IT技术网,作者:包小可. CSV文件是一种数据文件,正常情况下,我们可以直接在excel表格中打开CSV文件,不过有时也会出现乱码,很多人不知道该如何解决.针对此种情况,本文详细介 ...

  2. 有字符csv文件导入matlab_Matlab:如何读取CSV文件以及如何读取带有字符串数据项的CSV文件...

    CSV,逗号分开的文件,如果能快速的读取这些文件中的数据,无疑会帮助我们解决很多问题. 1. 只有数据的CSV文件,CSV file that includes only numbers. As an ...

  3. matlab中将数据导出到Excel表格、.txt、.xml等文件中

    本人应用例子 导出效果:第一行为提示,所以在设置表格行数时需要+1,如上图 matlab官网例子 load patients.mat T = table(LastName,Age,Weight,Smo ...

  4. Cinchoo ETL——快速入门:将JSON转换为CSV文件

    目录 1.简介 2. 要求 3. 如何使用 3.1 样本数据 3.2 快速转换 3.3 使用POCO对象 3.4 使用投影 下载 Cinchoo ETL 源码 下载 Cinchoo ETL 二进制文件 ...

  5. XML、JSON 与 CSV 文件处理

    文章目录 XML 文件 解码 XML 文件 一次性读取 XML 文件 流方式读取 XML 文件 编码 XML 文件 结构体生成 XML 文件 编码器生成 XML 文件 JSON 文件 解码 JSON ...

  6. csv导入mysql linux_如何将CSV文件导入MySQL表

    如何将CSV文件导入MySQL表 我有一个未规范化的事件-来自客户端的日记CSV,我试图将它加载到MySQL表中,以便将其重构为正常的格式.我创建了一个名为"CSVImport"的 ...

  7. csv文件导入后台乱码_Excel打开csv文件乱码问题的解决办法

    excel打开csv 出现乱码怎么解决 CSV是逗号分隔值的英文缩写,通常都是纯文本文件.CSV格式是分隔的数据格式,有字段/列分隔的逗号字符和记录/行分隔换行符.通常CSV文件可以用EXCEL正常打 ...

  8. 文件下的所有文本内容转为一个csv文件代码

    在数据测试时,需要把一个文件下的无数个txt一个一个的转为csv文件中一个单元格的元素,如果手动转所需工作量太大,所以选择用代码来解决. 因为我做这个文件转换时 文件名是下面这种类型: 首先批量修改文 ...

  9. C语言读写ini、json、csv文件

    运用C语言读写配置文件中.ini或.json或.csv合适的文件方法 一.读写ini格式的配置文件 1.读ini文件 //读ini文件 void readIniFile(){//1.创建一个字典指针d ...

最新文章

  1. gg.gap:ggplot阶截断坐标轴的优秀完美解决方案
  2. struts2对action的搜索规则
  3. JAVA 游览时间最长,[蓝桥杯][算法训练]景点游览-题解(Java代码)
  4. Sequential 顺序模型和 Model 模型【TensorFlow2入门手册】
  5. Linux tar将分割的小文件进行合并
  6. thinkphp-许愿墙-2
  7. 基于位置的知识图谱链接预测
  8. 开放-封闭原则(OCP)
  9. 电脑桌面点任何文件都打开计算机,桌面上的文件全部都打不开
  10. JavaScript对象类型Object
  11. 是时候重构下自己的博客了
  12. python做项目管理代码_代码发布项目(三)——python操作git、代码发布流程(服务器管理、项目管理)...
  13. 对软件研发项目管理的深入探讨
  14. 复杂背景下计算机视觉模型害虫识别的比较研究(像素语义分割网络SegNet)
  15. VsCode同步印象笔记
  16. h5 前端 PHP,十分钟搞定微信H5支付(ThinkPHP5.1)
  17. 批量添加文件名前后缀的工具_艾孜尔江撰
  18. Elasticsearch摄取节点(八)——数据解析处理器
  19. vue3之常范低级错误の错误指南
  20. Excel随着表格内容自动调整高度或宽度

热门文章

  1. Nginx 0.8.x + PHP 5.2.13(FastCGI)搭建胜过Apache十倍的Web服务器(第6版)[原创]
  2. 【跟着我们学Golang】基础结构
  3. 表中存在类型为dateTime的字段,并且插入语句,不包括该字段时,会插入失败...
  4. WMware Workstation——时间和时区问题
  5. 15.2. 网络监控
  6. Ubuntu 16.04编译Android 7.1.2
  7. asp生成和导出excel和word数据源码和代码,简单好用(已经测试可以用)
  8. 转Spring+Hibernate+EHcache配置(二)
  9. 【转载】BROCADE交换机配置
  10. CCNA培训课总结笔记--RIP的基本配置(五)