solr6.6 导入 文本(txt/json/xml/csv)文件
参照:solr6.6 导入 pdf文件
重点就是三个配置文件
1、建立的data-config.xml
内容如下:
<dataConfig><dataSource name="fileDataSource" type="FileDataSource" /><!--<document> <entity name="tika-test" processor="TikaEntityProcessor" url="C:/docs/solr-word.pdf" format="text"> <field column="Author" name="author" meta="true"/> <field column="title" name="title" meta="true"/> <field column="text" name="text"/> </entity> </document>--> <dataSource name="urlDataSource" type="BinURLDataSource" /><!--baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(doc)|(pdf)|(docx)|(txt)"--><document><entity name="files" dataSource="null" rootEntity="false"processor="FileListEntityProcessor"baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(json)|(txt)|(csv)|(xml)"onError="skip"recursive="true"><field column="file" name="id"/><field column="fileAbsolutePath" name="filePath" /><field column="fileSize" name="size" /><field column="fileLastModified" name="lastModified" /><entity processor="PlainTextEntityProcessor" name="txtfile" url="${files.fileAbsolutePath}" dataSource="fileDataSource"><field column="plainText" name="text"/></entity></entity></document> </dataConfig>
2、修改managed-schema文件
增加如下内容:
<!-- mmseg4j fieldType--><fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" /></analyzer></fieldType><fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /></analyzer></fieldType><fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" ><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" /></analyzer></fieldType><field name="text" type="text_mmseg4j_complex" indexed="true" stored="true" omitNorms="true" multiValued="false"/><field name="fileName" type="string" indexed="true" stored="true" /><field name="filePath" type="string" indexed="true" stored="true" required="true" multiValued="false" /><field name="size" type="long" indexed="true" stored="true" /><field name="lastModified" type="date" indexed="true" stored="true" />
3、修改solrconfig.xml文件
<lib dir="./lib" regex=".*\.jar"/>
4、导入文件
注意,txt文件编码请保证是UTF-8编码,默认txt文件的编码是GBK
5、查询
导入成功后,查询
从上面可以看到,pdf和word文件是乱码,必须用其它Processor进行处理
转载于:https://www.cnblogs.com/shaosks/p/7910402.html
solr6.6 导入 文本(txt/json/xml/csv)文件相关推荐
- csv文件导入后台乱码_Excel打开csv文件出现乱码的解决方法
本文转载自公众号:IT技术网,作者:包小可. CSV文件是一种数据文件,正常情况下,我们可以直接在excel表格中打开CSV文件,不过有时也会出现乱码,很多人不知道该如何解决.针对此种情况,本文详细介 ...
- 有字符csv文件导入matlab_Matlab:如何读取CSV文件以及如何读取带有字符串数据项的CSV文件...
CSV,逗号分开的文件,如果能快速的读取这些文件中的数据,无疑会帮助我们解决很多问题. 1. 只有数据的CSV文件,CSV file that includes only numbers. As an ...
- matlab中将数据导出到Excel表格、.txt、.xml等文件中
本人应用例子 导出效果:第一行为提示,所以在设置表格行数时需要+1,如上图 matlab官网例子 load patients.mat T = table(LastName,Age,Weight,Smo ...
- Cinchoo ETL——快速入门:将JSON转换为CSV文件
目录 1.简介 2. 要求 3. 如何使用 3.1 样本数据 3.2 快速转换 3.3 使用POCO对象 3.4 使用投影 下载 Cinchoo ETL 源码 下载 Cinchoo ETL 二进制文件 ...
- XML、JSON 与 CSV 文件处理
文章目录 XML 文件 解码 XML 文件 一次性读取 XML 文件 流方式读取 XML 文件 编码 XML 文件 结构体生成 XML 文件 编码器生成 XML 文件 JSON 文件 解码 JSON ...
- csv导入mysql linux_如何将CSV文件导入MySQL表
如何将CSV文件导入MySQL表 我有一个未规范化的事件-来自客户端的日记CSV,我试图将它加载到MySQL表中,以便将其重构为正常的格式.我创建了一个名为"CSVImport"的 ...
- csv文件导入后台乱码_Excel打开csv文件乱码问题的解决办法
excel打开csv 出现乱码怎么解决 CSV是逗号分隔值的英文缩写,通常都是纯文本文件.CSV格式是分隔的数据格式,有字段/列分隔的逗号字符和记录/行分隔换行符.通常CSV文件可以用EXCEL正常打 ...
- 文件下的所有文本内容转为一个csv文件代码
在数据测试时,需要把一个文件下的无数个txt一个一个的转为csv文件中一个单元格的元素,如果手动转所需工作量太大,所以选择用代码来解决. 因为我做这个文件转换时 文件名是下面这种类型: 首先批量修改文 ...
- C语言读写ini、json、csv文件
运用C语言读写配置文件中.ini或.json或.csv合适的文件方法 一.读写ini格式的配置文件 1.读ini文件 //读ini文件 void readIniFile(){//1.创建一个字典指针d ...
最新文章
- gg.gap:ggplot阶截断坐标轴的优秀完美解决方案
- struts2对action的搜索规则
- JAVA 游览时间最长,[蓝桥杯][算法训练]景点游览-题解(Java代码)
- Sequential 顺序模型和 Model 模型【TensorFlow2入门手册】
- Linux tar将分割的小文件进行合并
- thinkphp-许愿墙-2
- 基于位置的知识图谱链接预测
- 开放-封闭原则(OCP)
- 电脑桌面点任何文件都打开计算机,桌面上的文件全部都打不开
- JavaScript对象类型Object
- 是时候重构下自己的博客了
- python做项目管理代码_代码发布项目(三)——python操作git、代码发布流程(服务器管理、项目管理)...
- 对软件研发项目管理的深入探讨
- 复杂背景下计算机视觉模型害虫识别的比较研究(像素语义分割网络SegNet)
- VsCode同步印象笔记
- h5 前端 PHP,十分钟搞定微信H5支付(ThinkPHP5.1)
- 批量添加文件名前后缀的工具_艾孜尔江撰
- Elasticsearch摄取节点(八)——数据解析处理器
- vue3之常范低级错误の错误指南
- Excel随着表格内容自动调整高度或宽度
热门文章
- Nginx 0.8.x + PHP 5.2.13(FastCGI)搭建胜过Apache十倍的Web服务器(第6版)[原创]
- 【跟着我们学Golang】基础结构
- 表中存在类型为dateTime的字段,并且插入语句,不包括该字段时,会插入失败...
- WMware Workstation——时间和时区问题
- 15.2. 网络监控
- Ubuntu 16.04编译Android 7.1.2
- asp生成和导出excel和word数据源码和代码,简单好用(已经测试可以用)
- 转Spring+Hibernate+EHcache配置(二)
- 【转载】BROCADE交换机配置
- CCNA培训课总结笔记--RIP的基本配置(五)