跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）

开始此篇之前，我已经假定你已经学会了如何在Tomcat下部署Solr5啦。即启动Tomcat后你能看到Solr5的Web UI界面。OK，下面直接进入正题。

首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包，当然你也可以直接到依赖的jar包扔到 Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图：

这里我采用了另外一种方式，把依赖的jar包放当前core的lib目录下，这样做的好处是每个core依赖的jar包当初存放在各自core的子目录下分类存放，更方便管理，全部扔tomcat下杂乱无章不好管理。如图新建lib目录：

然后往lib目录copy一些 DIH依赖的jar包，如图：

截图的那些jar包在solr5的解压包里都能找到，如果你实在找不到再来问我。然后solrconfig.xml配置文件里我们需要配置外部jar包的加载路径，如图配置：

dir参数里的 ./ 即表示当前core根目录，regex表示一个正则表达式，目的就是为了批量指定j加载哪些jar包.然后配置我们的dataimport处理器并指定data-config.xml配置文件的加载路径，如图：

然后编写配置我们的data-config.xml,如图：

url="C:/docs/solr-word.pdf"即表示对C:\docs目录下的solr-word.pdf文件进行文本提取并创建索引，format表示把提取到的文本当作什么类型的数据，默认支持text(纯文本)，xml,json,html等格式，不配置format默认值就是text.

然后我们需要在schema.xml文件里定义我们的域，如图：

细心的你，肯定发现了我配置了IK分词器，IK分词器配置如图：

刚才我已经在core根目录的lib下复制了IK分词器jar包，我们还需要在core\conf目录下复制一份IKAnalyzer.cfg.xml配置文件，如果你有自定义IK扩展字典，那么你还需要把扩展字典文件的加载路径配置在

IKAnalyzer.cfg.xml文件里，如图：

solr-word.pdf这个测试PDF文件在solr5的解压目录下可以找到，如图：

到此，准备工作就完成了，重启你的tomcat,访问你的Solr Web UI进行测试，如图：

如果你执行后看到如图效果，就表明PDF导入Solr成功了，为了验证PDF成功导入Solr了，你可以切换到Query菜单进行查询验证，如图：

OK,关于如果导入PDF到Solr5就介绍到这儿了。相关配置文件我待会儿会在底下的附件里打包上传一份供你们参考，但希望你们还是要自己动手操作下，不要仅仅是直接解压复制我提供的示例，只有于遇到问题并不断自虐的过程中你才能学到经验。

间隔很久没写了，让大家等久了，不好意思哈，写博客不易，大家且看且珍惜，也希望大家多多提意见，时间匆忙，难免会有所纰漏。

如果你还有什么问题请加我Ｑ-Q：7-3-6-0-3-1-3-0-5，

或者加裙

一起交流学习！

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）相关推荐

跟益达学Solr5之使用Tomcat部署Solr
最近忙着面试以及生活琐事把时间都霸占了,博客拖了4天没更新了,让各位久等了,望多多包涵!不过还好,工作已经敲定了,终于可以安心的学习Solr并分享我学习的点点滴滴啦! 上回我们在Jetty下部署了,不 ...
跟益达学Solr5之从MySQL数据库导入数据并索引
最近有小伙伴跟我抱怨说:益达,最近博客更新的有点慢呐.其实不是我变懒了,我是不想因为数量而降低了博客的质量,我需要抱着对你们负责的态度来写每一篇博客,绝不能含糊啊,所以,还望大家多多包涵呐. 今天群里 ...
跟益达学Solr5之批量索引JSON数据
假定你有这样一堆JSON数据, Json代码 [ {"id":"1", "name":"Red Lobster", ...
跟益达学Solr5之拼音分词
应群友强烈要求,特此更新此篇博客.其实在我的Lucene5系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧! 首先我们来看看我当初使用Lucene5是如何实现的, ...
跟益达学Solr5之使用IK分词器
在Solr中该如何使用IK分词器呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客.其实之前我在其他博客里已经使用了IK分词器,只是我没做详细说明. 在schema.xml配置中其实有很多 ...
跟益达学Solr5之使用MMSeg4J分词器
要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,存在弊 ...
跟益达学Solr5之使用Ansj分词器
摘要: OK,直接开门见山,不绕弯子啦!基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如: Xml代码 <fieldType name= ...
跟益达学Solr5之Facet一瞥
Facet属于Solr的高级查询部分,之所以在还没有讲解普通Query之前,就开始更新Facet查询,是因为看到很多小伙伴都在为Facet而困扰,其实根本原因还是对Facet不理解.Facet英文单词 ...
跟益达学Solr5之使用Jetty部署Solr
开始之前,你首先需要了解Solr是什么,以下是百度百科里对Solr的解释: Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富 ...

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）相关推荐

最新文章

热门文章