开始看了下java的,弄不太明白,没学过java,后来找了了.net的,主要是研究下dotlucene,由于刚刚接触c#,对这样一个开源的项目研究还是有点困难,不过我比较喜欢搜索类的,所以还是看了起来,看了大量的资料,英文的和中文的,现在终于是调试成功了,而且加了一个基于词表的中文分词。
   现在还有Highlighter高亮显示的没弄出来,正在研究中!
     还有就是自己写的html2text,感觉效率不是很好,老是程序一运行程序就卡死!不知道什么原因

 1public string html2text(string content,string s,string e)
 2        {
 3            int s_pos=content.IndexOf (s);//查找开始字符串位置
 4            while(s_pos!=-1)
 5            {
 6                int e_pos=content.IndexOf (e,s_pos);//结束字符串位置
 7                if(e_pos!=-1)//如果存在结束字符串则进去替换处理
 8                {
 9                    string replacestr=content.Substring (s_pos,e_pos+e.Length-s_pos);//夹在开始和结束字符串之间的被替换字符
10                    content=content.Replace(replacestr,"");
11                    s_pos=content.IndexOf (s);
12                }
13            }
14            content=content.Replace("\n","");
15            content=content.Replace("\r",""); 
16            content=content.Replace(" ","");
17            content=content.Replace("    ","");//tab键过滤
18            //content=content.Replace(" ","");//空格过滤
19            return content;
20        }

以前用VB写的感觉没这么卡的,可能也跟一边索引有关吧!

这两天一直在捣腾lucene相关推荐

  1. java导入lucene_如何导入lucene的.jar包 ?

    小弟今天才第一次接触lucene,听说要在java中导入lucene的包,究竟该怎么导入啊,麻烦说得详细一点,我对这个是一窍不通啊,谢谢了... 我在网上看到说可以用MyEclipse新建一个工程,然 ...

  2. lucene正向索引——正向信息,Index – Segments (segments.gen, segments_N) – Field(fnm, fdx, fdt) – Term (tvx, ...

    转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过,Lucene保存了从Index到Segm ...

  3. lucene的数据类型

    文章目录 总览 1. lucene的数据类型 VInt详解 ZInt 详解 2. lucene的基本结构 1. doc number 2. 段(segment) 的信息 3. 文件信息 3. 文件详细 ...

  4. Lucene学习总结之三:Lucene的索引文件格式(1)

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...

  5. Lucene学习总结之三:Lucene的索引文件格式(2)

    2019独角兽企业重金招聘Python工程师标准>>> 四.具体格式 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向 ...

  6. 一起谈.NET技术,HubbleDotNet 和 Lucene.Net 匹配相关度的比较

    很多网友在使用 Lucene.net (Lucene java 版本也是一样)后会感觉Lucene.net 的匹配相关度存在问题,搜索得到的结果往往不是希望的结果,不完全匹配的记录往往比完全匹配的记录 ...

  7. ElastiSearch与Solr和Lucene

    Lucene Lucene是一套信息检索工具包! jar包!不包含搜索引擎系统! 包含的:索引结构!读写索引的工具!排序,搜索规则-工具类! Lucene是apache软件基金会4 jakarta项目 ...

  8. 全文检索工具Lucene入门教程

    目录 1.什么是Lucene 1.1什么是全文检索 1.2 全文检索的应用场景 1.3. 如何实现全文检索 2.Lucene实现全文检索的流程 2.1. 创建索引和搜索流程图 2.2. 创建索引 2. ...

  9. Lucene的Smart CN实现分词、停用词、扩展词

    Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词.扩展词(特殊词.专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库. 1 简介 anal ...

最新文章

  1. c语言程序设计江宝钏实验六答案,《C语言程序设计》(江宝钏著)实验三答案.doc...
  2. 新浪php面试题目,新浪php的面试题 收集
  3. javascript DOM对象
  4. Fiori navigation list scroll down后自动发OData请求取数据
  5. Delete Edges
  6. 春天遇见Apache Hadoop
  7. 实操代码带你理解CSS中的常用选择器(你值得掌握!)
  8. iOS开发之网络编程--获取文件的MIMEType
  9. Spring拓展接口之FactoryBean
  10. 三星Galaxy Note 10最新消息:将取消所有实体按键
  11. SVN创建分支与合并
  12. win8计算机触摸板怎么设置,win8.1笔记本电脑怎么关闭键盘触摸板
  13. 服务器被入侵了怎么办
  14. GBA火焰纹章改版-智慧的结晶2.0更新(发布)
  15. 国外量化平台,以QuantOpian为例
  16. Lombok链式调用,子类对象set父类属性,返回父类对象
  17. 浅谈大型web系统架构
  18. java面试突击-2022最新迭代redis\mq\springCloud-纯手打
  19. swagger UI 使用
  20. Yocto开发篇 | Ubuntu构建与体验Poky发行版(Yocto 3.1版本)

热门文章

  1. Java对象序列化为什么要使用SerialversionUID
  2. Python 03 学习内容整理
  3. 拓扑排序基础题——排序
  4. 如何应对云爆发架构?四种方法替你解忧
  5. 如何访问ASP.Net网站bin目录内的文件
  6. Java架构师成长之道之Java数据计算
  7. 廖雪峰Java10加密与安全-4加密算法-5非对称加密算法
  8. java--jdbc
  9. 设计模式之 六大原则
  10. 卡特兰数 BZOJ3907 网格 NOIP2003 栈