ASP.NET/C#实现搜索功能

描述：我们现在开发的项目中几乎都会有搜索的这个需求，就像我们平时用的百度，谷歌这些都是满足我们平时的搜索需求的。当然在我们的项目中我们不可能利用百度，谷歌的搜索来实现自己项目中的搜索的，这时我们就需要自己进行开发实现这项功能了。那么怎样实现呢，其实现在现在我们有很多成熟的搜索算法，不必自己去研究，只需要自己修改那些大神写的代码就Ok啦。言归正传，下面介入正题。

搜索的功能我是用Lucene.Net和盘古分词二者的结合实现的。后面我会把相关的插件上传大家可以下载。

什么是Lucene.Net:

Lucene.Net是由Java版本的Lucene(卢思银)移植过来的，所有的类和方法都是和Lucene里的几乎一模一样。Lucene.Net只是一个全文检索开发包，不是一个成型的搜索引擎，它的功能就是把数据扔给Lucene.Net,我们查询数据的时候从Lucene.Net查询数据，可以将它看为一个全文检索的数据库。用户可以基于Lucene.Net开发满足自己的需求搜索引擎。Lucene.Net只能对文本信息进行检索，如果不是文本信息就需要转换为文本信息。（比如：要检索Excle文件，就要用NPO把Excle文件读取成字符串，然后把字符串交给Lucene.Net处理）。转换好的字符串Lucene.Net会把它的文本进行切词保存，加快检索速度。因为查询的时候先查询的分词，然后根据所找出对应的分词搜索出对应的用户所要找的内容。

Lucene.Net这样的优点：

①：效率高。

②：匹配程度高（可以嵌入分词的算法提高匹配程度）

什么是分词：

分词是核心算法，搜索引擎内部保存的就是一个个的词,一般英文的分词很容易，按照空格分隔就可以，在汉语中就比较麻烦。比如：把中国位列世界前茅，通过分词就拆分为：中国，位列，世界，前茅，这四个词，拆分的词要和Lunece.Net进行匹配，然后找出相关的内容。当然想那些无意义的词都不参与分词（比如：啊，the）.

在Lunece.Net的不同的分词算法就是不同的类。所有的分词算法都是从Lucene.Net中继承，不同的分词算法有着不同的优点

一元分词：

在Lucene.Net 中有一个内置的分词算法，就是一元分词算法（StandardAnalyzer这个类）是将英文按照空格，标点符号等进行分词，将中文按照单个字进行分词，一个汉字算一个词，这种分词现在几乎是不用的。

二元分词：

二元分词算法，是每两个汉字算一个单词，网上的CJKAnalyzer这个类就是实现二元分词的。当然这个在现在的项目中也是几乎不用的。

基于词库的分词算法：

就是基于一个词库进行分词们可以提高分词的成功率，但是效率有点低。有庖丁解牛，盘古分词等。

注意：目前没有三元分词的算法，继一元分词和二元分词就是词库算法。

以上就是分词的基本的概念以及各个分词的优缺点，下面开始进入代码实现

代码实现：

一元分词的代码实现：

      /// <summary>/// 一元分词/// </summary>/// <param name="sender"></param>/// <param name="e"></param>private void button1_Click(object sender, EventArgs e){Analyzer analyer = new StandardAnalyzer();//创建一元分词的对象TokenStream tokenStream = analyer.TokenStream("",new System.IO.StringReader("中国位列世界前茅"));Lucene.Net.Analysis.Token token = null;while ((token = tokenStream.Next()) != null){Console.WriteLine(token.TermText());}}

效果截图：

二元分词代码实现：

二元分词和一元分词几乎一样就是new的实例不一样。二元分词的使用需要添加两个类

 /// <summary>/// 二元分词/// </summary>/// <param name="sender"></param>/// <param name="e"></param>private void button2_Click(object sender, EventArgs e){Analyzer analyer = new CJKAnalyzer();//创建二元分词的对象TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader("河南，雄ci峙天东"));Lucene.Net.Analysis.Token token = null;while ((token = tokenStream.Next()) != null){Console.WriteLine(token.TermText());}}

CJKAnalyzer 类：

using System.Collections;
using System.IO;using Lucene.Net.Analysis;namespace NSharp.SearchEngine.Lucene.Analysis.Cjk
{public class CJKAnalyzer : Analyzer{public static string[] STOP_WORDS = {"a", "and", "are", "as", "at", "be","but", "by", "for", "if", "in","into", "is", "it", "no", "not","of", "on", "or", "s", "such", "t","that", "the", "their", "then","there", "these", "they", "this","to", "was", "will", "with", "","www"};private Hashtable stopTable;public CJKAnalyzer(){stopTable = StopFilter.MakeStopSet(STOP_WORDS);}public CJKAnalyzer(string[] stopWords){stopTable = StopFilter.MakeStopSet(stopWords);}public override TokenStream TokenStream(string fieldName, TextReader reader){TokenStream ts = new CJKTokenizer(reader);return new StopFilter(ts, stopTable);}}
}

CJKTokenizer类：

using System;
using System.Collections;
using System.IO;using Lucene.Net.Analysis;namespace NSharp.SearchEngine.Lucene.Analysis.Cjk
{public class CJKTokenizer:Tokenizer{private static int MAX_WORD_LEN = 255;private static int IO_BUFFER_SIZE = 256;private int offset = 0;private int bufferIndex = 0;private int dataLen = 0;private char[] buffer = new char[MAX_WORD_LEN];private char[] ioBuffer = new char[IO_BUFFER_SIZE];private string tokenType = "word";private bool preIsTokened = false;public CJKTokenizer(TextReader reader){input = reader;}public override Token Next(){int length = 0;int start = offset;while (true){char c;offset++;if (bufferIndex >= dataLen ){if (dataLen==0 || dataLen>=ioBuffer.Length)//Java中read读到最后不会出错，但.Net会，所以此处是为了拦截异常{dataLen = input.Read(ioBuffer,0,ioBuffer.Length);bufferIndex = 0;}else{dataLen=0;}}if (dataLen ==0){if (length > 0){if (preIsTokened == true){length = 0;preIsTokened = false;}break;}else{return null;}}else{//get current characterc = ioBuffer[bufferIndex++];}if (IsAscii(c) || IsHALFWIDTH_AND_FULLWIDTH_FORMS(c)){if (IsHALFWIDTH_AND_FULLWIDTH_FORMS(c)){int i = (int) c;i = i - 65248;c = (char) i;}if (char.IsLetterOrDigit(c) || ((c == '_') || (c == '+') || (c == '#'))){if (length == 0){start = offset - 1;}else if (tokenType == "double"){offset--;bufferIndex--;tokenType = "single";if (preIsTokened == true){length = 0;preIsTokened = false;break;}else{break;}}buffer[length++] = char.ToLower(c);tokenType = "single";if (length == MAX_WORD_LEN){break;}}else if (length > 0){if (preIsTokened == true){length = 0;preIsTokened = false;}else{break;}}}else{if (char.IsLetter(c)){if (length == 0){start = offset - 1;buffer[length++] = c;tokenType = "double";}else{if (tokenType == "single"){offset--;bufferIndex--;//return the previous ASCII charactersbreak;}else{buffer[length++] = c;tokenType = "double";if (length == 2){offset--;bufferIndex--;preIsTokened = true;break;}}}}else if (length > 0){if (preIsTokened == true){// empty the bufferlength = 0;preIsTokened = false;}else{break;}}}}return new Token(new String(buffer, 0, length), start, start + length,tokenType);}public bool     IsAscii(char c){return c<256 && c>=0;}public bool IsHALFWIDTH_AND_FULLWIDTH_FORMS(char c){return c<=0xFFEF && c>=0xFF00;}}
}

效果截图：

基于词库的分词：这里展示盘古分词

代码实现：

/// <summary>/// 盘古分词，这个分词算法分出来的词都是很标准的/// </summary>/// <param name="sender"></param>/// <param name="e"></param>private void button3_Click(object sender, EventArgs e){Analyzer analyer = new PanGuAnalyzer();//创建词库TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader("中国位列世界前茅"));Lucene.Net.Analysis.Token token = null;while ((token = tokenStream.Next()) != null){Console.WriteLine(token.TermText());}}

注意：使用盘古分词需要引入dll文件

效果截图：

以上就是分词的使用，使用分词的目的就是将用户输入的数据进行分割，然后从词库里对比找出的词，最后通过Lucene.Net找出相关的内容，展示给用户。

还有分词算法的是使用多需要用到一个名字为Dict的文件夹以及里面的内容。该文件夹需要刚在项目的根目录下以及项目的bin文件夹下，Dict问价夹之后我会上传供大家下载。

Lucene.Net的使用：

需要创建两个文件夹，一个存放数据（就是用户可能想搜索的内容，文件夹中的文本必须是.txt纯文本的），另一个文件夹用户存放利用Lucene.Net进行转换的文本内容，就是把.txt文本换了另一种格式进行保存，用户所搜索的内容都是在这个文件夹里的。

截图展示：

使用Lucene.Net在项目中还需要引入一个程序集：

截图展示：

现在大家可能有一个问题，就是怎样将txt文本转换为另一种格式呢？实际上转化格式就是添加一个词库，因为我们不能操作txt文件直接利用Lucene进行查询，所以我们需要转换下。添加词库后，存放转换的文件夹会多出几个文件。现在我就给大家用代码实现：

 /// <summary>/// 添加词库/// </summary>/// <param name="sender"></param>/// <param name="e"></param>private void button4_Click(object sender, EventArgs e){//下面这个路径我是写死的，文件夹也是手动创建的，大家也可以自己用代码创建string indexPath = @"C:\Users\Administrator\Desktop\搜索实现\lucenedir";//注意和磁盘上文件夹的大小写一致，否则会报错。将创建的分词内容放在该目录下。Lucene.Net.Store.FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());//指定索引文件(打开索引目录) FS指的是就是FileSystembool isUpdate = IndexReader.IndexExists(directory);//IndexReader:对索引进行读取的类。该语句的作用：判断索引库文件夹是否存在以及索引特征文件是否存在。if (isUpdate){//同时只能有一段代码对索引库进行写操作。当使用IndexWriter打开directory时会自动对索引库文件上锁。//如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁（提示一下：如果我现在正在写着已经加锁了，但是还没有写完，这时候又来一个请求，那么不就解锁了吗？这个问题后面会解决）if (IndexWriter.IsLocked(directory)){IndexWriter.Unlock(directory);}}IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), !isUpdate, Lucene.Net.Index.IndexWriter.MaxFieldLength.UNLIMITED);//向索引库中写索引。这时在这里加锁。for (int i = 1; i <= 3; i++){//下面的语句是读取自己所写的词库文件（注意都是纯文本的）string txt = File.ReadAllText(@"C:\Users\Administrator\Desktop\搜索实现\词库文件\" + i + ".txt", System.Text.Encoding.Default);//注意这个地方的编码Document document = new Document();//表示一篇文档。//Field.Store.YES:表示是否存储原值。只有当Field.Store.YES在后面才能用doc.Get("number")取出值来.Field.Index. NOT_ANALYZED:不进行分词保存document.Add(new Field("number", i.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));//Field.Index. ANALYZED:进行分词保存:也就是要进行全文的字段要设置分词 保存（因为要进行模糊查询）//Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS:不仅保存分词还保存分词的距离。document.Add(new Field("body", txt, Field.Store.YES, Field.Index.ANALYZED, Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS));writer.AddDocument(document);}writer.Close();//会自动解锁。directory.Close();//不要忘了Close，否则索引结果搜不到}

效果展示：

原有的txt文本：

生成的对应的词库：

终于到最后一步搜索了：

代码实现：

 public List<ViewModel> ShowSearchContent(){string indexPath = @"C:\Users\Administrator\Desktop\搜索实现\lucenedir";//拿到自己创建的存放Lucene.Net文件的路径，下面将分好的词与之对比搜索出相应的内容。string kw = Request["txtSearch"];//对用户输入的搜索条件进行拆分。这个搜索效果不好，利用盘古分词进进一步拆分用户输入的文本信息List<string> wordsList = PanGu(kw);//调用盘古分词，对用户输入的内容进行分词FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());IndexReader reader = IndexReader.Open(directory, true);IndexSearcher searcher = new IndexSearcher(reader);//搜索条件PhraseQuery query = new PhraseQuery();//这个类是单个查询，只能查内容里有搜索关键字的文章，或者标题包含关键词的foreach (var item in wordsList){query.Add(new Term("body",item));//body中含有item的文章query.SetSlop(100);//多个查询条件的词之间的最大距离.在文章中相隔太远 也就无意义.（例如 “大学生”这个查询条件和"简历"这个查询条件之间如果间隔的词太多也就没有意义了。） }TopScoreDocCollector collector = TopScoreDocCollector.create(1000, true);searcher.Search(query, null, collector);//根据query查询条件进行查询，查询结果放入collector容器ScoreDoc[] docs = collector.TopDocs(0, collector.GetTotalHits()).scoreDocs;//得到所有查询结果中的文档,GetTotalHits():表示总条数   TopDocs(300, 20);//表示得到300（从300开始），到320（结束）的文档内容.//可以用来实现分页功能List<ViewModel> modelList = new List<ViewModel>();for (int i = 0; i < docs.Length; i++){ViewModel model = new ViewModel();////搜索ScoreDoc[]只能获得文档的id,这样不会把查询结果的Document一次性加载到内存中。降低了内存压力，需要获得文档的详细内容的时候通过searcher.Doc来根据文档id来获得文档的详细内容对象Document.int docId = docs[i].doc;//得到查询结果文档的id（Lucene内部分配的id）Document doc = searcher.Doc(docId);//找到文档id对应的文档详细信息model.number = docId;model.body = doc.Get("body");modelList.Add(model);}return modelList;}/// <summary>/// /将用户输入的很长的一段话进行盘古分词，根据分过的词进行查找/// </summary>/// <returns></returns>public List<string> PanGu(string words){Analyzer analyer = new PanGuAnalyzer();//创建词库TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader(words));Lucene.Net.Analysis.Token token = null;List<string> wordsList = new List<string>();while ((token = tokenStream.Next()) != null){wordsList.Add(token.TermText());//Console.WriteLine(token.TermText());}return wordsList;}

效果展示：

到此为止，整个搜索及其相关的知识就完了，收工吃饭，嘿嘿！！

ASP.NET/C#实现搜索功能相关推荐

使用Microsoft SQL Server 2000全文搜索功能构建Web搜索应用程序 --作者：Andrew B. Cencini...
[摘要]了解如何充分利用SQL Server 2000的全文搜索功能.本文包含有关实现最大吞吐量和最佳性能的几点提示和技巧. 概述使用Microsoft© SQL Server 2000的全文搜索功 ...
利用Solrj技术+SSM框架完成仿京东搜索功能
完成该功能的前提是配置好Solr服务器,这一部分内容可以参考博主上一篇的内容:基于Lucene的全文搜索服务器solr 一.利用Solrj技术+SSM框架完成仿京东搜索功能 1.如果不想配置solr服 ...
Kesion CMS 站内搜索功能
虽然将KesionCMS站内搜索功能成功移植到了自己站点里,但对于它的实现原理.代码.标签并不太懂,所以这次移植成功花了很多时间和精力修改代码,记录下来方便以后使用. 一.每个页面都有的通用搜索框(从 ...
基于ASP.NET的电影搜索网站设计与实现
目录 1.概述 1 1.1课题背景和意义 1 2.可行性分析 2 2.1经济上的可行性 2 2.2技术上的可行性 2 2.3操作上的可行性 3 2.4功能需求分析 4 3.电影搜索网站设计开发的业务 ...
深入理解ASP中FSO的神奇功能
在ASP中,FSO的意思是File System Object,即文档系统对象. 我们将要操纵的电脑文档系统,在这里是指位于web服务器之上.所以,确认您对此拥有合适的权限.理想情况下,您能够在自己的 ...
网页划词标记划词搜索功能
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <hea ...
制作歌词录入系统php,AJAX_ajax技术制作得在线歌词搜索功能，最新制作完成的在线歌词搜索 - phpStudy...
ajax技术制作得在线歌词搜索功能最新制作完成的在线歌词搜索功能,利用ajax技术,无刷新显示歌词,只需要输入你要查找的歌曲名或歌词.界面还不是很好看,完善中...... 源码下载http://ww ...
Hexo集成Algolia实现搜索功能
2年前搭建的hexo博客好久没有维护了,一看 hexo 以及先前使用 butterfly 主题已经更新好几个版本了,看介绍在速度性能上有了很大的提高,于是打算给 hexo 升个级,整理整理翻翻新.通过 ...
gi克隆github文件_如何构建GitHub文件搜索功能的克隆
gi克隆github文件 In this article, we will build a project that mimics the lesser known but awesome file ...

ASP.NET/C#实现搜索功能

ASP.NET/C#实现搜索功能相关推荐

最新文章

热门文章