[搜索技术] 搜索引擎经验总结 #
这里是一点我在学习和开发搜索引擎过程中的一点学习和经验总结,文中讲述了蜘蛛、切词、索引、查询器等名模块的一些概述和细节,希望能给搜索引擎中的初学点的一点帮助,对于那些高手也能够带来一点点启发的帮助!这是我在2004年学习和开发搜索引擎相关东西时的一点总结,可能比较肤浅,最近还是一直在搞这方面的研究,相对于这篇文章又有了一些新的总结,等以后有时间再写一篇和大家分享! [ajax] Build an Anthem.NET [AJAX] Autosuggest Textbox #
he new ATLAS framework has an Autosuggest feature built in, but in this article I will focus on the Anthem.NET framework, reworking some very nice code that was originally submitted to the Anthem.NET Sourceforge repository as a suggested patch by J.C. Murphy. I've changed around the offering in order to make it more 'self - contained' and moved a lot of brand new data access code and related properties directly into the control. The sample control is presented here in both ASP.NET 1.1 and ASP.NET 2.0 versions, along with the entire source tree so that interested users can look at everything in Anthem.NET. [.NET开发; 搜索技术; Lucene] DotLucene (Lucene.NET) + KStemmer + Searcharoo = great! #
The overall search engine is composed of three parts:1. A site crawler: In the past, I've built search engines that utilites the raw data inside our CMS, but a crawler seems to work better when you have a fair amount of dymaic content. I found a nice crawler in Searcharoo. It's a full search engine by itself, but since I wanted to use Lucene, I only used the crawler portion Searcharoo.2. An indexer: This is where Lucene.NET (or DotLucene) comes in. When Searharoo downloads a page, the text is sent to Lucene to index.3. A Stemmer: Lucene does a great job of indexing and searching, but it doesn't natively have the ability to search for derivatives of a stem word. For example, if a user seraches for 'tests', Lucene doesn't by default figure out the stem ('test' removing the plural 's') and then search for all words based on the stem ('test' 'testing' or 'tested'). But there is a port of KStemmer which handles all the stemming automagically handles stemming. Example http://www05.dts.edu/search/?q=tests [人物; 微软] 看盖茨大叔是如何工作的 #
盖茨大叔可能是世界上最忙的人了吧(有人反对么?)对于大忙人来说,如何安排协调工作,实在太重要了。CNN 的 Money 频道搞了一个“How I work”栏目,定期邀请一些 BOSS 级的人物分享他们的工作技巧。4月4号,轮到Bill Gates 了。 [搜索技术; PDF] dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 #
dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 [CDN; VeryCD] 自建CDN服务 #
DNS服务器可以用bind9来建,Cache则可以选squid。这2个都是linx平台下的开源软件,高效、免费,国内收费的CDN服务基本上也是依赖这2个软件。可惜的是linux平台相对复杂,而且之前中文文档太少,普通用户要架设起一套自己的CDN服务器还是非常麻烦。好在声仔已经把bind9的安装说明以及区分电信网通用户解决方案整理过了,甚至还提供了免费的dnspod服务,直接免去了自己架设DNS服务器的苦恼。Cache服务器所要用到的squid,基本原理是用它做反向代理。可以Google一下,也可以参考我的书签,不过相关的文档都已经较老,且没有大并发、大流量下的实践,对配置的叙述也较简单。回头我会把VeryCD使用squid以来的经验进行总结,并公布我们所使用的squid.conf参数,希望能够对大家有所帮助。 [.NET开发] 真正的取真实IP地址及利弊 #
现在越来越多的网站使用了代理加速方式,比如 新浪、SOHU的新闻 都使用Squid做代理方式,利用多台服务器分流。Squid本身类似透明代理,会发送“HTTP_X_FORWARDED_FOR” ,HTTP_X_FORWARDED_FOR 中包括客户的IP地址,如果此时客户已经使用了一层透明代理,那么程序取的 “HTTP_X_FORWARDED_FOR” 就包括两个IP地址。(我遇到过3个IP地址的情况,4个的未遇到过)所以取“真正”IP地址的方式,还应该判断 “HTTP_X_FORWARDED_FOR” 中是否有“,”逗号,或者长度是否超长 [web2.0] Web 2.0 编程思想 #
当然,Web 2.0是一个极其广泛和深奥的话题,没有一个人能够列举出它的所有重点和特征。如果你对此充满了兴趣,请花一点时间来补充我没有提到的地方。我想这就是Web 2.0的参与性吧! [.NET开发] 投票机的实现及相关技术(一) #
这里只是简单的说明了一个基本的投票机的原理,如果有足够的资源,而且不能使用代理的时候,就可以使用自动切IP(要求你有足够多的合法IP资源)和ADSL自动断线重拨(要求你有足够多的ADSL)。下一篇文章将说明如何切IP和ADSL自动断线重拨。 [.NET开发; iTextSharp; PDF] PDFToText with ITextSharp #
ITextSharp can be used to extract text from PDF files. The advantage over PDFBox C# version is the smaller size of the ITextSharp and the pure C# implementation This text extraction class is based on the algorithm in C from http://www.codeproject.com/cpp/ExtractPDFText.asp [软件] 中外流氓软件大比拼 #
在国内叫停流氓软件,政府怕事、企业心虚。我们只有团结起来,将流氓软件的内幕曝光,才能让用户不再吃亏。我们不用限令也不要期望流氓软件能改邪归正,但愿这些所谓的伎俩能曝光于天下,让我们远离它,BS他。 [搜索技术; Google; 数学] 数学之美 #
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。

专注于企业信息化,最近对股票数据分析较为感兴趣,可免费分享股票个股主力资金实时变化趋势分析工具,股票交流QQ群:457394862
本文转自沧海-重庆博客园博客,原文链接:http://www.cnblogs.com/omygod/archive/2006/11/08/554530.html,如需转载请自行联系原作者

技术关注:搜索引擎经验相关推荐

  1. AutoML前沿技术与实践经验分享 | 免费公开课

    传统机器学习的解决范式可表示为: ML Solution = ML expertise + Computation + Data 新机器学习范式可表示为: New ML Solution = 100x ...

  2. AutoML前沿技术与实践经验分享 | 免费报名

    传统机器学习的解决范式可表示为: ML Solution = ML expertise + Computation + Data 新机器学习范式可表示为: New ML Solution = 100x ...

  3. 转: 移动直播技术秒开优化经验

    移动直播技术秒开优化经验(含PPT) 2016-04-28 09:27 徐立,七牛创始合伙人兼产品副总裁,负责七牛直播云的整体研发,是国内 Go / Docker / Container 技术早期布道 ...

  4. 北京工业大学计算机科学与技术考研真题,北京工业大学计算机科学与技术2022考研经验...

    原标题:北京工业大学计算机科学与技术2022考研经验 一.考研的原因 每个人想要考研的原因都各有不同,我主要是有两点原因:一是当初由于高考失利,没有去到理想的大学,同时又不想花费我宝贵的的时间去复读一 ...

  5. 天津大学计算机学院考研经验帖,天津大学计算机科学与技术专业考研经验分享.pdf...

    天津考研网 天津考研网 格瑞斯教育旗下天津考研网 专注考研专业课资料与考研专业课辅导 第 1 页 共 4 页 天津大学计算机科学与技术专业考研经验分享 很多考研的同学都迫切需要考研过来人的指导 中国有 ...

  6. 大数据技术存在局限 经验直觉不可或缺

    本文讲的是大数据技术存在局限 经验直觉不可或缺,<纽约时报>印刷版30日出版文章称,大数据将成为人类商业历史上新的篇章,有望取代想法.范例.组织以及人们思考世界的方式.但与此同时,经验和直 ...

  7. 梳理一下自己的技术关注面[转]

    梳理一下自己的技术关注面 Posted by hujian |  Filed under 职业发展 入行七八年,技术储备和关注面一直在变迁,想当初入行时PowerBuilder, FoxPro等编程工 ...

  8. 转:技术牛人画技术配图的经验分享

    技术牛人画技术配图的经验分享 感谢作者小林coding 如果文章缺少了自己画的图片,相当于失去了灵魂,技术文章本身就很枯燥,如果文章中没有几张图片,读者被劝退的概率飙飙升,剩下没被劝退的估计看着看着就 ...

  9. 程序员如何积累编程技术或编程经验?

    工作中总是被问到程序员如何积累编程技术或编程经验?首先我认为编程是一门实践性的很强的艺术,所以貌似唯有实践才能积累.然而把它当作一个个人软件过程(PSP)的问题,总感觉是有一些规律.规则或建议可以解答 ...

最新文章

  1. 数据清洗指南完整分享
  2. Ceph mon节点故障处理案例分解
  3. 钢琴快案例及手风琴案例
  4. book电子书数据库设计_如何为杀手book的封面设计写出完美的摘要
  5. 微软sharepoint团队博客
  6. java如何解决高并发症,JAVA线上故障紧急处理详细过程!
  7. 发现个Asp.net英文Blog,嘿嘿,刚好对俺学e文有用:)
  8. 【LiteOS】STM32F103-LiteOS移植教程(详细篇)
  9. 【kafka】多图解Kafka中的数据采集和统计机制
  10. Android中Xml工具类的封装
  11. python写字典_用python编写字典并将其写入HDF5-fi
  12. Windows下装MySQL
  13. css+html 嵌套表格做简单网页
  14. 【背包DP】【2018.9.20普及组模拟】T3(WOJ 3975)保护羊村
  15. CANoe隐藏属性——Multi CANoe
  16. JAVA学习笔记(核心技术篇一)
  17. 计算机在机械智能制造中的应用,机电一体化技术应用于智能制造中的优势研究...
  18. WPF自学手册-读书笔记(二)心法
  19. SVM算法的生动讲解
  20. python pandas 日期格式_python+pandas+时间、日期以及时间序列处理方法

热门文章

  1. c 普通的文本变成注释文本的快捷键_IntelliJ Idea 常用快捷键列表 (2019年总结)
  2. 重磅!SCI顶级牛刊《Science》合集(2018~2020年度)
  3. python3 scrapy 教程_Scrapy 教程
  4. multisim 12.0安装教程
  5. Ubuntu 18.0安装教程
  6. Keil forc51安装教程
  7. 关于“指针的指针”的认识(值传递、指针传递区分)
  8. tomcat访问oracle卡死,tomcat无法连接到oracle
  9. 计算机与网络应用教材格式化,《计算机与网络应用》正式稿.docx
  10. 第四范式送上2022虎年祝福