本文讨论搜索引擎对搜索结果排名的基本思路。

1. 搜索引擎分成两大类,主题搜索和web搜索。主题搜索是由搜索引擎提供方对世界上的主要网站进行分类整理,以一个层次化的主题分类结构提供给用户查询。最好的提供商以前是Yahoo,现在是Open Directory Project(ODP)。现在Google已经完全停止了这类服务,并在相应网页上提供了ODP的链接,同时声明,Google相信web搜索是最好搜索技术。

2. Web搜索排名最开始是参考关键字在网页中的出现频率。

优点:假如一个关键字在某个网页中出现多次,那么可以假设该网页跟这个关键字关系度很高。

缺点:没有语境限定的关键字的意义很广泛(降低准确度);有些相关文章使用的是近义词(或者关键词是主题时,出现频率并不高),而不是关键词本身(降低完备性)。

3. 改进一:组合关键词,即使用逻辑组合操作多种关键词(还可以由用户指定各关键词的权重)

4. 改进二:根据文本习惯,给予特定域的词更多权重,比如标题、摘要,正文第一段

5. 改进三:根据网页的被链接次数(假设被别人重视的网页,也应该获得你的重视)

6. 改进四:利用html中元数据标签,由站长指定文本的关键词

参考:

http://www.monash.com/spidap4.html

search engin学习笔记1相关推荐

  1. Beam Search的学习笔记(附代码实现)

    引言 Beam Search 是一种受限的宽度优先搜索方法,经常用在各种 NLP 生成类任务中,例如机器翻译.对话系统.文本摘要.本文首先介绍 Beam Search 的基本思想,然后再介绍一些bea ...

  2. ElasticSearch 学习笔记:Multi Search

    本文目录 1 简介 2 格式 3 header格式 4 body格式 5 返回格式 6 性能 7 相关文章 1 简介 批量查询接口(Multi Search API)允许在一次请求中执行多个查询操作, ...

  3. [初窥目标检测]——《目标检测学习笔记(2):浅析Selective Search论文——“Selective Search for object recognition”》

    [初窥目标检测]--<目标检测学习笔记(2):浅析Selective Search论文--Selective Search for object recognition> 本文介绍 前文我 ...

  4. Elasticsearch核心技术与实战学习笔记 43 | 分页与遍历:From, Size, Search After Scroll API

    一 序 本文属于极客时间Elasticsearch核心技术与实战学习笔记系列. 二 分页 2.1 From / Size 默认情况下,查询按照相关度算分排序,返回前 10 条记录 容易理解的分页方案 ...

  5. SVO学习笔记(一)

    SVO学习笔记(一) 这篇文章 Frame Featuredetection Featrue_matcher 三角测量求深度 特征匹配 非线性优化寻找匹配特征 极线搜索匹配特征 总结 这篇文章  一个 ...

  6. Json.Net学习笔记

    Json.Net学习笔记 摘自:  http://www.verydemo.com/demo_c360_i45119.html 分类: 编程语言/ ASP.NET/ 文章 导读:string goog ...

  7. Python学习笔记__13.2章 requests

    # 这是学习廖雪峰老师python教程的学习笔记 相比于Python内置的urllib模块,使用requests可以更好地处理URL资源. 1.使用requests 1)通过GET访问一个页面 > ...

  8. Python学习笔记(十一)

    Python学习笔记(十一): 生成器,迭代器回顾 模块 作业-计算器 1. 生成器,迭代器回顾 1. 列表生成式:[x for x in range(10)] 2. 生成器 (generator o ...

  9. python 学习笔记 12 -- 写一个脚本获取城市天气信息

    近期在玩树莓派,前面写过一篇在树莓派上使用1602液晶显示屏,那么可以显示后最重要的就是显示什么的问题了. 最easy想到的就是显示时间啊,CPU利用率啊.IP地址之类的.那么我认为呢,假设可以显示当 ...

最新文章

  1. closeable java_【转】java.io.Closeable接口
  2. python atm作业详解_Python ATM功能实现代码实例
  3. 用CORS 解决vue.js django跨域调用
  4. C# 2.0 除了泛型
  5. lj245a引脚功能图_技术文章—教你快速读懂单片机时序图
  6. 在php中type有几种属性,HTML表单之input元素的23种type类型
  7. Create-React-App脚手架使用方法
  8. Log4j2解决方案与复现略图
  9. WP7开发小技巧之快捷键
  10. CentOS7挂载nfs盘快速指南
  11. java中的.运算符_java中的各种运算符
  12. 地震了?不,是心动了!
  13. Unirech-腾讯云服务器简介及腾讯云国际版云服务器购买流程
  14. 国二计算机考试c语言试题及答案,计算机二级考试C语言试题及答案
  15. 巴菲特投资赚钱的赚钱宝典和赢家暗语
  16. 深度学习入门(二)训练并使用Keras模型
  17. oracle中if语句用法,Oracle IF语句的使用 | 学步园
  18. One Mathematic Problem
  19. 在线职业教育APP开发,技能快速掌握的管家
  20. 这些朋友更适合苹果电脑,你了解吗?

热门文章

  1. jsplumb插件学习--单个节点动态添加多个锚点
  2. 凡人修仙传之百炼冥门java_修仙缘:细说我与《凡人修仙传》的过往
  3. 《途客圈创业记:不疯魔,不成活》一一2.11 途客圈旅行助手
  4. MLAT-Autoencoders---下篇-关键代码及结果展示(1)
  5. PS网页设计教程XVI——在PS中创建一个摩登实验室风格的网页设计
  6. qt+opencv进行七巧板识别应用(三)
  7. commons compress使用+ziji
  8. linux c代码更改时间间隔,在特定的时间间隔后发送控制c到一个linux命令?
  9. mac 环境下 登陆失败问题Access denied for user ‘root‘@‘localhost‘ (using password: YES)
  10. 淘宝新手如何做推广 最新最全的淘宝店铺免费推广方法秘诀