《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题
任何搜多引擎给出的结果都不完美,多少会有点噪音。有些噪音是人为造成的,其中最主要的噪音是针对搜素引擎网页排名的作弊(SPAM);另一些噪音则是在用户在互联网上的活动产生。
1 搜索引擎的反作弊
针对搜索引擎的作弊,就是采用不正当的手段提高自己网页的排名。
早期最常见的作弊方法是重复关键词。
有了网页排名之后,一个网页链接越多,排名就可能越靠前。
搜素引擎作弊从本质上看就如同对(搜素)排序的信息加入噪音,因此反作弊的第一条是要增强排序算法的抗噪音能力。其次是像在信息处理中去噪音那样,还原原来真实的排名。
噪音消除的过程是一个反卷机的过程。
从广义上讲,只要噪音不是完全随机并且前后有相关性,就可以检测并且消除。
反作弊的另一个工具是图论。
强调:第一,Google的反作弊和恢复网页原有排名的过程完全是自动的(并没有个人的好恶)。第二,大部分搜索引擎优化器和帮助别人作弊的人,只针对占市场份额最大的搜索引擎算法来作弊,因为作弊也是有成本的。
作弊的本质是在网页排名信号中加入噪音,因此反作弊的关键是去噪音。
2 搜索结果的权威性
用户使用搜索引擎一般有两个目的。其一是导航,即通过搜索引擎找到想要访问的网站。其二是查找信息。
首先,PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性。
其次,互联网对同一个问题给出的答案常常互相矛盾。
计算权威度的步骤:
1. 对每一个网页正文中的每一句进行句法分析,然后找出涉及到主题的短语,以及对信息源的描述。这样我们就获得了所谓的“提及”信息。
2. 利用互信息,找到主题短语和信息源的相关性。
3. 需要对主题短语进行聚合。
4. 对一个网站中的网页进行聚合。
《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题相关推荐
- 数学之美 第3章 统计语言模型
数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
- 《数学之美》——第九章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章 图 ...
- 《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...
- 《数学之美》——第一章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章 文 ...
- 《数学之美》第一章读后感
第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...
- 每周一书《数学之美 第二版》分享!
内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链 ...
- 《数学之美》中的模型及启示总结
目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...
- 【读书笔记】数学之美2-搜索引擎
8.简单之美--布尔代数和搜索引擎 建立一个搜索引擎大致需要做的几件事情: 自动下载尽可能多的网页: 建立快速有效的索引: 根据相关性对网页进行公平准确的排序. 这就是搜索的"道" ...
- 《数学之美》读书笔记(2)
上篇写了<数学之美>的第一到十一章,这篇把后面几章写完.后面的内容比较广泛而且很多都是很熟悉的内容.让我感觉眼前一亮的是用SVD做新闻分类.SVD的物理意义以前都没有仔细的想过. 第12章 ...
最新文章
- .net里鼠标选中的text数据怎么获取_Python数据科学实践 | 爬虫1
- python判断值是否在excel中_python接口自动化测试之根据excel中的期望结果是否存在于请求返回的响应值中来判断用例是否执行成功...
- java 字节缓冲_Java字节缓冲流原理与用法详解
- [网络安全自学篇] 六十五.Vulnhub靶机渗透之环境搭建及JIS-CTF入门和蚁剑提权示例(一)
- Linux加密框架 crypto 算法模板
- Node.js下载安装及各种npm、cnpm、nvm、nrm配置(保姆式教程---提供全套安装包)---npm的安装与配置(2)
- 解决“重新安装vmware-tools”灰色而无法安装的问题
- 使用truss、strace或ltrace诊断软件的疑难杂症
- C# panel控件实现鼠标滚轮滚动拖动滚动条
- postgresql 优势
- 中国象棋中的跳马问题(BFS)
- 社交软件红包技术解密(十):手Q客户端针对2020年春节红包的技术实践
- 计算机操作系统之设备管理思维导图
- 万字长文让您搞懂云原生!
- 用Python实现斐波那契数列代码
- java的对象存储在哪里?
- 国外服务器解决域名备案问题
- word添加参考文献和标注的详细简单方法
- VMWare的安装和虚拟机的新建
- Window端Qt Create dmp的生成与解析
热门文章
- 七年思考,两页证明,华人学者解开计算机领域30年难题:布尔函数敏感度猜想...
- Git中级用户的25个提示
- Web设计离不开的4项基本原则
- python | gtts 将文字转化为语音内容
- 区块链项目实战 - 使用以太坊/智能合约solidity,全栈开发区块链借贷记账小应用,含完整源码
- 轮椅上的博士矣晓沅:9 年求学路,我从清华毕业了
- 大脑模拟NLP,高德纳奖得主Papadimitriou:神经元集合演算用于句子解析
- 用鞋子给视障人士导航!这款“导盲鞋”可检测4米外障碍物,振动提醒躲避,一双2w5...
- 为什么AI无法解决一般智能问题?
- NLP | 医学AI又一突破,微软开源生物医学NLP基准:BLURB