百度曾在站长贴吧里做过这样一个回复:从用户体验角度,“有些转载未必比原创差”。

比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%,而完全相同的页面大约占全部页面的22%。

很多站长都会抱怨,自己写的文章被转载后要么排名消失、要么转载站排在前面,比如下图:

在解决这个问题之前,我认为有必要了解下搜索引擎的“去重算法框架”,换个角度看看搜索引擎是怎么给网页去重的。

你的网页什么时候会被删除?

因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页:

(1)抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;

(2)收录之后删除重复网页;

(3)用户检索时候进行再次删除;增加准确性,耗费时间;

内容重复的4种类型:

1.如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”

2.如果2篇文章内容相同,但是格式不同,则叫做“内容重复页面”

3.如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”

4.如果2篇文章有部分重要的内容相同,但是格式不同,则称为“部分重复页面”

删除重复网页对于搜索引擎有很多好处:

1.如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。

2.为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,

在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。

3.对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。

4. 近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,

那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。

通用去重算法框架

对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,但是如果仔细研究,其实大致都差不多。

上图给出了通用算法框架的流程图,对于给定的文档,首先要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。

这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,一般来说,删除的信息越多,计算速度会越快。

这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。

转载于:https://www.cnblogs.com/mfryf/archive/2013/06/06/3122300.html

搜索引擎是怎么删除重复网页的相关推荐

  1. 搜索引擎重复网页发现技术分析

    /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/   搜索引擎重复网页发现技术分析 中科院软件所  张俊林 TIMESTAMP:2006年6月1日 一.  介绍 统计结果表明 ...

  2. 挂代理无法访问网页了怎么办_搜索引擎蜘蛛不能爬取网页的原因有哪些

    我们在进行网站seo优化过程中进行seo诊断时,有时候会发现这样一个问题,有些网站优质内容,用户可以正常的访问,但是搜索引擎蜘蛛却无法访问,并无法进行抓取.如果网站中存在着很多这种情况,就有可能被搜索 ...

  3. MySQL中删除重复数据

    2019独角兽企业重金招聘Python工程师标准>>> 参考网页 SQL删除重复数据只保留一条 https://blog.csdn.net/anya/article/details/ ...

  4. php sql 去除重复数据,MSSQL_快速删除重复记录,SQL Server如何实现?,如果一张表的数据达到上百万 - phpStudy...

    如果一张表的数据达到上百万条,用游标的方法来删除简直是个噩梦,因为它会执行相当长的一段时间-- 开发人员的噩梦--删除重复记录 想必每一位开发人员都有过类似的经历,在对数据库进行查询或统计的时候不时地 ...

  5. oracle 视图去重复,CSS_Oracle几种查找和删除重复记录的方法总结,平时工作中可能会遇到当试图 - phpStudy...

    Oracle几种查找和删除重复记录的方法总结 平时工作中可能会遇到当试图对库表中的某一列或几列创建唯一索引时,系统提示 ORA-01452 :不能创建唯一索引,发现重复记录. 下面总结一下几种查找和删 ...

  6. xlsx表格怎么筛选重复数据_在Excel中怎样筛选以及删除重复的数据呢?

    Excel中大量的公式函数可以应用选择,分析信息并管理电子表格或网页中的数据信息列表与数据资料图表制作,可以实现许多方便的功能,带给使用者方便.今天就跟着小编一起来看一看:在Excel中怎样筛选以及删 ...

  7. 怎样把计算机里的图片快速删除,如何批量删除重复图片 电脑中相同图片批量删除的方法...

    因为工作需要,在电脑上存了大量的图片,有些是从网站上批量下载的,这里面难免会有许多重复的,如果数量少的话,一张张地看,再一张张的删除重复图片那还行得通.可是当你一个文件夹里就有几千上万张的图片时,再用 ...

  8. (java版)删除重复值阿伟学长在开发一款游戏, 他希望玩家已经获得的道具会降低爆率, 避免玩家获得太多重复的道具但玩家背包中道具是乱序且不确定的, 为了减小判断的运算量, 需要先对数据进行去重.

    1. 删除重复值 阿伟学长在开发一款游戏, 他希望玩家已经获得的道具会降低爆率, 避免玩家获得太多重复的道具 但玩家背包中道具是乱序且不确定的, 为了减小判断的运算量, 需要先对数据进行去重. 设计一 ...

  9. SQL删除重复数据方法

    原文:SQL删除重复数据方法 例如: id           name         value 1               a                 pp 2            ...

最新文章

  1. AI一分钟 | 刚爆Python将进入高考,AI就已强势进入公务员国考试卷;报告称1/4男性更喜欢跟机器人谈恋爱,真的吗?
  2. 综述|深度学习在SLAM定位与建图中的应用(近250篇参考文献)_3D视觉工坊的博客-CSDN博客
  3. ajax results,jQuery Ajax results in undefined
  4. jieba库词频统计_如何用python对《三国演义》、《红楼梦》等名著开展词云分析及字频统计、出场统计等工作。...
  5. js属性对象的hasOwnProperty方法
  6. kylin启动netstat: n: unknown or uninstrumented protocol
  7. C++中的字符串输入输出函数详解
  8. Windows 录音机录制电脑声音、route 双网卡设置内外网共用
  9. 我的2017之一只混迹于小城市的.net程序猿
  10. 安装winrunner和HP QTP
  11. vue echarts在中国地图让某个省份凸起
  12. 如何自主搭建信息管理系统
  13. Linux中安装VIM命令
  14. word文件转换成PDF文件
  15. 疯狂的 Web 应用开源项目
  16. 大家都见过哪些让你虎躯一震的代码?
  17. Java-Java基础—(6)面向对象高级
  18. 电商APP首页楼层架构设计详解
  19. vue垂直布局_基于 Flex 实现两端对齐垂直布局
  20. KODI软件的下载与简单使用(开启倍速到1.1,1.2,1.3等等或整数倍速)

热门文章

  1. 搭建Qt 5.3.1 for Windows Phone 8开发环境
  2. 背包问题九讲 v1.0
  3. stl algorithm清单
  4. 尚硅谷图解Java数据结构和算法四
  5. 总结:C#中跨窗体传值的几种方法
  6. C++中public,protected,private访问范围和用法
  7. eclipse如何导出WAR包
  8. 「周末观赛指南」澳网新王当立?勇士冲击十连胜
  9. 信息系统定级与备案工作介绍
  10. 阿里七层流量入口 Tengine硬件加速探索之路