以下文章翻译自谷歌网站管理员中心英文官方博客。作者是Adam Lasnik, 谷歌搜索布道者。发表于2006年12月18日。

原文 Deftly dealing with duplicate content

什么是内容重复?

重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕的页面;商店物品被显示在(有时甚至是链接到)多种不同的URL上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。

什么不是重复内容?

虽然谷歌网站有方便易用的翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。

为什么谷歌关心重复内容?

谷歌用户使用Google时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到Google给出象example.com/contentredir?value=shorty-george〈=en一样复杂的URL。他们往往更喜欢类似example.com/en/shorty-george.htm的URL。

谷歌做了些什么?

Google在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在robots.txt里设定noindex标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会在对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上... 因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。

网站管理员如何主动处理内容复制问题?

  • 适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的"最佳"版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
  • 使用301重定向:如果你已经重构你的网站,请在你的原网站的.htaccess中使用301重定向(永久性重定向)来重定向你的用户、Google爬虫、以及其他搜索引擎蜘蛛等。
  • 链接要一致:努力使你的内部链接保持一致; 不要既有/page/,又有/page和/page/index.htm 的内部链接.
  • 使用顶级域名:为了让我们总是使用最合适的文件版本, 请尽可能使用国家特定的顶级域名。与诸如example.com/de或de.example.com的URL相比,谷歌肯定更清楚地知道example.de是以德文为核心的内容。
  • 小心辛迪加式的联合供文:如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本, 它可能是,也有可能不是你所想要的版本。
  • 使用谷歌网站管理员工具的首选域功能: 如果其他网站链接你的URL时既使用www版本又使用无www的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
  • 减少模板网页上的重复内容:拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明。另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
  • 避免发布无内容页:用户不喜欢看到无实际内容的页面。要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及Google爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表...”但其实根本没有什么列表的网页。
  • 了解你的内容管理系统:确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客,论坛,或相关的系统。往往在这些系统中同一内容会以多种形式出现。
  • 不要担心,保持快乐:不要过分受搜刮(挪用和转载)你内容站点的干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出千禧年著作权法案申请来声明对你的内容的所有权。我们会处理那些无赖网站。

总之, 如果你对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站,这将既帮助你们,也帮助我们为用户提供独特而相关的内容。

另外:谷歌中文网站管理员博客已经开博了,这里是网址:http://www.googlechinawebmaster.com/

转载于:https://www.cnblogs.com/IT-Server/archive/2007/08/23/webseo02.html

WebMaster如何处理网站内容重复?相关推荐

  1. 网站内容重复了怎么?更好的解决办法是什么?

    在网站优化的过程中,为了能够维护网站更高质量运行,并吸引更多的访客,内容更新是最基本的操作,但在实际的操作过程中,可能会因为一些小细节的不合理的规划,导致网站上出现了重复内容.那么,对出现这种情况时, ...

  2. 阿里云服务器(Windows)使用IE浏览器打开网站提示“增强安全配置正在阻止来自下列网站内容”如何处理?

    在使用Windows系统的阿里云服务器自带的IE浏览器的时候,总是会提示"Internet Explorer 增强安全配置正在阻止来自下列网站内容",对于使用者来说很不方便.那么有 ...

  3. 搜索引擎如何评估外贸网站内容?

    (一) 搜索引擎如何评估外贸网站内容 搜索引擎给予每个网页上的内容很高的权重,毕竟一个页面是关于什么的是由于其内容决定的,为了做出好的页面排序,搜索引擎的爬虫会对页面的内容进行非常细致的分析. 搜索引 ...

  4. 影响搜索引擎收录网站内容的四大原因分析

    最近网站内容收录实在是不理想,简单分析了一下原因作了一份报告提交给自己上司,那么这份报告呢,也做一份写作,相信的写一些影响搜索引擎收录网站的内容吧,毕竟有的网站内容迟迟不会收录,那么这里呢,肯定是有原 ...

  5. 一步一步SEO 之 网站内容SEO

    完成以上准备工作后,剩下的工作就是网站自身 SEO 了,如何在保证用户友好性的前提下,做到对搜索引擎的友好.这要我们网站自身应该就有一些良好的架构属性.应该满足下面一些基本条件 网站应具有清晰的层次结 ...

  6. 搜索引擎蜘蛛抓取不到网站内容页面的原因总结

    我们分析网站日志时会发现搜索引擎的蜘蛛有时候来访很频繁,但是就不抓取内容页面,如果没有经验的SEO人员会一头雾水,甚至会觉得是搜索引擎的问题. 其实有一大半还是网站自身存在问题,如果蜘蛛来访频率不低, ...

  7. SEO网站内容页优化,TDK关键词排名优化

    SEO网站内容页优化该怎么进行优化?网站是以内容为导向的,所有的搜索引擎都是基于这一点来建立搜索规则,在任何时候内容都是排在首位的. SEO网站内容页优化首先离不开的就是TDK,TDK是我们网站和网站 ...

  8. HTML哪些百度收录,四招让网站内容快速被百度收录

    一.网站不收录 第一确定是否是刚上线1-3个月的新站,还是半年以上的老网站! 如果为新网站: 上线后首页收录时间1个周内,大量的内录收录,及被搜索抓取放出收录时间需有10-20天.网站如有很多空白页面 ...

  9. 什么样的网站内容才能为王?

    大部分企业和个人,做一个网站绝不只是想让人知道:我是有网站的人,而没有任何网站收入来源.不论你的网站盈利模式,是靠联盟广告的点击,CPS佣金,还是收取会员费,服务费,或者是通过网站营销你自己的产品,最 ...

最新文章

  1. ORACLE1.22 %type %rowtype
  2. 当我们在谈深度学习时,到底在谈论什么(三)--转
  3. 免oracle客户端下载,Oracle免安装客户端
  4. linux下编译安装MySQL5.6新版本
  5. mysql 快速导出_mysql 快速导入导出
  6. nvprof 使用记录; 以及使用 nvprof 查看tensorflow-gpu 核函数运行记录
  7. char* 与 LPCTSTR转换
  8. Weblogic常用监控指标
  9. 我所知道的Javascript
  10. video上传架构设计与实现
  11. 新手菜鸟防***必备知识
  12. Python:快速裁剪PDF页面
  13. ios Reading from private effective user settings
  14. 24的两个好的中文论坛
  15. 语音识别——麦克风选型
  16. 什么是Remoting
  17. Windows Forms(二)
  18. linux 查看 x64 x86 arm64 以及它们的区别
  19. 基于机器学习的脑电病理学诊断
  20. 基于模糊补偿的液压机械臂轨迹跟踪控制

热门文章

  1. JavaScript学习(五十一)—实训题
  2. HTML+CSS+JS实现网页随机点名
  3. 最新电脑为什么用ghost无法安装系统?安装版正常,是何原因?
  4. 微信朋友圈内容能删除吗?
  5. 大家为什么去国企后都不想跳槽了?
  6. 有房贷的房子怎么卖?
  7. 支付宝借呗频繁借还款对征信有影响吗?
  8. 眼儿媚·迟迟春日弄轻柔 [宋] 朱淑真
  9. 大家马致远是哪个朝代的,马致远作品赏析
  10. 年轻人选择创业时,最好避开门槛低的行业