搜索引擎只能抓取html文件,为什么有些明明存在的网页不能被搜索到？

可以在站点根目录下编辑robot。txt

Robot是帮助搜索引擎搜集网页的一种自动化程序，它在访问一个Web站点时，会跟随网页中的链接提取出站点上的大部分内容，并为这些网页建立索引，放在搜索引擎的数据库中。在一些情况下，Web管理员或网页的作者出于某种原因的考虑可能并不想让Robot提取站点上的某些内容，此时可以使用一些方法来限制Robot的访问范围。

限制Robot访问Web站点的方法共有两种，一种是由站点的Web管理员使用的Robot限制协议，目前绝大部分Robot都遵守该协议，另一种是由网页作者使用的Robot META标记，目前只有一小部分Robot支持该标记。

Robot限制协议

Robot限制协议的关键是在Web站点的根目录下放置一个文本文件Robot。

txt。Robot在访问一个站点时会首先去读取该文件，分析其中的内容，并按照Web管理员的规定不去访问某些文件。下面是Robot。txt的一个例子：

＃

User－agent: 

Disallow: /tmp/ ＃ these files will soon be deleted

Disallow: / ml

User－agent: InfoSeek Robot 1。

Disallow: /

其中"＃"后面的内容是注释，User－agent命令用于指定它下面的Disallow命令对何种Robot有效，""表示对所有Robot都有效，上面例子中第二个User－agent命令表示其下面的Disallow命令只对Infoseek的1。

0版Robot有效。Disallow命令用于指定哪些目录或文件不能被访问，如果指定了"/"，那么所有文件都不允许访问，Disallow命令在一行中只能放一个目录或一个文件，如果有多个目录，则必须分别放在几行中。

上面的Robot。txt文件是目前还在使用的早期Robot限制协议规定的内容，现在还有一个关于如何限制Robot的Internet草案正在制定之中，它对早期Robot限制协议进行了很多扩充，但还未进入实用阶段。

Robot META标记

绝大多数情况下，网页作者并非Web管理员，如果网页作者不想让Robot访问自己编写的一些HTML文件，那么可以请Web管理员帮忙在Robot。txt中注明，或者使用Robot META标记。

META标记是HTML文件中用来放置一些不可见信息的一种标记，它必须放在HTML文件的Head部分中。

Robot META标记是一种特殊的META标记，下面是它的几个例子：

〈meta name=″robots″ content=″index,follow″〉

〈meta name=″robots″ content=″noindex,follow″〉

〈meta name=″robots″ content=″index,nofollow″〉

〈meta name=″robots″ content=″noindex,nofollow″〉

Robot META标记的name部分为"robots"，content部分可以是"index"、"noindex"、"follow"和"nofollow"的组合。

"index"表示搜索引擎可以为该HTML文件建立索引，"follow"表示搜索引擎可以使用该HTML文件中的链接来访问其它文件，"noindex"和"nofollow"与"index"和"follow"的意义正好相反。在组合使用这几个命令时，不能出现逻辑矛盾，即不能同时指定"index"、"noindex"，或"follow"、"nofollow"。

另外，如果要指定"index，follow"，可以使用"all"来代替，如果要指定"noindex"、"nofollow"，可以使用"none"来代替。

。

全部

搜索引擎只能抓取html文件,为什么有些明明存在的网页不能被搜索到？相关推荐

搜索引擎只能抓取html文件,通过robots屏蔽搜索引擎抓取网站内容
robots协议屏蔽搜索引擎抓取 Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Rob ...
搜索引擎蜘蛛抓取配额是什么？
一月份时,Google新的SEO代言人Gary Illyes在Google官方博客上发了一篇帖子:What Crawl Budget Means for Googlebot,讨论了搜索引擎蜘蛛抓取份额 ...
html元素不让蜘蛛抓取,屏蔽网站后台禁止搜索引擎蜘蛛抓取的方法
搜索引擎爬取网页内容的工具我们都称之为搜索引擎蜘蛛,如果希望屏蔽蜘蛛抓取某个页面到搜索引擎服务器中,可以通过robots.txt文件来限制蜘蛛抓取.很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希 ...
自定义数码管IP核，并让NiosⅡ SBT for Eclipse自动抓取驱动文件
1.前言在Platform Designer(原Qsys)中创建自定义六位七段独立数码管IP核并让NiosⅡ SBT for Eclipse自动抓取驱动文件. 开发环境:Quartus Prime ...
珠海网络推广浅析该如何高效的提高搜索引擎的抓取频次？
珠海网络推广表示每个新站在上线后,都是想要搜索引擎进行更好地收录,为网站排名奠定良好的基础.想要提高网站的收录,需要能够吸引更多的蜘蛛来爬行网站,提高抓取频次,那么要如何适当的提高搜索引擎的抓取频次呢 ...
如何手工抓取dump文件及分析
在生产环境下进行故障诊断时,为了不终止正在运行的服务或应用程序,有两种方式可以对正在运行的服务或应用程序的进程进行分析和调试. 首先一种比较直观简洁的方式就是用WinDbg等调试器直接attach到需 ...
php 采集暂停的原因,为什么小弟我curl的每次都只能抓取18个左右就自动停止了...
该楼层疑似违规已被系统折叠隐藏此楼查看此楼为什么小弟我curl的每次都只能抓取18个左右就自动停止了 for($i=0;$i gengxin($rs[$i]["aw_id"], ...
搜索引擎蜘蛛抓取网页规则
搜索引擎面对的是互联网万亿网页,如何高效抓取这么多网页到本地镜像?这便是网络爬虫的工作.我们也叫它网络蜘蛛,做为站长,我们每天都在与它亲密接触. 一,爬虫框架搜索引擎蜘蛛抓取网页规则三联上图是一 ...
蜘蛛爬取网页服务器卡死,总结搜索引擎蜘蛛抓取不到页面的原因及改善措施
在诊断过程中,我们会遇到这样的问题.有些网页内容很好,用户可以正常访问.然而,搜索引擎蜘蛛只是不能正常访问和抓取它们,导致搜索结果覆盖率不足,这是百度等搜索引擎和网站的损失.百度称之为"抢夺 ...

搜索引擎只能抓取html文件,为什么有些明明存在的网页不能被搜索到？

搜索引擎只能抓取html文件,为什么有些明明存在的网页不能被搜索到？相关推荐

最新文章

热门文章