Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单(form)发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到

时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那 Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。
(网站优化网 http://www.wz360.net)

转载于:https://www.cnblogs.com/seo8/archive/2009/04/14/1435352.html

Google通过提交表单抓取新页面相关推荐

  1. c 抓取ajax异步数据,用requests.post提交表单抓取异步ajax信息失败

    python爬虫之后,为什么出现了信息不一致,在浏览器中直接查看的信息与最后经过爬虫之后数据不一致. 代码 import requests from bs4 import BeautifulSoup ...

  2. JQ+ajax 提交表单不跳转页面

    微信小程序开发交流qq群   173683895    承接微信小程序开发.扫码加微信. 代码 <div class="apply_box"><h1>合作申 ...

  3. java爬虫隐藏表单提交_java爬虫--jsoup简单的表单抓取案例

    分析需求: 某农产品网站的农产品价格抓取 页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. 软件环境:eclips ...

  4. Google浏览器提交表单不能执行submit()事件,IE居然可以

    需求:用户在注册或者是登陆时,当点击注册或登陆按钮时,会对表单进行逐个校验,如果校验成功则跳转相关页面,如果校验失败就会显示相关错误信息. 问题:表单有问题时,点击登陆按钮,使用Google浏览器,未 ...

  5. vue 传递 对象 路由_javascript – 如何在Vue中提交表单,重定向到新路由并传递参数?...

    < form>的默认行为是重新加载页面onsubmit.在实施SPA时,最好避免调用< form>的默认行为. 利用nuxtjs中现成的路由器模块,可以使所有重定向控件在应用程 ...

  6. html用a标签怎么提交表单?

    html用a标签怎么提交表单? 2011-03-08 10:55MeACrazy | 分类:Html/Css | 浏览10003次 如下代码请 帮忙完善 function judgeDelete(){ ...

  7. html5如何提交到邮箱,如何在html网页中提交表单直接发送到邮箱

    如何在html网页中提交表单直接发送到邮箱?此问题一直困扰了我很久很久,后来了解到jmail组件可以解决此问题,而且现在的付费空间基本都会有此组件.分别建立表单页和asp页面,提交表单后通过asp页面 ...

  8. ajax如何实现表单验证码,Ajax实现提交表单时验证码自动验证(原创自Zjmainstay)...

    本文通过源码展示如何实现表单提交前,验证码先检测正确性,不正确则不提交表单,更新验证码. 1.前端代码 index.html 验证码提交自验证 用户名 验证码 (function($){ $(docu ...

  9. JS解决form表单刷新页面,提示“确认重新提交表单”

    问题 在html添加表单后,重新刷新出现确认重新提交表单的提示,一刷新就提示,很不友好 解决 在js中添加window.history.replaceState(null, null, window. ...

  10. OkHttp框架从入门到放弃,解析图片使用Picasso裁剪,二次封装OkHttpUtils,Post提交表单数据...

    OkHttp框架从入门到放弃,解析图片使用Picasso裁剪,二次封装OkHttpUtils,Post提交表单数据 我们这片博文就来聊聊这个反响很不错的OkHttp了,标题是我恶搞的,本篇将着重详细的 ...

最新文章

  1. 迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子
  2. Kinect 骨骼追踪数据的处理方法
  3. Lucene 源码分析之倒排索引(三)
  4. 【Android 插件化】Hook 插件化框架 ( Hook 技术 | 代理模式 | 静态代理 | 动态代理 )
  5. sql语句增删改查与子查询
  6. mysql与hive2.1.1安装和配置
  7. Linux下nm和ldd 命令
  8. 扁平化女装shop商城模板
  9. 上项线体表位置_体表定位
  10. Ubuntu服务器宕机排查记录
  11. 历经18年胡培松创制优良新种质 国稻种芯百团计划行动
  12. Toast基本使用方法
  13. 在计算机里看不到硬盘的信息,在电脑bios里面检测不到硬盘如何解决?
  14. 洛谷3356火星探险问题
  15. 求求你用数学炒股行不行?
  16. 后端使用SpringBoot和Jwt工具与Redis数据库+前端Vue Element Admin实现用户携带token的登录功能案例
  17. 九章算术 九:《勾股》
  18. python,list元素倒置
  19. 二叉树前序遍历Java
  20. Pytorch基础操作 —— 6. 如何使用自定义数据集

热门文章

  1. 【转】OCI-22053: 溢出错误的原因和解决方法
  2. 手機短信阻擊中國化工項目
  3. Monotonic Renumeration- codeforce
  4. xtrabackup之Innobackupex全备数据库
  5. 由内而外 多项国产自主先进设计
  6. Spring整合log4j日志组件(转)
  7. ThoughtWorks持续集成平台GO开源了
  8. 树状排序(目录结构)
  9. Pixel 3a 开箱及 Google Fi 服务评测视频
  10. pandas-如何得到某一个值所在的行