给网站管理员的建议：创建可利用的、可抓取的网站

转载自谷歌中文网站管理员博客发表者 T.V. Raman，研究学者原文： Webmaster tips for creating accessible, crawlable sites 发表于：2008年4月14日上午10:47

Hubbell和我正在我们位于加州的家中度假。欢迎您随时阅读在此之前我为网站管理员们写的关于可用性的博客，以及我为谷歌官方博客所写的其他文章。

对于Accessible search，网站管理员们最经常问的一个问题就是：我怎样才能提高我的网站在Accessible Search上的排名？同时，网站管理员们还会问一个与之类似、但更为宽泛的问题：怎样才能提高我的网站在Google搜索上的排名？

我很高兴地告诉大家，这里有一个一举两得的办法：您可以建立和完善一些关键的网站特性，比如网站导航，这样它就能为所有用户服务，其中自然也包括谷歌机器人。下面是一些小建议，您可以参考。

确保所有重要的内容都能正常访问 为了使用户获取到内容，必须确保这些内容是可以访问的。用户及搜索引擎机器人都是借助超文本链接获取页面内容的，所以关键的第一步是确保您网站上的所有内容都可经由纯HTML超文本链接访问到，并避免网站的关键部分被JavaScript或Flash等技术隐藏起来。纯超文本链接是指通过HTML锚元素<a>生成的链接。下一步，我们要确保所有超文本链接指向的目标，即<a>元素，都是真实的URL，而不是一个空的、真正的链接行为已经被转到点击触发控制器上的链接。简而言之，要避免下列超文本链接的形式： <a href="#" οnclick="javascript:void(...)">Product Catalog</a> 我们推荐更简单的链接，如： <a href="http://www.example.com/product-catalog.html">Product Catalog</a> 确保内容的可读性只有具有可阅读性，网站内容才能发挥作用。请确保您网站上所有的重要内容都以HTML文件的形式呈现，并且在无须评估页面脚本的前提下就可以获取。对于谷歌机器人和绝大多数不知情的用户而言，Flash动画背后隐藏的内容和由可执行性JavaScript在浏览器端所产生的文本仍然是无法读取的。 确保内容按照适于阅读的顺序提供给读者 在获取可读内容后，用户希望能够按照合乎逻辑的阅读顺序跟进内容。如果您网站中的大部分内容采取了复杂的多栏布局设计，不妨退回去考虑一下您如何才能实现预期的效果。例如，使用深层嵌套的HTML表格会使人们难以将相关的文本按照合乎逻辑的顺序联系起来。在HTML内使用CSS以及合乎逻辑、有组织的<div>元素，可以取得同样的效果。同时作为一个额外的收获，您会发现您的网站运行得更加快捷高效。

补充所有的视觉内容――不必担心重复！ 让所有人都可以获得您的信息并不意味着让您把网站"降格"成为最简单的文本格式。最大限度地重复您的信息是很重要的，因为只有这样才能确保页面内容最大限度地帮助所有用户。这里有几个简单的小建议：

确保在图片缺失的情况下，用户仍然可以获得那些通过图片传播的内容。这不仅要在相关的图片上添加适当的ALT属性，还要确保图片周围的文字能够详细地介绍背景，让读者了解为什么这张图片会出现在这里；同时详细给出您期望人们看到这个图片后所得出的结论。简言之，如果您想确保每个人都知道此图片表现的是一座桥梁，那么您最好把该图片周围的文字也以拱形排列。
添加相关的摘要和标题，让读者在钻研细节之前可以获得高屋建瓴的信息概述。
在数据展示之类的视觉形象旁边添加详细的文字总结。

采纳上述建议可以大大提高用户登陆页面的质量。同时，作为一个额外的收获，您还很有可能惊喜地发现您的网站得到了更好地索引!

给网站管理员的建议：创建可利用的、可抓取的网站相关推荐

利用Python爬虫抓取小说网站全部文章
我们先来选定爬取目标,我爬取的网站是https://www.17k.com/ ,一些大型的网站(如起点.豆瓣等)做了反爬虫的部署,这会大大增加我们抓取的难度,所以尽量还是选一些不那么热门的网站. 爬虫 ...
python正则匹配找到所有的浮点数_如何利用Python抓取静态网站及其内部资源
遇到的需求前段时间需要快速做个静态展示页面,要求是响应式和较美观.由于时间较短,自己动手写的话也有点麻烦,所以就打算上网找现成的. 中途找到了几个页面发现不错,然后就开始思考怎么把页面给下载下来. ...
[Python爬虫] 之二十二：Selenium +phantomjs 利用 pyquery抓取界面网站数据
一.介绍本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...
python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
vba 提取 json某个值_VBA利用IE，抓取解禁股票数据
大家好,我们今日讲解"VBA信息获取与处理"教程中第九个专题"利用IE抓取网络数据"的第三节"利用IE,抓取解禁股票数据",这个专题是非常有 ...
selenium抓取_使用Selenium的网络抓取电子商务网站
selenium抓取 In this article we will go through a web scraping process of an E-Commerce website. I hav ...
Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件
源:http://www.oschina.net/code/snippet_120579_11434#18725 抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件可用于为 ...
爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题
如何解决搜索爬虫高频次抓取导致服务器崩溃的问题首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量.但一旦承受不了,我们可以进行如下的操作. ...
简单的Python抓取招聘网站信息（1）
作为一名大四狗刚刚经历完找工作的浪潮,发现每天需要去各类招聘网站进行看招聘信息非常麻烦,想到用Python爬虫抓取招聘网站的招聘信息.同届的同学大多找完了工作,文章就给将来需要的同学看吧~因为不着急, ...

给网站管理员的建议：创建可利用的、可抓取的网站

给网站管理员的建议：创建可利用的、可抓取的网站相关推荐

最新文章

热门文章