给网站管理员的建议:创建可利用的、可抓取的网站
转载自 谷歌中文网站管理员博客 发表者 T.V. Raman,研究学者 原文: Webmaster tips for creating accessible, crawlable sites 发表于:2008年4月14日 上午10:47
确保所有重要的内容都能正常访问 为了使用户获取到内容,必须确保这些内容是可以访问的。用户及搜索引擎机器人都是借助超文本链接获取页面内容的,所以关键的第一步是确保您网站上的所有内容都可经由纯HTML超文本链接访问到,并避免网站的关键部分被JavaScript或Flash等技术隐藏起来。 纯超文本链接是指通过HTML锚元素<a>生成的链接。下一步,我们要确保所有超文本链接指向的目标,即<a>元素,都是真实的URL,而不是一个空的、真正的链接行为已经被转到点击触发控制器上的链接。 简而言之,要避免下列超文本链接的形式: <a href="#" οnclick="javascript:void(...)">Product Catalog</a> 我们推荐更简单的链接,如: <a href="http://www.example.com/product-catalog.html">Product Catalog</a> 确保内容的可读性 只有具有可阅读性,网站内容才能发挥作用。请确保您网站上所有的重要内容都以HTML文件的形式呈现,并且在无须评估页面脚本的前提下就可以获取。对于谷歌机器人和绝大多数不知情的用户而言,Flash动画背后隐藏的内容和由可执行性JavaScript在浏览器端所产生的文本仍然是无法读取的。 确保内容按照适于阅读的顺序提供给读者 在获取可读内容后,用户希望能够按照合乎逻辑的阅读顺序跟进内容。如果您网站中的大部分内容采取了复杂的多栏布局设计,不妨退回去考虑一下您如何才能实现预期的效果。例如,使用深层嵌套的HTML表格会使人们难以将相关的文本按照合乎逻辑的顺序联系起来。 在HTML内使用CSS以及合乎逻辑、有组织的<div>元素,可以取得同样的效果。同时作为一个额外的收获,您会发现您的网站运行得更加快捷高效。
- 确保在图片缺失的情况下,用户仍然可以获得那些通过图片传播的内容。这不仅要在相关的图片上添加适当的ALT属性,还要确保图片周围的文字能够详细地介绍背景,让读者了解为什么这张图片会出现在这里;同时详细给出您期望人们看到这个图片后所得出的结论。简言之,如果您想确保每个人都知道此图片表现的是一座桥梁,那么您最好把该图片周围的文字也以拱形排列。
- 添加相关的摘要和标题,让读者在钻研细节之前可以获得高屋建瓴的信息概述。
- 在数据展示之类的视觉形象旁边添加详细的文字总结。
采纳上述建议可以大大提高用户登陆页面的质量。同时,作为一个额外的收获,您还很有可能惊喜地发现您的网站得到了更好地索引!
给网站管理员的建议:创建可利用的、可抓取的网站相关推荐
- 利用Python爬虫抓取小说网站全部文章
我们先来选定爬取目标,我爬取的网站是https://www.17k.com/ ,一些大型的网站(如起点.豆瓣等)做了反爬虫的部署,这会大大增加我们抓取的难度,所以尽量还是选一些不那么热门的网站. 爬虫 ...
- python正则匹配找到所有的浮点数_如何利用Python抓取静态网站及其内部资源
遇到的需求 前段时间需要快速做个静态展示页面,要求是响应式和较美观.由于时间较短,自己动手写的话也有点麻烦,所以就打算上网找现成的. 中途找到了几个页面发现不错,然后就开始思考怎么把页面给下载下来. ...
- [Python爬虫] 之二十二:Selenium +phantomjs 利用 pyquery抓取界面网站数据
一.介绍 本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...
- python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
- vba 提取 json某个值_VBA利用IE,抓取解禁股票数据
大家好,我们今日讲解"VBA信息获取与处理"教程中第九个专题"利用IE抓取网络数据"的第三节"利用IE,抓取解禁股票数据",这个专题是非常有 ...
- selenium抓取_使用Selenium的网络抓取电子商务网站
selenium抓取 In this article we will go through a web scraping process of an E-Commerce website. I hav ...
- Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
- 抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件
源:http://www.oschina.net/code/snippet_120579_11434#18725 抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件 可用于为 ...
- 爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题
如何解决搜索爬虫高频次抓取导致服务器崩溃的问题 首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量.但一旦承受不了,我们可以进行如下的操作. ...
- 简单的Python抓取招聘网站信息(1)
作为一名大四狗刚刚经历完找工作的浪潮,发现每天需要去各类招聘网站进行看招聘信息非常麻烦,想到用Python爬虫抓取招聘网站的招聘信息.同届的同学大多找完了工作,文章就给将来需要的同学看吧~因为不着急, ...
最新文章
- SAP MM 库存地点权限控制
- 解决android Stadio 升级之后 出现乱码
- 机器学习第10天:模型评价方法及代码实现
- 解密PreAngel区块链布局:平台协议类项目占4成,多个项目蓄势待发
- Android中的一个定时任务的方法
- mysql数据库访问编程,mysql 连接数据库
- use IE7 agent on safari 13
- mysql like BR%._MySQL Like子句
- 2.Linux性能诊断 --- 单机负载评估
- java.sql.SQLException: Field 'id' doesn't have a default value解决方法
- JavaScript练习题
- 怎么缩小照片的kb?
- English-Phonics
- oracle to_date 函数
- 18秋计算机应用基础在线作业3,电子科大18秋《计算机应用基础(本科)》在线作业3...
- 一篇好文之Android数据库 GreenDao的使用指南(源码+案列)
- 使用Python模拟武侠小说中两派人的一场遭遇战。
- 通过Auto Layout和Size Classes深入了解UIStackView的好处和使用
- oc中写c语言的方法,OC语言description步骤和sel
- 【Alpha】阶段第五次Scrum Meeting
热门文章
- 计算机组成定点数的编码,2.1.1 定点数的表示
- 数组扩容 java_java 实现数组扩容与缩容案例
- MySQL面试题 | 附答案解析(五)
- C++ 三五法则,看看你能不能理解
- 【机器视觉案例】(13) 脸部和摄像机间的距离测量,自适应文本大小,附python完整代码
- 剑指offer:面试题16. 数值的整数次方
- 常见浏览器User-Agent大全
- ATS中用到的sscanf高级用法说明
- 三十之惑–面霸的八月(第二部分)
- 概念艺术绘画学习教程 Schoolism – Foolproof Concept Painting with Airi Pan