1 robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

如:

淘宝网:https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Disallow:  /product/
Disallow:  /User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Disallow:  /...

腾讯网:http://www.qq.com/robots.txt

User-agent: *
Disallow:
Sitemap: http://www.qq.com/sitemap_index.xml

豆瓣网:https://www.douban.com/robots.txt

马蜂窝:http://www.mafengwo.cn/robots.txt

搜索引擎和DNS解析服务商(DNSPod)合作,新网站域名将被迅速抓取。但搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件内容,如标注为nofollow的链接,或者是Robots协议;另一种则是通过网站的站长主动对搜索引擎提交的网址,搜索引擎则会在接下来派出“蜘蛛”,对该网站进行爬取。

2 网站地图sitemap

网站地图sitemap是网站所有链接的容器;是依据网站的结构、框架、内容生长的导航页面文件,一般存放在根目录下并命名为sitemap。

很多网站的链接层次较深,蜘蛛很难抓取到,网站地图可方便搜索引擎蜘蛛抓取网站页面,增加网站重要内容页面的收录,以便清晰了解网站的架构

网站地图sitemap有两种形式

2.1 HTML

HTML版本的网站地图,也即网站上所有页面的链接,但对于规模较大的网站来说,一种办法是网站地图只列出网站最主要的链接,如一级分类、二级分类;第二种办法是将网站地图分成几个文件,主网站地图列出次级网站的链接,次级网站列出部分页面链接

2.2 XML

XML版本网站地图是由Google首先提出的,其是由XML标签组成的,文件本身必须是utf-8编码,网站地图文件实际上就是列出网站需要被收录页面的URL,最简单的网站地图可以是一个纯文本,文件只要列出页面的URL,一行列一个URL,搜索引擎就能抓取并理解文件内容

也可以使用第三方工具生成某网站的sitemap ,例如小爬虫sitemap网站地图生成工具

3 估算网站的大小

可以使用搜索引擎来估算网站大小,如搜索时添加site。

该方法仅是通过百度搜索引擎大致估算网站大小,因有些网站对爬虫的限制,以及搜索引擎本身爬取数据技术的局限性,所以该数据仅是估算值,是估算网站体量量级的经验值。

注:百度只能做一级页面的统计,Google可以做到二级页面的统计

4 识别网站中用了何种技术

为了更好地了解网站,抓取该网站的信息,我们可先了解一下该网站大致所使用的技术架构

builtwith

安装:(windows)pip install bulitwith;   (Linux)sudo pip install builtith

使用:在python交互环境下,输入:

import builtwith

builtwith.parse("http://www.sina.com.cn")

5 确定网站的所有着

有时候需要追寻网站的所有者是谁,可以通过python-whois软件查看

whois

安装:(windows)pip install python-whois

使用:在python交互环境下输入:

import whois

whois.whois("http://www.sina.com.cn")

pythonl学习笔记——爬虫的基本常识相关推荐

  1. Python学习笔记——爬虫之Scrapy框架

    目录 Scrapy 框架 Scrapy的安装介绍 Windows 安装方式 Ubuntu 需要9.10或以上版本安装方式 入门案例 启动Scrapy Shell Item Pipeline Spide ...

  2. Python学习笔记——爬虫之动态HTML处理和机器图像识别

    目录 动态HTML介绍 JavaScript jQuery Ajax DHTML Selenium与PlantomJS Selenium PhantomJS 案例一:网站模拟登录 案例二:动态页面模拟 ...

  3. Python学习笔记——爬虫之urllib数据抓取

    目录 urllib库的基本使用 Get方式 POST方式: 获取AJAX加载的内容 Handler处理器 和 自定义Opener urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资 ...

  4. Python学习笔记——爬虫原理与Requests数据抓取

    目录 为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求 请求方法 HTTP请求主要分为Get和Post两种方法 常用的请求报头 1. Host (主机和端口号) 2. ...

  5. Python学习笔记 - 爬虫

    爬虫简单来讲就是,让程序通过一些设置好的规则去网页上查找我们想要的内容,我还没有爬过有验证码,登录等一系列需要鉴权的网站.所以这里仅仅记录一下我自己写的最简单的爬虫实现. 找到想要爬取的网页 确定数据 ...

  6. python学习笔记爬虫——爬取智联招聘信息

    目的:自己输入指定地方,指定职业,起始页数,程序会自动打印页面的所有信息. 实现过程:这次程序的代码跟以往的都不一样,这次也是我第一次使用面向对象式编程,并且并不是分析网页代码,分析json字符串得到 ...

  7. pyhton学习笔记-爬虫相关-多进程同步异步的代码实现

    本文为了说明例子,用中文作为变量写在了程序里面,一般编程最好不要那么写 本文目录 同步(正常的情况)实现 多进程 join方法的作用 进程间数据隔离的实现 同步(正常的情况)实现 import tim ...

  8. 爬虫学习笔记(十二)—— scrapy-redis(一):基本使用、介绍

    文章目录 一.分布式概念和作用 二.Scrapy-redis 2.1.redis的安装与使用 2.2.Redis Desktop Manager下载 2.3.特点和架构 2.4.安装和使用 2.5.r ...

  9. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

最新文章

  1. 6kzz整合ueditor
  2. PIC单片机精通_串口通讯与串口调试实例
  3. 在线rss阅读聚合器lilina-0.7安装笔记
  4. 魔百盒哪款型号配置高_松下负离子吹风机怎么样哪款好?推荐型号?2020年9月松下负离子电吹风选购攻略...
  5. Struts2标签-checkbox只读属性设置
  6. 网易编程题目——相反数:
  7. Playmaker节点工具使用(三)—扩展playmaker
  8. 程序员内部培训与个人发展杂谈
  9. 文件夹共享失败解决方式
  10. maftools: 可视化maf文件的神器
  11. Qt-quick(qml) Canvas用法及鼠标绘制图形
  12. begin to drop messages due to rate-limiting
  13. C++ 很难找工作了???
  14. Java入门概念回炉重造
  15. 双十一最后一天该怎么入手,几款必备的好物分享
  16. linux shell正则表达式如何匹配域名(包含中文域名)
  17. OFDM 中的 IFFT/FFT 注意事项
  18. scala列表-List.tabulate方法
  19. IoT 恶意软件攻击剖析
  20. 常用计算机故障处理指令,计算机常见故障分析与维修.ppt

热门文章

  1. Java_中快速获取系统时间
  2. Hive 按某列的部分排序 以及 删列操作
  3. [iOS]开发者证书和描述文件的作用
  4. UIScrollView offset in UINavigationController
  5. 16条很有用的Chrome浏览器命令
  6. Linux普通用户启动tomcat
  7. NAT的配置与相关概念的理解
  8. 像我这种垃圾学校出来的人...【原话,不是我编的】
  9. Spark Streaming实践和优化
  10. 基于分布式的短文本命题实体识别之----人名识别(python实现)