1. HTTrack工具介绍

HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是HTTrack的爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 SEO(搜索引擎优化)工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(网站在搜索引擎中的网页快照就是被存储下来的内容)。

HTTrack Website Copier界面如下图所示:

我们一般用 HTTrack Website Copier 来对网站进行检测或测试,模拟爬虫对受保护服务的爬行、抓取、收录,以来测试我们的防护设备对爬虫的防护。

  1. HTTrack工具使用

第一步:创立项目的名称(工程名)

第二步:选择操作方式,再点击“添加URL”,将我们的网站地址添加进去。

第三步:进入“选项”,设定爬行和抓取规则等选项

在选项中,取消使用代理进行FTP传输;

进入“扫描规则”,为HTTrack程序设定爬行和抓取规则,HTTrack里面自带了一些,可以自己设置,也可以默认。

这样的扫描规则搜索引擎也一定会有的,比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬虫不收录的特征加进去。

然后在“搜寻”里面,很多的特征都是现在搜索引擎爬虫的特征:

一般的搜索引擎不会接收cookies,因此测试时我们也将此项去掉。

第四步:一般按照以上设置就可以,其他的默认就行。点击下一步:

在此页面,我们不用选择任何项,直接点击完成就可以进行测试了,如下图

此时,HTTrack开始对网页进行爬行,抓取。

原文地址:https://wenku.baidu.com/view/b128946327d3240c8447ef61.html

[转]Httrack工具与使用指南相关推荐

  1. Http压测工具wrk使用指南【转】

    用过了很多压测工具,却一直没找到中意的那款.最近试了wrk感觉不错,写下这份使用指南给自己备忘用,如果能帮到你,那也很好. 安装 wrk支持大多数类UNIX系统,不支持windows.需要操作系统支持 ...

  2. 截屏工具Snipaste使用指南

    Snipaste 是一个简单但强大的贴图工具,同时也可以执行截屏.标注等功能. 开始截图 快捷键(默认为 F1) 鼠标左键 单击托盘图标 何为一次成功的截图 保存到剪贴板 ( Ctrl + C / E ...

  3. IDEA工具避坑指南(七):git@github.com: Permission denied|You must supply a key in OpenSSH public key format详解

    错误描述 用IDEA通过版本控制器从GitHub拉取目项时,出现下述错误   错误一:IDEA clone项目时,控制台错误: Cloning into 'gitidea'... git@github ...

  4. 计算机快捷键桌布,桌面改造 篇三:编程娱乐两不误 | 伪程序猿的Windows双屏组建/效率工具/桌面美化指南...

    桌面改造 篇三:编程娱乐两不误 | 伪程序猿的Windows双屏组建/效率工具/桌面美化指南 2020-07-10 11:41:39 153点赞 1107收藏 74评论 哈喽大家好,我是码呆茶!作为一 ...

  5. 可以用来分析文本数据的Python工具的完整指南

    探索性数据分析是任何机器学习工作流程中最重要的部分之一,自然语言处理也是如此. 但是,应该选择哪些工具来有效地浏览和可视化文本数据? 在本文(Shahul Es最初在 Neptune博客 上发布 )中 ...

  6. IDEA工具避坑指南(五):如何统一编码为UTF-8 | Tomcat控制台乱码

    前言 在使用IDEA工具之前,必须做的优化之一,统一编码格式:本文以UTF-8为例 注:UTF-8对中文比较友好,这个编码格式一个字符占用3个字节. 步骤 1.常规全局设置 1.点击File--Set ...

  7. 痞子衡嵌入式:恩智浦MCU安全加密启动一站式工具nxpSecBoot用户指南

    痞子衡嵌入式:恩智浦MCU安全加密启动一站式工具nxpSecBoot用户指南 nxpSecBoot 1 软件概览 1.1 介绍 nxpSecBoot是一个专为NXP MCU安全加密启动而设计的工具,其 ...

  8. 自动化运维工具-Ansible实战指南

    Ansible实战 前言 一.Ansible简介 1.ansible是什么? 2.ansible特点 3.ansible架构 主要模块 工作流程 命令执行过程 二.Ansible 配置 1 安装ans ...

  9. Http压测工具wrk使用指南

    用过了很多压测工具,却一直没找到中意的那款.最近试了wrk感觉不错,写下这份使用指南给自己备忘用,如果能帮到你,那也很好. 安装 wrk支持大多数类UNIX系统,不支持windows.需要操作系统支持 ...

最新文章

  1. Web服务器的工作原理
  2. 趣谈网络协议笔记-二(第十三讲)
  3. 算法导论之多项式与快速傅里叶变换
  4. [BSidesSF2020]haystack
  5. 23种设计模式之解释器模式
  6. leetcode 260. Single Number III | 260. 只出现一次的数字 III(位运算:分组异或)
  7. c语言subscripted_c语言。数组的问题。急!
  8. geek_Ask How-To Geek:营救受感染的PC,安装无膨胀iTunes和驯服疯狂的触控板
  9. python引用模块的私有变量_python 使用不同方法导入模块,模块中私有变量的使用区别...
  10. 进程和线程不属于标准c语言,经典C语言面试题6:进程与线程的关系和区别
  11. OpenCV-绘制简易直方图DrawHistImg
  12. IPSEC是如何穿越NAT的
  13. PADS VX2.8 AD封装库转换PADS封装的方法
  14. 水位传感器的python代码_关于水的作文
  15. AI CC呼叫中心源码
  16. 39 What Determines the Kind of Person You Are ?是什么决定了你是哪种内型的人 ?
  17. 虚幻引擎图文笔记:Niagara粒子系统实例 风格化火焰(一)
  18. Webex助力Innokids消除沟通隔阂,成就无边界创作
  19. SQL_修改字段为NOT NULL和NULL
  20. Android 11系列:权限适配

热门文章

  1. iOS:web api 接口大全
  2. 使用python搞定<百度云盘> 视频限速/网页限制(我们就给他拿下来)
  3. Linux系统vmstat命令
  4. 工厂模式 multiple definition 多重定义 即重复定义 找不到/dev/vide0设备
  5. 第四本书第1章 动态网页开发基础、
  6. [转]好莱坞金牌编剧从《魔兽世界》学到的七件事!
  7. KMALLOC PK VMALLOC
  8. JVM 的内存模型及对象的内存布局(一图尽收眼底)
  9. Wamp apache 配置 Https 双向 认证 全过程
  10. matlab 变压器 异名,Matlab simulink变压器的配置