简介:

HTTrack 是一个免费开源的网站离线浏览器。通过它可以将整个网站下载到本地的某个目录,包括html、图片和脚本以及样式文件,并对其中的链接进行重构以便于在本地进行浏览。

官网:http://www.httrack.com/

1,安装

# yum install httrack –y

# httrack

2,使用用法

2.1)可以直接使用命令行进行爬取。

usage: httrack [-option] [+] [-] [+] [-]

#httrack "http://www.linuxea.com" -O "/web/www.linuxea.com" "+*.linuxea.com*" –v

2.2)也可以使用交互界面来爬取

# httrack

Welcome to HTTrack Website Copier (Offline Browser) 3.48-21

Copyright (C) 1998-2015 Xavier Roche and other contributors

To see the option list, enter a blank line or try httrack --help

Enter project name :linuxea

Base path (return=/root/websites/) :/linuxea

Enter URLs (separated by commas or blank spaces) :www.linuxea.com

Action:

(enter) 1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)

0 Quit

: 2

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip

Wildcards (return=none) :

You can define additional options, such as recurse level (-r), separed by blank spaces

To see the option list, type help

Additional options (return=none) :

---> Wizard command line: httrack www.linuxea.com -W -O "/linuxea/linuxea" -%v

Ready to launch the mirror? (Y/n) :yes

WARNING! You are running this program as root!

It might be a good idea to run as a different user

Mirror launched on Fri, 07 Oct 2016 03:22:51 by HTTrack Website Copier/3.48-21 [XR&CO'2014]

3,检查爬取后的情况

linux网站爬取,Kali下httrack 爬取网站页面相关推荐

  1. Kali使用httrack完整复制网站

    1.在kaili中创建 一个存放目录 root@kali:~# mkdir dir #创建一个目录root@kali:~# ls #查看创建的目录 公共 模板 视频 图片 文档 下载 音乐 桌面 di ...

  2. 在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...

    这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...

  3. python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...

    一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...

  4. HTTrack 爬取整站

    HTTrack介绍 爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递 ...

  5. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

  6. python 取json下某一key_利用Python爬取全国250m精度的人口数据、房价数据和公交站(线路)等数据(一)...

    我的第一篇博客写的就是爬取人口数据,精度是1000m,后来有朋友和我说有个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性. 所以我决定试一下能不能爬到这个网站的人口信息,首先得注册 ...

  7. Python爬取童程童美TTS网站知识点图片

    Python爬取童程童美知识点PPT图片 爬取的网站:http://kidtts.tmooc.cn/studentCenter/toMyttsPage?isCenter=no http://resou ...

  8. 新网站是如何吸引蜘蛛进行爬取的?

    对于新建的网站来说,不仅是排名还是权重的提升都需要优化人员进行更细心的操作,吸引更多的蜘蛛进行爬取网站才能逐渐提升网站的收录量和排名,那么新站该如何吸引蜘蛛进行爬取呢?接下来就一起来看看. 一.主动提 ...

  9. Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例

    博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...

最新文章

  1. vs2005什么时候能出正式版
  2. 网络工程学习资料2---IEEE 802 标准集合
  3. 【物联网智能网关-02】获取摄像头数据+显示
  4. CentOS系统的优化
  5. 解决pjax加载页面不执行js插件的问题
  6. Spark编程指南笔记
  7. Jquery中$.get(),$.post(),$.ajax(),$.getJSON()的用法总结
  8. kuangbin大数模板(加法和乘法)
  9. Python - python不是内部或外部命令
  10. 李楠:《流浪地球》抄的经典套路 但这不是贬低
  11. native关键字(涉及本地方法栈)
  12. 特殊用法(AHB写)
  13. 架构语言ArchiMate - ArchiMate提供的基本视角(Viewpoints)介绍一
  14. Luogu2257 YY的GCD
  15. matlab提取电压基波分量,有源电力滤波器三种基波提取方法的对比分析
  16. 店盈通:拼多多直通车推广怎么操作?技巧有哪些?
  17. 想做自媒体,做什么样的内容呢,怎么做呢--第006期博文
  18. 【设计原则】里氏代换原则
  19. GitLab 邮件发送不成功原因
  20. windows操作系统死机代码及其含义解剖

热门文章

  1. 排球积分程序(三)——模型类的设计
  2. Find All Numbers Disappeared in an Array
  3. 数据结构入门学习笔记-1
  4. 页面未加载完时报的错误
  5. 基于OpenGL的三种直线生成算法
  6. 第一次离线写Blog,先上个图先
  7. 结合JDK源码看设计模式——桥接模式
  8. python后端从数据库请求数据给到前端的具体实现
  9. java之Spring实现控制反转
  10. Spring Shedule Task之注解实现 (两次启动Schedule Task 的解决方案)