linux网站爬取,Kali下httrack 爬取网站页面

简介：

HTTrack 是一个免费开源的网站离线浏览器。通过它可以将整个网站下载到本地的某个目录，包括html、图片和脚本以及样式文件，并对其中的链接进行重构以便于在本地进行浏览。

官网：http://www.httrack.com/

1，安装

# yum install httrack –y

# httrack

2，使用用法

2.1)可以直接使用命令行进行爬取。

usage: httrack [-option] [+] [-] [+] [-]

#httrack "http://www.linuxea.com" -O "/web/www.linuxea.com" "+*.linuxea.com*" –v

2.2)也可以使用交互界面来爬取

# httrack

Welcome to HTTrack Website Copier (Offline Browser) 3.48-21

To see the option list, enter a blank line or try httrack --help

Enter project name :linuxea

Base path (return=/root/websites/) :/linuxea

Enter URLs (separated by commas or blank spaces) :www.linuxea.com

Action:

(enter) 1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)

0 Quit

: 2

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip

Wildcards (return=none) :

You can define additional options, such as recurse level (-r), separed by blank spaces

To see the option list, type help

Additional options (return=none) :

---> Wizard command line: httrack www.linuxea.com -W -O "/linuxea/linuxea" -%v

Ready to launch the mirror? (Y/n) :yes

WARNING! You are running this program as root!

It might be a good idea to run as a different user

Mirror launched on Fri, 07 Oct 2016 03:22:51 by HTTrack Website Copier/3.48-21 [XR&CO'2014]

3，检查爬取后的情况

linux网站爬取,Kali下httrack 爬取网站页面相关推荐

Kali使用httrack完整复制网站
1.在kaili中创建一个存放目录 root@kali:~# mkdir dir #创建一个目录root@kali:~# ls #查看创建的目录公共模板视频图片文档下载音乐桌面 di ...
在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...
这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...
python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
HTTrack 爬取整站
HTTrack介绍爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递 ...
Python爬取网站用户手机号_利用python爬取慕课网站上面课程
1.抓取网站情况介绍抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...
python 取json下某一key_利用Python爬取全国250m精度的人口数据、房价数据和公交站（线路）等数据(一)...
我的第一篇博客写的就是爬取人口数据,精度是1000m,后来有朋友和我说有个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性. 所以我决定试一下能不能爬到这个网站的人口信息,首先得注册 ...
Python爬取童程童美TTS网站知识点图片
Python爬取童程童美知识点PPT图片爬取的网站:http://kidtts.tmooc.cn/studentCenter/toMyttsPage?isCenter=no http://resou ...
新网站是如何吸引蜘蛛进行爬取的？
对于新建的网站来说,不仅是排名还是权重的提升都需要优化人员进行更细心的操作,吸引更多的蜘蛛进行爬取网站才能逐渐提升网站的收录量和排名,那么新站该如何吸引蜘蛛进行爬取呢?接下来就一起来看看. 一.主动提 ...
Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...

linux网站爬取,Kali下httrack 爬取网站页面

linux网站爬取,Kali下httrack 爬取网站页面相关推荐

最新文章

热门文章