linux网站爬取,Kali下httrack 爬取网站页面
简介:
HTTrack 是一个免费开源的网站离线浏览器。通过它可以将整个网站下载到本地的某个目录,包括html、图片和脚本以及样式文件,并对其中的链接进行重构以便于在本地进行浏览。
官网:http://www.httrack.com/
1,安装
# yum install httrack –y
# httrack
2,使用用法
2.1)可以直接使用命令行进行爬取。
usage: httrack [-option] [+] [-] [+] [-]
#httrack "http://www.linuxea.com" -O "/web/www.linuxea.com" "+*.linuxea.com*" –v
2.2)也可以使用交互界面来爬取
# httrack
Welcome to HTTrack Website Copier (Offline Browser) 3.48-21
Copyright (C) 1998-2015 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help
Enter project name :linuxea
Base path (return=/root/websites/) :/linuxea
Enter URLs (separated by commas or blank spaces) :www.linuxea.com
Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
: 2
Proxy (return=none) :
You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :
You can define additional options, such as recurse level (-r), separed by blank spaces
To see the option list, type help
Additional options (return=none) :
---> Wizard command line: httrack www.linuxea.com -W -O "/linuxea/linuxea" -%v
Ready to launch the mirror? (Y/n) :yes
WARNING! You are running this program as root!
It might be a good idea to run as a different user
Mirror launched on Fri, 07 Oct 2016 03:22:51 by HTTrack Website Copier/3.48-21 [XR&CO'2014]
3,检查爬取后的情况
linux网站爬取,Kali下httrack 爬取网站页面相关推荐
- Kali使用httrack完整复制网站
1.在kaili中创建 一个存放目录 root@kali:~# mkdir dir #创建一个目录root@kali:~# ls #查看创建的目录 公共 模板 视频 图片 文档 下载 音乐 桌面 di ...
- 在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...
这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...
- python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
- HTTrack 爬取整站
HTTrack介绍 爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递 ...
- Python爬取网站用户手机号_利用python爬取慕课网站上面课程
1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...
- python 取json下某一key_利用Python爬取全国250m精度的人口数据、房价数据和公交站(线路)等数据(一)...
我的第一篇博客写的就是爬取人口数据,精度是1000m,后来有朋友和我说有个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性. 所以我决定试一下能不能爬到这个网站的人口信息,首先得注册 ...
- Python爬取童程童美TTS网站知识点图片
Python爬取童程童美知识点PPT图片 爬取的网站:http://kidtts.tmooc.cn/studentCenter/toMyttsPage?isCenter=no http://resou ...
- 新网站是如何吸引蜘蛛进行爬取的?
对于新建的网站来说,不仅是排名还是权重的提升都需要优化人员进行更细心的操作,吸引更多的蜘蛛进行爬取网站才能逐渐提升网站的收录量和排名,那么新站该如何吸引蜘蛛进行爬取呢?接下来就一起来看看. 一.主动提 ...
- Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...
最新文章
- vs2005什么时候能出正式版
- 网络工程学习资料2---IEEE 802 标准集合
- 【物联网智能网关-02】获取摄像头数据+显示
- CentOS系统的优化
- 解决pjax加载页面不执行js插件的问题
- Spark编程指南笔记
- Jquery中$.get(),$.post(),$.ajax(),$.getJSON()的用法总结
- kuangbin大数模板(加法和乘法)
- Python - python不是内部或外部命令
- 李楠:《流浪地球》抄的经典套路 但这不是贬低
- native关键字(涉及本地方法栈)
- 特殊用法(AHB写)
- 架构语言ArchiMate - ArchiMate提供的基本视角(Viewpoints)介绍一
- Luogu2257 YY的GCD
- matlab提取电压基波分量,有源电力滤波器三种基波提取方法的对比分析
- 店盈通:拼多多直通车推广怎么操作?技巧有哪些?
- 想做自媒体,做什么样的内容呢,怎么做呢--第006期博文
- 【设计原则】里氏代换原则
- GitLab 邮件发送不成功原因
- windows操作系统死机代码及其含义解剖