python 做网站的工具_程序员最爱的网站克隆爬取工具- HTTrack
有一些专门针对网站克隆爬取的软件,如 WebZip、awwwb.com 等等,据说挺好用的。这里我给大家介绍一款程序员最爱的网站克隆爬取工具- HTTrack,而且是开源的。
什么是 HTTrack?
HTTrack 是一个免费并易于使用的线下浏览器工具,全称是 HTTrack Website Copier for Windows,它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览),也可以用来收集信息(甚至有网站使用隐藏的密码文件),一些仿真度极高的伪网站(为了骗取用户密码),也是使用类似工具做的。浏览线下站点和线上并没有什么不同。
HTTrack 同样可以进行线下线上站点同步,支持断点续传。HTTrack 是一个可全面配置并包括全面的帮助系统的工具。对于传统的像存在 Robots.txt 的网站,如果程序运行的时候不做限制,在默认的环境下程序不会把网站镜像,简单来说 HTTPrack 跟随基本的 JavaScript 或者 APPLet、flash 中的链接,对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的 ImageMap 则不能镜像。一般不用挖的太深就能获取目标信息比如网站的物理地址,电话号码,电子邮箱地址,运营时间,商业关系,员工的姓名,与社会关系,以及公开的一些花絮。做渗透测试时新闻其实也很重要,公司时常会公开一些自己感到骄傲的事情,这些报到中可能会泄露有用的信息,企业兼并服务器运转的情况等等。
用 Httrack 可以将一个网站拷贝下来,以此进行下线的探测发现,以此减少对目标网站的直接交互。Httrack 的使用很简单,只需要根据其向导按步骤进行就好了。
安装
HTTrack 已经被预安装在以下 Linux 系统中:
如没有可以自行参考以下的安装方式进行下载安装。
HTTrack 的安装和使用
HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统,且针对 Windows 而言,HTTrack 有可视化界面的支持,效果如下:
Windows 下安装:
Linux 下安装:
# Debian/Ubuntu下安装
sudo apt install httrack
# CentOS/Fedora下安装
sudo yum install httrack
# Gentoo下安装
sudo emerge httrack
Mac OSX 下安装:
sudo port install httrack
# 或者
brew install httrack
直接通过源码编译下安装:
git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install
常用的参数选项可以通过 httrack --help 查看。
爬取一个网站
测试站地址: https://****.com
xdl@xdl-virtual-machine:~/Downloads$ htt
httrack httxt2dbm
xdl@xdl-virtual-machine:~/Downloads$ httrack
Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help
Enter project name :jiayu
Base path (return=/home/xdl/websites/) :
Enter URLs (separated by commas or blank spaces) :https://localhost.com
Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
:
Proxy (return=none) :
You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :
You can define additional options, such as recurse level (-r), separated by blank spaces
To see the option list, type help
Additional options (return=none) :
---> Wizard command line: httrack https://localhost.com -O "/home/xdl/websites/jiayu" -%v
Ready to launch the mirror? (Y/n) :y
Mirror launched on Wed, 25 Mar 2020 13:29:38 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://localhost.com with the wizard help..
Done.
Thanks for using HTTrack!
*
参数解析
# 1. 输入待生成的项目名称
Enter project name :progit
# 2. 输入待保存的项目所在的路径
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
# 3. 输入需要克隆的网站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/
Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
:
# 4. 没有特别要求直接回车即可
Proxy (return=none) :
You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
# 5. 没有特别要求直接回车即可
Wildcards (return=none) :
You can define additional options, such as recurse level (-r), separated by blank spaces
To see the option list, type help
# 6. 没有特别要求直接回车即可
Additional options (return=none) :
---> Wizard command line: httrack https://progit.bootcss.com/ -O "/Users/apple/Desktop/progit" -%v
Ready to launch the mirror? (Y/n) :Y
Mirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://progit.bootcss.com/ with the wizard help..
Done.
Thanks for using HTTrack!
*
查看结果
把之中的,localhost.com 文件夹就是你爬取下的网站。
但是发现打开后,有一个报错,提示cdn的js,无法直接访问。
那这种,我们只能去cdn上给下载到本地了。
下载后发现是有路径错误,我们打开代码发现全是加密了。
打开报错地方的js代码:
好吧加密了,我们解一下。可以直接使用js解密工具。
解密后 好看多了。
经过一番代码解析,寻找。具体就不提了。
我们把路径改正确。
改正确后,我们发现,缺少一个data.json。文件
这是因为原网站,引用了一个时间轴插件,这个插件挺好的,献上下载地址。https://www.php.cn/xiazai/js/4818
那我们只能去原网站把data.json 下载下来了。
引入后,打开网站。
成功
答疑,有些小伙伴想,为什么不直接ctrl+s呢?而是要配合httrack?
我放目录图你就知道了。
httrack的目录:
ctrl+s的目录:
好啦,今天就到这里。如果喜欢研究爬虫,那就给我点赞,我会出一个python爬虫小课!
本作品采用《CC 协议》,转载必须注明作者和本文链接
感谢关注
上海PHP自学中心-免费编程视频教学|
python 做网站的工具_程序员最爱的网站克隆爬取工具- HTTrack相关推荐
- 建议收藏99%的程序员都爱的网站
导读 作为程序员,你每天接触到的比较多的网站或者平时比较喜欢浏览的网站有哪些?今天给大家介绍9个99%的程序员都爱的网站,建议收藏起来.如果你有什么其他有用的网站,也可以评论区推荐给大家. 1.Git ...
- 代码整理工具_程序员软件:程序员有哪些常用又好用的编码小工具?
最近,有很多朋友让我帮忙整理一下程序员有哪些常用又好用的编码小工具.今天,小编就整理一下哦,希望大家一起学习,一起进步! 1. Notepad++ Notepad++中文版是一款非常有特色的编辑器,是 ...
- java excel 插件开发工具_程序员常用的15 种开发者工具推荐
程序员常用的15 种开发者工具推荐:Java 线上诊断工具 Arthas.IDE 插件 Cloud Toolkit.混沌实验注入工具 ChaosBlade.Java 代码规约扫描插件.应用实时监控工具 ...
- 编程软件python是什么意思_程序员Python编程必备5大工具,你用过几个?
Python是编程入门不错的选择,现在也有不少的程序员业余时间会研究这门编程语言. 学习Python有时候没有第一时间找到好工具,会吃不少的苦头.毕竟好的工具能将工作效率多倍速提升. 下面W3Csch ...
- python画鱼骨图_程序员高效率实用工具推荐(web开发+爬虫+数据库+可视化工具+……)...
最近我深深的发现利用好编程实用小工具,代码简直在狂奔,工作效率也在大大提升.那种没有deadline压迫感的得意嘴脸,估计你分分钟想往我脸上扔100个臭鸡蛋-- 为了让大家能像我一样神清气爽,不再成为 ...
- python开发pc软件_程序员带你十天快速入门Python,玩转电脑软件开发(二)
关注今日头条-做全栈攻城狮,学代码也要读书,爱全栈,更爱生活.提供程序员技术及生活指导干货. 如果你真想学习,请评论学过的每篇文章,记录学习的痕迹. 请把所有教程文章中所提及的代码,最少敲写三遍,达到 ...
- python真实收入曝光_程序员工资很高吗?资深HR透露真实收入,网友:说的很现实...
小编是一个多年开发经验的程序员,前端.Java.Python我都懂,如果你在入门学习WEB前端的过程当中缺乏系统的学习教程,或者说缺乏一个交流技术的地方,你可以申请加入我的WEB前端裙:前面二九六,中 ...
- python和ui设计_程序员,UI设计师,你们在哪里
2013年12月,在虎嗅那年的F&M创新节上,我参与了他们一个"作者互动"环节的宣讲,简单介绍了一下电影产业的情况和发展. 结束时,我说:"电影行业有了一百年的历 ...
- python技术栈全景图_程序员之数据分析Python技术栈
程序员之数据分析Python技术栈 Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集 ...
- python ios开发环境_程序员的macOS系列:Mac开发环境配置
1.前言 最近在写<程序员的macOS系列>文章,之前写的第一篇 程序员的macOS系列:精选Mac App,大家都希望楼主尽快更新,结果拖到了2个月后,所以今天终于更新啦!其实macOS ...
最新文章
- 单例模式下的懒汉和饿汉模式
- S5PV210开发 -- 开发板配置
- 批量给MapGis文件正确的地图参数
- Xtrabackup备份MySQL
- command not found Operation not permitted
- linux 安装libcurl4-gnutls-dev,curl / curl.h,libcurl,libcurl4-openssl-dev,libcurl4-nss-dev库之间的区别?...
- 计算机科学家 收入,你离年薪100万的数据科学家还差10个“码农”
- 删除下拉框只找23火星软件_下拉框软件找28火星下拉
- c语言dp算法,通过leetcode学算法——动态规划(dp)
- addr2line方法使用总结
- 小程序跳转到其他小程序
- 高德地图实现多天路线规划(途经点显示自定义内容)+轨迹回放(显示车牌)
- 双系统window更新后,开机引导错误,grub rescue修复
- ubuntu 下搭建gitLab
- matlab与vs混合编程,matlab与vs混合编程/matlab移植
- 口语语汇单词篇(5)
- oracle ppt讲义,oracle课件.ppt
- 遵义微科技小程序商城直播系统,线下零售行业发展新趋势!
- 汽车配件小程序开发制作
- openfalcon 基本监控配置
热门文章
- 图结构 计算机视觉,探索图结构数据上的数据增强
- (附源码)计算机毕业设计Java远程健康数据管理系统
- 8.2 自制操作系统: risc-v Machine寄存器说明mstatus和mstatush
- windows无法格式化u盘_台电u盘无法格式化怎么办 台电u盘无法格式化解决办法【介绍】...
- Unity插件——Odin 学习笔记(二)
- 简单书籍类网页代码制作
- mi5splus android9,小米5SPlus 安卓9.0 原生体验 LineageOS16.0 ROOT
- linux7 iperf,CentOS 7下安装Iperf
- 令牌桶 java_服务限流(自定义注解令牌桶算法)
- 用acdess制作html文件,使用ACDSee制作图片注释