之前有试过用爬虫的方式扒取整个网站,缺点是耗时长,需要做的分析工作比较多,但是也有优点,完整分析后对整个网站的结构比较清晰,修改起来比较方便。最近领导给了个任务,给一天时间扒下来一个段子网站,很头疼,分析网站,写爬虫,再进行正则替换,这一套下来怎么着也得半个星期吧。然后本着轮子还是别人造的好的精神,谷歌(百度)到了这款软件。顺便吐槽下,这款软件网上的攻略都不给力啊,来一篇自己的踩到坑坑记录吧

  • 下载安装

    • 自行百度SiteSucker

  • 软件界面


  • 功能介绍

    • 整站下载
    • 图形化界面

  • 使用指南I

    1. 在输入框中输入要爬取的种子url(一般网站首页吧,看你心情)
    2. 回车开始爬,over

  • 使用指南II

    1. 通过设置Path Constraints可选择爬取范围

      • None: 无限制
      • Host: 与种子 url 属同一个(子)域
      • Directory: 与种子 url 属于统一路径
      • Paths Settings: 当前 url + 自定义 Paths Settings
    2. File Modification设置为Localize可以自动帮你关联本地js、css等文件
    3. File Replacement可以选择重复爬取的文件是覆盖还是怎么着
    4. 可以通过设置Levels来决定爬取的深度
    5. 多个爬取任务可以添加到queue,爬取配合设置的爬取深度可自动切换任务
    6. 爬取过程中分析文件占了很长的时间,如果爬到一半不想爬了可以先停止分析,把下载队列里的文件都下完就自动停止了
    7. 可以在webpage->patterns里面对爬取内容设置正则替换(有不可言说的妙用…)
    8. request里面可以选择ua,还可以设置尝试次数
    9. FileType里面可以过滤爬取的类型,比如视频(老司机微微一笑)
    10. preference里面还可以设置同时开启的连接数(加速)
    11. 需要登录才能抓取的,先在Open Browser中登录然后开始抓(过弯)
    12. Ignore Robot Exclusions可以突破rotots.txt的限制(起飞)

大概也就研究了这么多,一顿饭的时间,电脑已经帮我爬取并整理好我想要的东西了。

资源页:https://download.csdn.net/download/qyt0147/10323132

SiteSucker相关推荐

  1. Mac超强扒站神器——SiteSucker Pro 4.3.3 mac中英文

    SiteSucker Pro 汉化版是mac上一款超强扒站神器,只需输入网址即可自动将网站下载到本地的应用.SiteSucker pro可以将目标站点的目录结构.html 网页.图像.PDF.样式表. ...

  2. SiteSucker for macOS + CRACK

    SiteSucker for macOS + CRACK SiteSucker是一个简单的macOS应用程序,允许您下载网站.它还可以将网站.网页.背景图片.视频和许多其他文件复制到Mac的硬盘上. ...

  3. SiteSucker Pro Mac(Mac网站数据下载神器)

    SiteSucker Pro Mac是Mac平台上一款能够帮助你自动从互联网上下载站点到你的硬盘上的Mac网站数据下载神器,SiteSucker Pro Mac能够为您将网站整体架构以及下面的所有文本 ...

  4. mac high sierra开机按option怎么只有一个磁盘_mac下载工具----SiteSucker

    SiteSucker for mac是Mac os系统上一款帮助用户下载数据的Mac下载工具.SiteSucker for mac绝对是一扒网站的利器,不仅仅是下载网站的HTML源文件,他连网站整体架 ...

  5. 一款超好用的Zheng站下载shen器SiteSucker Pro

    SiteSucker Pro for Mac是Macos上一款专业网站xia载工具,SiteSucker Pro是SiteSucker的增强版,在SiteSucker Mac版中输入网址就能离线xia ...

  6. python爬虫技术可以干什么-Python实战:网络爬虫都能干什么?

    整站下载器:siteSucker https://blog.csdn.net/l_215851356/article/details/54377582 http://python.jobbole.co ...

  7. web网页死链接检查工具——“Scrutiny 8”

    Scrutiny是一款网站分析工具,它能够自动检测目标网站的坏链.HTML验证.描述Description.标题Title等SEO信息,并具有强大的报告导出功能. Scrutiny 8 Mac软件安装 ...

  8. Mac上常用软件-2018

    程序相关 vscode 最强编辑器 Sublime text3 编辑器 Postman 编写和测试API Studio3t mongo的图形化操作界面 Dash 查询常见语言和程序的文档API ite ...

  9. 学习路之html--扒取整站网页----扒站神器(Mac版跟window版)

    近期想拿别的网站练练布局能力,理论看再多不练手知识点还是不牢固,等真正需要写实际项目时就很难提升效率,仿站就是一个很好的实践项目.问题是怎么能拿到网站具体的字号颜色图片等等静态资源呢?有一个好用的仿站 ...

最新文章

  1. MyEclipse中运行环境jre、编译级别、tomcat运行环境区别
  2. 深入浅析mysql引擎
  3. 安卓9去掉搜索栏_安卓福音,史上最强搞机工具箱,一键修手机
  4. kuangbin大数模板(加法和乘法)
  5. 计算机专业接本应用心理学,专接本接应用心理学但遇到阻挠?
  6. 【Android Developers Training】 8. 定义Action Bar风格
  7. C和指针 第五章 位数组
  8. 音效SystemSoundID
  9. Java 工程与 Eclipse 高级用法
  10. DcotrineFixtureBundle学习
  11. java生命游戏并行_Java架构--线程的发展历史
  12. 什么软件画er图方便_如何画好ER图
  13. Json转换为txt
  14. 格局打开:NFT持有者决定IP天花板
  15. Python - poetry(4)管理环境
  16. JavaScript高级04 正则表达式
  17. 公众号对接淘宝联盟_公众访问新联盟支持的作品
  18. 论文的章节有重复率的要求吗?
  19. CLSID {10020200-E260-11CF-AE68-00AA004A34D5} failed due to the following error: 80040154. 错误的解决办法
  20. 亲亲亲亲兄弟们必学成为首富第一步学习Linux基础命令

热门文章

  1. 搭建node版本下载服务器(node版本高速镜像)
  2. star测试软件,PSTAR准备
  3. 帝国CMS对接百度小程序实现文章自动收录的方法
  4. 计算机网络自顶向下方法 第三章 运输层 3.6 拥塞控制原理
  5. Ubuntu和windows之间复制粘贴,遇到无法安装Vmware-tools
  6. diy 单片机 自动浇花_基于单片机的自动浇花器设计
  7. .NET Core统一设置路由前缀
  8. LinuxMint安装后的简单配置
  9. jmeter源码解读
  10. 米色精致秋分主题PPT模板