用python实现的下载整个网站工具。

核心流程很简单:

1. 输入网站地址

2. url,得到响应的内容。

3. 根据响应的http报文头,如果类型为html, 则从第4步开始执行。如果是其它类型,则从第6步执行。

4. 提取html中href和src属性值。

5. 将提取到的url,加入下载队列中。如果url已经存在于下载队列中,则丢弃它。

6. 再然后打开url队列中下一个url。

7.继续循环执行第2步,知道url队列中的url处理完为止。

这个步骤看起来很简单,但是里面很多细节要处理半天。

url的各种类型,怎么给后缀有问号的url命名。

目前这个程序中有一处问题是:

1 打开url时,可能会阻塞到一处执行不下去。这个需要研究一下urllib.request

2 还有在url队列长度庞大时,多线程下载速度回更快。

3 英文注释不知道有多少错误。因为写注释时,要是用中文,需要不停来回切换输入法,所以就使用英文。

而目前的程序部支持多线程,日后再完善。

如果有同学有兴趣完善,非常欢迎。

个人邮箱:369806726@qq.com

python网站下载_python 下载整个网站相关推荐

  1. python 小说下载_Python下载网络小说实例代码

    看网络小说一般会攒上一波,然后导入Kindle里面去看,但是攒的多了,机械的Ctrl+C和Ctrl+V实在是OUT,所以就出现了此文. 其实Python我也是小白,用它的目的主要是它强大文本处理能力和 ...

  2. python视频网站项目_Python开发教育网站项目实例教学(105集视频课程含源码)

    Python开发教育网站项目实例教学(105集视频课程含源码)课程简介: Python开发教育网站项目实例教学(105集视频课程含源码)通过这105集Python实例视频课程的学习,学员可以掌握到使用 ...

  3. python 小说 小说_python潇湘书院网站小说爬虫

    很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院 环境准备: python3 request ...

  4. python编程图片_python下载百度图片,python图片下载程序

    以前写的一个百度图片下载的代码,现在试试还能用,现在百度图片的质量也是越来越高了,共享一下,让粉丝和图片控能方便下载:后续功能追加请关注我的小站#coding:utf-8 ''' python 2.7 ...

  5. python 东方财富接口_Python从东方财富网站获取数据,python,的

    python 获取东方财富网站的数据 #!/usr/bin/env python # -*- coding: utf-8 -*- import pandas as pd from selenium i ...

  6. python主题壁纸下载_Python 下载Bing壁纸

    这个示例使用的Python版本为3.7版本, 一.bing壁纸接口 访问bing的官网,通过浏览器开发者工具,查看网络可以找到一个请求壁纸的接口,至于怎么判断的,我是发现当我把鼠标放在切换壁纸的左右箭 ...

  7. python主题壁纸下载_Python 下载Bing壁纸的示例

    这个示例使用的Python版本为3.7版本, 一.bing壁纸接口 访问bing的官网,通过浏览器开发者工具,查看网络可以找到一个请求壁纸的接口,至于怎么判断的,我是发现当我把鼠标放在切换壁纸的左右箭 ...

  8. 看漫画学python下载_Python下载漫画

    上午起来提不起劲,于是就用电脑看漫画,但是在线看漫画好烦,就想下下来看.一个一个点太麻烦,于是花了点时间用python写了个demo,把爱漫画的漫画下载下来,这样就可以随时随地看了.这也是我首次尝试用 ...

  9. 慕课python下载_python下载小说

    下载新笔趣阁小说 采用了requests库,代码修改一下文件存放的文章,以及添加一下小说目录就可以使用. 代码百度云 # -*- coding: utf-8 -*- """ ...

  10. python 小说下载_python下载小说

    采用了requests库,代码修改一下文件存放的文章,以及添加一下小说目录就可以使用. 代码百度云# -*- coding: utf-8 -*- """ Created ...

最新文章

  1. WAS集群系列(2):数据库连接低级错误——网络连接问题
  2. 160个CrackMe005
  3. docker安装mysql及相关配置、运行细节和常见报错解决方案
  4. 删除ubuntu linux系统,从Windows双启动中卸载Ubuntu Linux
  5. 【Redis】7.使用jedis操作redis数据库
  6. html中dir标签的作用是什么意思,htmldir标签是干啥的?dir标签的具体定义和属性介绍...
  7. java代码中 作用_Java利用开发中代码生成工具的作用
  8. 转》谨防APP明文HTTP传输数据泄露隐私
  9. 记录一次 Win10 通过 VirtualBox安装CentOS7 的辛酸史
  10. 十七条黄金定律!(心态是命运的控制塔)
  11. 零基础学python比较好的网课-请问自学 Python 有必要买课程吗?
  12. python是什么 自学-初学 Python 者自学 Anaconda 的正确姿势是什么?
  13. c++实现 :n进制两数相加模板
  14. 初级计算机处理员试题及答案,计算机软考信息技术处理员模拟试题及答案(1)[5]...
  15. [RK3288][Android6.0] 调试笔记 --- 播放搜狐视频会Crash问题
  16. iOS:练习题中如何用技术去实现一个连线题
  17. 小程序发布上线流程_小程序如何发布?微信小程序发布流程很简单
  18. 24小时“凶宅试睡直播”去“凶”,阿里拍卖为卖凶宅有点拼
  19. Java 10 大装 B 写法,看完可以出去吹牛逼了!
  20. Windows 11 蓝牙耳机音质故障-解决方法

热门文章

  1. PLC控制三相异步电动机正反转系列实训QY-DG800E
  2. 免费php文件加密软件,php源码加密 在线加密工具
  3. m126a linux驱动下载,hpm126a驱动下载
  4. 【Web开发】HTML颜色代码表
  5. Unity读取CSV表格时出现中文乱码处理方式
  6. 复合梯形公式C语言程序,C语言复合梯形公式实现定积分
  7. html网页主页制作,网页主页制作过程
  8. 河北省高中会考计算机试题及答案,河北省高中信息技术会考题.doc
  9. c语言课程设计报告书模板,C语言课程设计报告模板(最终版).doc
  10. ps自学视频教程,ps排版视频教程百度云下载(从小白到大神级一步步学习都有相应教程)