长文预警  阅读约5分钟 

相信如果你慢慢把这篇文章读完,然后合并实践

经过上述三节,穿插讲了一下HTTP的知识点,以及浏览器的界面资源的获取,以及运行过程,我们可以收获到很多东西,如果没有好好看的伙伴可以趁热打铁

客户端浏览器一次http完整请求过程流程图(图文结合诠释请求过程)

网络基础HTTP协议进化篇

网络基础意淫篇

模块导入方式: import os

os模块是Python标准库中的一个用于访问操作系统相关功能的模块,os模块提供了一种可移植的使用操作系统功能的方法。使用os模块中提供的接口,可以实现跨平台访问。但是,并不是所有的os模块中的接口在全平台都通用,有些接口的实现是一来特定平台的,比如linux相关的文件权限管理和进程管理。

os模块的主要功能:系统相关、目录及文件操作、执行命令和管理进程

Ps:其中的进程管理功能主要是Linux相关的,本节不做讨论。

在使用os模块的时候,如果出现了问题,会抛出OSError异常,表明无效的路径名或文件名,或者路径名(文件名)无法访问,或者当前操作系统不支持该操作。

>>> import os
>>> os.chdir("d:\11")
Traceback (most recent call last):File "<pyshell#2>", line 1, in <module>os.chdir("d:\11")
OSError: [WinError 123] 文件名、目录名或卷标语法不正确。: 'd:\t'

1. 系统相关

os模块提供了一些操作系统相关的变量,可以在跨平台的时候提供支持,便于编写移植性高,可用性好的代码。所以在涉及操作系统相关的操作时,请尽量使用本模块提供的方法,而不要使用当前平台特定的用法或格式,否则一旦移植到其他平台,可能会造成难以解决的困扰。

下面以表格的形式,列举os模块中常用的方法和变量,及其用途解释。个别比较重要的内容会单独举例说明,以后类同。

方法和变量 用途
os.name 查看当前操作系统的名称。windows平台下返回‘nt’,Linux则返回‘posix’。
os.environ 获取系统环境变量
os.sep 当前平台的路径分隔符。在windows下,为‘\’,在POSIX系统中,为‘/’。
os.altsep 可替代的路径分隔符,在Windows中为‘/’。
os.extsep 文件名和文件扩展名之间分隔的符号,在Windows下为‘.’。
os.pathsep PATH环境变量中的分隔符,在POSIX系统中为‘:’,在Windows中为‘;’。
os.linesep 行结束符。在不同的系统中行尾的结束符是不同的,例如在Windows下为‘\r\n’。
os.devnull 在不同的系统上null设备的路径,在Windows下为‘nul’,在POSIX下为‘/dev/null’。
os.defpath 当使用exec函数族的时候,如果没有指定PATH环境变量,则默认会查找os.defpath中的值作为子进程PATH的值。

使用范例:

>>> import os
>>> os.name
'nt'
>>> os.environ
environ({'ALLUSERSPROFILE': 'C:\\ProgramData', 'APPDATA': 'C:\\Users\\Administrator\\AppData\\Roaming', 'ASL.LOG': 'Destination=file', ......
>>> os.sep
'\\'
>>> os.altsep
'/'
>>> os.extsep
'.'
>>> os.pathsep
';'
>>> os.linesep
'\r\n'
>>> os.devnull
'nul'
>>> os.defpath
'.;C:\\bin'

2. 文件和目录操作

os模块中包含了一系列文件操作相关的函数,其中有一部分是Linux平台专用方法。Linux是用C写的,底层的libc库和系统调用的接口都是C API,Python的os模块中包括了对这些接口的Python实现,通过Python的os模块,可以调用Linux系统的一些底层功能,进行系统编程。关于Linux的相关方法,内容较为复杂,可根据需要自行查阅官方文档,这里只介绍一些常用的,各平台通用的方法。

方法和变量 用途
os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径
os.chdir("dirname") 改变当前脚本工作目录;相当于shell下cd
os.curdir 返回当前目录: ('.')
os.pardir 获取当前目录的父目录字符串名:('..')
os.makedirs('dir1/dir2') 可生成多层递归目录
os.removedirs(‘dirname1’) 递归删除空目录(要小心)
os.mkdir('dirname') 生成单级目录
os.rmdir('dirname') 删除单级空目录,若目录不为空则无法删除并报错
os.listdir('dirname') 列出指定目录下的所有文件和子目录,包括隐藏文件
os.remove('filename') 删除一个文件
os.rename("oldname","new") 重命名文件/目录
os.stat('path/filename') 获取文件/目录信息
os.path.abspath(path) 返回path规范化的绝对路径
os.path.split(path) 将path分割成目录和文件名二元组返回
os.path.dirname(path) 返回path的目录。其实就是os.path.split(path)的第一个元素
os.path.basename(path) 返回path最后的文件名。如果path以\结尾,那么就会返回空值。
os.path.exists(path或者file) 如果path存在,返回True;如果path不存在,返回False
os.path.isabs(path) 如果path是绝对路径,返回True
os.path.isfile(path) 如果path是一个存在的文件,返回True。否则返回False
os.path.isdir(path) 如果path是一个存在的目录,则返回True。否则返回False
os.path.join(path1[, path2[, ...]]) 将多个路径组合后返回,第一个绝对路径之前的参数将被忽略
os.path.getatime(path) 返回path所指向的文件或者目录的最后存取时间
os.path.getmtime(path) 返回path所指向的文件或者目录的最后修改时间
os.path.getsize(filename) 返回文件包含的字符数量

在Python中,使用windows的文件路径时一定要小心,比如你要引用d盘下的1.txt文件,那么路径要以字符串的形式写成'd:\\1.txt'或者r'd:\1.txt。前面的方式是使用windwos的双斜杠作为路径分隔符,后者是使用原生字符串的形式,以r开始的字符串都被认为是原始字符串,表示字符串里所有的特殊符号都以本色出演,不进行转义,此时可以使用普通windows下的路径表示方式。这两种方法使用哪种都可以,但不可混用。

下面是一些使用的例子,建议大家都跟着做一遍(其中有一些是错误示范,让你更清楚它的用法)。

>>> os.getcwd()
'C:\\Python36'
>>> os.chdir("d:")
>>> os.getcwd()
'D:\\'
>>> os.curdir
'.'
>>> os.pardir
'..'
>>> os.makedirs("1\\2")
>>> os.removedirs("1\\2")
>>> os.listdir()
['$360Section', '$RECYCLE.BIN', '1.txt', 'MobileFile', 'pymysql_test.py', 'System Volume Information', '用户目录']
>>> os.mkdir("1")
>>> os.listdir()
['$360Section', '$RECYCLE.BIN', '1', '1.txt', 'MobileFile', 'pymysql_test.py', 'System Volume Information', '用户目录']
>>> os.rmdir("1")
>>> os.rename('1.txt','2.txt')
>>> os.listdir()
['$360Section', '$RECYCLE.BIN', '2.txt', 'MobileFile', 'pymysql_test.py', 'System Volume Information', '用户目录']
>>> os.remove('1.txt')
Traceback (most recent call last):File "<pyshell#22>", line 1, in <module>os.remove('1.txt')
FileNotFoundError: [WinError 2] 系统找不到指定的文件。: '1.txt'
>>> os.remove('2.txt')
>>> os.stat()
Traceback (most recent call last):File "<pyshell#24>", line 1, in <module>os.stat()
TypeError: Required argument 'path' (pos 1) not found
>>> os.stat(os.getcwd())
os.stat_result(st_mode=16895, st_ino=1407374883553285, st_dev=2431137650, st_nlink=1, st_uid=0, st_gid=0, st_size=32768, st_atime=1505824872, st_mtime=1505824872, st_ctime=1445187376)

更多的操作:

>>> import os
>>> os.chdir("d:")
>>> os.getcwd()
'D:\\'
>>> os.mkdir('test')
>>> os.listdir()
['$360Section', '$RECYCLE.BIN', 'MobileFile', 'pymysql_test.py', 'System Volume Information', 'test', '用户目录']
>>> os.chdir('test')
>>> os.getcwd()
'D:\\test'
>>> os.path.abspath(os.getcwd())
'D:\\test'
>>> os.path.split(os.getcwd())
('D:\\', 'test')
>>> cp = os.getcwd()
>>> os.path.dirname(cp)
'D:\\'
>>> os.path.basename(cp)
'test'
>>> os.path.exists(cp)
True
>>> os.path.exists("d:\\123\123")
False
>>> os.path.isabs(cp)
True
>>> os.path.isabs("11\\1.py")
False
>>> os.path.isfile(cp)
False
>>> os.path.isfile("d:\\1.txt")
False
>>> os.path.isdir(cp)
True
>>> os.path.join(cp, "test.py")
'D:\\test\\test.py'
>>> os.path.getatime(cp)
1505825113.4970243
>>> os.path.getmtime(cp)
1505825113.4970243
>>> os.path.getsize(cp)
0

os.walk(top, topdown=True, οnerrοr=None, followlinks=False)

walk方法是os模块中非常重要和强大的一个方法。可以帮助我们非常便捷地以递归方式自顶向下或者自底向上的方式遍历目录树,对每一个目录都返回一个三元元组(dirpath, dirnames, filenames)。

三元元组(dirpath,dirnames,filenames):

dirpath - 遍历所在目录树的位置,是一个字符串对象

dirnames - 目录树中的子目录组成的列表,不包括("."和"..")

filenames - 目录树中的文件组成的列表

如果可选参数topdown = True或者没有指定,则采用自顶向下的方式进行目录遍历,也就是从父目录向子目录逐步深入遍历,如果topdown = False,则采用自底向上的方式遍历目录,也就是先打印子目录再打印父目录的方式。

如果可选参数onerror被指定,则onerror必须是一个函数,该函数有一个OSError实例的参数,这样可以允许在运行的时候即使出现错误的时候不会打断os.walk()的执行,或者抛出一个异常并终止os.walk()的运行。通俗的讲,就是定义这个参数用于指定当发生了错误时的处理方法。

默认情况下,os.walk()遍历的时候不会进入符号链接,如果设置了可选参数followlinks = True,则会进入符号链接。注意,这可能会出现遍历死循环,因为符号链接可能会出现自己链接自己的情况,而os.walk()没有那么高的智商,无法发现这一点。

下面的例子会将c:\python36目录中的所有文件和子目录打印出来。

import ostry:for root, dirs, files in os.walk(r"c:\python36"):print("\033[1;31m-"*8, "directory", "<%s>\033[0m" % root, "-"*10)for directory in dirs:print("\033[1;34m<DIR>    %s\033[0m" % directory)for file in files:print("\t\t%s" % file)
except OSError as ex:print(ex)

运行结果:

-------- directory <c:\python36> ----------
<DIR>    DLLs
<DIR>    Doc
<DIR>    include
<DIR>    Lib
<DIR>    libs
<DIR>    Scripts
<DIR>    share
<DIR>    tcl
<DIR>    ToolsLICENSE.txtNEWS.txtpython.exepython3.dllpython36.dllpythonw.exevcruntime140.dll
-------- directory <c:\python36\DLLs> ----------py.icopyc.ico
......太长了,截取部分

下面的例子会统计c:/python36/Lib/email目录下所有子目录的大小,但是CVS目录除外。

import os
from os.path import join, getsize
for root, dirs, files in os.walk('c:/python36/Lib/email'):print(root, "consumes", end=" ")print(sum(getsize(join(root, name)) for name in files), end=" ")print("bytes in", len(files), "non-directory files")if 'CVS' in dirs:dirs.remove('CVS')  # 不遍历CVS目录

运行结果:

C:\Python36\python.exe F:/Python/pycharm/201705/1.py -
c:/python36/Lib/email consumes 377849 bytes in 21 non-directory files
c:/python36/Lib/email\mime consumes 12205 bytes in 9 non-directory files
c:/python36/Lib/email\mime\__pycache__ consumes 30289 bytes in 27 non-directory files
c:/python36/Lib/email\__pycache__ consumes 741924 bytes in 60 non-directory files

下面的例子会递归删除目录的所有内容,危险,请勿随意尝试!

import os
for root, dirs, files in os.walk(top, topdown=False):for name in files:os.remove(os.path.join(root, name))for name in dirs:os.rmdir(os.path.join(root, name))

3. 执行命令

在早期的Python版本中,通常使用os模块的system或者popen等方法执行操作系统的命令。但是,最近Python官方逐渐弃用了这些命令,而是改用内置的subprocess模块执行操作系统相关命令。由于目前还有很多人仍然在使用os的system和popen方法,在此简要介绍一下。

os.system(command)

运行操作系统命令,直接显示结果。但返回值是0或-1,不能获得显示在屏幕上的数据。command是要执行的命令字符串。

我们尝试在linux下使用ipython交互式界面运行一下:

In [1]: import osIn [2]: ret = os.system("ifconfig")
eth0      Link encap:Ethernet  HWaddr 02:16:3e:31:ff:3b  inet addr:176.17.230.109  Bcast:176.17.230.255  Mask:255.255.255.0UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1RX packets:274674 errors:0 dropped:0 overruns:0 frame:0TX packets:260923 errors:0 dropped:0 overruns:0 carrier:0collisions:0 txqueuelen:1000 RX bytes:62664341 (62.6 MB)  TX bytes:83842737 (83.8 MB)lo        Link encap:Local Loopback  inet addr:127.0.0.1  Mask:255.0.0.0UP LOOPBACK RUNNING  MTU:65536  Metric:1RX packets:244020 errors:0 dropped:0 overruns:0 frame:0TX packets:244020 errors:0 dropped:0 overruns:0 carrier:0collisions:0 txqueuelen:1 RX bytes:376137873 (376.1 MB)  TX bytes:376137873 (376.1 MB)
In [3]: ret
Out[3]: 0

可以看到运行的返回值是0,而不是我们期望的输出信息。

如果我们是在windows环境下使用IDLE运行os.system('ipconfig /all'),你会发现命令终端界面一闪而过,根本啥都来不及看。这时候,你最好进入cmd环境使用python命令进入交互式界面才可以看到屏幕上的信息。

另外,请尝试在不同环境下执行os.system('python3')

os.popen(command, [mode, [bufsize]])

开启一个子进程执行command参数指定的命令,在父进程和子进程之间建立一个管道pipe,用于在父子进程间通信。该方法返回一个文件对象,可以对这个文件对象进行读或写,取决于参数mode,如果mode指定了只读,那么只能对文件对象进行读,如果mode参数指定了只写,那么只能对文件对象进行写操作。

简而言之,popen也可以运行操作系统命令,并通过read()方法将命令的结果返回,不像system只能看不能存,这个能存!

>>> os.popen('ipconfig')
<os._wrap_close object at 0x0000000002BB8EF0>
>>> ret = os.popen('ipconfig')
>>> ret.read()
'\nWindows IP 配置\n\n\n以太网适配器 Bluetooth 网络连接 2:\n\n   媒体状态  . . . . . . . . . . . . : 媒体已断开\n   连接特定的 DNS 后缀 . . . . . . . : \n\n无线局域网适配器 无线网络连接 2:\n\n   媒体状态  . . . . . . . . . . . . : 媒体已断开\n   连接特定的 DNS 后缀 . . . . . . . : \n\n无线局域网适配器 无线网络连接:\n\n   连接特定的 DNS 后缀......

试试运行类似python3这种会进入交互式界面的命令看看,结果不是很理想,无法进入想要的交互式界面:

>>> ret = os.popen('python3')
>>> ret
<os._wrap_close object at 0x0000000002BB8E80>
>>> ret.read()

请继续关注我

爬虫 (三十九) 常用标准库 OS (三十)相关推荐

  1. python学习笔记(十二)标准库os

    os 模块提供了访问操作系统服务的功能,它所包含的内容比较多. >>> import os >>> dir(os) ['EX_CANTCREAT', 'EX_CON ...

  2. 简述与机器学习相关的十大常用Python库,极简化算法编程

    原创博文,欢迎转载,转载时请务必附上博文链接,感谢您的尊重. 前言 初学Python的时候,我一直不太理解Python的魅力到底在哪,相比Java,它除了换一种简洁的语法,好像没什么场景是不可替代的. ...

  3. python标准库os中用来列出_雨课堂答案在哪查,雨课堂2020试题及答案

    常用的电镜有 和 两种,观察表面结构用 ,观察内部结构用 . [简答题]发票号码是否正确?如错误,请修改. [简答题]桥壳的功用有哪些? 在正常窦性心律的心电图上,同-导联连续出现两次或两次以上QRS ...

  4. Python常用标准库之正则表达式

    Python常用标准库之正则表达式 1.re模块常用函数 1.1 匹配对象以及group()和groups()方法 1.2 match()与search():匹配单个目标 1.3 findall(): ...

  5. 【博学谷学习记录】超强总结,用心分享 | 人工智能编程语言Python常用标准库(上)

    Python常用标准库 上 sys库 time库 random库 math库 os库 shutil库 Python语言的急速发展很大程度上得益于其开放共享的特点和良好的社区支持和计算生态,拥有超过十几 ...

  6. 10个常用python标准库_【循序渐进学Python】11.常用标准库

    安装完Python之后,我们也同时获得了强大的Python标准库,通过使用这些标准库可以为我们节省大量的时间.这里是一些常用标准库的简单说明.更多的标准库的说明,可以参考Python文档 sys 模块 ...

  7. python标准库os.path中用来_Python标准库os.path中用来判断指定文件是否存在的方法是_____________。...

    Python标准库os.path中用来判断指定文件是否存在的方法是_____________. 答:exists() 通常,我们称脾为( ? ?) 答:后天之本 智慧职教: 生物与非生物的主要区别在于 ...

  8. python3常用标准库

    趁着有时间,把一些我用过的常用标准库进行整理和复习. time 用法 说明 time.time() 返回时间戳(从1970年1月1日00:00:00开始计算) time.localtime() 返回当 ...

  9. python 常用标准库

    python 常用标准库 1.文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata:Unicode字符数据库 st ...

最新文章

  1. Unity面试题汇总(第一部分)
  2. [css] 说下line-height三种赋值方式有何区别?
  3. 研究人员用数据统计的方法来做文学研究
  4. WinDBG 技巧:如何生成Dump 文件(.dump 命令)
  5. mysql insert 二进制_MYSQL 插入二进制数的 2 种方法。
  6. git基础管理--操作远程仓库
  7. bzoj 4447 小凸解密码
  8. 两分钟学会线性同余法产生伪随机数
  9. Python图片转base64
  10. 关于cmake与make
  11. PIC16F887 单片机 灯光控制系统 PROTEUS 基于单片机的灯光控制系统
  12. 视频H5页面/视频app怎么做?
  13. 今天两位80后程序员身价超千亿 一大波快手员工财富自由
  14. 解析淘宝淘口令获取商品ID方法说明
  15. 2542: 弟弟的作业
  16. Java实现发送邮件(定时自动发送邮件)
  17. wampserver局域网可以访问在线状态下的本地网站
  18. Ubuntu18.04平台下C/C++编程环境搭建及OpenCV4.5.4安装
  19. Pythony应用(01)-学习监控(02)
  20. 计算机纠正错别字的方法,二年级错字连篇怎么办?用这套科学方法纠正错别字,可以事半功倍...

热门文章

  1. Unity Shaders and Effects Cookbook (3-6) 创建各向异性高光类型(Anisotropic) 模拟金属拉丝效果
  2. JPress一个包罗万象的后台管理系统
  3. oracle not in语句突然失效解决方法
  4. switch两个账号合并_任天堂NS常见问题解答整合,新手必看
  5. 红米路由器ac2100怎样设置ipv6_小米路由器ac2100怎么设置
  6. K-Code快手程序设计大赛
  7. Android 学习之跳转抖音账号主页或者某一视频页
  8. JavaScript大法第一式--换肤实践
  9. 【心电信号】基于matlab心电图PQRST检测【含Matlab源码 1549期】
  10. Python turtle绘图(那年那兔)