python 3读网页文件及保存成本地文件，遇到的编码问题

用python做网页爬虫，会要用到读网页文件，python可以想读本地文件那样读网页文件

读网页文件，要用到urllib.request包中的文件，因此需要首先导入

import  urllib.request

然后打开一个网页。

infile = urllib.request.urlopen("http://infohost.nmt.edu/tcc/help/pubs/tkinter/web/text-methods.html")

网页的地址必须要加“http://“

读网页文件。read()读出来的东西是bytes类型的，不是str，不信可以试试type(s)。可以用s.decode(“utf-8”)来将其转成str类型，之所以用utf-8，是因为一般的网页文件都是utf-8这个编码的

s = infile.read()

这个infile不需要close()

如果想把这个网页文件保存到本地，可以直接用二进制的编码方式打开一个本地文件，然后写入s就可以了

outfile = open("h2.html", "wb")
outfile.write(s)
outfile.close()

打开h2.txt，你会发现跟网页文件一样。为什么会这样了？h2.html用二进制方式写入的，应该是二进制文件啊，怎么是文本文件呢？

其实在电脑中，所谓二进制文件和文本文件，其实本质都是一样的，都是二进制文件，只不过对于所谓的文本文件，电脑自动用了某种编码方式翻译了该二进制文件。所以对h2.html写入二进制，与写入字符其实是一样的，当写入字符时还需要将其解码成二进制。python的文件IO其实就是把这个过程隐藏起来了而已。

其实你这样试一试

outfile = open("h1.txt", "wb")
s1 = bytes([65, 66, 67])
outfile.write(s)
outfile.close()

输出应该是

ABC

与你用

outfile = open("h1.txt", "w")
s1 = "ABC"
outfile.write(s)
outfile.close()

是一样的

python 3读网页文件及保存成本地文件，遇到的编码问题相关推荐

Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂，注释超级全，代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
java通过url获取网页内容_Java语言通过URL读取网页数据并保存到本地文件（代码实例）...
本文主要向大家介绍了Java语言通过URL读取网页数据并保存到本地文件(代码实例),通过具体的内容向大家展示,希望对大家学习JAVA语言有所帮助. Java通过URL读取网页数据并保存到本地文件(代码 ...
Python爬取售房信息并保存至CSV文件
Python爬取售房信息并保存至CSV文件在上一篇文章: Python爬取租房信息并保存至Excel文件,介绍了如何使用Python爬取租房信息并保存至Excel文件,在本案例中则是使用Python ...
计算机证书图片无法保存,win7电脑JPG文件怎么保存为PDF文件
很多时候我们需要将win7下的各种文本文件转换为PDF格式的文件,那么win7电脑JPG文件怎么保存为PDF文件呢?学习啦小编分享了win7电脑JPG文件保存为PDF文件的方法,希望对大家有所帮助. ...
Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
python爬虫-豆瓣爬取数据保存为html文件
接<python爬虫-豆瓣数据爬取-正则匹配>中的案例五,将爬取的豆瓣租房信息网址和标题保存为html文件. 脚本修改如下: # -*-coding:utf-8 -*- import re ...
python使用nibabel和sitk读取保存nii.gz文件
nii.gz格式是医学图像常用的压缩格式,python中可用nibabel和sitk来读取保存. 使用nibabel 由于使用nibabel图像会旋转90度,所以读取保存的时候还得保存映射信息,3维图 ...
用python实现语音的分割并保存为.wav文件
功能描述因为在研究使用openSMILE提取特征时,需要对语音进行分割,我找了很多方法,都无法实现自己想要效果,语音自己实现了语音分割并保存的代码,我测试了一下,可以达到自己想要的结果,因此写一 ...
java爬取网页并保存_第九讲：Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...

python 3读网页文件及保存成本地文件，遇到的编码问题

python 3读网页文件及保存成本地文件，遇到的编码问题相关推荐

最新文章

热门文章