html打印代码_惊呆了,我的 Python 代码里面出现了薛定谔的 Bug
IT服务圈儿
有温度、有态度的IT自媒体平台
本文经公众号:未闻Code(ID:itskingname) 授权转载
作者:kingname
GNE: 新闻网页正文通用抽取器[1]更新了0.2.1版本,大幅度提高了正文的提取速度。在开发这个版本的时候,我遇到了一个非常奇怪的 Bug,最终发现是由于垃圾回收机制和内存重用机制导致的。今天我们来看看这个问题。
问题背景
先来看一段代码:
这段代码读取tests/163/9.html
这个文件里面的 HTML 代码,分别获取 下面的所有标签内部的所有标签中的文本。说起来可能有点绕口,我举个例子。
你好
分别获取世界
标签和
标签下面的标签中的文本,也就是
你好和世界
。但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:
你好
首先,获取
标签下面的
标签,获取到的是你好
所在的标签。但是,获取标签下面的标签时,获取的仍然是同一个标签。这样一来,在上图代码里面第15-20行就会重复执行两次。为了提高代码的运行效率,我们引入缓存,记录每一个标签的分析结果,如果发现一个标签已经被分析了,就直接使用缓存的结果,避免重复分析。于是,代码修改成下面这样:
对应了这个节点的内存地址,如下图所示:代码第18行的
str(element)
这段代码看起来似乎没有什么问题,但在实际提取数据的时候,发现提取的结果不太正常。
薛定谔的 Element
薛定谔的 Element
为了调试这个问题,我对代码做了一下修改:
可以看到,同一个 HTML 标签,之前缓存的结果竟然跟新提取的不一样。于是,我想看看每次提取的时候,对应的 element 是哪个,但却发生了更诡异的事情,我们做一个看起来对代码不会有任何影响的改动:
缓存起来。图5里面,我们把图4里面,我们直接把
element_text_list[element_text_list, element]
缓存起来,读取的时候,读取这个列表的下标为0的元素。也就是说,这个缓存的element
我们根本不使用。但奇怪的事情就这样发生了,问题消失了!在图4大量打印的同一个标签,缓存的数据跟提取的数据不一致!
,在图5里面却一条都没有打印。这样修改以后,GNE 的提取的结果就正确了。但为什么会发生这种事情呢?难道说跟缓存的结果有关系?那么我们把列表里面的 element
改成其他数据看看:
改成了数字1,Bug 又出现了。它似乎知道我在试图去观察它,当我尝试用代码去观察 仅仅是把
elementelement
时,它就一切正常。当我不观察它时,它就会出问题。薛定谔的 element
。
看不见的手
看不见的手
遇事不决,量子力学。这个问题跟量子力学实际上没有关系。导致这个诡异情况发生的原因,是一个一直运行在 Python 里面,但是你常常忽略的机制——垃圾回收。Python 会把不再使用的对象清理掉,从而释放内存。当我们执行一个 for 循环时:
for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
对象,但是这个对象在循环第二次执行的时候就被新的循环第一次执行的时候,生成第一个
elementelement
对象覆盖了。因为没有其他地方继续使用第一个 element
对象,它的引用计数归零,Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。但如果换一种写法:
cache = []
for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
cache.append(element)
中包含了对每个 由于列表
cacheelement
对象的引用,导致第一次循环生成的element
对象的引用计数不为0,垃圾回收机制不会回收它,它始终占用了一块内存区域。这块区域不会被其他数据使用。那么每次循环,新的element
对象都会新申请一块内存区域来存放数据,于是就等价于每一个不同的 element
节点对应了不同的内存地址。在示例代码里面,大家注意element_flag = str(element)
这一行,它的值类似于,这里的十六进制数字0x1087ba638
对应了这个对象在内存里面的地址。一开始,我有一个不正确的假设,我以为str(element)
的值,对应的 HTML 里面的每个节点。同一个节点,多次执行,结果都一样,不同的节点,多次执行,结果都不一样。但实际上这是不正确的。因为如果前一个节点的内存区域被垃圾回收了,那么这个区域会被重新分配,新来的节点可能碰巧会放到这个地方,这就导致两个不同的 标签,当你执行str(element)
时,他们打印出来的结果都是相同的。但是实际上他们的正文不一样。而当我使用element_text_cache[element_flag] = [element_text_list, element]
时,由于每个element
对象不会被回收,于是就不会出现不同的节点互相覆盖的问题,所以它的工作就符合了预期。
解决问题
解决问题
作为缓存的 Key,应该找一个跟 HTML 节点一一对应的东西来作为 Key。显然,使用 XPath 更好。于是,修改代码,把所以,bug 的根本原因在于,我不应该使用
str(element)element_flag
改成 XPath:
问题得以解决。
参考资料
参考资料
[1]
GNE: 新闻网页正文通用抽取器: https://github.com/kingname/GeneralNewsExtractor
rm删除文件空间就释放了吗?天真!
rm删除文件空间就释放了吗?天真!
CPU 明明8个核,网卡为啥拼命折腾一号核?
CPU 明明8个核,网卡为啥拼命折腾一号核?
代码之间为什么要加空格?
代码之间为什么要加空格?
如何调试Python 程序的内存泄露问题
如何调试Python 程序的内存泄露问题
*版权声明:转载文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜。
html打印代码_惊呆了,我的 Python 代码里面出现了薛定谔的 Bug相关推荐
- latex附录中放python代码_在Latex中插入Python代码
这里指的插入是指最终能在生成的pdf中显示高亮的Python代码. 在Latex中插入Python代码,需要一个第三发的宏包pythonhighlight: https://github.com/ol ...
- python微信公众号秒杀代码_微信跳一跳辅助python代码实现
微信跳一跳辅助python代码实现 来源:中文源码网 浏览: 次 日期:2018年9月2日 [下载文档: 微信跳一跳辅助python代码实现.txt ] (友情提示:右键点上行txt文档 ...
- python画熊猫代码_超清字符画——Python代码
字符画视频如下,可以先预览一下效果(建议进入BILIBILI全屏观看):[樱花绽放]代码敲出武汉加油(全屏观看)期待战疫成功,武大赏樱_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bi ...
- python代码_如何使用 Sphinx 给 Python 代码写文档
最好将文档作为开发过程的一部分.Sphinx 加上 Tox,让文档可以轻松书写,并且外观漂亮.-- Moshe Zadka(作者) Python 代码可以在源码中包含文档.这种方式默认依靠 docst ...
- 20个python代码_有用的20个python代码段(4)
有用的20个python代码段(4): 1.使用列举获取索引和值对 以下脚本使用列举来迭代列表中的值及其索引.my_list = ['a', 'b', 'c', 'd', 'e'] for index ...
- python9行代码_如何用9行Python代码编写一个简易神经网络
原标题:如何用9行Python代码编写一个简易神经网络 Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 学习人工智能时,我给自己定了一个目标--用Pyth ...
- 微信跳一跳python全部代码_微信跳一跳辅助python代码实现
微信跳一跳辅助的python具体实现代码,供大家参考,具体内容如下 这是一个 2.5D 插画风格的益智游戏,玩家可以通过按压屏幕时间的长短来控制这个「小人」跳跃的距离.可能刚开始上手的时候,因为时间距 ...
- 牛逼的python代码_牛逼了!Python代码补全利器,提高效率告别996!
给大家介绍一款专门针对Python的代码自动补全利器: Kite,效果绝佳.它的使用条件很简单,支持多种IDE和操作系统,并且免费使用.支持Windows.Mac.Linux 支持Atom.PyCha ...
- python30行代码_仅利用30行Python代码来展示X算法
假如你对数独解法感兴趣,你可能听说过精确覆盖问题.给定全集 X 和 X 的子集的集合 Y ,存在一个 Y 的子集 Y*,使得 Y* 构成 X 的一种分割. 这儿有个Python写的例子. X = {1 ...
最新文章
- 闲话能力管理(Capacity Management)
- vue双向绑定原理源码解析
- ios8 定位问题解决思路
- C# 默认接口方法更新完成,很多细节问题尚待解决
- kinect在openni下也能玩抠出人物换背景
- c++ vector用另一个vector初始化
- avatar.php uid,phpcms函数库中获取会员头像方法get_memberavatar()有时无效问题
- tpch测试mysql_MySQL-tpch 测试工具简要手册
- 数据表中数据迁移存储过程
- GDI+中发生一般性错误 Winform Image.Save(mstream, ImageFormat.Png)引发
- PMP-132种工具技术合集-(第6版)
- Si9000阻抗计算笔记(一)
- 计算机网页的设计与应用的前言,网页设计前言.ppt
- vue前端导出(XLSX)
- 全新的服务器debian/ubuntu---校准时间、更新apt,设置ssh远程访问
- unix/Linux常用命令英文全称与中文解释 man ,su,ps,ls 等等
- Python实战之函数的一些奇技淫巧
- 7-2 统计英文字母和数字字符[2]
- 99、插值法,函数逼近,曲线拟和,数值积分,数值微分,解线性方程组的直接方法,解线性方程组的迭代法,非线性方程求根,常微分方程的数值解法...
- FreeRDP的安装方法
热门文章
- 学习计划Current(2019.4.23)
- readline库实现命令行自动补全
- pkg-config --cflags --libs
- 零基础学java web开发 pdf_从零开始学Java Web开发 PDF 扫描版[69M]
- 聚类算法 距离矩阵_理解谱聚类
- 鸿蒙OS 生成密钥和证书请求文件
- 大多数可穿戴设备的基本原理总结
- java数学函数Math类
- kafka修改分区数_ELK|kafka增加分区或调整副本数
- python数据库介绍_Python数据库:MYSQL讲解介绍