python unescape_在PYTHON中使用UNESCAPE HTML实体
这段代码可能对某些人有用,
def parsefile(path):
try:
file = open(path, "r")
fileread = file.read()
fileread = unescape(fileread.decode('utf-8')).encode('utf-8')
file.close()
except:
print "Reading File Bug"
sys.exit(1)
return ET.fromstring(fileread)
UNESCAPE HTML实体程序已于弗雷德里克Lundh开发网站上找到。代码做得太多了,因为它正在转换&,& gt;而且<。我希望将这些保存在URL中以及我已转义代码段的位置。所以我稍微修改了它以满足我自己的需要。
def unescape(text):
"""Removes HTML or XML character references
and entities from a text string.
keep &,& gt; <in the source code.
from Fredrik Lundh
http://effbot.org/zone/re-sub.htm#unescape-html
"""
def fixup(m):
text = m.group(0)
if text[:2] == "":
# character reference
try:
if text[:3] == "":
return unichr(int(text[3:-1], 16))
else:
return unichr(int(text[2:-1]))
except ValueError:
print "erreur de valeur"
pass
else:
# named entity
try:
if text[1:-1] == "amp":
text = "&"
elif text[1:-1] == "gt":
text = ">"
elif text[1:-1] == "lt":
text = "<"
else:
print text[1:-1]
text = unichr(htmlentitydefs.name2codepoint])
except KeyError:
print "keyerror"
pass
return text # leave as is
return re.sub("?w+;", fixup, text)
希望能帮助到你。
python unescape_在PYTHON中使用UNESCAPE HTML实体相关推荐
- 使用Python,EoN模拟网络中的疾病扩散模型,并结合matplotlib绘图
使用Python,EoN模拟网络中的疾病扩散模型,并结合matplotlib绘图 1. EoN是什么 2. 安装 3. 效果图 4. 源代码 4.1 源码 4.2 源码 参考 写这篇博客源于博友的提问 ...
- 使用Python,OpenCV在视频中进行实时条形码检测
使用Python,OpenCV在视频中进行实时条形码检测 1. 步骤 2. 适用场景及优化 3. 总结 4. 源码 参考 上一篇博客介绍了如何检测和查找图像中的条形码.这篇博客将进行一些优化以检测实时 ...
- python缩进在程序中长度统一且强制使用_Python习题纠错1
February, 1991 0.9.1 2.Python语言的缩进只要统一即可,不一定是4个空格(尽管这是惯例). Python缩进在程序中长度统一且强制使用. 3.IPO:Input Proces ...
- mac搭建python开发环境_Mac中基于Homebrew搭建python开发环境
转移到mac上了.这里是在lion中搭建python开发环境的简单记录.这份记录不是一份step by step.而是事后写的记录,可能有记忆遗漏.如果有错误,请指正. 1.安装homebrew的准备 ...
- python调用js库中的函数_Python 调用JS文件中的函数
Python 调用JS文件中的函数 1.安装PyExecJS第三方库 2.导入库:import execjs 3.调用JS文件中的方法 Passwd = execjs.compile(open(r&q ...
- python使用statsmodels包中的tsaplots函数和lags参数可视化时间序列数据指定滞后位置个数(级别)以前的所有自相关性(plot the autocorrelation)
python使用statsmodels包中的tsaplots函数和lags参数可视化时间序列数据指定滞后位置个数(级别)以前的所有自相关性(plot the autocorrelation Funct ...
- python使用statsmodels包中的robust.mad函数以及pandas的apply函数计算dataframe中所有数据列的中位数绝对偏差(MAD)
python使用statsmodels包中的robust.mad函数以及pandas的apply函数计算dataframe中所有数据列的中位数绝对偏差(MAD.Median Absolute Devi ...
- python使用statsmodels包中的tsaplots函数可视化时间序列数据所有滞后位置个数(级别)的自相关性(plot the autocorrelation function)
python使用statsmodels包中的tsaplots函数可视化时间序列数据所有滞后位置个数(级别)的自相关性(plot the autocorrelation function) 目录
- python使用statsmodels包中的adfuller函数执行增强迪基-福勒检验(ADF检验、augmented Dickey-Fuller test)、判断时间序列数据是否平稳
python使用statsmodels包中的adfuller函数执行增强迪基-福勒检验(ADF检验.augmented Dickey-Fuller test).判断时间序列数据是否平稳(station ...
最新文章
- 搜狗输入法电脑版SougouPhoneService占用adb进程的问题
- 【FTP】FTP 命令模式下 PASV OR PORT
- matlab下文件夹下所有文件改名
- CTFshow php特性 web137
- python磁盘io_python监控磁盘io
- 【OS学习笔记】三十八 保护模式十:中断和异常的处理与抢占式多任务对应的汇编代码----微型内核汇代码
- IOS开发之Bug--遇到一个类型不确定的bug
- 少样本文本分类 InductionNet
- 不经意传输算法 效果
- SonarQube规则之坏味道类型
- 放置江湖html5源码,「放置江湖」——经典文字类放置武侠手游
- 引擎提示Alias HeroDB跟游戏引擎启动异常怎么解决?
- Log4j自定义日志级别
- Informatic学习总结_day01
- js判断数组是否相等的方法
- python百度网盘-百度网盘 Python 客户端
- Mapped Statements collection already contains value for xxx
- 剑指offe系列之6:旋转数组的最小值
- 复旦大学计算机a类专业,复旦大学a类学科有哪些?附复旦a类学科名单
- 全球及中国千兆路由器行业市场规模调研及投资风险预测报告2022-2028年