这段代码可能对某些人有用,

def parsefile(path):

try:

file = open(path, "r")

fileread = file.read()

fileread = unescape(fileread.decode('utf-8')).encode('utf-8')

file.close()

except:

print "Reading File Bug"

sys.exit(1)

return ET.fromstring(fileread)

UNESCAPE HTML实体程序已于弗雷德里克Lundh开发网站上找到。代码做得太多了,因为它正在转换&,& gt;而且<。我希望将这些保存在URL中以及我已转义代码段的位置。所以我稍微修改了它以满足我自己的需要。

def unescape(text):

"""Removes HTML or XML character references

and entities from a text string.

keep &,& gt; &ltin the source code.

from Fredrik Lundh

http://effbot.org/zone/re-sub.htm#unescape-html

"""

def fixup(m):

text = m.group(0)

if text[:2] == "":

# character reference

try:

if text[:3] == "":

return unichr(int(text[3:-1], 16))

else:

return unichr(int(text[2:-1]))

except ValueError:

print "erreur de valeur"

pass

else:

# named entity

try:

if text[1:-1] == "amp":

text = "&"

elif text[1:-1] == "gt":

text = ">"

elif text[1:-1] == "lt":

text = "<"

else:

print text[1:-1]

text = unichr(htmlentitydefs.name2codepoint])

except KeyError:

print "keyerror"

pass

return text # leave as is

return re.sub("?w+;", fixup, text)

希望能帮助到你。

python unescape_在PYTHON中使用UNESCAPE HTML实体相关推荐

  1. 使用Python,EoN模拟网络中的疾病扩散模型,并结合matplotlib绘图

    使用Python,EoN模拟网络中的疾病扩散模型,并结合matplotlib绘图 1. EoN是什么 2. 安装 3. 效果图 4. 源代码 4.1 源码 4.2 源码 参考 写这篇博客源于博友的提问 ...

  2. 使用Python,OpenCV在视频中进行实时条形码检测

    使用Python,OpenCV在视频中进行实时条形码检测 1. 步骤 2. 适用场景及优化 3. 总结 4. 源码 参考 上一篇博客介绍了如何检测和查找图像中的条形码.这篇博客将进行一些优化以检测实时 ...

  3. python缩进在程序中长度统一且强制使用_Python习题纠错1

    February, 1991 0.9.1 2.Python语言的缩进只要统一即可,不一定是4个空格(尽管这是惯例). Python缩进在程序中长度统一且强制使用. 3.IPO:Input Proces ...

  4. mac搭建python开发环境_Mac中基于Homebrew搭建python开发环境

    转移到mac上了.这里是在lion中搭建python开发环境的简单记录.这份记录不是一份step by step.而是事后写的记录,可能有记忆遗漏.如果有错误,请指正. 1.安装homebrew的准备 ...

  5. python调用js库中的函数_Python 调用JS文件中的函数

    Python 调用JS文件中的函数 1.安装PyExecJS第三方库 2.导入库:import execjs 3.调用JS文件中的方法 Passwd = execjs.compile(open(r&q ...

  6. python使用statsmodels包中的tsaplots函数和lags参数可视化时间序列数据指定滞后位置个数(级别)以前的所有自相关性(plot the autocorrelation)

    python使用statsmodels包中的tsaplots函数和lags参数可视化时间序列数据指定滞后位置个数(级别)以前的所有自相关性(plot the autocorrelation Funct ...

  7. python使用statsmodels包中的robust.mad函数以及pandas的apply函数计算dataframe中所有数据列的中位数绝对偏差(MAD)

    python使用statsmodels包中的robust.mad函数以及pandas的apply函数计算dataframe中所有数据列的中位数绝对偏差(MAD.Median Absolute Devi ...

  8. python使用statsmodels包中的tsaplots函数可视化时间序列数据所有滞后位置个数(级别)的自相关性(plot the autocorrelation function)

    python使用statsmodels包中的tsaplots函数可视化时间序列数据所有滞后位置个数(级别)的自相关性(plot the autocorrelation function) 目录

  9. python使用statsmodels包中的adfuller函数执行增强迪基-福勒检验(ADF检验、augmented Dickey-Fuller test)、判断时间序列数据是否平稳

    python使用statsmodels包中的adfuller函数执行增强迪基-福勒检验(ADF检验.augmented Dickey-Fuller test).判断时间序列数据是否平稳(station ...

最新文章

  1. 搜狗输入法电脑版SougouPhoneService占用adb进程的问题
  2. 【FTP】FTP 命令模式下 PASV OR PORT
  3. matlab下文件夹下所有文件改名
  4. CTFshow php特性 web137
  5. python磁盘io_python监控磁盘io
  6. 【OS学习笔记】三十八 保护模式十:中断和异常的处理与抢占式多任务对应的汇编代码----微型内核汇代码
  7. IOS开发之Bug--遇到一个类型不确定的bug
  8. 少样本文本分类 InductionNet
  9. 不经意传输算法 效果
  10. SonarQube规则之坏味道类型
  11. 放置江湖html5源码,「放置江湖」——经典文字类放置武侠手游
  12. 引擎提示Alias HeroDB跟游戏引擎启动异常怎么解决?
  13. Log4j自定义日志级别
  14. Informatic学习总结_day01
  15. js判断数组是否相等的方法
  16. python百度网盘-百度网盘 Python 客户端
  17. Mapped Statements collection already contains value for xxx
  18. 剑指offe系列之6:旋转数组的最小值
  19. 复旦大学计算机a类专业,复旦大学a类学科有哪些?附复旦a类学科名单
  20. 全球及中国千兆路由器行业市场规模调研及投资风险预测报告2022-2028年

热门文章

  1. 彻底解决ie11浏览网页双击放大的问题,安全无污染!
  2. 新观影神器(安卓、iOS端)
  3. 北京信息科技大学Linux,北京信息科技大学Linux实验报告
  4. python 实现聊天室
  5. 宿舍管理系统 住宿管理系统 寝室管理系统源码 java项目jsp web项目
  6. 我是如何wine QQ2009
  7. mysql查询1万条数据要1秒钟_SQL查询效率:100w数据查询只需要1秒钟
  8. Web Service与CORBA
  9. 当下的力量 读书笔记
  10. Tiptop ERP GP 5.25 删除营运中心新建营运中心说明