python之标准库html

html库是用于解析HTML的一个工具,是python自带的标准库之一。
html库位置:

__init__.py文件提供两个函数:

__all__ = ['escape', 'unescape']

介绍 escape 和 unescape:

escape(s, quote=True) #用来将特殊字符进行转义成实体字符
"""
参数介绍:s 指定要转义的特殊字符quote 默认为True,表示要将 " 或者 ' 也要转义成实体字符,False反之不用转义成实体字符
"""
unescape(s) #用来将实体字符进行还原到特殊字符

escape 和 unescape 的使用:

import htmls = '<div id="box">div</div>'
res = html.escape(s)
print(res)
print(html.escape(s,quote=False))print(html.unescape(res)) #理解还原即可

输出结果:

escape源码的实现:

html库中的 entities 模块

该模块定义: HTML字符实体引用。
该模块提供四个字典对象:

__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']

导入:

from html import entities
html = entities.html5
name2codep = entities.name2codepoint
codep = entities.codepoint2name
ent = entities.entitydefs
print(html)
print(name2codep)
print(codep)
print(ent)

输出结果:

html库中的 parser 模块

该模块是HTML和XHTML的解析器。
该模块提供一个类:

__all__ = ['HTMLParser']

导入:

from html import parser
htmlParser=parser.HTMLParser()

介绍该类的常用属性和常用方法:
常用属性:

lasttag #保存上一个解析的标签名,返回字符串。

已实现的常用方法:

feed(data) #将数据馈送到解析器。无返回值
unescape(s) #往上看,前面有介绍的
get_starttag_text() #返回开始标记的完整来源
close() #关闭

未实现的常用方法:
注意:这些方法在源码中都没有具体实现,需要我们定义一个子类继承自HTMLParser类,在子类中重写这些方法,实现自己逻辑

handle_starttag(tag, attrs) #处理开始标签,如 <div>;这里的attrs获取到的是属性列表,属性以元组的方式展示
handle_endtag(tag) #处理结束标签, 如 </div>
handle_data(data) #处理数据,标签之间的文本
handle_comment(data) #处理注释,<!-- - -> 之间的文本
handle_startendtag(tag, attrs) #处理自己结束的标签,如 <img />

以上方法在源码中是这样的:


----- 结束 ----
仅学习

python之标准库html相关推荐

  1. python 的标准库模块glob使用教程,主要为glob.glob()使用与glob.iglob()使用

    欢迎大家关注笔者,你的关注是我持续更博的最大动力 原创文章,转载告知,盗版必究 python 的标准库模块glob使用教程,主要为glob.glob函数使用与glob.iglob函数使用 文章目录: ...

  2. python 使用标准库连接linux实现scp和执行命令

    import stat import pexpect 只显示关键代码: sqldb = localpath+database //获取database名字 if os.path.exists(sqld ...

  3. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  4. CSDN21天学习挑战赛——Python常用标准库概述

    ​活动地址:CSDN21天学习挑战赛 Python有一套标准库,随着python一起安装在电脑中,是python的一个组成部分. 一.os操作系统库 os模块提供了很多与操作系统相关联的函数. 在导入 ...

  5. Python常用标准库之正则表达式

    Python常用标准库之正则表达式 1.re模块常用函数 1.1 匹配对象以及group()和groups()方法 1.2 match()与search():匹配单个目标 1.3 findall(): ...

  6. python常用标准库的基本用法_Python常用标准库之fileinput

    Python常用标准库之fileinput fileinput模块用于对标准输入或多个文件进行逐行遍历.这个模块的使用非常简单,相比open()方法批量处理文件,fileinput模块可以对文件.行号 ...

  7. python 3标准库道格_《PYTHON 3标准库 [美] 道格·赫尔曼》[美] 道格·赫尔曼(Doug Hellmann)著【摘要 书评 在线阅读】-苏宁易购图书...

    商品参数 作者: [美] 道格·赫尔曼(Doug Hellmann)著 出版社:机械工业出版社 出版时间:. 版次:. 印次:. 印刷时间:. 页数:. 开本:. ISBN:9787111608950 ...

  8. 【博学谷学习记录】超强总结,用心分享 | 人工智能编程语言Python常用标准库(上)

    Python常用标准库 上 sys库 time库 random库 math库 os库 shutil库 Python语言的急速发展很大程度上得益于其开放共享的特点和良好的社区支持和计算生态,拥有超过十几 ...

  9. python 常用标准库

    python 常用标准库 1.文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata:Unicode字符数据库 st ...

最新文章

  1. 171. Excel Sheet Column Number
  2. Android PC投屏简单尝试—最终章1
  3. css:实现文本两行或多行文本溢出显示省略号
  4. 【算法】学习笔记(2):递归思想
  5. 中班机器人上课视频_家委会:出班费买智能扫地机器人,不用家长搞卫生了,莫名其妙...
  6. 字符串型的数字相加减_【每日编程158期】罗马数字转整数
  7. Python内置函数总结
  8. UVALive - 6440
  9. 一次性存入多少钱就可以有资格跟银行商谈利息了?
  10. Python入门--特殊方法
  11. excel 两列数据合并去重取并集
  12. aso优化师是什么_来肯云商app官网下载_做ASO优化师,只懂刷榜就够了吗
  13. 6个适合成年人的自学网站,每天半小时改变你一生
  14. Maven(六)Maven传递性和依赖性
  15. android开机动画切换
  16. 判断字符串子序列【python】
  17. Kindle 推送教程:教你用电子邮箱推送电子书(Kindle伴侣)
  18. OpenCV基础九:滤波与卷积(陆续更新)
  19. 浅析Go中三个点(...)用法
  20. 使用Selenium WebDriver进行闪存测试

热门文章

  1. java nas 存储_虚拟机NAS存储的安装
  2. c++ switch语句
  3. Kubernetes EFK 日志收集
  4. 机械狗的机器学习入门(绪)——做一盘大菜。2019/3/31
  5. python用unittest+HTMLTestRunner的框架测试并生成测试报告
  6. qq公众平台出错了609_腾讯广告投放平台,腾讯广告投放推广平台有哪些?
  7. PTA-L1-034微博上有个“点赞”功能,你可以为你喜欢的博文点个赞表示支持。每篇博文都有一些刻画其特性的标签,而你点赞的博文的类型,也间接刻画了你的特性。本题就要求你写个程序,通过统计一个人点赞的
  8. 求Fibonacci(斐波那契)数列的的前n项
  9. 手机计算机在线汇率准确吗,汇率计算机(汇率计算器在线计算)
  10. 实验四 MIPS寄存器文件设计 Logisim