# -*- coding: utf-8 -*-
#python 27
#xiaodeng
#python模块之HTMLParser之穆雪峰的案例(理解其用法原理)
#http://www.cnblogs.com/xiaowuyi/archive/2012/10/15/2721658.html#常见做法:首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):#print('<开始标签:%s>' % tag)#print '---------some img--------'if tag=='img':#print attrs#[('src', 'python-logo.png'), ('alt', 'The Python logo')]for k ,v in attrs:print k,velse:passdef handle_endtag(self, tag):print('<结束标签:/%s>' % tag)def handle_startendtag(self, tag, attrs):print('<%s/>' % tag)def handle_data(self, data):print 'data:',datadef handle_comment(self, data):print '<!-- -->',datadef handle_decl(self, decl):print '文档类型声明:',decl'''def handle_entityref(self, name):#处理一些特殊字符,以&开头的print('&%s;' % name)def handle_charref(self, name):#处理特殊字符串,就是以&#开头的,一般是内码表示的字符print('&#%s;' % name)'''
parser = MyHTMLParser()
content=''''<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
<html><head></head><body><p>Some<a href=\"#\">html</a> tutorial...<br>END<!-- i am Notes Content--><img src="python-logo.png" alt="The Python logo"></p></body>
</html>
'''
import urllib
html=urllib.urlopen('http://www.163.com').read()
#parser.feed(html)
parser.feed(content)
parser.close()

python模块之HTMLParser之穆雪峰的案例(理解其用法原理)相关推荐

  1. python的html模块,python模块之HTMLParser

    HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径. HTMLParser采用的是一种事件驱动的模式,当HTMLParse ...

  2. Python模块、包与面向对象综合案例

    目录 一.Python内置模块 1.什么是Python模块 2.模块的分类 3.模块的导入方式 4.使用import导入模块 5.使用from 模块名 import 功能名 ☆ from 模块名 im ...

  3. python模块学习---HTMLParser(解析HTML文档元素)

    HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...

  4. python模块之HTMLParser简介

    html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应 ...

  5. python解析html用哪个模块_[转载]python模块学习---HTMLParser(解析HTML文档元素)

    HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...

  6. import pymysql 没有模块_小白详细的 python 模块的运用

    小白详细的 python 模块的运用 什么是模块 用书里的话说:模块是最高级别的程序组织单元.这句话的意思是,模块什么都能封装,就像这样: 在模块中,我们不但可以直接存放变量,还能存放函数,还能存放类 ...

  7. 【Python】学习笔记总结4(Python模块)

    文章目录 四.Python模块 1.import导入模块 2.from...import导入模块 3.as 给模块取别名 4. os模块 5.自行编写模块 四.Python模块 1.import导入模 ...

  8. Python模块之XlsxWriter

    目录 数据报表之Excel操作模块 一.介绍 二.安装 三.模块常用方法说明 四.简单案例 数据报表之Excel操作模块 一.介绍 利用Python操作Excel的模块XlsxWriter,可以操作多 ...

  9. python白名单验证是什么意思_第10.5节 使用__all__定义Python模块导入白名单

    一.引言 <第10.4节 Python模块的弱封装机制>介绍了Python模块的的弱封装机制,除了使用弱封装机制来从一定程度上防止导入特定成员外,Python模块中还提供可另外一种类似白名 ...

最新文章

  1. vim学习笔记(三)
  2. 02_计算机科学和软件工程的区别
  3. Android中常见的MVC模式
  4. linux kernel中的中断处理流程
  5. DNS扫盲系列之五:域名配置ZONE文件
  6. 瀚思推出国内首个企业级大数据安全分析平台
  7. c语言综合程序设计问答题,C语言程序设计综合习题题目.doc
  8. 【Qt】进程间通信之QSharedMemory示例
  9. java生成pdf加密_java使用iText 生成PDF全攻略(表格,加密)
  10. Maven项目下update maven后Eclipse报错:java.lang.ClassNotFoundException: ContextLoaderL
  11. 7安装sql cent os server_CentOS7 安装并使用SQL Server
  12. 把百度网站设为首页_大仙SEO:如何解决网站首页百度收录后被删除?【SEO案例】...
  13. 装饰器python3菜鸟教程_认识Python装饰器
  14. RocketMQ的安装与启动
  15. java servlet 开发_Java之基于Servlet的Web开发简介
  16. mysql 查找多组数据结构_MySql主要索引数据结构
  17. oracle浅析导致数据库性能问题的常见原因
  18. shared_ptr and
  19. 机器学习 --- 4. 大内密探HMM(隐马尔可夫)围捕赌场老千(转)
  20. Vysor 1.7.6 chrome 插件破解

热门文章

  1. Cadvisor源码分析监控项
  2. 7.13 cf573 补题
  3. [git]一个本地仓库,多个远程仓库
  4. 洛谷P1140 相似基因【线性dp】
  5. hackerrank杂记
  6. Arduino学习笔记21
  7. 1036: [ZJOI2008]树的统计Count
  8. Git 使用规范流程
  9. PostgreSql与sqlserver对比杂记
  10. Struts2新特性