MiniDom方式解析xml

xml文件以data.xml为例,具体操作如下:

data.xml:

保存用户的信息

Jordy

12345678

20

上网

功夫

34443678

18

功夫

1.  得到DOM对象

DOM是Document Object Model的简称,它是以对象树来表示一个XML。

import xml.dom.minidom

#得到dom对象     dom = xml.dom.minidom.parse("data.xml")

2.  得到文档元素对象

#得到文档元素对象root = dom.documentElement  #这里得到的是根节点info

#打印根节点的 名字       节点的值      节点类型print root.nodeName,root.nodeValue,root.nodeType

节点的属性:

每一个节点都有它的nodeName,nodeValue,nodeType属性。nodeName为节点名字。

nodeValue是节点的值,只对文本节点有效。nodeType是节点的类型,现在有以下几种:

‘ATTRIBUTE_NODE’

‘CDATA_SECTION_NODE’

‘COMMENT_NODE’

‘DOCUMENT_FRAGMENT_NODE’

‘DOCUMENT_NODE’

‘DOCUMENT_TYPE_NODE’

‘ELEMENT_NODE’

‘ENTITY_NODE’

‘ENTITY_REFERENCE_NODE’

‘NOTATION_NODE’

‘PROCESSING_INSTRUCTION_NODE’

‘TEXT_NODE’

3.子元素、子节点的访问

对于已经知道元素名字的子元素,可以通过使用getElementsByTagName()方法访问,例:

root.getElementsByTagName("intro") #读取intro子元素

返回的结果是一个列表。

如果要得到某元素下的所有子节点,可以使用childNodes属性:root.childNodes

getElementsByTagName()可以搜索当前元素的所有子元素,包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

比如:我们想要得到intro元素下的值“保存用户的信息”,实现如下代码:

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

print node.data

这种方式在获取元素的文本时,需要先判断才行,所以使用起来感觉不是太方便。

ElementTree库解析xml文件

ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口,它使用文件名或流对象作为参数,parse()方法会立即解析完整个文档,它返回的对象是整个文档的对象,而不是根元素,如果要获取根元素,可以调用getroot()方法。

使用上述的data.xml文档,通过ElementTree库解析的代码:

import xml.etree.ElementTree as ET

#读取xml文件

def load_xml_file(fileName):

root = ET.parse(fileName).getroot()

#获取文件描述

intro = root.find('intro').text

print intro

#获取所有list节点

all_users = root.findall('list')

#遍历list节点的子元素

for user in all_users:

#得到head节点的文本

head = user.find('head').text

#得到name节点的文本

name = user.find('name').text

#得到sex节点的文本

sex = user.find('sex').text

print head,name,sex

if __name__ == '__main__':

load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的,操作要方便的多。

使用libxml2解析xml

libxml2是使用C语言开发的xml解析器,是一个基于MIT License的免费开源软件,多种编程语言都有基于它的实现,如本文将会介绍的lxml模块。实例“get_xpath_1”如下:

mport libxml2

def get_xpath_1():

doc = libxml2.parseFile("data.xml")#data.xml文件结构与上述的input_xml_string相同

for node in doc.xpathEval("//item/data[@version = '1.0']"):

print (node, node.name, (node.properties.name, node.properties.content))

doc.freeDoc()

程序运行结果如下:

(, 'data', ('version', '1.0'))

观察上面的运行结果,能够满足我们的需求,有点小不足“xpathEval()”接口不支持类似模板的用法,但不影响使用,由于libxml2采用C语言开发的,因此在使用API接口的方式上难免会有点“水土不服”(写法或习惯性用法)

使用lxml解析xml

lxml是以上述介绍过的libxml2为基础采用python语言开发的,从使用层面上说比libxml2更适合python开发者(鄙人感受),且"xpath"接口支持类似模板的用法,实例“get_xpath_2”如下:

importlxml.etreedefget_xpath_2():doc=lxml.etree.parse(file)fornodeindoc.xpath("//item/data[@version = $name]",name="1.0"):print(node,node.tag,(node.items()))

程序运行结果如下:

(, 'data', [('version', '1.0'), ('url', 'http://***')])

使用xpath模块解析xml

xpath是python官方推荐的一个支持xpath等处理的模块,是基于本文介绍过的python自带xml处理模块扩展而成,可以很好的结合使用,同时“find”接口也支持类似模板的用法,实例“get_xpath_3”如下:

Python代码

importxpathdefget_xpath_3():doc=xml.dom.minidom.parseString(input_xml_string)fornodeinxpath.find("//item/data[@version = $name]",doc,name="1.0"):print(node,node.tagName,node.getAttribute("version"))

程序运行结果如下:

(, u'data', u'1.0')

总结:

通过对这些类库的实践,我们已经了解了python在处理xml格式的数据时有各种各样的选择,并得知这些类库各自擅长那些方面的处理和各种类库的使用手法,可以根据实际需求选择合适的类库完成开发工作。

python解析xml文件选用模块_python语言解析xml文件的常用的有两种方式相关推荐

  1. python函数返回多个变量_Python中接收函数多个返回结果的两种方法

    在Python中函数经常会返回多个值,今天我们一起来讲解一下接收多个函数返回值的方法 工具/原料 电脑 Python开发工具 方法/步骤 1 用def 代码创建一个函数,名称为func1 代码如下: ...

  2. python解析xml文件选用模块_Python标准库系列之xml模块

    Python's interfaces for processing XML are grouped in the xml package. 带分隔符的文件仅有两维的数据:行和列.如果你想在程序之间交 ...

  3. python pyc文件是啥_Python语言的.pyc文件是什么

    本文主要向大家介绍了Python语言的.pyc文件是什么,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. Python生成pyc文件 pyc文件是py文件编译后生成的字节码文件(b ...

  4. python解析xml文件选用模块_python解析xml模块封装代码

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  5. python解析html xml最好的模块_python中处理xml的模块哪个好?

    python中可以使用BeautifulSoup4或pyQuery模块处理xml文件.pyQuery模块比较适合于对CSS选择器等的支持,BeautifulSoup4模块使用简单. Beautiful ...

  6. MySQL 技术篇- linux下mysql数据库利用binlog文件进行数据回滚实例演示,binlog恢复数据库的两种方式

    MySQL 数据库数据回滚 第一章:利用 binlog 进行数据回滚 ① 查看 binlog 文件所在位置 ② 查看主数据正在存储数据的 binlog 文件名 ③ 在控制台查看 binlog 文件内容 ...

  7. Python调用Jar包的两种方式

    概览 因工作场景,需要在python代码里调用Jar包来实现一些功能,调研下来主要有两种方式: java -jar xx.jar JPype 环境配置 因为要在公司内网操作,所以需要通过离线方式进行安 ...

  8. python中怎样使用re模块_PYTHON正则表达式 re模块使用说明

    首先,运行 Python 解释器,导入 re 模块并编译一个 RE: #!python Python 2.2.2 (#1, Feb 10 2003, 12:57:01) >>> im ...

  9. python查看文件行数_python如何获取打开文件的行数?

    距离上次写爬虫文章已经过了许久了,之前写过一篇20行Python代码爬取王者荣耀全英雄皮肤 ,反响强烈,其中有很多同学希望我再写一篇针对英雄联盟官网的皮肤爬取,但苦于事情繁多,便 2020-11-28 ...

最新文章

  1. 跟我学Springboot开发后端管理系统3:Mybatis-Plus实战2
  2. ResultSet获取set中的记录数
  3. MyBatis自动生成工具,开发编码好帮手
  4. 在IIS express 下用ajax调用webmethod
  5. 科大星云诗社动态20210814
  6. HBuilder 打包流程
  7. c++设计成员变量可动态调整的动态类结构
  8. 一个汉字在数据库占几个字节
  9. Android开发学习——基础学习
  10. 怎样正确的理解和解决 ORA-01843:not a valid month
  11. linux调度器(十)——调度器/proc信息解读
  12. matlab 纵坐标变为百分比形势,“怎么把excel纵坐标改为百分数类型“excel中如何求百分比...
  13. Android - 城市/单项/国家区号选择器基础使用 及 使用国际区号json文件
  14. Python实现“已知三角形两个直角边,求斜边”
  15. 使用FastJson进行驼峰下划线相互转换写法及误区
  16. 基于C#开发(WinForm)排队叫号系统【100010339】
  17. 王烁老师 - 问得太少你吃亏
  18. 施一公:无论什么学科,研究生最不重要的素质就是智商
  19. 华为畅享10s值得买吗_华为畅享10S怎么样?与同价位相比有何优势?
  20. hadoop一些常用命令

热门文章

  1. MATLAB :【11】一文带你读懂serialport串口收发原理与实现
  2. 我们计划招收300名数据人,免费攻读R语言数据分析
  3. 用移动硬盘做系统安装盘或系统运行盘
  4. 宽带提速降费难在何处?
  5. 视频网站社交化风潮涌起 或创造盈利新模式
  6. 数据结构初阶——顺序表
  7. 解决windows server 2008 R2安装到D盘的问题
  8. [手机分享]黑莓手机7系列分享之——7100G
  9. fdsfdsfdsfsd
  10. mysql意见反馈表设计_一个基于PHP和MySQL的意见反馈模块的设计和实现